MBA 的在美學習筆記 FB https://reurl.cc/dD1W62
【AI 模型的意外用途:拯救瀕臨絕種的…語言? 】
人生去過的國家不多,有幸冰島是其中一個。但至今仍然讓人忘不了啊!
冰島的景色簡直是異世界,有時青草綠地像是天堂,有時卻有如「世界末日與冷酷意境」
。無論天堂或地獄,到處都是隨手拿起來亂拍都可以當桌布的等級。難怪要拍火星的電影
都要在此取景啊!
不過在冰島旅遊倒是有個小障礙:在地圖搜尋景點時,怎麼都拼不對地名。
因為冰島語實在是太難了。導致普通人如我,連把地名拼出來都難。
首都雷克雅維克 Reykjavík 還算簡單的。冰島最著名的景點,世界僅有的冰河湖景色 J
ökulsárlón ,我從來沒能一次好好拼對。最變態的是島中的火山,叫做 T h r í h
n ú k a g í g u r !看得我眼睛都花了。當時沒去,恐怕就是因為太難拼了,在地圖
拼不出來找不到路,直接放棄。
雖然冰島語很難,但如果到此地觀光,會發現——根本不用講冰島語。
雖然冰島語是官方語言,但統計顯示接近九成的冰島人,每天都得講英語!連英文電影預
告,都直接不上字幕。如今冰島語只剩下 30 萬人在講了。
雖然大家日常交流還是會用冰島語,但住在這裡,不講冰島語也是完全 OK 的。
難怪有人說,這個語言百年後很可能會消失,可以說是名副其實的瀕危語種了。
語言是文化的精髓。語言的滅絕,就失去了未來文化發展的可能性。就算是最熱門的中文
英文,也有許多傳統文化甚至神話的單字,是怎麼也翻譯不出來的。以中文來說,譬如「
功夫」、「風水」、「太極」至今除了音譯以外,都沒有一個好的翻譯。而且冰島語還與
其他維京人的語言緊密相連。如果未來突然發現新的古文明遺跡,卻沒有人能讀得懂,真
是人類文明遺產的一大損失!
—
還好,在滅絕的前夕, AI 登場拯救了這項語言。
在此之前,冰島人其實曾經做出努力。政府成立了語言部門,專門用來保存這些術語。甚
至他們還自己用了 GPT-3 ,拿 30 萬筆冰島語資料,來訓練以及微調(Fine-tune)。
可惜成果令人失望——冰島語實在太冷門了,很多詞根本翻不出來,連基本的問題 AI 都
因為訓練不足,一直「幻想」出大錯特錯,卻 100% 肯定的答案。
終於, OpenAI 和遠在天邊靠近極圈的冰島人聯繫上了,釋出他們最關鍵的技術來拯救冰
島語。
OpenAI 從前其實不是很 Open。即使他們曾經對外簡單展示了模型訓練過程,卻沒有公開
最重要的一步:人類反饋的增強學習(RLHF),到底是要怎麼搞最有效率。
不過為了跟冰島政府一同拯救冰島語,倒是讓 OpenAI 使出絕招了。他們合作後,開始
了 RLHF 的一連串計畫:由 AI 作為學生,「人類老師」作為教學輔具,讓模型不斷的出
產答案,人類來評分。
結果呢?竟然短短 100 個例子以後,就讓冰島語模型達到了可用的階段!
如今 AI 可以用寫出北歐神話風格的冰島語古詩,並在人類用冰島語問問題時,自動識別
語言,並回答冰島相關知識。重要的是,以後 IT 的介面語言,無論是客服還是問答機器
,完全可以預設是冰島文!
也就是說,未來即使家裡沒人懂冰島文,冰島的孩子們還是可以用冰島語跟 AI 聊天啦!
—
從只是個聊天機器人,到拯救一門語言。 AI 技術真的挑戰很多從前既定的認知框架。
從前誰能想到,可能真正能把一個深邃難解、口耳相傳的北歐文化傳承下來的,不是那些
祖傳的冰島人,竟然只是存在雲端資料中心裡頭,模型的一套「參數」呢?
隨著 AI 技術發展,很多從前的規範,社會的眾多條條框框,可能都要砍掉重練了。
每年絡繹不絕的遊客,用數位技術拚命拍,想把冰島的視覺風景留下來。而那些眼睛看不
到摸不著的文化遺產,因為 AI ,竟然也有了永續流傳的機會!
你怎麼能不愛科技呢?
話說回來,相比之下 30 萬冰島人用的小語種,其實台灣原住民就有超過 58 萬,而阿美
族更是有二十幾萬。 AI 是不是也來拯救我們南島少數民族的族語呢?
(好吧我承認這一篇只是想 PO 照片啦!)