[新聞] Meta打造台語英語AI翻譯 研發難度等5大QA一次看

作者: CCY0927 (只是個暱稱罷了)   2022-10-21 06:36:02
https://www.cna.com.tw/news/ait/202210200209.aspx
Meta打造台語英語AI翻譯 研發難度等5大QA一次看[影]
2022/10/20 15:17(10/20 19:31 更新)
https://i.imgur.com/VA83ICN.jpg
圖為工程師陳鵬仁(左)示範Meta最新人工智慧支援的台語英語即時互譯系統。(圖取自
twitter.com/MetaAI)
(中央社台北20日綜合外電報導)臉書母公司Meta昨天宣布推出首創由人工智慧(AI)技
術支援的閩南語(台語)、英語即時互譯系統。究竟閩南語翻譯難在哪、研發過程面臨哪
些挑戰,中央社彙整5大問答一次看懂。
Meta今天在推特(Twitter)發文指出,閩南話翻譯有SpeechMatrix系統支援,這是一個
有136個語言組合、含括41.8萬小時語音數據的語料庫。
Meta指出,至今為止,AI翻譯主要著重於各種書寫語言上,這次新推出的「通用語言翻譯
工具」(Universal Speech Translator, UST)是全球第一個由AI技術支援的「口語對口
語」翻譯系統,主要用於口語相傳的語言。
閩南語是全球約3000種口語相傳的語言之一,由於沒有標準書寫系統,也少有專門的翻譯
人員,這使他們為AI模型建立訓練數據時難度更高,也很難仰賴閩南語文本。
Meta指出,他們向所有AI社群開放此基準資料集的原始碼,並將閩南語翻譯系統納入UST
,希望其他研究人員能以此為基礎繼續研發,期盼有朝一日,未來所有語言無論是否可以
書寫,都不再是阻礙人們相互理解的障礙。
● 全世界有多少人講閩南語?
閩南語是華裔群眾廣泛使用的語言,Meta統整2000年至2018年數據顯示,亞洲地區以中國
大陸約2800萬人最多,其次依序為台灣約1350萬人、馬來西亞約200萬人、新加坡約150萬
人、菲律賓約100萬人。
● 打造閩南語翻譯系統為何這麼難?
以往的AI翻譯工具,必須利用大量的書寫文字來訓練AI模型,閩南語雖然是華裔族群廣泛
使用的語言,但大多以口語溝通,缺乏標準的書寫文字系統,無法以傳統的方式打造翻譯
工具,因此研發團隊嘗試在「通用語音翻譯工具」(UST)項目中開發新的AI翻譯技術。
● 除了英文,閩南語還能翻譯成哪些語言?
根據Meta網站,目前這套翻譯系統只能以閩南語和英語進行即時語音翻譯,且每次只能翻
譯一個完整的句子。
民眾可至Hugging Face網站使用(網站連結點這裡)
https://huggingface.co/spaces/facebook/Hokkien_Translation
● 閩南語翻譯系統在開發過程中,面臨那些挑戰?
Meta在開發這套閩南語翻譯系統時,共面臨3大挑戰,分別是資料蒐集、模型設計以及準
確度評估。
為了解決閩南語資源不足問題,研發團隊想到了2大方法,首先是利用資源充足且相似度
高的中文作為「中間語言」,補足閩南語的詞彙量。研發團隊先將閩南語的語音,翻譯成
中文文字,接著再翻譯成英文,成功後再新增到訓練資料庫。
二是利用「語音探勘」產生訓練資料,研發團隊使用預先訓練好的語音編碼器,系統會自
動分析閩南語語音,並和相似語意的英文語音、文字進行配對。
在模型設計方面,有別傳統翻譯系統大多依賴「語音轉文字」系統,研發團隊則採用「語
音轉單元翻譯」(S2UT)系統,將語音轉換成一系列的聲學單元並生成波形後,再進行解
碼與翻譯。
至於準確度評估方面,研發團隊使用Meta開發的台羅(Tâi-lô)系統,將閩南語語音轉
譯成標準化的拼音符號,以音節為單位來評估翻譯準確度。
同時根據名為Taiwanese Across Taiwan(TAT)的閩南語語音語料庫,建立第一個閩南語
與英語雙向的語音翻譯基準資料集,未來將開放原始碼鼓勵其他研究人員合作進行閩南語
語音翻譯。
值得注意的是,TAT資料庫是由台灣產官學界共同開發,收集台灣各地不同腔調的台語語
音,總共錄製長達100小時語料,同時使用6支麥克風模擬各種情況,並使用約3000小時台
語鄉土劇片段作為研究語料,幫助訓練系統模型,提高準確率。
● 這項AI翻譯技術除了翻閩南語,還能做什麼?
這項AI翻譯技術,未來可望擴展於其他口說或書寫語言,Meta也將公開具資料探勘技術支
援的「大型語音翻譯語料庫」(LASER),讓其他研究人員也能建立自己的語音翻譯系統
。(譯者:張茗喧/核稿:陳昱婷)1111020
作者: tbrs (小小光芒迷)   2022-10-23 20:46:00
臉書的臺羅系統跟我國的臺羅系統有何不同
作者: lantw44 (#######################)   2022-10-23 21:44:00
那個是指系統有用到臺羅,不是開發一套新的拼音系統吧。

Links booklink

Contact Us: admin [ a t ] ucptt.com