[新聞] 繁中資料量落後簡中 不利台AI語言模型

作者: hvariables (Speculative Male)   2023-11-05 20:18:12
https://ec.ltn.com.tw/article/paper/1613748
繁中資料量落後簡中 不利台AI語言模型
2023/11/05 05:30
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入
70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。(資料照,記者吳柏軒攝)
國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠(
左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴
繁體中文語料。(中央社資料照)
〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發
對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路
社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。
台算力、資料資源相對有限
ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE
)計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單
位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應,
引起軒然大波。
中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運
用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的
Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入
AI研發,都凸顯台灣需要自己的大型語言模型。
台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中
資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即
無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累
、短期難解,若使用PTT等平台資料,處理成本又高。
李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾
罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資
料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能
盡量隔絕不希望AI學習的資料與內容。

Links booklink

Contact Us: admin [ a t ] ucptt.com