[新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI

作者: monnom (桂)   2023-10-09 19:04:41
1.媒體來源:
科技新報
2.記者署名:
林妤柔
3.完整新聞標題:
中研院 AI 大翻車!繁中大型語言模型 CKIP-Llama-2-7b 目前已下架
4.完整新聞內文:
中央研究院詞庫小組(CKIP)最新釋出可以商用的繁中大型語言模型(large language
model)CKIP-Llama-2-7b,「孵.大學」校長謝昆霖直言「中研院 AI 大翻車!」,在仔
細端詳內容後他立刻跟夥伴說「一定會出問題」,目前這款模型已於今(9 日)中午下架

謝昆霖解釋,這款語言模型的多任務微調訓練,是使用「COIG-PC 資料集」和「
dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路
資料集,以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。
根據 COIG-PC 資料集網站,重點機構包括北京人工智慧學院、北京大學、香港科技大學
、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲
爾德大學;至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集

謝昆霖認為,用簡體中文的資料,再透過 OpenCC 翻譯成繁體中文,就能訓練出台灣可用
的訓練資集嗎?答案絕對是否定的。除了用字遣詞的差異,還包含很多的民生知識、文化
知識,用北京研究機構校正是「適用於中國的民生、文化知識」,再修剪成「台灣版」,
再監督與修正的總體成本會高於「認份做台灣的資料集」。
此外,評鑑也是個大問題。謝昆霖稱,中央研究院詞庫小組說這款 LLM 經過C-Eval中文
模型評測,但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說
,中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它考中國考試,計
算分數。
中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客
服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言,一般商用的還好,但用於後
面幾項「會出事的」。
謝昆霖表示,台灣的確嚴重缺乏在地語言資料集的困境,因為真的超級燒錢,是以億為單
位計算的,要做好可能相當於好幾個軍購案做好多年,政府難編列預算、民意機關難說服
投資、民間企業不可能投資做語言數位化,但資料集是AI時代的基礎建設。
對此,謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、
標註、監督、評鑑」,在合法的範圍內把建立台灣在地的訓練資料集,用眾人的力量做,
這樣台灣的商用的AI才有在地的訓練資料可以用。
他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台
灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。
另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難
理解語言模型緊急下架的原因。
5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:
https://technews.tw/2023/10/09/ckip-llama-2-7b-2/
6.備註:

Links booklink

Contact Us: admin [ a t ] ucptt.com