[新聞] 中研院 AI 大翻車！繁中大型語言模型 CKI monnom PTT批踢踢實業坊

[新聞] 中研院 AI 大翻車！繁中大型語言模型 CKI

作者: monnom (桂) 2023-10-09 19:04:41

1.媒體來源:
科技新報
2.記者署名:
林妤柔
3.完整新聞標題:
中研院 AI 大翻車！繁中大型語言模型 CKIP-Llama-2-7b 目前已下架
4.完整新聞內文:
中央研究院詞庫小組（CKIP）最新釋出可以商用的繁中大型語言模型（large language
model）CKIP-Llama-2-7b，「孵．大學」校長謝昆霖直言「中研院 AI 大翻車！」，在仔
細端詳內容後他立刻跟夥伴說「一定會出問題」，目前這款模型已於今（9 日）中午下架
。
謝昆霖解釋，這款語言模型的多任務微調訓練，是使用「COIG-PC 資料集」和「
dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路
資料集，以中國 AI 相關研究單位為首，超過二十所全球知名大學和機構共同編制。
根據 COIG-PC 資料集網站，重點機構包括北京人工智慧學院、北京大學、香港科技大學
、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲
爾德大學；至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集
。
謝昆霖認為，用簡體中文的資料，再透過 OpenCC 翻譯成繁體中文，就能訓練出台灣可用
的訓練資集嗎？答案絕對是否定的。除了用字遣詞的差異，還包含很多的民生知識、文化
知識，用北京研究機構校正是「適用於中國的民生、文化知識」，再修剪成「台灣版」，
再監督與修正的總體成本會高於「認份做台灣的資料集」。
此外，評鑑也是個大問題。謝昆霖稱，中央研究院詞庫小組說這款 LLM 經過C-Eval中文
模型評測，但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說
，中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型，再派它考中國考試，計
算分數。
中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客
服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言，一般商用的還好，但用於後
面幾項「會出事的」。
謝昆霖表示，台灣的確嚴重缺乏在地語言資料集的困境，因為真的超級燒錢，是以億為單
位計算的，要做好可能相當於好幾個軍購案做好多年，政府難編列預算、民意機關難說服
投資、民間企業不可能投資做語言數位化，但資料集是AI時代的基礎建設。
對此，謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、
標註、監督、評鑑」，在合法的範圍內把建立台灣在地的訓練資料集，用眾人的力量做，
這樣台灣的商用的AI才有在地的訓練資料可以用。
他也認為，AI 時代的競爭，需強化台灣在地用詞的資料收集、建立資料集，建立熟悉台
灣在地文化的 AI，視為國防/國安投資，有急迫性和必要性。
另有 PTT 網友做測試，發現問一些敏感問題，基本上回答都相當「出乎意料」，也不難
理解語言模型緊急下架的原因。
5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:
https://technews.tw/2023/10/09/ckip-llama-2-7b-2/
6.備註:

繼續閱讀

[新聞] 快訊／哈瑪斯領導人驚傳已死亡 asd63312337 [新聞] 快訊／諾貝爾經濟學獎出爐美哈佛女學ianlin1216 [問卦] 哪款街機大台格鬥遊戲最好玩??assassinASHE Re: [新聞] 民眾避打高端流感疫苗基層醫憂排擠幼童接種astoor [問卦] 情侶一起在溫泉飯店打卡是什麼意思？blaga [問卦] 解放軍什麼時侯會侵台？basterds [爆卦] 韓柯合體kobe089 Re: [爆卦] 教育部FB道歉聲明affluent Re: [新聞] 民眾避打高端流感疫苗基層醫憂排擠幼童接種jiern [新聞] 新竹2男口角互毆！他負氣睡沙發…隔天開yukihira