Re: [新聞] 三位臺灣AI專家發起DeepSeek R1改造計畫

作者: sxy67230 (charlesgg)   2025-02-09 15:40:48
※ 引述 《shala》 之銘言:
: 1.媒體來源:
: iThome
: 2.記者署名:
: 文/王宏仁 | 2025-02-08發表
: 3.完整新聞標題:
: 三位臺灣AI專家發起DeepSeek R1改造計畫,要打造繁中版開源授權的推理模型
: 4.完整新聞內文:
: 這項計畫將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的方式,並以開源授權
: 釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的模型身份與品牌
: OpenAI去年發表了新一代推理模型o1之後,讓眾人看到GAI開始媲美真人博士或軟體開發
: 高手般的解題能力,掀起了新一輪的大型語言模型競賽。春節期間,以開放權重釋出的De
: epSeek R1模型,大幅降低了這一波推理模型競賽的門檻,成了全球AI產業的熱門焦點,
: 開始浮現客製化推理模型的趨勢。
: 臺灣也有三位AI專家,在2月7日發起了一項臺灣製造大型語言模型計畫,專案代號「自由
: 鋼普拉」(FreedomGunpla R1),希望募資3千萬元,預計在3月底釋出第一版預覽的推理
: 模型。
: 這款引起全球AI圈熱議的DeepSeek R1模型,在論文中揭露了多項媲美甚至超越OpenAI o1
: 推理模型的能力,因為可以部署到本地端,來避免企業自己的機敏資料上傳到網路,而引
: 起AI圈的重視,不過,R1模型簡體版用戶協議中提到自己通過三項中國AI法規的備案,也
: 讓外界擔心這款模型生成的內容偏重於對齊中國價值。
阿肥外商碼農阿肥啦!
其實這兩三個禮拜蠻多知名開源平台都在開源R1計畫,像Huggingface知名的Transformers
框架模型平台就釋出Open R1計畫,還有矽谷新創Unsloth也釋出他們的R1微調程式碼,而且
也證明他拿其他已經SFT很強的語言模型像Llama3.3還有Phi-4做簡單的100步強化學習就可
以讓Llama3.3跟Phi-4自我頓悟出推理能力出來。
這也是DeepSeek R1真正帶給世界的重大影響,大概在未來一個月內就會有更多的人自己開
源出自己的R1模型(搭已有的語言模型)。
當前真正比較大的問題是台灣自己根本就沒有完全從0開始完全屬於自己的語言模型,如果
直接說要弄R1無疑就是還沒學會跑就開始想飛了。
如果使用已有的像Meta的llama來訓練自己的語言模型問題是在當初llama在預訓練的時候是
優先看過大量簡中數據的(至少比繁中多),繁中簡中在詞表徵很常時候是重疊的,那就很
難避免模型模型輸出簡中就是了,所以一直以來真正的命題都不是台灣也要有R1,而是台灣
一直都沒能力自己弄出自己的數據中心然後自研屬於自己而且全國產的語言模型,在台灣大
家都是跟著美國大廠的框架走,這才是真命題。
以上

Links booklink

Contact Us: admin [ a t ] ucptt.com