Re: [問卦] 自由時報笑了:Deepseek準確度超低

作者: OnePiecePR (OPPR)   2025-01-31 12:46:52
※ 引述 《oppo5566》 之銘言:
: 一早起來就看到自由A3在嘲笑DeepSeek
:
: 資訊準確率超低 只有17%
:
: 還有超過一半機率給沒有用的答案
:
: https://i.imgur.com/r066Tiw.jpeg
:
: 這樣比起來 台灣跟數位部是不是又贏了
聽說資訊準確率超低,
那麼為什麼會震撼美國?
昨天猜想的可能原因,再貼一次。
整理一下:
分兩個部分來說,
———————————————
第一個部分是澄清:
DeepSeek 是微調別人做的基本模型。
比如臉書 meta 花數千萬美金或上億美金做出模型 llama.
而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
某美國大學花279美金推出一個不錯的微調模型,sky .
還要說的,千萬不要這麼瞧不起微調啊!
問問中央大學的蔡老師就知道。
———————————————
第二部分才是 DeepSeek的省錢:
首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;基本上他在乎的是推理能力、
所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己去測);
第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
我們老百姓在用的時候因為用蒸餾模型的話,會因為模型小、大家用的時候就又快又便宜。
不要以為只有訓練貴,其實營運時很多人用,費用也是驚人。
如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也
有50000張GPU)後找到一種定位。
當然我們台灣應該也看見我們也是有可能發展模型的可能!
我就躍躍欲試~
———————————————
———————————————
以下偏技術解說:
1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的ChatGPT
還要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調出現
了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):
DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他
要挑戰的是最近浪頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的
有用的 RL。然後就推力能力不錯了,又省錢。
(其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點
點資料,偏邏輯、推論格式的訓練,所以很省錢)
這樣子就大功告成、訓練好了。
訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原
來做好的模型用蒸餾法縮小。
這篇論文,算是簡單易懂,
根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂聽。
(其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好
、都能避開點點點…)
蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的
下一步的課程。
回文補充:
知識蒸餾技術很普遍,
但知識蒸餾多少會損及準確率,
要看 OpenAI 自己的斟酌。
OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的,我是沒研究,但是大家看 OpenAI 總
是看最強大的。
我們也總是覺得高智慧的回應是真理。
而 DS 是挑戰者、他猛攻推理能力,這是近期被指出通往 AGI 的可能技術,
DS 先準備好一個基本模型,是一個小參數量的基本模型,所以已經有語言能力,
然後他從大的 DS 模型自動產生有推理步驟的資料(人工篩選高品質資料),
把有語言能力的小模型去學習 「大模型的推理問題的輸入輸出的資料」,然後小模型就有
了推論能力。會不會學了推論能力損及語言能力,這個就要多一些實作累積經驗。
所以猛攻推理能力、能夠有所幫助,這樣前提下,是不是語言能力下降可能他不算在乎,他
也可能就比較不看鄉民的測試或唐鳳的報告了。
其他補充:
DS 的 RL-only 與 蒸餾的資料都是從大模型產生,不需要人提供。
當然資料的源頭總是已知答案的知識…這個就不多說了。
以上是論文寫的,其他部分會不會加入中國習慣的小動作,我是不知道。

Links booklink

Contact Us: admin [ a t ] ucptt.com