Re: [問卦] DeepSeek成本這麽低的原因是啥?

作者: OnePiecePR (OPPR)   2025-01-30 17:08:43
分兩個部分來說,
———————————————
第一個部分是澄清:
DeepSeek 是微調別人做的基本模型。
比如臉書 meta 花數千萬美金或上億美金做出模型 llama.
而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
某美國大約花279美金推出一個不錯的微調模型,sky .
還要說的,千萬不要這麼瞧不起微調啊!
問問中央大學的蔡老師就知道。
———————————————
第二部分才是 DeepSeek的省錢:
首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;
基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己
去測);
第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
我們老百姓在用的時候因為用蒸餾模型的話,
會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,
費用也是驚人。
如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也
有50000張GPU)後找到一種定位。
當然我們台灣應該也看見我們也是有可能發展模型的可能!
我就躍躍欲試~
———————————————
———————————————
以下偏技術解說:
1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的 ChatGP
T 大約要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調
出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):
DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他
要挑戰的是最近風頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的
有用的 RL。然後就推力能力不錯了,又省錢。
(其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點
點資料,偏邏輯、推論格式的訓練,所以很省錢)
這樣子就大功告成、訓練好了。
訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原
來做好的模型用蒸餾法縮小。
這篇論文,算是簡單易懂,
根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂停。
(其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好
、都能避開點點點…)
蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的
下一步的課程。
以上是肥宅今年 ptt 額度,大年初二一次用完。

Links booklink

Contact Us: admin [ a t ] ucptt.com