Re: [問卦] DeepSeek成本這麽低的原因是啥?

作者: OnePiecePR (OPPR)   2025-01-30 18:46:40
※ 引述 《pttdocc》 之銘言:
:
: 1.
: 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著
: 也許
:
: 還有其它步驟)的這個作法
:
:
: 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)
:
: 是嗎? (distill這邊省的 是讓大家也能用便宜硬體來跑)
沒有錯,
成本除了 “訓練微調出模型”,還有”應用時推論營運成本”
1. 訓練主要跳過 SFT,
2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。
所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
我也準備好錢等 n舍的 project digits 了
: 2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小
:
: 能力接近ChatGPT的模型 只是OPENAI要爭取大筆補助 又要線上收費 所以沒必要作出或是
:
: 發佈這個來搬石頭砸自已的腳
:
:
: 請問我上面的理解大致正確嗎? 謝謝
知識蒸餾技術很普遍,
但知識蒸餾多少會損及準確率,
要看 OpenAI 自己的斟酌。
OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的,我是沒研究,但是大家看 OpenAI 總
是看最強大的。
我們也總是覺得高智慧的回應是真理。
而 DS 是挑戰者、他猛攻推理能力,這是近期被指出通往 AGI 的可能技術,
DS 先準備好一個基本模型,是一個小參數量的基本模型,所以已經有語言能力,
然後他從大的 DS 模型自動產生有推理步驟的資料(人工篩選高品質資料),
把有語言能力的小模型去學習 「大模型的推理問題的輸入輸出的資料」,然後小模型就有
了推論能力。會不會學了推論能力損及語言能力,這個就要多一些實作累積經驗。
所以猛攻推理能力、能夠有所幫助,這樣前提下,是不是語言能力下降可能他不算在乎,他
也可能就比較不看鄉民的測試或唐鳳的報告了。
其他補充:
DS 的 RL-only 與 蒸餾的資料都是從大模型產生,不需要人提供。
當然資料的源頭總是已知答案的知識…這個就不多說了。

Links booklink

Contact Us: admin [ a t ] ucptt.com