Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee

作者: sxy67230 (charlesgg)   2025-01-29 15:33:28
呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll
ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更
長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用
deepseek的模型架構。
一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用
了一些模板式的獎勵機制,這點是之前一些TTT或其他scaling time computing 沒嘗
試過的思路,一般像之前的Process reward model在構造的時候會需要人工標註加驗證器再
加樹搜索取樣出一堆推理步驟但R1直接給予一條很棒的思路就是你不必這樣做就直接RL下去
也不用做搜索了,關鍵在怎麼設計獎勵函數就好。然後GRPO的方法近一步減少了傳統PPO要
去算value function 的部分,確實省掉很多記憶體跟算力。但我覺得PPO的硬傷不好訓練還
是沒解掉,所以DS才改用拒絕採樣跟多段微調去弄檢查點避免模型跑偏。
我覺得依據這個思路過不久大家都可以復刻出自己的版本,很多開源模型也在動作,小規模
驗證也證明可行,那就可以scaling model跟data size就好了。

Links booklink

Contact Us: admin [ a t ] ucptt.com