作者:
ianmon (Martian )
2025-01-28 10:00:13剛看了DeepSeek R1原始文件
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y.
(2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning. arXiv preprint arXiv:2501.12948.
看完結論就是
人家ChatGPT走啥路你就跟著走 修正與增進一些演算法效率
就媒體吹成一種全新中國人AI?
不就一個餵食中文資料庫 靠部分監督冷啟動改善語言邏輯的半人智慧
R1效能只跟OpenAI-o1-1217差不多
演算法上看不到明顯跳躍式進步
靠大模型餵食資料增進準確率跟速度,就被媒體吹成幾十倍效率?
以下用NootbookLM讀出的時間軸給妳們參考
早期:大型語言模型(LLMs)快速發展,朝向通用人工智慧(AGI)邁進。
後訓練(post-training)被視為提升模型效能的重要環節,特別是在推理任務方面。
OpenAI 的 o1 系列模型首先透過增加「思維鏈」(Chain-of-Thought, CoT)推理過程的
長度來提升效能。
研究社群探索各種提升推理能力的方法,包括基於過程的獎勵模型、強化學習以及搜尋演
算法。
DeepSeek-R1-Zero 的發展:DeepSeek-AI 團隊使用 DeepSeek-V3-Base 作為基礎模型。
團隊採用群組相對策略優化(GRPO)作為強化學習框架。
他們直接對基礎模型應用強化學習(RL),而沒有使用監督式微調(SFT)作為預備步驟
。
DeepSeek-R1-Zero 在強化學習過程中自然地發展出許多強大且有趣的推理行為。
在數千個 RL 步驟之後,DeepSeek-R1-Zero 在推理基準測試中表現優異。例如,在
AIME 2024 上,pass@1 分數從 15.6% 提升到 71.0%,若使用多數決投票,分數更提升
至 86.7%,可與 OpenAI-o1-0912 的表現相媲美。
DeepSeek-R1-Zero 展現出自我驗證、反思和生成長 CoT 的能力,是研究社群的一大進展
。然而,DeepSeek-R1-Zero 面臨可讀性差和語言混用的問題。
DeepSeek-R1 的發展:為了處理 DeepSeek-R1-Zero 的問題並進一步提升推理效能,
DeepSeek-AI 團隊引入了 DeepSeek-R1。
DeepSeek-R1 結合了多階段訓練和「冷啟動」資料。
首先,團隊收集數千筆冷啟動資料來微調 DeepSeek-V3-Base 模型。
接著,像 DeepSeek-R1-Zero 一樣,執行以推理為導向的強化學習。
在 RL 過程接近收斂時,透過在 RL 檢查點上使用拒絕取樣(rejection sampling)建立
新的 SFT 資料,並結合 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督式資料
。然後重新訓練 DeepSeek-V3-Base 模型。
使用新資料微調後,該檢查點會經歷額外的強化學習過程,並考慮所有情境的提示。
最終成果 DeepSeek-R1 在推理任務上的表現與 OpenAI-o1-1217 相當。
模型蒸餾:DeepSeek-AI 團隊進一步探索將 DeepSeek-R1 的能力蒸餾到更小的模型中。
他們使用 Qwen2.5-32B 作為基礎模型,發現直接從 DeepSeek-R1 蒸餾的效果比在它上面
應用 RL 更好。這表示較大模型發現的推理模式對於提升推理能力至關重要。
DeepSeek-AI 開源了蒸餾後的 Qwen 和 Llama 系列模型。
其中,蒸餾後的 14B 模型大幅超越最先進的開源 QwQ-32B-Preview,而蒸餾後的 32B
和 70B 模型在密集模型中創下了推理基準測試的新紀錄。
評估:
DeepSeek-R1 在 AIME 2024 上達到 79.8% 的 pass@1 分數,略微超越 OpenAI-o1-1217。
在 MATH-500 上達到 97.3% 的高分,與 OpenAI-o1-1217 的表現相當,並大幅超越其他
模型。
DeepSeek-R1 在程式碼競賽任務中展現了專家級別的能力,在 Codeforces 上獲得
2,029 Elo 評分,超越了 96.3% 的參賽者。
DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等知識基準測試上表現出色,明顯超
越 DeepSeek-V3。
DeepSeek-R1 在創意寫作、一般問答、編輯、摘要等各種任務中表現出色。
在AlpacaEval 2.0 上達到 87.6% 的長度控制獲勝率,在 Are-naHard 上達到 92.3% 的
獲勝率,展現其處理非考試導向查詢的能力。
未來方向:DeepSeek-AI 團隊計劃進一步研究 DeepSeek-R1 在通用能力(如函數調用、
多回合對話)、語言混合、提示工程和軟體工程任務上的改進。