[爆卦] 50美元訓練出媲美DeepSeek R1 JQK2 PTT批踢踢實業坊

[爆卦] 50美元訓練出媲美DeepSeek R1

作者: JQK2 2025-02-06 19:32:48

李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
https://tinyurl.com/ydrtdbu8
https://arxiv.org/pdf/2501.19393
李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0
Flash Thinking Experimental提煉出來的。
https://i.imgur.com/kFg9GjU.jpeg
斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1
。
S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1
推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。
S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力
，甚至可以媲美 Reinforcement Learning（強化學習）。
OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好
的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？
S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法：
核心思想：如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？
方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率
！
結果證明，這種方法比 OpenAI o1-preview 還要好！
最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍
然很強！
此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。

繼續閱讀

[問卦] 只有我覺得軟糖應該要做得跟雞蛋一樣大顆assassinASHE [問卦] 用deepseek為何會有洩漏資安問題？rs6677 [問卦] 台灣為什麼做不出抖音來征服美國notimenofree [問卦] 台灣哪一家化工廠最重視員工安全？TaLeiBan5566 [問卦] 大S的遺產分配是不是超級複雜？cigxm [新聞] 水電費遭刪300多萬環境部拔2成燈管、週Waitaha Re: [問卦] 有人在日本參加過一日遊旅行團嗎?AyanoSushi Re: [新聞] 鮭魚精液注射臉頰！最新醫美手法在美爆butten986 Re: [問卦] 其實不能全怪小菲parttime Re: [問卦] 不剝蝦的男人GKKR