[情報] 50美元訓練出媲美DeepSeek R1

作者: LimYoHwan (gosu mage)   2025-02-06 16:56:06
標題:
李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
來源:
Futu
網址:
https://tinyurl.com/ydrtdbu8
內文:
李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
Flash Thinking Experimental提煉出來的。
https://i.imgur.com/kFg9GjU.jpeg
斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1

S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。
S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
,甚至可以媲美 Reinforcement Learning(強化學習)。
OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:
核心思想:
如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率

結果證明,這種方法比 OpenAI o1-preview 還要好!
最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
然很強!
此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
論文下載
https://arxiv.org/pdf/2501.19393
作者: justin818281 (輸令)   2025-02-06 16:57:00
不用錢,我的腦就是R1
作者: Akitsukineko (跌死的貓 Death the Neko)   2025-02-06 16:58:00
你肥肥團隊
作者: LeMirage2000 (幻象高高飛)   2025-02-06 16:58:00
變伏特加了吧這個
作者: PureAnSimple (PureAndSimple)   2025-02-06 17:00:00
丸子 沒有最便宜 只有更便宜 ㄟ唉末日
作者: tsubasawolfy (悠久の翼)   2025-02-06 17:05:00
gemini :我的魚!!!!
作者: Like5566Like (㊣ 永遠的5566 ㊣)   2025-02-06 17:05:00
NV利空
作者: detective14r (波波)   2025-02-06 17:11:00
前面花錢的都白癡
作者: vincent0911x (身在曹營,心在漢。)   2025-02-06 17:12:00
開捲囉~~~
作者: b1izzard2000 (OGC)   2025-02-06 17:14:00
多想幾秒 大賺百美
作者: turndown4wat (wat)   2025-02-06 17:16:00
幹成白菜價
作者: madeinheaven   2025-02-06 17:17:00
笑死 以後大家都用蒸餾法從別人模型裡學習
作者: FncRookie001   2025-02-06 17:20:00
已經有冤大頭當了啊XDD他是刷出租雲端空間跑的大蒸餾比賽開打啊重點就是這些科技巨頭已經在地上了啊XD謝謝你 矽谷銀彈
作者: turndown4wat (wat)   2025-02-06 17:26:00
防拷應該蠻難的
作者: FncRookie001   2025-02-06 17:27:00
要防蒸餾就是不讓外人使用 但也很難賺錢
作者: vincent0911x (身在曹營,心在漢。)   2025-02-06 17:27:00
對人類是大利多 對股民是... ?
作者: November1992 (Double++)   2025-02-06 17:28:00
濃縮再濃縮
作者: FncRookie001   2025-02-06 17:28:00
啊可是Gpt5出來明天就可以再蒸餾了XD唯一的方法是搞出GPT5後還不給外面access 但這樣要玩個雞毛
作者: Murasaki0110 (麥當勞歡樂送)   2025-02-06 17:29:00
學一個智障有啥用
作者: FncRookie001   2025-02-06 17:30:00
你發佈蒸餾版也沒用啊 input output能學就能蒸餾沒救 只能像以前google統統關在小黑屋裡偶爾放他出來下圍棋秀一下肌肉秀太多次就會被蒸餾QQ唯一獲利的方法是搞出AGI ASI 然後直接毀滅世界 不然永遠有辦法被蒸餾模仿 誰先做誰傻逼
作者: calmerrorans (虎爛摳)   2025-02-06 17:33:00
蒸餾你的蒸餾 後面費用本來就低吧
作者: junior020486 (軟蛋頭)   2025-02-06 17:34:00
50美元,我也來開AI公司
作者: calmerrorans (虎爛摳)   2025-02-06 17:35:00
看哪天誰開始擋蒸餾 後面改版一次換一次就好笑了
作者: LeFilsDuVent (Le Fils Du Vent)   2025-02-06 17:38:00
1月的paper嚕
作者: FncRookie001   2025-02-06 17:40:00
啊問題是這些軟硬體巨頭砸一堆錢就是幻想可以當人上人結果現在看起來要偷模型完全擋不住模型跟算力都被免費仔偷 慘喔
作者: junior020486 (軟蛋頭)   2025-02-06 17:42:00
沒有openAI前面花這麼多錢,你DS跟後面的競爭者哪有辦法這樣子
作者: FncRookie001   2025-02-06 17:42:00
就租幾組H100 1小時 謝謝你的模型欸嘿現在不是煉金術了 是蒸餾術的年代
作者: loopdiuretic (環利尿劑)   2025-02-06 17:47:00
笑死 50 連乞丐都做得出來
作者: FncRookie001   2025-02-06 17:51:00
哪有 伊隆馬砸了一堆錢在grok上
作者: junior020486 (軟蛋頭)   2025-02-06 17:51:00
那川普還要搞什麼5000億Stargate嗎?
作者: zzzzzzzzzzzy (zz)   2025-02-06 17:55:00
你信?硬體成本都不用算就對了
作者: beavertail97 (奏音璃)   2025-02-06 17:57:00
AMD利多?
作者: JingPingKing (金平王)   2025-02-06 18:16:00
開卷
作者: redbeanbread (尋找)   2025-02-06 18:19:00
像極了t1姑媽 蛋雕
作者: madeinheaven   2025-02-06 18:47:00
居然還有人不知道DeepSeek說自己是CHATGPT
作者: andy89202033 (89202033)   2025-02-06 18:48:00
我蒸餾你的蒸餾
作者: christos1989 (彥)   2025-02-06 18:51:00
哇喔要捲爆了吧
作者: icemonkey200 (WTF)   2025-02-06 19:31:00
下一篇5分錢
作者: diogofseixas (傲視人間笑紅塵~)   2025-02-06 19:34:00
就連線到gemini等答案啊
作者: kissa0924307 (瓦斯來一桶)   2025-02-06 20:04:00
以後誰要當第一個開發的?都給人白嫖欸DS不是蒸餾OpenAI的吧 畢竟OpenAI沒有開源啊 哪能蒸餾?頂多可能謊報訓練成本
作者: zombiepigman   2025-02-06 20:29:00
真的完蛋了 科技股崩爛
作者: winnietslock (老皮)   2025-02-06 22:02:00
濃縮再濃縮 提煉再提煉
作者: niburger1001 (妮妮漢堡)   2025-02-06 23:33:00
跟iphone一樣 電錶倒轉
作者: marshmallowH (珊)   2025-02-07 01:05:00
好厲害

Links booklink

Contact Us: admin [ a t ] ucptt.com