作者:
Sixigma (六西格瑪)
2025-01-27 15:59:11既然有人提推論,我就講看看訓練端
DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本
和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練
未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million
簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要
整理一下目前已知+估計+rumor
GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12 million
GPT-4 : >$100 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million
也就是說目前市面上的訓練成本會下降 ~50 倍
(20 - 50 之間,看你拿誰當標準)
反過來說是同樣的預算下,若忽視模型設計和 tokenization
模型的迭代週期也會暴漲約 50 倍
我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS
而且在未來六個月會不斷看到新聞是
某某模型訓練成本下降 10% 或加快 10%
或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑
這樣的新聞
另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE
並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好
而且只要 test-time 時間越長,成果就成線性的更好
其實這根本是簡單到不行的想法,效果卻好得嚇人
這些巨頭絕對有能力在短時間內複製出來
-
結論是
我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽
只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法
他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI
加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍
大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止
因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距
先得到聖杯的人贏者通吃
※ 引述《LDPC (Channel Coding)》之銘言:
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
: 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance
作者: jasonkuo1943 2025-01-27 16:08:00
軍備競賽還是會一直持續下去,DS的出現只會加速全球AI的推動,硬體規格的需求還是會大幅增加,這不是很簡單的送分題嗎
AI黑一開始嘴不可能做出來 有初步成果又嘴成本太高模型陽春 現在成本降低 模型也堪用了 直接嘴沒人真的需要AI 實在無言現在已經不限巨頭能玩了 小公司都能參賽 市場變大才對吧而且現在模型也沒很可靠 要走的路還很長
作者: fbiciamib123 (Lin) 2025-01-27 16:33:00
OPENAI大概會加速O3吧 AGI還是他比較近 特化版就不可能會走AGI那條 走邊緣AI就好
作者: s56565566123 (OnlyRumble) 2025-01-27 17:29:00
大暴崩被中國內卷嘍 早就空手等崩盤好爽
快跟大戶說這個ai沒用叫他們別再賣了在那邊倒貨的也不是鄉民我比較驚訝政治他是說無法回答不是蝦回答