[新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預

作者: Lushen (wind joker!!!)   2025-01-24 19:13:02
原文標題:
Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋
原文連結:https://www.jiqizhixin.com/articles/2025-01-24-2
發布時間:2025/01/24
記者署名:機器之心
原文內容:
「工程師正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。」
DeepSeek 開源大模型的陽謀,切切實實震撼著美國 AI 公司。
最先陷入恐慌的,似乎是同樣推崇開源的 Meta。
最近,有 Meta 員工在美國匿名職場社群 teamblind 上面發布了一個貼文。貼文提到,國內 AI 新創公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌,因為在前者的低成本高歌猛進下,後者無法解釋自己的超高預算的合理性。
原文如下:
這一切始於 DeepSeek-V3,它在基準測試中就已經讓 Llama 4 落後。更糟的是那個「擁有 550 萬訓練預算的不知名中國公司」。
工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。
管理階層擔心如何證明龐大的生成式 AI 組織的成本是合理的。當生成式 AI 組織中的每個「領導」的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的「領導」時,他們要如何面對高層?
DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機密信息,但這些很快就會公開。
這本來應該是一個以工程為重點的小型組織,但是因為很多人想要參與進來分一杯羹,人為地膨脹了組織的招聘規模,結果每個人都成了輸家。
https://i.imgur.com/hKZ6h5W.png
貼文中提到的 DeepSeek-V3 和 DeepSeek-R1 分別發佈於 2024 年 12 月 26 日和 2025 年 1 月 20 日。
其中,DeepSeek-V3 在發佈時提到,該模型在多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等其他開源模型,並在性能和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet 不分伯仲。
不過,更引人注目的是,這個參數量高達 671B 的大型語言模型訓練成本僅 558 萬美元。具體來說,它的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與後訓練的訓練,總共也只有 278.8 H800 GPU Hours。相比之下,Meta 的 Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。
https://i.imgur.com/mJn5POl.png
而最近發布的 DeepSeek-R1 效能更猛 —— 在數學、程式碼、自然語言推理等任務上,它的效能比肩 OpenAI o1 正式版。而且模型在發布的同時,權重同步開源。很多人驚呼,原來 DeepSeek 才是真正的 OpenAI。 UC Berkeley 教授 Alex Dimakis 則認為, DeepSeek 現在已經處於領先位置,美國公司可能需要迎頭趕上了。
https://i.imgur.com/NLhp4Nj.png
看到這裡,我們不難理解為何 Meta 的團隊會陷入恐慌。如果今年推出的 Llama 4 沒有點硬本事,他們「開源之光」的地位岌岌可危。
有人指出,其實該慌的不只 Meta,OpenAI、Google、Anthropic 又何嘗沒有受到挑戰。 「這是一件好事,我們可以即時看到公開競爭對創新的影響。」
https://i.imgur.com/gQ5fHDH.png
還有人擔心起了英偉達的股價,表示「如果 DeeSeek 的創新是真的,那麼 AI 公司是否真的需要那麼多顯示卡?」
https://i.imgur.com/HIFcTx6.png
不過,也有人質疑,DeepSeek 究竟是靠創新還是靠蒸餾 OpenAI 的模型取勝?有人回覆說,這可以從他們的發布的技術報告中找到答案。
https://i.imgur.com/HIFcTx6.png
目前,我們還無法確定貼文的真實性。
不知道 Meta 後續會如何回應,即將到來的 Llama 4 又會達到怎樣的表現。
心得/評論:
Meta工程師在TeamBlind(一個匿名的職涯討論區,需要經過公司Email驗證)爆料中國的DeepSeek對內部影響很大
DeepSeek R1訓練成本550萬美元 可能比一個Meta大頭的年薪還便宜
DeepSeek 這件事情也不光是中國自己在吹噓
看了一下 Twitter/Reddit 美國AI工業界、學術界反響非常大
DeekSeek 的母公司幻方量化產出 DeepSeek 的故事也在 Twitter 廣受討論
https://i.imgur.com/NLhp4Nj.png
DeepSeek R1 開源+論文公開應該會推進一波AI界的發展
DeepSeek 後續發展值得關注一下
作者: pagenotfound (404 not found)   2025-01-24 19:29:00
上次在那邊吹中國突破5奈米的公司 已經屍骨無存了
作者: jacktypetlan (四十四隻石獅子)   2025-01-24 19:33:00
完蛋 算力過剩 overbooking 台G NV攔腰斬都不夠NV至少1/4膝蓋斬 歐印放空 台股一萬二見
作者: ken123321987 (溺水者)   2025-01-24 19:49:00
美國狗下棋輸人就翻桌 等中國強起來一定算帳
作者: dongdong0405 (聿水)   2025-01-24 20:02:00
哈哈哈中國進來卷
作者: squeakywheel   2025-01-24 20:06:00
就是美國抄襲中國啦 某族群最愛嘴的
作者: mcgrady12336 (悼念鐘吉伯伯...)   2025-01-24 20:11:00
未來AI就中美有量能切入啊
作者: tsubasawolfy (悠久の翼)   2025-01-24 20:39:00
不然老黃幹嘛賣那台掌中型的AI機另外推特翻譯那個GOOGLE翻得沒錯我覺得這比較像吹很久的edge AI踏出第一步OPENAI的O3就是RL壓 聖誕節前的13天倒數也有RL出現O3就是O1 RL來的 省去訓練成本
作者: minazukimaya (水無月真夜)   2025-01-24 21:09:00
還好它開源 同樣的演算法創新讓資源更多的美國科技巨頭來用 以他們握有的訓練資源能產出更驚人的結果但感覺AGI和技術奇點的時間又被提前了.......這才是最恐怖的吧 感覺2030年前就要奇點了
作者: tsubasawolfy (悠久の翼)   2025-01-24 21:37:00
不用擔心OPENAI 那個瘋子一心只想要真的AGI 就跟馬斯克一心想上火星一樣 賽道不同
作者: minazukimaya (水無月真夜)   2025-01-24 21:38:00
有 至少在大膽創新+高效工程這兩方面是非常優秀的中國一堆騙錢公司是事實 但DeepSeek和他們不一樣也是事實 這兩個事實又不衝突...你現在沒聽到要啟MoE項目 只是表示你公司不在最前沿現在最前沿的美國公司一定會啟新項目投入MoE方向了
作者: cityhunter04 (無聊的乖小孩 )   2025-01-24 21:58:00
叫美國時代過去之前,他科技還是屌打世界2-30年…
作者: MumiPyonPyon   2025-01-24 22:15:00
Deepseek不是open的嗎@@
作者: verydolungbe (小小邦)   2025-01-24 22:23:00
支那XDXDXD 聽聽就好
作者: minazukimaya (水無月真夜)   2025-01-24 22:33:00
模型是科研 應用是商業 其實這兩件事關連不大~~商業上 還是擁有直接面對消費者布署能力和通路的巨頭們優勢最大組織文化的問題 DeepSeek作得到但是華為騰訊百度沒作到 就說明了這不是中美差異 而是組織文化差異要論軟工高手和996的強度 中國大公司比DeepSeek強多了 這幾年騙錢的中國AI公司也沒少過 DeepSeek能成功自然有其公司文化的獨特之處對啊 算法改進了效率變好 第一直覺當然是再放大模型或是再加訓練集吧 對BigTech來說...
作者: event1408472 (醒世明燈)   2025-01-25 01:44:00
不用那麼多顯示卡了 台積電G
作者: vindiesl2000 (vindiesl2000)   2025-01-25 05:46:00
美國ai本就是華西街炒股工具
作者: justin200428 (7788kkk)   2025-01-25 07:26:00
白人怕輸 到時發核彈老黃太聰明了
作者: peter6666712 (18公分亞洲巨砲)   2025-01-25 08:54:00
牢美白豬不行很久了 只能靠祖國人跟阿三撐著現在老川還卡移民 我看五年內牢美要完
作者: penolove5566 (輕劃)   2025-01-27 02:23:00
做的事情不一樣吧,先做出來跟cost down

Links booklink

Contact Us: admin [ a t ] ucptt.com