※ 引述《WinNOKIA (海神)》之銘言:
: 1. DeepSeek創辦人梁文鋒,少年股神變AI大神
: 2. 紐約時報指出,DeepSeek是由中國對沖基金幻方量化(High-Flyer)創辦
: 3. DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十
: 分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。
: 綜合以上媒體報導與揭露來看,DeepSeek是什麼狀況,不就很清楚了嗎?
Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到
DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破
例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。
訓練過程中涉及大量的知識蒸餾(distillation)
這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。
並提出質疑對中國限制最先進 GPU 的出口,卻不阻止其蒸餾美國的頂尖 AI 模型
這基本上讓出口限制變得毫無意義
AI 基礎設施領域的現有贏家面臨的最大風險是
兩年內,R1的蒸餾版本可能會在高端智慧型手機上運行
Musk稱AJ will be everywhere.(AJ應為筆誤AI)
總之DeepSeek推出的模型低成本除了技術上突破外,很大基礎是建立在GPT
但在高階GPU管制下,要透過訓練超越OpenAI是不可能的
而且如果之後OpenAI防堵知識蒸餾,連推新版本都有困難
所以吹牛大賽大概也差不多該接近尾聲了
那競爭布局可能為何? GPT給了答案
「50B AI」指的是一個擁有500億個參數的大型語言模型(LLM)
相當於 GPT-3.5 的規模
另川普於 2025 年 1 月 21 日發布啟動5000 億美元「Stargate」(星際之門)
人工智慧(AI)計畫。參與的公司包括 OpenAI、軟銀 和 甲骨文。
而 DeepSeek 則於 2025 年 1 月 20 日推出了其新模型 「DeepSeek-R1」。
要說巧合也太巧,R1推出目的大概率除了宣示要走向AI設備端,防堵OpenAI壟斷外
就是政治上的大外宣,中國可以用較少資本訓練出競爭級別的AI
甚至影響美國AI產業的投資者信心,改變資本流向