作者:
LDPC (Channel Coding)
2025-02-17 14:43:22"遇到任何不能解決的事情 就用C4炸彈" <謠言終結者>
在AI界這邊也是
"遇到任何無法解決的事情 就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落 只要看到這** 就跳回來這默念這句話)
#算法
從算法這邊看 這陣子不論是DeepSeek也好 甚至去年之前的SSM算法
(比Transformer更具有壓縮資料性) 都會塑造出算力需求是否不在重要?
又或者MoE架構(早期MoE 大模型可追朔到法國的Mistral) 在推論端都可以使用更少的
模型容量(activatino parameters) 去達到Dense 大模型效能 是否意味我們不在需要
高算力? 再拋棄算力無用論 先看往過去幾個歷史發展
#數據
從數據這邊看 在更早之前 微軟提出"Textbook is all you need"
證明數據高品質可以讓 小模型3B可以接近數十B模型效能 從早期開始野生數據
到去精煉數據 都證明數據的品質決定模型的效能 那是否數據高品質
就可以減低算力需求? 然而在講數據品質前 得先回到
數據這邊的發展史
### (賺p幣 你可以跳過 沒股點)
這世界充滿大量無標籤野生數據 而無標籤的數據通常都是野生數據
並充滿噪聲干擾 而有標籤的數據通常都昂貴 如何利用大量野生數據和少量標籤數據
就變成這幾年的AI算法發展史 這幾年模式
通常都是第一階段先用野生數據去做預訓練 概念有點像文字接龍一樣
或者挖空部分野生數據 叫模型去猜數據被消去的部分長怎樣
又或者用多模態野生數據作預訓練時
去比較 哪兩個多模態屬於同類型 哪兩種多模態數據是不同類型 等等 這樣訓練完模型
通常就做Foundation Model 就想成初始模型 這類模型就是能從野生數據 學到分類
和預測野生數據該長怎樣 但做不了任何事情 他就是只能做分類 沒了
此時為了讓模型做更多複雜的事情 在第二階段訓練 開始運用了高品質標籤數據
這些高品質標籤數據 通常都是一個特地場景 你希望模型能處理的事情
可能是文字翻譯 可能是物體檢測 可能是資訊搜尋和回答問題 透過數據和給的標籤答案
模型學會到了
到此為止 模型還是缺乏所謂智能 無法舉一反三 然後OpenAI介紹出RLHF 畢竟OpenAI
在這領域有PPO設計 這第三階段就是所謂的透過人類給任務和人類的認知
機器去學 這階段也可視為是一種需要答案/標籤的數據反饋 透過RLHF後
模型此時展現了有擴佔性和泛化等充滿前景的驚人效果 但如何更好地提高模型效能?
時間線回到了2022~2023
OpenAI發現 透過模型參數變大 數據變大 此時模型的思考能力出現了湧現效果
模型大小會決定數據大小 數據大小和模型大小 決定算力需求(** @v@b 默念上面)
具體公式看這
https://blog.csdn.net/taoqick/article/details/132009733
(註:DeepSeekV3 訓練成本減少是透過float8和 模型參數減少MoE架構)
接者到了2023 GPT等大模型產生後 許多AI社群開始用GPT等來造高品質的標籤數據
像是LLaVA 造出300k 多模態數據 讓TextLLM轉變為多模態能看到影像的LLM
此時 合成數據概念出現了 (又或者稱為distilled synthetic dataset)
就是透過設計任務 比方說給GPT看野生數據 像是圖片或影像 叫GPT找出有車子圖片
並且標注 還記得上面微軟給過高品質數據 能讓小模型打贏大模型嗎?
於是各種用GPT去合成高品質數據文章紛紛出現
接者要來講到Chain-of-thought這概念 在各種第一代LLM出現後 一幫人在開始研究
再不牽涉到重新去調教模型(Training)情況下 如何讓模型變更聰明點?
這時候思考練概念出現 核心概念就是 把一個問題拆成子問題 讓模型更好回答
比方說 你講一句中文 然後叫你家LLM翻成英文 他很可能有時候會翻不好
因為你給的指令是要求LLM一次性的 (一步到位) 答出問題
如果用COT (Chain-of-thought) 此時你可以下指令說 先把我說的中文轉成中文文字
第二步再把中文文字轉成英文文字 這時候模型翻譯能力品質就大幅上升
在設計拆解任務時 你也可以用比較法 比方說 你如果問LLM
我去台北最快的方式是何種? LLM可能會說 跳入蟲洞就可以瞬間到台北這種幻覺回答
又或者根本打不出
而在設計COT 你可以第一步問LLM 去一個地點有哪些方法 然後第二步說 根據每個方法
估出從我現在地點到台北時間 第三步說 從裡面挑出最快的方式 然後模型就能正確回答
到此為止 似乎覺得你家模型可以無成本變得很聰明了 對吧!!!然後在模型效能裡面
有一個隱藏成本 叫做Infenrece Time/Latency 就是你花多少時間得到你要答案
透過拆解問題 你需要等待時間變長了 但很多場景 你希望模型快速給你答案
但你又希望答案是充滿智能的回答 那該怎樣辦?? (** 默念上句 @v@b)
而算力大小 可以決定Latency 通常我們用Tokens/sec來衡量這指標
然後為何提到COT?因為OpenAI在去年開始把CoT融入訓練一環 改進了RLHF更好的效果
拓展模型思考(reasoning)能力
現在AI界開始反思一個問題 我們能不能不需要用大量人力去做
第三步RLHF 但透過巧妙設計RL和用第一代母模型(e.g. ChatGPT)來合成有思考性質
的數據? 尤其是在第一階段的野生數據 現實中我們已經用完了 現在需要更多的
標籤數據來增加模型的效能 這個論點就是Deepseek R1想驗證的 但這牽涉到好幾個問題
沒有第一代人類反饋LLM是無法做出來的 同時這個LLM還得是多模態能具有思考鏈CoT
才能合成良好的思考數據(Reasoning Sythentic Dataset)
有了這玩意 你就可以開始讓模型去教模型 然後無窮迴圈進化
因此你也看到李飛飛那篇是拿(gemini-2.0-flash-thinking )具有思考的來設計COT
https://arxiv.org/abs/2501.19393 合成數據 這篇只使用SFT 也就是上面第二階段
來訓練模型 證明數據品質和思考重要 所以某老兄拿這篇diss 還說打不贏deepseek-r1
就是一個岳飛打張飛 因為r1有用第三步RF 這篇只是要開源合成數據 用SFT
展示合成數據品質 還瘋狂diss這篇亂定義distill概念
從上上週開始 整個AI界都開始嘗試研究 如何用合成數據來教導模型智慧 也就是
如何更適當的設計RL 來讓模型教模型 就是走向alphago-zero概念 但沒有上述這些
歷史巨人肩膀 我們是無法走到這
###賺p幣結束回到股點
#算力
AI在落地端 通常是用Inference效能來決定 裡面有兩個重點 一個是速度已經提過
一個就是能支撐多少用戶 而B200就是這兩者的最漂亮的作品 參考下圖
https://ibb.co/F4mXCnLd
通常算力越多 能支撐的客戶請求queries就越多 速度也就越快 (** @v@b)
參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能
而在訓練端 Scaling Law 預測了模型大小和數據以及效能的一個線性關係
就算算法上或者數據上改進 也都只是讓Scaling Law 那條斜線更加傾斜
但模型大小仍然會決定智能 因此也意味算力需求是一個線性向上 (** @v@b)
### 股點重點 ###
在講數據中心之前 先回到AI的一個基本方向
AI就是由三個因素疊加起來 算法 資料 算力 就像三原色一樣 缺一不可
算法跟資料算是每個國家都可以自己掌握 唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積
於是 美國第一個看到這點 開始瘋狂的捲資料中心建設
阿祖的故事之前說過了
https://reurl.cc/WNmR8D
底下有個衛星空照圖 https://ibb.co/y4Ww9s6
2022阿祖在蓋傳統數據中心 結果AI起來後 為因應AI數據中心 2023五月 阿祖直接把
蓋到一半的數據中心拆掉 重新蓋一次 只為了能更安裝GB200 重新設計散熱和電力
現在就是裁員裁員裁員 瘋狂蓋AI基礎建設
資料中心相關
https://www.youtube.com/watch?v=UczALD7ZZDU
美國2868個
歐洲300多個
然而在AI發展起來 所有新型數據中心變得重要
所以法國開始AI資料中心項目
https://reurl.cc/6jn7mO
泰國也開始了 Siam AI 額外追加2B
https://www.kaohooninternational.com/technology/552490
而中國也開始了 GDS萬国数据 在馬來西亞 新加波開始基建數據中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其餘印度和中東也都開始在建設自己的AI基建算力平台
而老黃就是這波數據中心大贏家 一但新型數據中心都走老黃規格 那蘇媽/ARM等三方
就會越難打這場戰爭 這也是為何這兩家最近動作頻繁在加速 老黃就算吃不到中國
也有大機會其他國家得去吃
結論:基於這接下來發展 你可以按照數據 算力 演算法三方向選公司投資
算力:老黃/AVGO
數據: Databrick(要上市了 我會買爆他) Scale AI
算法:狗家 臉家 OpenAI(買不到 @@ 考慮去那掃廁所看能不能給認股)
至於說啥AI現在是已經 輪轉到投資落地場景公司 呵呵 @v@b
然後這也意味台G是一切的基石 @@