[心得] 資料中心投資方向 LDPC PTT批踢踢實業坊

[心得] 資料中心投資方向

作者: LDPC (Channel Coding) 2025-02-17 14:43:22

"遇到任何不能解決的事情就用C4炸彈" <謠言終結者>
在AI界這邊也是
"遇到任何無法解決的事情就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落只要看到這** 就跳回來這默念這句話)
#算法
從算法這邊看這陣子不論是DeepSeek也好甚至去年之前的SSM算法
(比Transformer更具有壓縮資料性) 都會塑造出算力需求是否不在重要?
又或者MoE架構(早期MoE 大模型可追朔到法國的Mistral) 在推論端都可以使用更少的
模型容量(activatino parameters) 去達到Dense 大模型效能是否意味我們不在需要
高算力? 再拋棄算力無用論先看往過去幾個歷史發展
#數據
從數據這邊看在更早之前微軟提出"Textbook is all you need"
證明數據高品質可以讓小模型3B可以接近數十B模型效能從早期開始野生數據
到去精煉數據都證明數據的品質決定模型的效能那是否數據高品質
就可以減低算力需求? 然而在講數據品質前得先回到
數據這邊的發展史
### (賺p幣你可以跳過沒股點)
這世界充滿大量無標籤野生數據而無標籤的數據通常都是野生數據
並充滿噪聲干擾而有標籤的數據通常都昂貴如何利用大量野生數據和少量標籤數據
就變成這幾年的AI算法發展史這幾年模式
通常都是第一階段先用野生數據去做預訓練概念有點像文字接龍一樣
或者挖空部分野生數據叫模型去猜數據被消去的部分長怎樣
又或者用多模態野生數據作預訓練時
去比較哪兩個多模態屬於同類型哪兩種多模態數據是不同類型等等這樣訓練完模型
通常就做Foundation Model 就想成初始模型這類模型就是能從野生數據學到分類
和預測野生數據該長怎樣但做不了任何事情他就是只能做分類沒了
此時為了讓模型做更多複雜的事情在第二階段訓練開始運用了高品質標籤數據
這些高品質標籤數據通常都是一個特地場景你希望模型能處理的事情
可能是文字翻譯可能是物體檢測可能是資訊搜尋和回答問題透過數據和給的標籤答案
模型學會到了
到此為止模型還是缺乏所謂智能無法舉一反三然後OpenAI介紹出RLHF 畢竟OpenAI
在這領域有PPO設計這第三階段就是所謂的透過人類給任務和人類的認知
機器去學這階段也可視為是一種需要答案/標籤的數據反饋透過RLHF後
模型此時展現了有擴佔性和泛化等充滿前景的驚人效果但如何更好地提高模型效能?
時間線回到了2022~2023
OpenAI發現透過模型參數變大數據變大此時模型的思考能力出現了湧現效果
模型大小會決定數據大小數據大小和模型大小決定算力需求(** @v@b 默念上面)
具體公式看這
https://blog.csdn.net/taoqick/article/details/132009733
(註:DeepSeekV3 訓練成本減少是透過float8和模型參數減少MoE架構)
接者到了2023 GPT等大模型產生後許多AI社群開始用GPT等來造高品質的標籤數據
像是LLaVA 造出300k 多模態數據讓TextLLM轉變為多模態能看到影像的LLM
此時合成數據概念出現了 (又或者稱為distilled synthetic dataset)
就是透過設計任務比方說給GPT看野生數據像是圖片或影像叫GPT找出有車子圖片
並且標注還記得上面微軟給過高品質數據能讓小模型打贏大模型嗎?
於是各種用GPT去合成高品質數據文章紛紛出現
接者要來講到Chain-of-thought這概念在各種第一代LLM出現後一幫人在開始研究
再不牽涉到重新去調教模型(Training)情況下如何讓模型變更聰明點?
這時候思考練概念出現核心概念就是把一個問題拆成子問題讓模型更好回答
比方說你講一句中文然後叫你家LLM翻成英文他很可能有時候會翻不好
因為你給的指令是要求LLM一次性的 (一步到位) 答出問題
如果用COT (Chain-of-thought) 此時你可以下指令說先把我說的中文轉成中文文字
第二步再把中文文字轉成英文文字這時候模型翻譯能力品質就大幅上升
在設計拆解任務時你也可以用比較法比方說你如果問LLM
我去台北最快的方式是何種？ LLM可能會說跳入蟲洞就可以瞬間到台北這種幻覺回答
又或者根本打不出
而在設計COT 你可以第一步問LLM 去一個地點有哪些方法然後第二步說根據每個方法
估出從我現在地點到台北時間第三步說從裡面挑出最快的方式然後模型就能正確回答
到此為止似乎覺得你家模型可以無成本變得很聰明了對吧!!!然後在模型效能裡面
有一個隱藏成本叫做Infenrece Time/Latency 就是你花多少時間得到你要答案
透過拆解問題你需要等待時間變長了但很多場景你希望模型快速給你答案
但你又希望答案是充滿智能的回答那該怎樣辦?? (** 默念上句 @v@b)
而算力大小可以決定Latency 通常我們用Tokens/sec來衡量這指標
然後為何提到COT?因為OpenAI在去年開始把CoT融入訓練一環改進了RLHF更好的效果
拓展模型思考(reasoning)能力
現在AI界開始反思一個問題我們能不能不需要用大量人力去做
第三步RLHF 但透過巧妙設計RL和用第一代母模型(e.g. ChatGPT)來合成有思考性質
的數據? 尤其是在第一階段的野生數據現實中我們已經用完了現在需要更多的
標籤數據來增加模型的效能這個論點就是Deepseek R1想驗證的但這牽涉到好幾個問題
沒有第一代人類反饋LLM是無法做出來的同時這個LLM還得是多模態能具有思考鏈CoT
才能合成良好的思考數據(Reasoning Sythentic Dataset)
有了這玩意你就可以開始讓模型去教模型然後無窮迴圈進化
因此你也看到李飛飛那篇是拿(gemini-2.0-flash-thinking )具有思考的來設計COT
https://arxiv.org/abs/2501.19393 合成數據這篇只使用SFT 也就是上面第二階段
來訓練模型證明數據品質和思考重要所以某老兄拿這篇diss 還說打不贏deepseek-r1
就是一個岳飛打張飛因為r1有用第三步RF 這篇只是要開源合成數據用SFT
展示合成數據品質還瘋狂diss這篇亂定義distill概念
從上上週開始整個AI界都開始嘗試研究如何用合成數據來教導模型智慧也就是
如何更適當的設計RL 來讓模型教模型就是走向alphago-zero概念但沒有上述這些
歷史巨人肩膀我們是無法走到這
###賺p幣結束回到股點
#算力
AI在落地端通常是用Inference效能來決定裡面有兩個重點一個是速度已經提過
一個就是能支撐多少用戶而B200就是這兩者的最漂亮的作品參考下圖
https://ibb.co/F4mXCnLd
通常算力越多能支撐的客戶請求queries就越多速度也就越快 (** @v@b)
參照 #1crWnRFw 第二個連結評價GB200 用戶請求效能
而在訓練端 Scaling Law 預測了模型大小和數據以及效能的一個線性關係
就算算法上或者數據上改進也都只是讓Scaling Law 那條斜線更加傾斜
但模型大小仍然會決定智能因此也意味算力需求是一個線性向上 (** @v@b)
### 股點重點 ###
在講數據中心之前先回到AI的一個基本方向
AI就是由三個因素疊加起來算法資料算力就像三原色一樣缺一不可
算法跟資料算是每個國家都可以自己掌握唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積
於是美國第一個看到這點開始瘋狂的捲資料中心建設
阿祖的故事之前說過了
https://reurl.cc/WNmR8D
底下有個衛星空照圖 https://ibb.co/y4Ww9s6
2022阿祖在蓋傳統數據中心結果AI起來後為因應AI數據中心 2023五月阿祖直接把
蓋到一半的數據中心拆掉重新蓋一次只為了能更安裝GB200 重新設計散熱和電力
現在就是裁員裁員裁員瘋狂蓋AI基礎建設
資料中心相關
https://www.youtube.com/watch?v=UczALD7ZZDU
美國2868個
歐洲300多個
然而在AI發展起來所有新型數據中心變得重要
所以法國開始AI資料中心項目
https://reurl.cc/6jn7mO
泰國也開始了 Siam AI 額外追加2B
https://www.kaohooninternational.com/technology/552490
而中國也開始了 GDS萬国数据在馬來西亞新加波開始基建數據中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其餘印度和中東也都開始在建設自己的AI基建算力平台
而老黃就是這波數據中心大贏家一但新型數據中心都走老黃規格那蘇媽/ARM等三方
就會越難打這場戰爭這也是為何這兩家最近動作頻繁在加速老黃就算吃不到中國
也有大機會其他國家得去吃
結論:基於這接下來發展你可以按照數據算力演算法三方向選公司投資
算力:老黃/AVGO
數據: Databrick(要上市了我會買爆他) Scale AI
算法:狗家臉家 OpenAI(買不到 @@ 考慮去那掃廁所看能不能給認股)
至於說啥AI現在是已經輪轉到投資落地場景公司呵呵 @v@b
然後這也意味台G是一切的基石 @@

作者: goodapple807 (Archi) 2025-02-17 14:58:00

Databrick怎麼聽起來怪怪的XD

作者: fluffyradish (玲玲) 2025-02-17 16:25:00

最後一句重點

作者: PureAnSimple (PureAndSimple) 2025-02-17 16:43:00

算力永遠不嫌多根本不用分析

作者: necrophagist (Hogong-Yeah) 2025-02-17 20:47:00

寫得很好不是做這行的也能讀懂七八成

繼續閱讀

[新聞] 不管台積電入股英特爾多或空？散戶大軍enouch777 [新聞] 環狀線災損雙北求償逾19億中工:鑑定單位黑DrowningPool Re: [標的] TYO 7803 武士道無腦多messi5566 [閒聊] 2025/02/17 盤後閒聊laptic [新聞] 未改善個資疑慮！南韓宣布「全面中斷」Decityhunter04 [新聞] 台積電美國廠3挑戰曝光　魏哲家坦言「我enouch777 [心得] 哲哲: 以後滿街自駕車台股今年26000 DDHOWDA [標的] 大盤空what5566 [新聞] 華安糖尿病藥3期年底解盲；塑AI合作常態FreedomTrail [新聞] 林毅夫：今年陸經濟好於去年有望跨入高cjol