Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海

作者: LDPC (Channel Coding)   2024-09-03 03:04:53
相關文章可以參考這個
https://36kr.com/p/2927059579722630
比較有意義的是這邊
https://spectrum.ieee.org/new-inference-chips
前言
雖然大家都在討論AI要怎樣獲利 但AI產品要獲利前 有一個很重要的大前提
就是AI infrastructure得先成熟 也就是如何讓巨大數量消費者能在平台上(Large-scale)
能得到平台上的服務 這個第一步關鍵就是Inference 上的成本 算力提升也意味單位
成本下降
自從LLM興起後(GenAI) 直到去年都比較是Training上的改進 像是軟體端有Deep-Speed
陸續整合到LLM/Transformer上 能把訓練數度提高百倍(意味成本降低百倍)
硬體端有A100->H100 (Transformer加速) HBM容量變大 等等此類
但針對AI商業化的Inference塊一直很不明朗
去年之前 我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰
今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地
這都意味以後的服務平台成本會下降 以現在GPT-4o 25.00元 你可以使用1M tokens
(註2) 想像一下 以後的成本可以降到100倍以上 同時也意味AI infra在走向產業落地
而第二個連結(ieee)就是開始在量化Inference的成本/能力 裡面用秒來計算能提供多少
客戶請求(queries)
裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計 會成為將來主流
他能在LLM包山包海的下游任務(例如 文字總結 寫程式 醫療問題) 能動態選取專家
所以在MoE上表現好 對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4)
處理位元數降低好處會帶來運算速度增快 運算成本降低 但通常缺點就是效能會變很糟
(正確率下降 模型準度降低) 但NVDA弄出了一個4位元版本 且準度沒有太大犧牲
Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM )
第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏
就算校正GPU數量 狗家的TPU也是沒佔上風(註3)
處此之外 還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 )
可以看見當算力拉高高算力 高power 巨大集群 系統容易崩潰 就連老黃都無法避免
然而這在A100叢集 崩潰幾乎沒有出現過 這也意味眾家對手再拉高power 算力
軟體容易不穩定而崩潰 在這個AI軍備競賽下 時間永遠是個最重要的成本 這也意味
其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家)
最後一個總結 老黃的核心思想就是算力 (硬體+軟體+巨大cluster)
當年老黃在顯卡大戰說過 我每半年提高顯卡算力一倍 雖然一堆遊戲廠商
跟我說他家電動遊戲不需要這樣強顯卡 但我們不能照遊戲廠商需求來設計
我們給他們更好的顯卡 這樣他們才能設計更好的遊戲 我們可以創造需求
同樣 只要對先進算法有需求 算力就會存在 顯卡大戰所有的套路 我們會再重新走一次
而AI這個路線也是如此 因為Scaling Law已經講明 算力無窮止盡造就無窮智能
就算今天LLM技術落伍 只要有需求先進的算法 就會需要算力 Scaling Law就是摩爾定律
CPU當年無限開發計算能力 有了軟體業 顯卡無限開發算力 有了電動產業
這也是為何Eric Schmidt說 政府用算力10的26次方flops當作監管條件
其他政治上的風險
https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水 土地 電力 當地居民抗議
作者: darkangel119 (星星的眷族)   2024-09-03 08:03:00
感謝專家分析與分享
作者: NicholasTse3 (Nicholas)   2024-09-03 08:19:00
all in NVDL 一波退休!
作者: darkangel119 (星星的眷族)   2024-09-03 09:32:00
蝦? 用 ASIC? 想太多了吧

Links booklink

Contact Us: admin [ a t ] ucptt.com