Re: [請益] 費半成份股全線崩盤 怎麼辦?

作者: LDPC (Channel Coding)   2025-01-27 14:13:09
DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance
以deepseek v3來說 600GB+ fp8 需要許多平行運算 這意味通訊瓶頸很重要
因為在切換專家時候 延遲會因此也跟者追加 而記憶體需求開銷也很大
另外一點就是37B Activation是主因讓推論可以成本下降 (不用全部671B來跑)
以h100來算這會讓同樣算力 成本下降10倍以上
但對算力晶片load balance和通訊跟記憶體開銷需求也跟者增大
但對於同樣算力可以提高10倍以上token產出
MoE好處就是更適合特制化的低成本下游任務 不適合泛化場景 所以不能用在機器人
這種場景多變任務上
這就代表 假設Deepseek最後成為低成本主流 這意味還是只有老黃能吃下它
(因為需要昂貴load blance 通訊開銷 高需求vram)
ASIC那邊不適合用在MoE架構 這些低成本就某種意義會解鎖ai產品化
原本之前最大問題就是 現有的模型在Inference產生token的電力成本太貴
如果能讓現有成本下降 這樣才會能直接適用到消費端去
並不是說 提高tokens生產數量/單位算力 就等於減少鏟子賣出
事實上 token數量/單位算力 過低 會造就無法ai模型落地化 反而產子賣不出去
最好的例子就是DeepSpeed (AI Backend 優化) 這玩意一年前 微軟就用它來提高
tokens數量/單位算力 號稱能增加1.5~3倍快同樣算力 結果微軟反而願意花更多錢買算力
這波最大意義大概就是會變動推行MoE架構 然後ASIC死去 QQ 而老黃有NVLink
和壟斷HBM產量 又有良好的cuda為主的AI Backend做load balance 感覺很難輸
說到底 最簡單的觀察就是看1/23微軟財報的資本支出 微軟在01/03說出2025 80B
(Deepseek v3 12/26/2024 模型釋出) 如果01/27資本支出維持原案 那就沒啥太大擔心
作者: MacBookAir12 (New Mac Water)   2025-01-27 14:20:00
其實反而應該是AVGO 的利空...3661 3443...前一陣子有炒作一波ASIC 現在通通都要下去然後AIPC 或許可以提早放量甚至不需要額外NPU去運算了<-這比較極端想法XDAVGO可能要等市場開盤之後會比較清楚現在美國那邊還是27號凌晨能不能COST DOWN 我覺得先看論文 可不可能重現DS使用類似當初GOOGLE 圍棋那套方式去自我訓練然後5萬張H100 傳聞也不知道真假XD不過MoE模型的確是可以有效降低成本 這沒錯最後變成是賈維斯跟事務型機器人的對決XD
作者: jacktypetlan (四十四隻石獅子)   2025-01-27 14:48:00
https://i.imgur.com/HUKLWkC.jpeg很有趣 可以自己去問看看
作者: dongdong0405 (聿水)   2025-01-27 14:53:00
這才是有料的發文 不像那些無腦黑無腦吹的
作者: lolpklol0975 (鬼邢)   2025-01-27 14:53:00
作者: beavertail97 (奏音璃)   2025-01-27 16:24:00
跌深就是給上車的,趕快開盤

Links booklink

Contact Us: admin [ a t ] ucptt.com