[情報] DeepSeek繞過CUDA 自己優化底層編程語言 jackliao1990 PTT批踢踢實業坊

[情報] DeepSeek繞過CUDA 自己優化底層編程語言

作者: jackliao1990 (jack) 2025-01-29 19:55:49

https://x.com/bookwormengr/status/1883355712191123666
關於DeepSeek的優化改進
許多人沒注意到的是:
DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化
在輝達的PTX語言實際編譯流程中
CUDA代碼首先被編譯為PTX代碼
PTX代碼再被編譯為目標GPU架構的機器碼（SASS,Streaming ASSembler）
CUDA起到了提供高級編程接口和工具鏈的作用
可簡化開發者的工作
而PTX作為中間層充當高級語言和底層硬件間的橋樑
PTX允許進行細粒度優化
如寄存器分配和Thread/Warp級別的調整
這種編譯複雜又難維護
所以其他公司用的是CUDA這種高級編程語言
V3硬體效率之所以比Meta高出10倍
關鍵在於V3針對自己需求把132個流式多處理器（SMs）中的20個修改成負責服務器間通信
而不是計算任務
變相繞過了硬體對通信速度的限制
這點是用輝達的PTX實現的,不是CUDA
雖然DeepSeek把優化做到極致
然而同行表示
DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU
針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work

繼續閱讀

[新聞] 阿里巴巴發佈人工智慧模型稱超越 DeepSeAngels5566 [新聞] DeepSeek涉不當獲取OpenAI數據？微軟調查sunbysea Re: [討論] 台灣為什麼搞不出DeepSeek?ggian123 Re: [討論] 台灣為什麼搞不出DeepSeek?nfish Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSeeKanzakiHAria Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSeesxy67230 [新聞]不，你無法用 600 萬美元複製一個 DeepSeepl132 [新聞] 美海軍開出第1槍！全面禁止使用DeepSeekboards [討論] AI京劇矽谷驚雷youtien [新聞] 除夕夜驚傳竹科瞬間壓降工程師嚇到拋下qazxc1156892