Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成 s213092921 PTT批踢踢實業坊

Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成

作者: s213092921 (麥靠貝) 2025-01-31 14:55:07

《轉載》
網路上傳deepseek繞過了輝達cuda，我跟大家講一下deepseek到底做了什麼。
輝達嚴格來說是一個平台性公司，並不止是硬件，硬件只不過是一個載體，它的護城河是cuda計算平台，所有高性能並行計算的祖師爺，只要你用輝達的顯卡做高性能計算，就要透過cuda計算平台。
你說用AMD的顯示卡，嗨，它沒有生態呀，就像android和windows phone那麼大的差別。你買蘋果手機，不是買的硬體，而是IOS整個生態，這個生態也是用戶黏性的核心，cuda也是如此，你搞高效能運算，週邊的配套生態工具都是cuda的，你總不能自己再開發一套出來，就像你一個開發電商的會去再造個JAVA的輪子嗎？輝達打來十年的領先時間。所以各大公司都被英偉達狂宰，有苦難言。
總之一句話，英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態，你想寫個demo用啥都行，你想上生產除了輝達別無選擇，這就是過去十年AI圈的現實，天下苦達子久矣。
Deepseek開源以後利用Meta二十分之一的成本，完成了比Meta性能好十倍的大模型，達到了與全球領先chatgpt最新版本相當的實力。
Deepseek不僅公佈了開源了程式碼，公開了測試方式與數據，還發表了全新架構的論文，這相當於一把梭了。
各路人馬一開始不相信，然後開始扒deepseek，用deepseek的源代碼，測試數據，樣本等可以完全復現一次deepseekR1的訓練過程，成本就是那麼低，這讓所有人都閉嘴了。
有點從不服的心態變成你是挺牛逼的意思了，接著研究細節，然後從論文中發現了deepseek改造了輝達底層的cuda生態，用比cuda更底層的ptx語言重寫了cuda的硬件邏輯，讓其中有20個流處理器硬體做了CUDA規定以外的事，彌補了閹割版顯示卡在網路通訊上的不足，相當於繞過輝達的管理平台與運算生態，直接給輝達的硬體發號施令。
這是英偉達股價崩盤的核心邏輯，輝達的最大護城河讓人挖開了一個洞。輝達是個霸氣十足的太歲，如今deepseek在太歲頭上動土了。
deepseek可以這麼做，就代表別人也可以這麼做。有人問了那之前沒人能想到嗎？
這個問題很好，之前一定有大神想過，但是有很多問題導致無法實現。一是在大模型剛出現的時候一片藍海，大家空間無限大，都在忙著攻城略地，速度和效率是最大優先級，沒人給你時間去搞底層語言編程這玩意，特別是美國人，花錢能解決的事不叫問題，不就是美元嘛，印就完了，錢有得是，輝達的顯卡隨便買，誰腦子有洞給自己找麻煩？
中國不一樣，被美國制裁只能用閹割卡，還不能隨便買，資源極度匱乏，必須用最小的硬體壓榨出最大的性能出來，只能劍走偏鋒。所以用ptx繞過cuda這件事只會發生在中國，不可能發生在美國，邏輯不允許
第二點是大語言模型的發展進入了一個全新的時期，工作效率理解力推理能力精度都有了質的飛躍，deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作，這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言，如果用真人寫，以現在的資料量累死也寫不完，但是AI它效率高呀，怎麼寫也不累…
輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動，但顯然他們還沒找到答案。誰能想到AI的教宗竟然被AI給革了命，這找誰說理去。
我再強調一遍，國運，不在於人，而在於勢，美國的勢沒了，這才是最恐怖的。
小結：Deepseek好像用自家模型完成PTX的工作量

繼續閱讀

[問卦] 幹你娘老人真的好臭jumpjumpp [問卦] 有人上過中壢舊車站的廁所嗎romdan [新聞] 立法院大嘻哈　吳沛憶、蘇巧慧、邱議瑩、taiwan08 [問卦] 華妃不要那麼皮能活到最後嗎？GGININDER4NI [問卦] 台灣濕冷是新手村難度？OrcDaGG [問卦] 網路對養小孩花費越來越豪洨？DarkKnight [問卦] 有沒有中國人他媽的不抽菸會死的八卦？tom86814 [問卦] 跟對人是不是可以無罪？Lineage097 [新聞] 宜蘭走春車禍一死四傷！疑後車未減速追撞g01794827 [問卦] 出國去四國東北北陸山陰對吧？InfoWars