Re: [新聞] 跳過 CUDA,Deepseek 用精細的 PTX 寫成

作者: s213092921 (麥靠貝)   2025-01-31 14:55:07
《轉載》
網路上傳deepseek繞過了輝達cuda,我跟大家講一下deepseek到底做了什麼。
輝達嚴格來說是一個平台性公司,並不止是硬件,硬件只不過是一個載體,它的護城河是cuda計算平台,所有高性能並行計算的祖師爺,只要你用輝達的顯卡做高性能計算,就要透過cuda計算平台。
你說用AMD的顯示卡,嗨,它沒有生態呀,就像android和windows phone那麼大的差別。 你買蘋果手機,不是買的硬體,而是IOS整個生態,這個生態也是用戶黏性的核心,cuda也是如此,你搞高效能運算,週邊的配套生態工具都是cuda的,你總不能自己再開發一套出來,就像你一個開發電商的會去再造個JAVA的輪子嗎? 輝達打來十年的領先時間。 所以各大公司都被英偉達狂宰,有苦難言。
總之一句話,英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態,你想寫個demo用啥都行,你想上生產除了輝達別無選擇,這就是過去十年AI圈的現實 ,天下苦達子久矣。
Deepseek開源以後利用Meta二十分之一的成本,完成了比Meta性能好十倍的大模型,達到了與全球領先chatgpt最新版本相當的實力。
Deepseek不僅公佈了開源了程式碼,公開了測試方式與數據,還發表了全新架構的論文,這相當於一把梭了。
各路人馬一開始不相信,然後開始扒deepseek,用deepseek的源代碼,測試數據,樣本等可以完全復現一次deepseekR1的訓練過程,成本就是那麼低,這讓所有人都閉嘴了。
有點從不服的心態變成你是挺牛逼的意思了,接著研究細節,然後從論文中發現了deepseek改造了輝達底層的cuda生態,用比cuda更底層的ptx語言重寫了cuda的硬件邏輯,讓其中有20個流處理器硬體做了CUDA規定以外的事,彌補了閹割版顯示卡在網路通訊上的不足,相當於繞過輝達的管理平台與運算生態,直接給輝達的硬體發號施令 。
這是英偉達股價崩盤的核心邏輯,輝達的最大護城河讓人挖開了一個洞。 輝達是個霸氣十足的太歲,如今deepseek在太歲頭上動土了。
deepseek可以這麼做,就代表別人也可以這麼做。有人問了那之前沒人能想到嗎?
這個問題很好,之前一定有大神想過,但是有很多問題導致無法實現。 一是在大模型剛出現的時候一片藍海,大家空間無限大,都在忙著攻城略地,速度和效率是最大優先級,沒人給你時間去搞底層語言編程這玩意,特別是美國人,花錢能解決的事不叫問題,不就是美元嘛,印就完了,錢有得是,輝達的顯卡隨便買,誰腦子有洞給自己找麻煩?
中國不一樣,被美國制裁只能用閹割卡,還不能隨便買,資源極度匱乏,必須用最小的硬體壓榨出最大的性能出來,只能劍走偏鋒。 所以用ptx繞過cuda這件事只會發生在中國,不可能發生在美國,邏輯不允許
第二點是大語言模型的發展進入了一個全新的時期,工作效率理解力推理能力精度都有了質的飛躍,deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作,這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言,如果用真人寫,以現在的資料量累死也寫不完,但是AI它效率高呀,怎麼寫也不累…
輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動,但顯然他們還沒找到答案。 誰能想到AI的教宗竟然被AI給革了命,這找誰說理去。
我再強調一遍,國運,不在於人,而在於勢,美國的勢沒了,這才是最恐怖的。
小結:Deepseek好像用自家模型完成PTX的工作量

Links booklink

Contact Us: admin [ a t ] ucptt.com