※ 引述《z1976 (z1976)》之銘言:
: 本來標題想寫謠言的,但有些部份可能只是基於對技術名詞不熟悉產生的誤解,我姑且不
: 假設發佈源頭是有意為之
: 誤區1:DeepSeek和微軟、NVIDIA、HuggingFace等公司合作
: DeepSeek是MIT Licence的開源軟體,簡單說就是可以修改及商用的,它所謂的開源包含
: 訓練程式碼和權重,那些雲端服務公司拿開源的DeepSeek上架到他們的服務平台,使用者
: 可以將DeepSeek部署到自己的應用中,這樣算不算一種「合作」,我覺得2:8吧,但我問
: 了Copilot它是說不算啦
: https://i.imgur.com/hz2gtdN.jpeg
: 同樣問題我拿去問DS-r1,它直接說沒合作,但由於DS現在不能聯網搜索最新資訊所以就
: 不參考它的答案
: 不過這些公司在發佈時都有稱讚DeepSeek的「優秀」,這不容否認
: 誤區2. DS用PTX語言開發可以繞過CUDA
: 其實任何演算法本來就可以不用cuda,那為何要讓「繞過CUDA」聽起來像一種魔法?我就
: 不說了
: DeepSeek 透過 PTX 語言直接呼叫 GPU 硬體資源,是基於直接實現工程師的想法而跳過
: 編譯器的決策,但這並不代表沒有用到CUDA硬體。相反地,你寫越多PTX代碼反而越依賴
: 於輝達的硬體而增加移植的難度
小弟是擔任10年資歷以上的韌體工程師,所以對於這討論很有感:
我剛好也學過一點AI CUDA等東西,那我會把PTX跟CUDA做以下的類比
CUDA: C++ Python等高階語言
PTX: 組合語言
我以前在學組合語言的時候就發現,組合語言開發出來的程式就會比c++小很多,
而且執行速度更快,但缺點就是很難維護,只要有一個 bug出現,就要有de到死
的心理準備,而且很難移植到其他的硬體平台。
譬如x86的組合語言就跟Arm的組合語言不一樣,簡單上來說,在x86上面開發的組合語言
是沒有辦法在Arm的機器上面跑。
現在很多人說 DeepSeek繞過了CUDA, 所以不必被Nvidia綁死,我看了其實滿腦的黑人問
號。DeepSeek這樣搞,就更只會被Nvidia綁死,因為根本無法移植到non-Nividia的
機器跑,但是這樣做確實有好處,因為在現實的軟體開發工作中,如果要拚效率的話
有時在c++的程式碼裡面會內嵌組合語言,呼叫特定的指令集(instrunction set)
來加速運算效率。
我曾經寫過一個程式是跑fft的,如果只是單純用CPU來跑的話,可能
需要10 ms左右,但如果使用intel裡面支援的dsp instruction來寫的話,可以快到1~2
ms,
所以至少是快5倍以上,但這程式要移植到Mac上面去,那就要整個重寫,
因為Mac上面支援的dsp instruction set跟intel就是不一樣。
: 誤區3. 高階晶片將無用武之地
: 無論是在DS出現之前還是之後,高階和低階 GPU 都能執行 AI 運算,但差異在於運算速
: 度和效率。
: DS的出現或許一定程度的削弱了AI先驅者(OpenAI等) 的壟斷地位,但不能保證未來各公
: 司還是會繼續在硬體資源上競逐,畢竟預算充足下誰不想要更快?
: 另外以前就有一些分析以「租用」的角度來比較,高階GPU不僅更快達成目標,還省下以
: 時間計費的租金成本。
高階gpu拿來跑訓練還是有必要的
沒辦法,當你要跑大資料的模型訓練的時候 ,高階的 gpu就真的很重要,
deepSeek的出現可以在終端上跑推理,也許不需要高端的gpu,但是要訓練出
deepseek那樣的模型,高階的GPU應該還是少不了的
大概是這樣