Re: [心得] DS對晶片產業的影響

作者: neo5277 (I am an agent of chaos)   2025-01-29 01:23:07
先恭祝大家新年快樂,嘶嘶如意~~~
結論說在前頭
對硬體商尤其是Nvidia,短空長多。
對GG沒啥影響,硬體該用還是用。
某些有能力的代工廠,特別是做工業電腦的,有共同設計經驗的。
有機會吃到。
簡單有力一點可以說 這是AI的 IPHONE時刻
接下來就是發現誰是這個時代的 鴻海跟蘋概股
首先N不是只有顯卡跟伺服顯卡,DS最主要是提供一個更有趣的軟體架構。
他老東家是做AI投資的,對於把算力榨乾,(單一運算分散到算力叢集上的每個點
再回來,調教通訊,跟這種模型並行跟資料並行的它們玩的應該是滿熟練的
還有自己的演算法,基本上這就是有限利用算力的方法。)
某方便來說也算是被逼出來的軟體解,而且這種解法相當符合亞洲填鴨式教育精神。
對N來說,新的軟體架構,會讓他的算力可以有更大的發展,DIGITS如果運作良好
只要四台使用R1 的架構,針對資料做有意義的調整,一間中小型企業,或是稍微敢
花一點有技術能力的自然人就可以擁有一個 自己的地端AI,DIGITS還是可以堆疊的
一台不過定價台幣十萬,還有Jetson,軟體架構進化,跟優化,如果hugging face 上
openR1 專案又驗證順利的話,未來就是百花齊放,跟楊立昆說的一樣,這是開源的
勝利。 我自己本來的預想是 3-5年內 機器人社會會來臨。
現在,應該是三到五年內,稍微有點技術的人都可以做一個自己的賈維斯
而這些又會更加速,機器人,跟AI 還有VR的發展。 科技就是單點突破最可怕
突破以後,各種技術的疊加,加速會沒有辦法估算。
很多人只會想投資,跟地緣政治,但是其實站在人類歷史來看,這次的發展是很有趣的
也很好玩的一點是,這真的是因為民族性不同,所以歐美完全不會這樣思考。
這真的是亞洲的玩法XD
我自己覺得不用擔心算力過剩,這個軟體訓練架構不是只有LLM能用
只是LLM是目前最吸睛(金,各大廠商也最期待變現的,跟替自己臉上貼金(拉高估值
跟股價的原因,但今天DS就像是,超級賽亞人跳樓大拍賣。
所以,才會有急殺,因為你花600,2000訂gpt,我在local 本地端使用模型效果差不多
但是我只需要買兩張或是四張4090,或是50系列,甚至我花一百萬買十台DIGITS
串聯,然後從huggingface 上下載R1架構,用自己整理的資料集來微調或是
租卡訓練更別說,應該沒多久就會有各大廠商,推出自己的基於R1架構模型。
想想就興奮,現在關鍵點在於,針對既有資料數據集的優化,他做了哪些具體的事情
,還有他使用模型產出的有效回答數據有哪些特殊點。
搞定這兩塊,加上,進入MOE前的有效路由建立,跟基於資料還有模型的叢集分散式運算
算法流變掌握。 AI自由不是難事,當賽道大轉彎的時候,可以說是AI從server 端
轉向PC端的時刻,這時候你還會覺得N家跟GG會GG嗎? 那時候是一個真AIPC年代。
只是堆疊大數據算力中心的會吃虧而已,短期我覺得大家會不再競爭跟狂買。
但是會開始深化,跟縮小,加速軟體架構迭代。
底下比較偏技術,可以不看。
有別於歐美一堆AI模型是從零,訓練到有,DS要白話一點類比的話就是,先拿
別人訓練好的開源武功秘笈,針對這些資料及做特化的批註,精煉一批更準確的
資料,(參考書),然後透過MOE,把大模型拆出很多分門別類地專攻模型,然後開始
不停地自己做模擬考,也使用知識蒸餾,去濃縮跟自我訓練解題,經過精練的考前題庫
模擬考,讓他在回答問題的時候更得心應手,而且他的思維鍊的步驟也經過標記。
一般LLM是接龍這個大家應該都知道了,transfermer 多頭注意力,就專門在處理這個。
DS做法是,他把可能的接下去的詞語都先預設起來,他在處理的時候就可以不用全載入
記憶體跟從頭來過,多頭潛在注意力,還有針對問題,丟給適合的MODEL去解。
加上他有針對性的優化不是每次都是用FP32精度下去做,可見
它們真的走土炮路線而且有能力做了不少次優化,選擇最有效的去運用它們手上有的算力
這一堆架構設計微調,其實都不是太難,比較難地的是思路,當你是算力富翁的時候
你不會想要做這些事情,因為這要反覆折磨自己,但是當你只有有限的資源,你就會去
想各種奇技淫巧,這點真的是很亞洲,有種熟悉感XD
川普說得很好,給美國的AI圈一記當頭棒喝。
這個模式成功,大型AI數據中心就會慢慢成為過去,不再那麼重要,本地化個人化
將會來臨,對軟體來說有硬底子技術的人才,會更搶手,專注做ETL的資料工程師
會崛起,對硬體來說,DIGITS,jetson算是領先,有集成式,可以做得又快又好的
OEM,JDM,EMS 會大大地好。
你不能說他不厲害,他很有趣。
然後對於言論審查,我只能說今天這個軟體架構的思路大於他模型本身跟公司的價值
孔雀開屏的時候不要被教育成只看他的屁眼,而忘記她美麗的羽翼。
p.s.我自己是用一張 4070ti 跑14b 會比線上gpt快,我問她我一般工作
回應良好,我是軟體工程師。我很期待其他間用這個思路下去改造它們自己的開源模型

Links booklink

Contact Us: admin [ a t ] ucptt.com