前陣子自家公司GPU也不夠用了...在測試一堆想法時候 決定自掏腰包去租外面GPU
找了幾間像是 https://lambdalabs.com/ 結果...wtf 也是大爆滿
看了幾個AI論壇 一堆自行開發者都自己測試各種pretrained model的下游fine-tune
也是各種哀嚎搶GPU 以前這幫個人開發者在自己的RTX 就可以簡單測試 但現在的
LLaMA也好 Diffusion也好 越來越難在家用遊戲顯卡上跑
尤其這陣子流行Foundation Model 每個小測試GPU都要xN (N>16) 這種方式去train
對比幾年前一兩個GPU就能搞出點東西的時代過去了 現在就是萬物暴力解
CLIP這種東西甚至資料都高達數個TB 以後二線公司沒足夠GPU就是別想玩大模型設計
Pretrain/Foundation Model 全部只能做下游adapter 然後第三方或個人開發者
就可以拿這些fine-tune model 去設計自己需求 各種AI落地方案開始遍佈
然後這種大模型就是造就GPU極度缺乏!!!! 最近找遍各種第三方GPU租用計算之後
以及在內部公司 隨便丟個大模型測試 都要在自家公司上server排隊個三四天才能跑
第三方租用 我已經等了一個禮拜 根本排不到 甚至看了一下討論串 感覺一堆矽谷各公司
都在屯GPU https://shorturl.at/ouwMS https://udn.com/news/story/6811/7199315
上週的感覺真讓我想起2020 我那時候為了買個家俱 要等上半年以上..於是默默地
就繼續加碼三大股的其中兩個
如果蘇媽MI-300真的好用話 會一定分流 不過現階段H-100的優勢就是有Transformer
加速優勢(據說三倍加速以上) 而MI-300沒這優勢 尤其現在AI架構都是萬物Transformer
這波就是Transformer/Foundation Model+硬體暴力解 搭配Fine-Tune搞起AI流
(有興趣可以看FeiFei Li 那幫人對Foundation Model的預測和見解
https://arxiv.org/abs/2108.07258) 順帶一提Qualcomm這波完全選擇AI光譜的另一端
他們選走on-device路線 就是大模型對立面 大模型和on-device可以說是AI極大和極小
概念 看起來華爾街這幫人對on-device題材 完全不感興趣
老黃當年第一個提出GPU概念 從2000~2010 跟ATI每六個月增加硬體效能
互相硬體效能瘋狂對決 軍備競賽 帶動3D遊戲市場 感覺歷史又再一次循環...
https://www.youtube.com/watch?v=BlI9PVQA8ZA
然後以後人類的用途就是去當電池了QQ 這波AI繼續搞下去 以後一定缺電