※ 引述《yoyoruru (哇系笨阿佑)》之銘言:
: 一張 A100,大概1萬鎂
: 算算就一個電影動畫師的平均月薪
: 買來玩個一年
: 「很貴嗎?」
我還覺得底層是跑 Unreal engine 跑出來的
應該有人在朝這方向做了
如果是產生的我只能說,失誤率太高沒有必要
看起來很炫但是不實用
看大家興奮成那樣我也是黑人問題,妥妥的炒股
比起來,Nvidia 前架構師離職這篇論文才更有意思
https://www.facebook.com/nanzong.chen/posts/
pfbid026y5WwQRz2tvCcAG5jTWiFAbcyqLv3CFU92vTBZHPrSZXhuWg3fmaXxiPGv6yyjjml
(接成一行, 懶得縮了)
加州理工學院(Caltech)的布倫教授(Bren Professor)
「我們首次證明,LLaMA 7B可以在僅具有24GB記憶體的單一消費級GPU(RTX 4090)上
進行預訓練(不是微調!)。這意味著訓練期間用於儲存優化器狀態的記憶體減少
了82.5%以上。」
這個才是大新聞,降低大語言模型 training 的記憶體使用量
大家算大語言模型的成本大幅降低