[問卦] Amazon,M$和Google的線上容器服務方案?

作者: ruthertw (小葉老大)   2022-07-20 21:09:12
大家都知道實驗室的經費,
都用在刀口以下...
雖然Nvidia 30系列顯卡目前已經有了幾波大降價,
可是教授在礦場巔峰時期,
花了太多錢跟板商買了一些顯卡白牌機.
顯卡又常常被學生們自以為是組裝高手,
胡亂抽插拔,
所以常常突然故障,
送回維修往返又非常浪費時間.
有位博班學生很白目,
看到最近大降價就高潮了,
他興沖沖帶著碩班學弟妹去跟教授討新設備.
這隻博班一開口就說阿顯卡價格已經減半,
所以要討20幾張新的Nvidia 30頂卡...
阿他真TMD白癡,
他明明知道還有好幾張舊顯卡還在原廠維修沒回來耶...
結果可想而知,
於是教授一氣之下,
要求大家先都改成雲端運算.
簡言之,
叫獸要求每隻菸酒生,
都要交出自己選擇Amazon,M$和Google的線上容器服務方案.
考量如下:
訓練資料量頗大,
隨隨便便從2萬多張高解析度圖片起跳,
RAM大概需要512GB.
單一容器需要多張卡做多倍的加速,
被教授操,需要實作多種模型,
所以必會用到半精度fp16訓練(AMP),
也需要單精度fp32,雙精度fp64,混合精度等.
使用單張Nvidia 30頂卡,
訓練需要2個禮拜多...
串兩張,
也需要約1個禮拜.
之前有榮幸能使用A100頂規,
訓練也需要大概1天多.
而這週,
該主機已被學弟妹們切割成只能使用1/10了!
所以變得超級難用.
關於Amazon,M$和Google的線上容器服務方案的選擇.
有掛?

Links booklink

Contact Us: admin [ a t ] ucptt.com