目前確實打算等GTC 2020後再打算,因為只有一個月左右時間可能還能等
說一下目前做的功課
1. 參考 fo40225 大的文章決定除GPU部分的配置
#1SxhRJ80 (PC_Shopping)
2. Nvidia vGPU認證資料
要挑機器直接從當中挑就好了
https://www.nvidia.com/en-us/data-center/resources/vgpu-certified-servers/
Asus 不知道臺灣本部的情況如何,國外事業部的服務水準很鳥,客服根本聽不懂我們在說什麼
Cisco 價格太貴了,而且服務支援太麻煩了
Dell EMC 不理會我們,似乎是之前被放鳥太多次了,可以NVLink的只有1U機型
Huawei 不能出貨了
HPE 4U外的機器估價很慢,出貨太少的緣故吧。GPU一定要裝4塊才能出貨
Lenovo 機器是很便宜,但是全部都只能上Tesal T4也沒有NVLink
Supermicro 可以凸一下只安裝2 GPUs出貨
3. 數個效能評估文章
https://blog.exxactcorp.com/whats-the-best-gpu-for-deep-learning-rtx-2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
得出來的結論就是,論單一GPU,不考慮double precision(因為很少有用)
GPU Memory > Tensor core
4. NVLink
目前只有SXM form fator(板卡尺寸)才支援NVLink Hybrid Cube Mesh
也就是單個CPU上的GPUs之間都是用NVLink互相連接的,兩個CPUs上的GPUs是可以通過
有限通路的NVLink相互連接
而普通的NVLink只能兩個GPUs之間互相連接
至於能否變成Memory Pool或者利用複數GPUs的tensor core進行運算,我不確定效果
因為之前的機器配置的連接模式有問題
根據nVidia方面的說明,nccl能幫你完成這方面的工作,OpenMP也已經提供了相應的支援
不過具體使用方式,取決於你的training framework,例如Horovod 表示是可以支援多GPUs
分發,但是我還是不確定這部分的效果
5. Tesla VS Quadro VS Titan
其實沒有什麼可選的,只有那幾款Tesla才有採用SXM form factor
Titan系列的都不支援SR-IOV,如果想要VMware 下無修正使用(會損失效能),只能考慮
Tesla或Quadro
價格上來講,Tesla會比Quadro較優,Titan是CP值最高
: → hizuki : 但是Titan要三槽位很難插,只能找美超微定機器了? 04/18 14:36
: 推 atrix : Titan rtx 只占用雙槽,不會卡到第三槽。 04/19 00:20
: 散熱器會突來一點
: → atrix : 我晚點裝看看,我記得是不會卡到阿? 04/21 10:20
: → atrix : 是裝的下拉,不過多卡時,散熱就很緊 04/21 10:45
: → atrix : http://i.imgur.com/SY1vtWZ.jpg 04/21 10:45
更麻煩的是比如4U托架伺服器的槽位,估計只能勉強塞下,要拆掉散熱塑膠,
然後沒有地方給你安裝NVLink bridge
6. 結論
目前 US$ 20,000的預算是沒有辦法選支援NVLink hybrid cube mesh的機型的,
托架式的可能無法安裝NVLink bridge