[情報] NV發佈Tesla V100:Volta架構 5120個CUDA

作者: KotoriCute (Lovelive!)   2017-05-11 02:46:09
Nvidia發佈Tesla V100計算卡:Volta架構,恐怖的5120個CUDA
http://www.expreview.com/54059.html
昨晚NVIDIA CEO黃仁勳在GTC 2017大會上發佈了基於Volta架構的旗艦計算卡 Tesla V100
,為了應付日益龐大的AI以及高性能計算需求,Tesla V100擁有超越上一代的5120個CUDA
單元,並且增加能提高深度計算性能的Tensor單元,因此電晶體數目足足有210億之多,
核心頻率為1455MHz ,16GB HBM2顯存,浮點性能更是達到單精確度浮點15 TFLOPS,雙精
度浮點7.5 TFLOPS。
對比上一代Tesla P100,Tesla V100最大變化就是增加了與深度學習高度相關的Tensor單
元,Tensor性能可以達到120 TFLOPS;而且CUDA數目暴增,由3584個增至5120個,增長了
42%;全新的台積電12nm FFN工藝 製造有史以來最大的815mm2 GPU核心(16nm的第四代改
良版本,更高的電晶體密度,更低的功耗;管中窺豹,估計Volta遊戲卡都是使用這個工
藝了);雖然依然是4096bit 16GB的HBM2顯存,但是頻寬已經Tesla P100 720GB/s提升至
900GB/s水準。
除了CUDA單元數量增加,Tesla V100為了更好提升高性能計算,繼續增加二級緩存及寄存
器大小,L2緩存由Tesla P100的4096KB增加到了6144KB,每組SM單元的寄存器檔案大小總
數從14336KB增加到了20480KB。
NVIDIA計算卡專享的NVLink是一種高頻寬的互聯技術,能夠在CPU-GPU和GPU-GPU之間實現
超高速的資料傳輸。 誕生之初就獲得傳統PCIe 3.0 5-12倍的資料傳送速率,還能大幅提
升應用程式的處理速度。 現在NVIDIA將其提升至300GB/s水準,當然了這個技術主要還是
用在高性能計算上,估計不會下放至遊戲卡上。
http://img.expreview.com/news/2017/05/11/Tesla-V1003.jpg
Tesla V100架構:
6組GPC單元,每組GPC單元由14組SM單元構成,滿血版應該是6 x 14 = 84組SM單元,但
Tesla V100只有80組,每組SM單元64個CUDA單元,因此共同構成80 x 64 = 5120個CUDA單
元。 每組SM單元中,FP32:FP64:Tensor單元比例為8:4:1。
http://img.expreview.com/news/2017/05/11/NVIDIA-Volta-GV1001.png
http://img.expreview.com/news/2017/05/11/tesla%20v1002.jpg
那麼問題來了,強大如斯的Tesla V100究竟用在哪裡? NVIDIA表示將會率先更新用於深
度學習超算DGX-1上,內部同樣集成了8張Tesla V100,提供960 TFLOPS Tensor深度計算
性能,能夠在8小時完成TITAN X需時8天的計算量,極大地節約科研人員等待深度計算結
果時間。 就當然啦,擁有8張真·核彈的新DGX-1售價並不便宜,149000美元。
作者: jakechen1027 (小傑克)   2017-05-11 02:59:00
Tesla P100 今年Q1才賣,現在發佈V100
作者: jbuilder1022 (jbuilder)   2017-05-11 08:10:00
作者: david7112123 (Ukuhama)   2017-05-11 11:05:00
漏尿QQ好可怕~
作者: jakechen1027 (小傑克)   2017-05-11 11:27:00
不過V100會不會和P100一樣等一年多後才正式上架?Pascal一開始也是供應GP104給遊戲卡,完整核心的GP100計算卡和GP102後期才上。
作者: juiclykiller (松山鬼見愁㊣抖M抖M)   2017-05-11 12:25:00
amd被cuda打到黏在牆上 好口憐

Links booklink

Contact Us: admin [ a t ] ucptt.com