nVidia 新 GPU 架構 Volta 發表,為人工智慧注入一針強心劑
http://imgur.com/8v1iww9
今年的 GTC 2017(GPU Technology Conference 2017)中,Nvidia CEO 黃仁勳帶來了全
新的 GPU 架構 Volta。1.5 倍的雙精度浮點數計算效能提升,以及採用特化架構所帶來
的 12 倍人工智慧計算效能提升,為計算市場帶來震撼的消息。
Nvidia 在 2016 年的 GTC 中,便發表了新的 GPU 架構 Pascal。其中,讓人印象最深刻
的,莫過採用 8 張 Tesla P100 的人工智慧訓練機 DGX-1。一台機器便帶來以往需要數
台伺服器才能達到的效能,為人工智慧發展帶來新氣象。
然而,短短的一年間,Nvidia 又帶來新消息──新的 GPU 架構 Volta。強悍的 R&D 團
隊,將其主要競爭對手遠遠拋在後頭。同時,也讓世人見識到,在後莫爾定律的年代,
GPU 將承接 CPU 的發展速度,推進電腦的計算效能。
新技術突破,奠定 Volta 於人工智慧的王者之姿
這次 Volta 架構帶來數個新技術。 其中,最重要的莫過 Tenser Core。其他還有細部硬
體架構調整、第 2 代 NVLink 以及新軟體支援,讓 Nvidia 在人工智慧領域扮演領導者
。
首先,從硬體架構來看,這次 GPU 架構和前一代 P100 相比,V100 將整數計算單元和浮
點數計算單元獨立出來,讓整數計算和浮點數計算可同時運行,物盡其用。此外,每個
SM(Streaming Multiprocessor)中新增 8 個 Tensor Core,讓 Volta 帶來 12 倍的
訓練提升以及 6 倍的決策加速。
http://imgur.com/IK6a0Za
究竟 Tensor Core 是如何運作的呢?首先,假設我們要求解兩個 4×4 矩陣相乘再加上
一個 4×4 矩陣,如下圖,那將會產生 4×4×4 個乘法計算需求。在採用 Tensor Core
之前,需要執行 4 次 4×4 矩陣相乘並相加,相當花時間。
在新 Tensor Core 中,由於一個 Tensor Core 是 4×4×4 的特化計算元件,讓 GPU 可
同時執行 4×4×4 個矩陣相乘並相加,如下圖所示。藉此達到更多計算加速。這就是
Nvidia 對人工智慧所發展的殺手鐧。
http://imgur.com/8p9MvcJ
新舊架構比一比,效能三級跳
那麼 Volta 和 Pascal 究竟有什麼差異呢,就讓我們攤開所有細節來比一比吧!
http://imgur.com/0wSP5Wg
https://goo.gl/1EjFPC
有種AMD不只是車尾燈看不到的感覺 還被耀眼的光芒閃的不要不要的