特斯拉設計自主晶片D1與超級電腦Dojo成為未來利器 往高度整合的商業模式前進
https://bit.ly/2WelEaQ
特斯拉為了持續往垂直整合的商業模式前進,於特斯拉人工智慧日(Tesla AI Day)發布了
一款客製化晶片D1,可用於數據中心訓練人工智慧網路。D1完全由特斯拉內部設計,該公
司正在使用該晶片來運行其超級電腦Dojo。
D1支持FP32、BFP16(又名bfloat16或大腦浮點)和一種稱為CFP8(可配置FP8)的新格式
。針對機器學習工作負載進行了優化,且D1(由354個訓練節點組成)採用7奈米製程製造
,在僅僅645平方毫米面積下,包含500億顆電晶體,使其不但具有GPU等級運算能力,也
具備CPU級靈活性。
特斯拉非常重視整個硬體的模組化。所以D1的每個側邊都配備了4TBps的片外頻寬(
off-chip bandwidth),允許它在不犧牲速度的情況下連接到其他D1晶片並與其他D1晶片
一起擴展。
下一步是特斯拉的“訓練圖塊(training tile)”,這是一個小於1立方英呎的楔形塊,
包含25顆D1晶片。訓練圖塊的運行類似於晶片本身的模組化方式:電源和冷卻通過圖塊的
頂部進行,允許其四個側邊配備專為最大頻寬設計的高輸出連接器。
超級電腦Dojo絕對是特斯拉人工智慧日的最大看點,採用了創新的架構,將運算力分佈在
複雜的網路結構中,實現了極高的運算力、高頻寬、低延遲的網路吞吐量。其擁有120個
訓練單元、3000顆D1晶片、超過100萬個訓練節點的機櫃模型ExaPOD。
從內涵來看,每顆D1晶片提供22.6 teraflops的FP32性能,每個訓練圖塊將提供 565
teraflops,每個機櫃(包含12個圖塊)將提供6.78 petaflops。這意味著僅一個ExaPOD
將提供67.8 FP32 petaflops的最大理論性能,所以其BF16/CFP8運算力高達1.1 EFLOPS。
從以上來看,Dojo有望成為全球最強大的超級電腦之一。在相同功耗下,Dojo超級運算比
現有電腦性能提升4倍、效能提升1.3倍、碳足跡只有原來的1/5。未來特斯拉還計畫將下
一代Dojo性能再提升10倍。
至於與硬體相匹配的,還有特斯拉針對性開發的分散式系統DPU(Dojo Processing Unit
)。DPU是一個視覺化交互軟體,可以隨時根據要求調整規模,高效地處理和運算,且進
行數據建模、儲存分配、優化佈局、分區拓展等任務。
總之,Dojo不僅是特斯拉全自動駕駛系統的一項技術,而且還是先進駕駛輔助系統。這台
功能強大的超級電腦不是特斯拉獨享,將向其他汽車製造商和科技公司開放,將成為一項
新事業。馬斯克(Elon Musk)說,「Dojo應該明年(2022)就可運作」,這似乎是向英特
爾、輝達等公司宣戰。