[新聞] 特斯拉設計自主晶片D1與超級電腦Dojo成為 zxcvxx PTT批踢踢實業坊

[新聞] 特斯拉設計自主晶片D1與超級電腦Dojo成為

作者: zxcvxx (zxcvxx) 2021-08-23 13:13:40

特斯拉設計自主晶片D1與超級電腦Dojo成為未來利器往高度整合的商業模式前進
https://bit.ly/2WelEaQ
特斯拉為了持續往垂直整合的商業模式前進，於特斯拉人工智慧日(Tesla AI Day)發布了
一款客製化晶片D1，可用於數據中心訓練人工智慧網路。D1完全由特斯拉內部設計，該公
司正在使用該晶片來運行其超級電腦Dojo。
D1支持FP32、BFP16（又名bfloat16或大腦浮點）和一種稱為CFP8（可配置FP8）的新格式
。針對機器學習工作負載進行了優化，且D1（由354個訓練節點組成）採用7奈米製程製造
，在僅僅645平方毫米面積下，包含500億顆電晶體，使其不但具有GPU等級運算能力，也
具備CPU級靈活性。
特斯拉非常重視整個硬體的模組化。所以D1的每個側邊都配備了4TBps的片外頻寬（
off-chip bandwidth），允許它在不犧牲速度的情況下連接到其他D1晶片並與其他D1晶片
一起擴展。
下一步是特斯拉的“訓練圖塊（training tile）”，這是一個小於1立方英呎的楔形塊，
包含25顆D1晶片。訓練圖塊的運行類似於晶片本身的模組化方式：電源和冷卻通過圖塊的
頂部進行，允許其四個側邊配備專為最大頻寬設計的高輸出連接器。
超級電腦Dojo絕對是特斯拉人工智慧日的最大看點，採用了創新的架構，將運算力分佈在
複雜的網路結構中，實現了極高的運算力、高頻寬、低延遲的網路吞吐量。其擁有120個
訓練單元、3000顆D1晶片、超過100萬個訓練節點的機櫃模型ExaPOD。
從內涵來看，每顆D1晶片提供22.6 teraflops的FP32性能，每個訓練圖塊將提供 565
teraflops，每個機櫃（包含12個圖塊）將提供6.78 petaflops。這意味著僅一個ExaPOD
將提供67.8 FP32 petaflops的最大理論性能，所以其BF16/CFP8運算力高達1.1 EFLOPS。
從以上來看，Dojo有望成為全球最強大的超級電腦之一。在相同功耗下，Dojo超級運算比
現有電腦性能提升4倍、效能提升1.3倍、碳足跡只有原來的1/5。未來特斯拉還計畫將下
一代Dojo性能再提升10倍。
至於與硬體相匹配的，還有特斯拉針對性開發的分散式系統DPU（Dojo Processing Unit
）。DPU是一個視覺化交互軟體，可以隨時根據要求調整規模，高效地處理和運算，且進
行數據建模、儲存分配、優化佈局、分區拓展等任務。
總之，Dojo不僅是特斯拉全自動駕駛系統的一項技術，而且還是先進駕駛輔助系統。這台
功能強大的超級電腦不是特斯拉獨享，將向其他汽車製造商和科技公司開放，將成為一項
新事業。馬斯克（Elon Musk）說，「Dojo應該明年(2022)就可運作」，這似乎是向英特
爾、輝達等公司宣戰。

繼續閱讀

[討論] 關於薪資的問題，以我在研華為範例stockeye [討論] 請教粗振化 (轆化)peilovepapa [新聞] 竹科鍍金只輸台北新竹平均每戶家庭年收Reewalker Re: [討論] 學歷很好不愛加班在科技業混得下去嗎type1 [新聞] 科學園區帶動房價　竹科只排第二！「它」NoAfraid [新聞] 放棄年薪百萬！工程師轉戰國營曝現況：活著不只為工作AAAB Re: [討論] 學歷很好不愛加班在科技業混得下去嗎Surrounder Re: [討論] 學歷很好不愛加班在科技業混得下去嗎jamtu [請益] Monthly Report 的撰寫lucier [閒聊] 關於FQX Factory 調薪/年終/工作氣氛等leouni