※ 引述《ynlin1996 (.)》之銘言:
: 原文標題:
: AI晶片競爭開跑,谷歌公布第四代TPU,宣稱比輝達A100晶片更快更節能
: 原文連結:
: https://bit.ly/3meYAG8
: 發布時間:
: 2023.4.6
: 記者署名:
: 茋郁
: 原文內容:
: 谷歌於2023年4月5日公佈了其用於訓練AI模型的超級電腦的新細節,稱該系統比輝達的同類型系統A100更快、更節能。雖然現今大多數涉足AI領域的公司的處理能力都來自輝達的晶片,但谷歌設計自己客製化晶片Tensor Processing Unit(TPU)期望能夠推動其在AI研究。
: 谷歌是在COVID-19大流行高峰期間宣布了其Tensor晶片,當時從電子到汽車的企業面臨晶片短缺的困境。由於谷歌看到蘋果在客製化晶片的投入,幫助了iPhone以及其他產品的開發。因此最初該晶片是為其Pixel智慧型手機提供動力,可是歷經幾年之後,谷歌將TPU延伸至更多領域,可見得其開發方面取得了長足的進步。
: 如今谷歌90%以上的AI訓練工作都使用這些晶片,即通過模型提供數據的過程,使它們在諸如類似人類的文字查詢或生成影像等任務中發揮作用。
: 谷歌TPU現在已經是第四代了。之所以世代晶片發展那麼迅速的關鍵在於,谷歌使用AI來設計其TPU晶片。谷歌聲稱,與人類花費數月時間設計晶片相比,使用AI設計晶片僅需要6小時即可完成設計過程。
: 一旦採用AI設計晶片,產品迭代都在迅速發生,這就是TPU進入第四代的原因。未來隨著生成式AI的快速發展,將造成大型語言模型的規模呈現爆炸式成長,這意味著它們太大而無法儲存在單顆晶片上。所以谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起成為一台超級電腦,以幫助連接各個機器。此外,微軟也是將晶片拼接在一起以滿足OpenAI的研究需求。
: 谷歌指出,PaLM模型——其迄今為止最大的公開披露的語言模型——通過在50天內將其拆分到4,000顆晶片超級電腦中的兩個來進行訓練。更重要的是,其超級電腦可以輕鬆地動態重新配置晶片之間的連接,有助於避免出現問題並進行調整以提高性能。
: 谷歌除了自己使用TPU之外,一家新創公司Midjourney使用該系統訓練其模型,該模型在輸入幾句文字後即可生成新影像。
: 可是谷歌並沒有將其第四代晶片與輝達目前的旗艦H100晶片進行比較。谷歌暗示它可能正在開發一種新的TPU,它將與輝達H100展開競爭。
: 總之,隨著生成式AI的崛起,AI晶片的開發腳步將成為下一個廠商積極介入的領域,以搶奪未來商機。
: 心得/評論:
: Google公布第四代TPU,並宣稱比NVIDIA A100更快更節能,其客戶Midjourney利用TPU訓練其模型再輸入文字後生成圖片。
周末下班閒聊,
發現tech版沒有這篇文章,
那就在這裡討論好了,
其實我說的東西都是網路 google+wiki 就有的東西,
先簡單說明一下現代化的ML DeepLearning的基本概念,
其實就是用暴力法把整個model 放進去 GPU/TPU 裏頭training/inference,
這會有兩個最大的限制,
硬體速度跟GPU/TPU記憶體容量,
硬體太慢跑不動或跑太久,
GPU/TPU記憶體容量太小的話是連跑都不能跑,
我幾年前在板上分享的TQQQ DeepLearning 預測股價的模型,
需要8GB 的 GPU VRAM
維基小百科之後就回到主題: ChatGPT,
目前所有的聊天機器人模型通通都是LLM,
https://en.wikipedia.org/wiki/Wikipedia:Large_language_models
GPT-3 需要VRAM 175GB,
股歌微軟OpenAI 這幾家的模型一定遠遠超過這個大小,
大上數百倍都有可能,
我是做硬體晶片的,
不要問我model 這塊的問題,
所以現在這些聊天機器人模型最大的問題是整個系統無法塞下model training,
所以這篇文章的重點在這句話:
"谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起",
只能這麼做才有辦法塞下這麼大的model training,
Nvidia 也有類似的技術叫做 NVLink,
可以把電腦上數個Nvidia 顯卡串聯運算,
但是如果模型大到一台電腦顯卡全部插滿都塞不下運算的話,
我就不知道Nvidia 如何解決,
但是我相信Nvidia 一定有解決的方法
所以現在問題已經提升到整個系統端,
而不是我的晶片跑多快這麼簡單的問題,
軟體跟模型要如何切割如何分配塞入多台超級電腦,
硬體方面如何塞入最大的模型做運算
說個題外話,
我幾年前做了一個project, AI 晶片與系統研發的project,
最近拿到公司的大獎,
不是新聞這個TPU,
我跟開發model 的對口同事討論過,
是否能夠拿我們開發的這個系統來跑Chat model,
得到答案是否定的,
至少現階段還無法做到,
原因很簡單, VRAM 不夠大, 塞不下model,
但是他們model 部門也有在想辦法要細切 model 看可不可以塞進去這個系統,
所以速度已經不是最重要的考量了,
至於速度,
兩年前應該是全世界最快的晶片+系統,
可惜 VRAM 不夠大,
原本運用方向就不是要做chat