這我來回答吧
AI晶片一般是指用來加速深度學習模型推理的晶片
如果是訓練通常還是利用Gpu 因為生態系比較成熟
那麼深度學習推理時間會耗在哪裡呢
通常就是convolution 或是Gemm
當然convolution 可以透過線性代數幾次的轉換
變成gemm 這也是一門學問
所以矩陣相乘等於是最重要的運算了
你只要能加速這麼簡單的東西
就能號稱你在做AI晶片了
不斷的堆硬體上去 性能就出來了
甚至有些公司走火入魔
連非矩陣運算的指令都做了
因為深度學習的模型越來越大
所以並行去運算矩陣相乘就是很重要的事了
你的硬體並行時 耗電跟降頻做得夠好的話
就能有點能見度了 現在中國的新創沒有一家做到的
所以就有一些人腦袋動到光計算上面
訊號轉成光能計算 算完再轉回電
但這非常的不穩定 基本上也是不可能回收成本
好了 你說這麼簡單的話 那也很容易啊
然而 深度學習在運行過程中 還有一個很大的耗損
就是算子與算子之間的資料傳輸
用硬體加速過後 每個算子的時間大幅縮短
但是彼此之間的memory copy仍然耗損嚴重
於是cache或是local memory變的異常重要
算子與算子之間的fusion做得好
搭配上速度夠快又大的memory基本上也很厲害了
中國那一堆新創耗電降頻不行
現在就往這方向拼命做
那麼AI晶片前景怎麼樣呢
老實說 前景是死路一條
CPU GPU 大公司都在從自家指令來優化模型
或是直接配上特殊資料格式 如tf32 fp8
華為的c4比起來就是個花拳繡腿 還推行不起來
我現在底下50多人就在做未來的方向
從模型優化演算法 記憶體策略 框架
到底層assembly加速 完整的一套方案
如果你有關注一些新的paper
優化到最後 對比常用硬體 AI晶片根本沒有優勢
就像挖礦沒有收益時的礦機一樣
純電子垃圾
※ 引述《QQmickey》之銘言
: 雖然從新聞上看到 三星已經出了 不知道是不是唬爛的
: 自己也是理工背景 但是想問科技版的大大們
: 這是真的嗎?
: 我所學的 覺得不太可能
: 雖然很多事很難講 已知用火
: 諾貝爾物理獎也一堆錯的
: 難道是神學