https://bit.ly/3zaRKaA
MatMul-free LM 透過密集層和元素級阿達瑪乘積採用加法運算來達成類似自注意力機制的
功能。具體來說,三元權重用於消除密集層中的 MatMul,類似二元神經網路(binary neur
al network,BNN)。為了消除 MatMul 的自注意力機制,研究人員使閘門循環單元(Gated
Recurrent Unit,GRU)最佳化,完全依賴元素乘積。這種創新模型可與最先進的 Transfo
rmer 競爭,同時消除所有 MatMul 操作。
從昨天一直看到在討論這篇論文
還是看不太懂
只覺得不用做矩陣乘法應該是誇大了