千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。
網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。
這次AI浪潮,應該也是類似。
N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。
但最近一些AI的發展,也許會發現,這些Compute是不需要的。
Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
但昨天一篇新的論文,可能是真的翻天覆地的開始。
https://arxiv.org/abs/2402.17764
"The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
https://news.ycombinator.com/item?id=39535800
hn的討論。
現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。
現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits)
然後本來是fp dot product的只要int add。
輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善?
如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。
這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。