人工智慧需要強大的運算能力。 基於光的晶片有幫助嗎?
https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-bas
Amos Zeeberg
光學神經網路使用光子而不是電子,比傳統系統具有優勢。 他們還面臨重大障礙。
摩爾定律的速度已經相當快。該定律認為,電腦芯片中的晶體管數量每兩年左右就會增加一
倍,從而產生巨大的速度和效率提升。但是,深度學習時代的計算需求增長速度甚至比這更
快——這種速度可能無法持續。國際能源署預測,到2026年,人工智慧將消耗2023年的十倍
電力,並且當年的數據中心將使用與日本相同多的能源。「人工智慧所需的計算能力每三個
月就會翻倍」,計算硬件公司Lightmatter的創辦人兼CEO Nick Harris表示,「這將會壓垮
公司和經濟體。」
其中一個最有前景的解決方案是,不再使用在計算領域占據主導地位超過50年的電子來處理
信息,而是利用光子(微小的光包)的流動。最近的結果表明,對於某些現代人工智慧基本
的計算任務,基於光的「光學計算機」可能具有優勢。
「光學計算的發展正在為需要高速和高效率處理的領域(如人工智慧)帶來突破」,劍橋大
學物理學家Natalia Berloff表示。
理想的光學
理論上,光具有誘人的潛在優勢。首先,光學信號能夠攜帶比電信號更多的信息——它們擁
有更大的帶寬。光學頻率也比電頻率高得多,因此光學系統能夠在更短的時間內執行更多的
計算步驟,並且具有更低的延遲。
還有效率問題。除了相對浪費的電子芯片帶來的環境和經濟成本外,它們還會運行得很熱,
以至於在任何時刻只有很小一部分晶體管——所有計算機核心的微小開關——可以啟動。理
論上,光學計算機可以同時進行更多的操作,處理更多數據而使用更少的能量。「如果我們
能夠利用這些優勢」,斯坦福大學的電氣工程師Gordon Wetzstein表示,「這將開啟許多新
的可能性。」
看到光的潛在優勢,研究人員長期以來一直試圖將光應用於人工智慧領域,這是一個具有龐
大計算需求的領域。例如,在1980年代和1990年代,研究人員使用光學系統構建了一些最早
期的神經網絡。加州理工學院的Demetri Psaltis和其他兩名同事創建了一個巧妙的人臉識
別系統,使用了其中一個早期的光學神經網絡(ONNs)。他們將一個受試者的圖像——實際
上是其中一位研究人員的圖像——存儲為全息圖在一個光折射晶體中。研究人員使用全息圖
來訓練ONN,然後該系統可以識別出受試者的新圖像並將其與同事區分開來。
但是光也有缺點。關鍵在於,光子通常不會彼此交互作用,因此一個輸入信號很難控制另一
個信號,這正是普通晶體管所做的。晶體管的工作也非常出色。它們現在被佈置在硬幣大小
的芯片上,數量達到十億,是幾十年來持續改進的產物。
但是近年來,研究人員發現了光學計算的一個殺手級應用:矩陣乘法。
一些光學計算
矩陣乘法的過程支撐著許多重型計算。在神經網絡中,具體來說,矩陣乘法既是網絡在舊數
據上進行訓練的基本步驟,也是在訓練過的網絡中處理新數據的方法。光可能比電力更適合
用於矩陣乘法。
這種對人工智能計算的方法在2017年爆發,當時麻省理工學院的Dirk Englund和Marin Solj
a i 領導的一個小組描述了如何在矽晶片上建立光學神經網絡。研究人員將他們想要乘以的
各種數量編碼到光束中,然後將光束通過一系列組件,這些組件改變了光束的相位——即其
光波的振幅——每個相位改變代表一個乘法步驟。通過反復分裂光束、改變其相位並重新組
合它們,他們可以使光有效地進行矩陣乘法。在芯片的末端,研究人員放置了光探測器,測
量光束並顯示結果。
研究人員教導他們的實驗設備識別口語元音,這是神經網絡的常見基準任務。利用光的優勢
,它可以比電子設備更快更高效地完成此任務。其他研究人員早就知道光有可能適合矩陣乘
法;這篇2017年的論文展示了如何將其付諸實踐。
康奈爾大學光子學專家彼得·麥克馬洪表示,這項研究「催化了對光學神經網絡的大規模、
重新激發的興趣。」他說:「它影響深遠。」
自從2017年的那篇論文以來,這一領域已經穩步改進,各種研究人員提出了新型光學計算機
。Englund和幾位合作者最近展示了一種他們稱之為HITOP的新型光學網絡,該網絡結合了多
項先進技術。最重要的是,它旨在隨時間、空間和波長擴大計算吞吐量。前麻省理工學院博
士後研究員、現任南加州大學的Zaijun Chen表示,這有助於HITOP克服光學神經網絡的一個
缺點:從電子元件轉換數據到光學元件,反之亦然,需要消耗大量能量。但是通過將信息打
包到光的三個維度中,Chen說,它可以更快地將更多數據通過ONN,並將能量成本分散到許
多計算中。這降低了每次計算的成本。研究人員報告稱,HITOP可以運行比之前基於芯片的O
NN大25000倍的機器學習模型。
需要明確指出,該系統仍遠遠無法與其電子前輩匹敵;Chen表示,HITOP每秒執行約1萬億次
操作,而Sophisticated Nvidia芯片可以處理300倍的數據。他希望擴大技術規模以使其更
具競爭力。但是光學芯片的效率是令人信服的。「這裡的競爭是我們將能量成本降低了1000
倍」,Chen表示。
其他團隊創建了具有不同優勢的光學計算機。去年,賓夕法尼亞大學的一個團隊描述了一種
提供了不尋常靈活性的新型ONN。這種基於芯片的系統將激光照射到組成電子芯片的半導體
的一部分上,從而改變了半導體的光學特性。激光有效地映射了光信號要經過的路徑,因此
也就是進行的計算。這讓研究人員可以輕鬆地重新配置系統的功能。這與大多數其他基於芯
片的系統(光學和電氣)形成了鮮明對比,在這些系統中,路徑是在製造工廠中仔細設置的
,並且很難更改。
「我們這裡有一個非常簡單的東西」,這項研究的首席作者吳天為說道。「我們可以重新編
程它,即時改變激光圖案。」研究人員使用該系統設計了一個成功區分元音音素的神經網絡
。大多數光子系統在建立之前需要接受訓練,因為訓練必然涉及重新配置連接。但由於該系
統易於重新配置,研究人員在將其安裝在半導體上後對模型進行了訓練。他們現在計劃增加
芯片的尺寸,並使用不同顏色的光編碼更多信息,這應該可以增加其處理的數據量。
即使是在上世紀九十年代建造了臉部識別系統的Psaltis也對這一進展感到印象深刻。「40
年前我們的最瘋狂的夢想與實際發生的事情相比非常遜色。」
光學計算在過去幾年取得了快速進步,但仍遠未能取代實驗室外運行神經網絡的電子芯片。
論文宣稱光子系統比電子系統效果更好,但它們通常運行舊的網絡設計和小的工作負載下的
小模型。安大略省女王大學的Bhavin Shastri表示,許多關於光子系統優越性的報告數據並
不能完整地反映情況。「很難與電子進行直接比較」,他說。「例如,當他們使用激光時,
他們並沒有真正討論激光的能量消耗。」
實驗室系統需要擴大規模才能展現競爭優勢。「你需要做多大才能贏?」McMahon問道。答
案是:需要非常大。這就是為什麼沒有人能夠匹敵Nvidia生產的芯片,該公司的芯片驅動著
當今許多最先進的人工智能系統。在這一過程中還有一系列需要解決的工程難題——這些是
電子方面幾十年來已經解決的問題。「這最終將成為一個極具挑戰性的問題」,Harris表示
。
一些研究人員認為,基於ONN的人工智能系統將首先在提供獨特優勢的專業應用領域取得成
功。Shastri表示,其中一個有前景的應用是在對抗不同無線傳輸之間的干擾,例如5G蜂窩
塔和幫助飛機導航的雷達高度計之間的干擾。今年初,Shastri和幾位同事創造了一個ONN,
可以即時分類不同的傳輸,並在處理延遲低於15皮秒(15兆分之一秒)的情況下選擇出感興
趣的信號——這比電子系統需要的時間少了一千分之一,而且功耗還不到電子系統的1/70。
但是McMahon表示,宏偉的願景——一個可以超越電子系統在一般用途上的光學神經網絡—
—仍然值得追求。去年,他的小組進行了模擬,顯示在十年內,一個足夠大的光學系統可以
使某些人工智能模型的效率超過未來電子系統的1000倍以上。「現在許多公司正在努力爭取
1.5倍的好處。一千倍的好處,那將是令人驚嘆的」,他說。「這可能是一個需要10年的項
目——如果成功的話。」