AI科學家詳解AlphaGo Zero的偉大與局限
(文章來源:量子位元 報導 | 公眾號 QbitAI 作者:夏乙 李根 發自 凹非寺 )
“人類太多餘了。”
面對無師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。
如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:
今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮0:3敗給了DeepMind的人
工智慧程式AlphaGo,當時的版本叫做Master,就是今年年初在網上60:0挑落中日韓高手
的那個神秘AI。
AlphaGo Zero驟然出現,可以說是在柯潔快要被人類對手和迷妹們治癒的傷口上,撒
了一大把胡椒粉。
被震動的不止柯潔,在DeepMind的Nature論文公佈之後,悲觀、甚至恐慌的情緒,在
大眾之間蔓延著,甚至有媒體一本正經地探討“未來是終結者還是駭客帝國”。
於是,不少認真讀了論文的人工智慧“圈內人”紛紛站出來,為這次技術進展“去魅
”。
無師自通?
首當其衝的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經驗真的一點用都
沒有嗎?
在這一版本的AlphaGo中,雖說人類的知識和經驗沒多大作用,但也不至於“多餘”
。
在Zero下棋的過程中,並沒有從人類的對局經驗和資料中進行學習,但這個演算法依
然需要人類向它灌輸圍棋的規則:哪些地方可以落子、怎樣才算獲勝等等。
剩下的,就由AI自己來搞定了。
對於這個話題,鮮有人比曠視科技首席科學家孫劍更有發言權了,因為AlphaGo Zero
裡面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發明。
孫劍 孫劍
孫劍也在接受量子位等媒體採訪的過程中,對AlphaGo Zero的“無師自通”作出了評
價,他認為這個說法“對,也不對”,並且表示“偉大與局限並存”。
究竟對不對,還是取決於怎樣定義無師自通,從哪個角度來看。
和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓練過程最開始的
時候,AI落子完全是隨機的,AlphaGo團隊的負責人David Silver透露,它一開始甚至會
把開局第一手下在1-1。在和自己對弈的過程中,演算法才逐漸掌握了勝利的秘訣。
從這個角度來看,Zero的確可以說是第一次做到了無師自通,也正是出於這個原因,
DeepMind這篇Nature論文才能引起這麼多圈內人關注。
但要說它是“無監督學習”,就有點“不對”。孫劍說:“如果仔細看這個系統,它
還是有監督的。”它的監督不是來自棋譜,而是圍棋規則所決定的最後誰輸誰贏這個信號
。
“從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規則所帶來的監
督信號,它是一種非常弱監督的增強學習,它不是完全的無師自通。”
孫劍還進一步強調:“但是同時這種無師自通在很多AI落地上也存在一些局限,因為
嚴格意義上講,圍棋規則和判定棋局輸贏也是一種監督信號,所以有人說人類無用、或者
說機器可以自己產生認知,都是對AlphaGo Zero錯誤理解。”
離全面碾壓人類有多遠?
Zero發佈之後,媒體關切地詢問“這個演算法以後會用在哪些其他領域”,網友認真
地擔心“這個AI會不會在各個領域全面碾壓人類”。
對於Zero演算法的未來發展,DeepMind聯合創始人哈薩比斯介紹說,AlphaGo團隊的
成員都已經轉移到其他團隊中,正在嘗試將這項技術用到其他領域,“最終,我們想用這
樣的演算法突破,來解決真實世界中各種各樣緊迫的問題。”
DeepMind期待Zero解決的,是“其他結構性問題”,他們在博客中特別列舉出幾項:
蛋白質折疊、降低能耗、尋找革命性的新材料。
哈薩比斯說AlphaGo可以看做一個在複雜資料中進行搜索的機器,除了博客中提到幾
項,新藥發現、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。
不過,究竟哪些領域可以擴展、哪些領域不行呢?
孫劍說要解釋AlphaGo演算法能擴展到哪些領域,需要先瞭解它現在所解決的問題—
—圍棋——具有哪些特性。
首先,它沒有雜訊,是能夠完美重現的演算法;
其次,圍棋中的資訊是完全可觀測的,不像在麻將、撲克裡,對手的信息觀測不到;
最後也是最重要的一點,是圍棋對局可以用電腦迅速類比,很快地輸出輸贏信號。
基於對圍棋這個領域特性的理解,提到用AlphaGo演算法來發現新藥,孫劍是持懷疑
態度的。
他說,發現新藥和下圍棋之間有一個非常顯著的區別,就是“輸贏信號”能不能很快
輸出:“新藥品很多內部的結構需要通過搜索,搜索完以後制成藥,再到真正怎麼去檢驗
這個藥有效,這個閉環非常代價昂貴,非常慢,你很難像下圍棋這麼簡單做出來。”
不過,如果找到快速驗證新藥是否有效的方法,這項技術就能很好地用在新藥開發上
了。
而用AlphaGo演算法用來幫資料中心節能,孫劍就認為非常說得通,因為它和圍棋的
特性很一致,能快速輸出結果回饋,也就是AlphaGo演算法依賴的弱監督信號。
當然,從AlphaGo演算法的這些限制,我們也不難推想,它在某些小領域內可以做得
非常好,但其實並沒有“全面碾壓人類”的潛力。
去魅歸去魅,對於AlphaGo Zero的演算法,科研人員紛紛讚不絕口。
大道至簡的演算法
在評價Zero的演算法時,創新工廠AI工程院副院長王詠剛用了“大道至簡”四個字。
簡單,是不少人工智慧“圈內人”讀完論文後對Zero的評價。剛剛宣佈將要跳槽伯克
利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說,這篇論文“沒有提出任何新
的方法和模型”,但是徹底地實現了一個簡單有效的想法。
為什麼“簡單”這件事如此被學術圈津津樂道?孫劍的解釋是“我們做研究追求極簡
,去除複雜”,而Zero的演算法基本就是在前代基礎上從各方面去簡化。
他說,這種簡化,一方面體現在把原來的策略網路和價值網路合併成一個網路,簡化
了搜索過程;另一方面體現在用深度殘差網路(ResNet)來對輸入進行簡化,以前需要人
工設計棋盤的輸入,體現“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的資訊,而
現在是“把黑白子二值的圖直接送進來,相當於可以理解成對著棋盤拍照片,把照片送給
神經網路,讓神經網路看著棋盤照片做決策”。
孫劍認為,擬合搜索和ResNet,正是Zero演算法中的兩個核心技術。
其中擬合搜索所解決的問題,主要是定制化,它可以對棋盤上的每一次落子都進行量
化,比如會對最終獲勝幾率做多大貢獻,但是這其實並不是近期才產生的一種理論,而是
在很早之前就存在的一種基礎演算法理論。
而另一核心技術是最深可達80層的ResNet。總的來說,神經網路越深,函數映射能力
就越強、越有效率,越有可能有效預測一個複雜的映射。
下圍棋時要用到的,就是一個非常複雜的映射,神經網路需要輸出每個可能位置落子
時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常複雜的輸出,需要很深
的網路來解決。
人類棋手下棋,落子很多時候靠直覺,而這背後實際上有一個非常複雜的函數,Zero
就用深層ResNet,擬合出了這樣的函數。
ResNet特點就是利用殘差學習,讓非常深的網路可以很好地學習,2015年,孫劍帶領
的團隊就用ResNet把深度神經網路的層數從十幾二十層,推到了152層。
也正是憑藉這樣的創新,孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠
軍。到2016年,他們又推出了第一個上千層的網路,獲得了CVPR最佳論文獎。
而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero演算
法中的核心元件之一。
這位Face++首席科學家表示很開心為推動整個AI進步“做了一點微小的貢獻”,同時
也很欽佩DeepMind團隊追求極致的精神。
任劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更注重技術在產
業中的實用性,進一步推動整個AI產業的進步。
另外,還有不少AI大咖和知名科研、棋手對AlphaGo Zero發表了評價,量子位彙集如
下:
大咖評說AlphaGo Zero
李開複:AI進化超人類想像,但與“奇點”無關
昨天AlphaGo Zero橫空出世,碾壓圍棋界。AlphaGo Zero完全不用人類過去的棋譜和
知識,就再次打破人類認知。很多媒體問我對AlphaGo Zero的看法,我的觀點是:一是AI
前進的速度比想像中更快,即便是行業內的人士都被AlphaGo Zero跌破眼鏡;二是要正視
中國在人工智慧學術方面和英美的差距。
一方面,AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍
棋是一種對弈遊戲,是資訊透明,有明確結構,而且可用規則窮舉的。對弈之外,
AlphaGo Zero的技術可能在其他領域應用,比如新材料開發,新藥的化學結構探索等,但
這也需要時間驗證。而且語音辨識、圖像識別、自然語音理解、無人駕駛等領域,資料是
無法窮舉,也很難完全無中生有。AlphaGo Zero的技術可以降低資料需求(比如說WayMo
的資料類比),但是依然需要大量的資料。
另一方面,AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa
learning(白板學習,不用人類知識),是以前的圍棋系統Crazy Stone最先使用的。
AlphaGo Zero裡面最核心使用的技術ResNet,是微軟亞洲研究院的孫劍發明的。孫劍現任
曠視科技Face++首席科學家。
雖然如此,這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術,
本身就具有里程碑意義。DeepMind的這一成果具有指向標意義,證明這個方向的可行性。
在科研工程領域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風
險就會巨幅下降。我相信從昨天開始,所有做圍棋對弈的研究人員都在開始學習或複製
AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。
AlphaGo Zero的工程和演算法確實非常厲害。但千萬不要對此產生誤解,認為人工智
慧是萬能的,所有人工智慧都可以無需人類經驗從零學習,得出人工智慧威脅論。
AlphaGo Zero證明了AI 在快速發展,也驗證了英美的科研能力,讓我們看到在有些領域
可以不用人類知識、人類資料、人類引導就做出頂級的突破。但是,AlphaGo Zero只能在
單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如
AlphaGo Zero,也是在人類給下目標,做好數位優化而已。這項結果並沒有推進所謂“奇
點”理論。
南大周志華:與“無監督學習”無關
花半小時看了下文章,說點個人淺見,未必正確僅供批評:
別幻想什麼無監督學習,監督資訊來自精准規則,非常強的監督資訊。
不再把圍棋當作從資料中學習的問題,回歸到啟發式搜索這個傳統棋類解決思路。這
裡機器學習實質在解決搜尋樹啟發式評分函數問題。
如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裡顯示出強化學習能
在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智慧傳統領
域可能因此巨變,或許不亞於模式識別電腦視覺領域因深度學習而產生的巨變。機器學習
進一步蠶食其他人工智慧技術領域。
類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設
空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我
們自然放棄此等假設,所以這個嘗試相當大膽。
工程實現能力超級強,別人即便跳出盲點,以啟發式搜索界的工程能力也多半做不出
來。
目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務
。
Facebook田淵棟:AI窮盡圍棋還早
老實說這篇Nature要比上一篇好很多,方法非常乾淨標準,結果非常好,以後肯定是
經典文章了。
Policy network和value network放在一起共用參數不是什麼新鮮事了,基本上現在
的強化學習演算法都這樣做了,包括我們這邊拿了去年第一名的Doom Bot,還有ELF裡面
為了訓練微縮版星際而使用的網路設計。另外我記得之前他們已經反復提到用Value
network對局面進行估值會更加穩定,所以最後用完全不用人工設計的defaultpolicy
rollout也在情理之中。
讓我非常吃驚的是僅僅用了四百九十萬的自我對局,每步僅用1600的MCTS rollout,
Zero就超過了去年三月份的水準。並且這些自我對局裡有很大一部分是完全瞎走的。這個
數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170(見Counting Legal
Positions in Go),五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級,這兩個數
之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,只能
說明卷積神經網路(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看了
大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說,CNN的
inductivebias(模型的適用範圍)極其適合圍棋漂亮精緻的規則,所以稍微給點樣本水
準就上去了。反觀人類棋譜有很多不自然的地方,CNN學得反而不快了。我們經常看見跑
KGS或者GoGoD的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過
擬合奇怪的招法上。
如果這個推理是對的話,那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假
設換一個問題(比如說protein folding),神經網路不能很好擬合它而只能採用死記硬
背的方法,那泛化能力就很弱,Self-play就不會有效果。事實上這也正是以前圍棋即使
用Self-play都沒有太大進展的原因,大家用手調特徵加上線性分類器,模型不對路,就
學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。
二是或許卷積神經網路(CNN)系列演算法在圍棋上的成功,不是因為它達到了圍棋
之神的水準,而是因為人類棋手也是用CNN的方式去學棋去下棋,於是在同樣的道路上,
或者說同樣的inductive bias下,電腦跑得比人類全體都快得多。假設有某種外星生物用
RNN的方式學棋,換一種inductive bias,那它可能找到另一種(可能更強的)下棋方式
。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,
在側面上印證了這個思路。在這點上來說,說窮盡了圍棋肯定是還早。
三就是更證明了在理論上理解深度學習演算法的重要性。對於人類直覺能觸及到的問
題,機器通過採用有相同或者相似的inductive bias結構的模型,可以去解決。但是人不
知道它是如何做到的,所以除了反復嘗試之外,人並不知道如何針對新問題的關鍵特性去
改進它。如果能在理論上定量地理解深度學習在不同的資料分佈上如何工作,那麼我相信
到那時我們回頭看來,針對什麼問題,什麼資料,用什麼結構的模型會是很容易的事情。
我堅信資料的結構是解開深度學習神奇效果的鑰匙。
另外推測一下為什麼要用MCTS而不用強化學習的其它方法(我不是DM的人,所以肯定
只能推測了)。MCTS其實是線上規劃(online planning)的一種,從當前局面出發,以
非參數方式估計局部Q函數,然後用局部Q函數估計去決定下一次rollout要怎麼走。既然
是規劃,MCTS的限制就是得要知道環境的全部資訊,及有完美的前向模型(forward
model),這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定,狀態清晰,有完美
快速的前向模型,所以MCTS是個好的選擇。但要是用在Atari上的話,就得要在訓練演算
法中內置一個Atari模擬器,或者去學習一個前向模型(forward model),相比
actor-critic或者policy gradient可以用當前狀態路徑就地取材,要麻煩得多。但如果
能放進去那一定是好的,像Atari這樣的遊戲,要是大家用MCTS我覺得可能不用學policy
直接當場planning就會有很好的效果。很多文章都沒比,因為比了就不好玩了。
另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過
不了多久就會有人重複出來,到時候應該會有更多的insight。大家期待一下吧。
清華大學馬少平教授:不能認為AI資料問題解決了
從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新
版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。
對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是
可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能
實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋
譜,而是在以前系統的基礎上,通過強化學習提高系統的水準,雖然人類棋譜的作用越來
越弱,但是啟動還是學習了人類棋譜,並沒有實現“冷”啟動。
根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習
,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把
人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何資料和知識了。僅通過3天訓
練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下
棋時的AlphaGo了。
真是佩服DeepMind的這種“把革命進行到底”的作風,可以說是把電腦圍棋做到了極
致。
那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?
1。在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再
通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在
蒙特卡洛樹搜索的框架下,一點點提高自己的水準。
2。不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵
,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入
模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經
網路結構的變化,使得神經網路層數更深,提取特徵的能力更強。
3。將策略網路和價值網路合二為一。在AlphaGo中,使用的策略網路和價值網路是分
開訓練的,但是兩個網路的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這
兩個網路合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並
在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該 會更快吧?
4。網路結構採用殘差網路,網路深度更深。AlphaGo Zero在特徵提取層採用了多個
殘差模組,每個模組包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從
而可以實現更好的特徵提取。
5。不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬
的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網
路的結果代替隨機類比。這應該完全得益於價值網路估值的準確性,也有效加快了搜索速
度。
6。只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天后可以戰
勝與柯潔交手的AlphaGo。
對於電腦圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如
,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果
。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不
用人類資料,自己實現產生資料,自我訓練,自我提高下棋水準。但是這種方式很難推廣
到其他領域,不能認為人工智慧的資料問題就解決了。
對於電腦圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如
,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果
。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不
用人類資料,自己實現產生資料,自我訓練,自我提高下棋水準。但是這種方式很難推廣
到其他領域,不能認為人工智慧的資料問題就解決了。
Rokid祝銘明:資料學習到評分方法學習的切換
Alpha Zero的文章有多少人認真看過,就在傳無監督學習,這次有意思的是方法其實
有點回歸傳統規則指導的思考模式。如果這個算是無監督學習,那幾十年前就有了。只是
這次是超大空間下的基於規則的決策樹裁決評分,文章最有價值的是把之前資料學習變成
了評分方法學習,這個其實有點意思,對於規則清晰問題可以大大減少資料依賴。
簡單說這個就是如何通過學習,避免對超大規模搜尋樹的遍歷,同時保證決策打分的
合理性。其實有點白盒子的味道。這方法的確在很多規則簡單清晰,但空間規模大的問題
上有啟發意義,而且從理論上來說肯定比之前的基於資料學習的要優秀很多,因為過去的
方法仍然對經驗資料依賴。不過和大家說的無監督學習是兩碼事。這麼說大家都能理解了
吧。
即將加入加州伯克利的馬毅教授
熬夜讀完AlphaGo zero的Nature論文,深有感觸:我們一生與多少簡單而又有效的想
法失之交臂,是因為我們或者過早認為這些想法不值得去做或者沒有能力或毅力正確而徹
底地實現它們?這篇論文可以說沒有提出任何新的方法和模型——方法可以說比以前的更
簡單“粗暴”。但是認真正確徹底的驗證了這個看似簡單的想法到底work不work。在做研
究上,這往往才是拉開人與人之間差距的關鍵。
柯潔九段
一個純淨、純粹自我學習的AlphaGo是最強的…對於AlphaGo的自我進步來講…人類太
多餘了。
還有一些零散討論:
微軟全球資深副總裁、美國電腦協會(ACM)院士Peter Lee認為這是一個激動人心的
成果,如果應用到其他領域會有很多前景。其中的理論與康奈爾大學電腦系教授、1986年
圖靈獎獲得者John Hopcroft之前下國際象棋的工作相似,而且Deepmind之前做的德州撲
克比圍棋搜索空間更大、更難。不過受限規則下的圍棋跟現實世界的應用場景有天壤之別
,現在的自動駕駛、商業決策比遊戲複雜很多。
John Hopcroft提到了他常說的監督學習和非監督學習,因為給大量資料標標籤是一
件非常難的事情。他還說,現在AI還在工程階段,我們先是把飛機飛向天,此後才理解了
空氣動力學。AI現在能告訴你是誰,未來能告訴你在想什麼,再之後會有理論解釋為什麼
這能工作。
美國人工智慧學會(AAAI)院士Lise Getoor認為,在監督學習和非監督學習之上還
有結構化學習,如何讓機器發現可能是遞迴的ontological commitment。我們現在的深度
學習模型可能存在structure bias。
楊強教授沒有說話,不過AlphaGo Zero論文剛一發佈,他擔任理事會主席的國際人工
智慧大會(IJCAI)就為這支團隊頒發了第一枚馬文·明斯基獎章,可謂最高贊許。
http://sports.sina.com.cn/go/2017-10-21/doc-ifymzzpv8473447.shtml