AlphaGoZero創造者:星海爭霸2比圍棋更有難度
選自Reddit
機器之心編譯
昨日,DeepMind 在《自然》雜誌上發表了一篇論文,正式推出人工智慧圍棋程式
AlphaGo 的最新版本 AlphaGo Zero。同時,在 DeepMind 發佈的官方博客中,
DeepMind 強化學習團隊負責人、AlphaGo 專案負責人 David Silver 視頻介紹了最新的
AlphaGo Zero。今天,David Silver 與團隊另一成員 Julian Schrittwieser 代表
AlphaGo 創造者在 Reddit 上回答了讀者的一系列問題。本文對這些問答作了編譯介紹
。
以下為 David Silver 與 Julian Schrittwieser 代表 AlphaGo 創造團隊在
Reddit 上的問答:
1。 為什麼 AlphaGo Zero 的訓練如此穩定?深度強化學習極其不穩定且易於遺忘,
自我對弈(self-play)也是,兩者的結合如果沒有很好的(基於模仿的)初始化和大量
人類棋譜將是一個災難。但是 AlphaGo Zero 從零開始,並且沒有借助人類棋譜來防止遺
忘或閉環。論文對於這點沒有涉及,因此你們是如何做到的?
David Silver:相較於典型的(無模型)演算法,如策略梯度或者 Q 學習,
AlphaGo Zero 採用了一種相當不同的深度強化學習方法。借助 AlphaGo 搜索,我們顯著
提升了策略和自我對弈的結果,接著我們使用簡單的基於梯度的更新訓練下一個策略+價
值網路。這要比累加的、基於梯度的策略提升更加穩定,並且不會遺忘先前的成果。
2。 你認為 AlphaGo 能解決 Igo Hatsuyoron 120 這個‘史上最難死活題’嗎?即
贏取一個給定的中局或者確定一個現有解決方案?
David Silver:我們剛剛請教了樊麾,他認為 AlphaGo 會解決這個問題,但更為有
趣的是 AlphaGo 能否找到書中的答案,或者我們想不到的方案。而這正是我們在
AlphaGo 的訓練中多次目睹的事情。
3。 你們認為圍棋與星海爭霸 2 哪個更有難度?面臨的最大潛在技術障礙是什麼?
正式更新什麼時候出來?
Julian Schrittwieser:我們宣佈開放星海爭霸 2 環境剛過去幾個星期,所以現在
還處於早期階段。星海爭霸的行動空間確實要比圍棋更具挑戰性,因為其觀察空間要遠大
於圍棋。從技術上講,我認為兩者最大的區別之一在於圍棋是一種完美資訊博弈,而星海
爭霸因為有戰爭迷霧,屬於不完美資訊博弈。
4。 你覺得資料比演算法更重要嗎?不過你關於 AlphaGo Zero 的新論文卻暗示了另
外的含義。
Julian Schrittwieser:我覺得目前演算法仍然比資料更重要,只要看看 AlphaGo
Zero 比之前幾個版本的訓練效率高出那麼多就能理解。而且我認為在未來,資料在訓練
效率上的重要性也會大有提升。
5。 由於整個管道只在模型的最新最好版本上展開自我對弈,你們認為模型在使用具
體的 SGD 演算法更新參數空間時存在過擬合風險嗎?看起來最後的模型遊戲過程中,模
型會稍微依賴于隨機初始化權重以及實際面對的遊戲狀態(作為隨機行動採樣的結果)。
David Silver:實際上,表徵也很可能在其他選擇上表現良好。但是我們有 3 個理
由使用堆疊的觀測歷史:(1)它在其它領域(比如 Atari)的常用輸入表徵是一致的;
(2)我們需要一些歷史來表徵 ko;(3)瞭解對手最近輸入位置的歷史很有用,這可充
當一種注意力機制(即注意對手的想法很重要)。
6。 這會是 AlphaGo 的最終反覆運算版本嗎?
David Silver:我們已經停止了強化 AlphaGo 的積極研究,但仍保留了研究試驗台
,以供 DeepMind 人員驗證新思路和新演算法。
7。 DeepMind 和 Facebook 都在大力研究強化學習,你認為是什麼令 AlphaGo 的表
現能如此快速地提升? 此外對於機器學習前沿,特別是強化學習,其發展趨勢如何?
David Silver:Facebook 更關注監督學習,它能產生當時性能最優的模型;而我們
更關注強化學習,因為我們相信它最終會超越人類已有的知識而進一步取得提升。我們最
近的結果實際上表明,只有監督學習確實可實現令人驚歎的表現,但強化學習絕對是超越
人類水準的關鍵。
8。 有開源 AlphaGo 的計畫嗎?
David Silver:我們之前已經開源了大量的代碼,但過程一直非常複雜。不幸的是,
AlphaGo 項目的代碼庫更加複雜,甚至有點過分。
9。 我們現在可以通過強大的國際象棋引擎給棋手做內部評級,一步一步地分析棋手
的下棋過程進而評定 Elo 等級分。這可以使我們更有條理的做事,比如比較不同時代的
棋手,而且還有可能提供研究人類認知的平臺。這對 AlphaGo 也有效嗎?我猜測這對圍
棋來說會更加複雜,因為在國際象棋中不需要考慮 margin of victory。
Julian Schrittwieser:這確實是個很棒的主意!我覺得我們完全可以在圍棋中做同
樣的事情,可能會以比較最佳落子和每一步落子的價值的方式,或者使用決策網路為每一
步落子分配的概率。如果有時間的話,我很樂意嘗試。
10。 你們在 AlphaGo Zero 中首先嘗試自我對弈訓練而不是整合人類比賽資料。為
什麼 AlphaGo 之前的版本沒有使用自我對弈訓練呢,還是已經嘗試過,但效果沒有這麼
好,為什麼?我很好奇這一塊的發展和進步。和現在相比,兩年前在 AlphaGo 訓練過程
中使用自我對弈有什麼瓶頸嗎?從最終成就自我對弈系統的所有反覆運算中收穫了什麼‘
機器學習知覺’(machine learning intuition)?
David Silver:創建利用自我對弈來學習的系統在強化學習領域一直是一個開放性問
題。我們最初嘗試了文章提到的很多類似演算法,發現都不穩定。我們進行了很多次實驗
,最終發現 AlphaGo Zero 的演算法是最高效的,而且應該解決了這個問題。
11。 據說 AlphaGo 柯潔版本僅需李世石版本處理能力的 1/10。你對此做了哪些優
化?也就是說 AlphaGo 柯潔版本的能力是李世石版本的 10 倍嗎?
Julian Schrittwieser:這主要是因為價值/策略網路的改善,訓練和架構都變得更
好。這篇論文的圖 4 對比了不同網路架構。
12。 有考慮過使用生成對抗網路嗎?
David Silver:在某種意義上,自我對弈(self-play)訓練已經是對抗性質的:每
次反覆運算都試圖找到對抗上一版本的‘anti-strategy’。
13。 在設計 AlphaGo 系統架構時,最困難的部分是什麼?
David Silver:我們遇到的一個重大挑戰是在與李世石比賽期間出現的,當時,我們
意識到 AlphaGo 偶爾會受到我們稱之為‘錯覺(delusion)’的影響,即對弈中智慧體
會持續多次系統地誤解當前的棋局,並嘗試了很多方法來解決它,如給智慧體灌輸更多的
圍棋知識或人類元知識。我們的解決方法是使智慧體變得更加條理化,使用更少的知識,
更多地依賴強化學習來生成更高品質的解決方案;最終我們取得了成功,在 AlphaGo 中
消除了這些問題。
原文連結:http://goo.gl/wuwTPi
http://sports.sina.com.cn/go/2017-10-20/doc-ifymzqpq2704743.shtml