馬庫斯再談AlphaGo Zero:不是從零開始
文章來源:量子位公眾號
紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)堅信AlphaZero仍依賴於一些
人類知識,也曾在AlphaZero解讀現場這樣diss哈薩比斯。
可能覺得說得不夠,近日,馬庫斯在arXiv發佈了本月第二篇長文Innateness,
AlphaZero, and Artificial Intelligence,繼續論證AlphaZero“可以在沒有人類指
導的情況下訓練到超過人類水準”的說法被誇大了。
“當代人工智慧論文(通常)用了一個‘相當不錯的’具體結果,對更廣泛的主題做
出了絕對普遍和離譜的斷言。”幾個小時前,他在推特引用了這句話,說明自己怒懟的原
因。
在文章中,馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種“神奇的AI工
程”,代號“AlphaStar”。
它是一種深層結構的混合,它不單利用深度學習人,也依賴於像樹搜索這樣的傳統符
號技巧(symbolic technique)。
這到底是種怎樣的神奇工程?馬庫斯從DeepMind如何構建Alpha家族的架構開始講起
,量子位元將重點內容編譯整理如下。
△ 馬庫斯
從零開始?
DeepMind在論文中說“一種純強化學習方法是可行的,即使在最具挑戰性的領域,它
也能訓練到超過人類的水準,並且無需人類的案例和指導。除了基本規則外,沒有任何領
域的基礎知識。”
我不贊同。
他們系統中的很多方面延續了在之前在圍棋程式上積累的研究,比如構建遊戲程式中
常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策,在樹狀結構上快速得到測試
結果。
問題來了,蒙特卡洛樹這種結構不是通過強化學習從資料中學習的。相反,它在
DeepMind的程式中是與生俱來的,根深蒂固地存在於每個反覆運算的AlphaStar。
可以發現,DeepMind給出的卷積結構很精確,有很多下圍棋的精確參數在裡面,這不
是通過純碎的強化學習學到的。並且,固有演算法和知識的整合的取樣機制不在
AlphaZero的實驗範圍內,這樣可能會導致模型效果變差。
與其說AlphaGo是從白板開始學習,不如說是它在構建的開始就站在了巨人的肩膀上
。
完美資訊博弈之外
無論是圍棋、國際象棋還是將棋,都屬於完美資訊博弈。在這些遊戲中,每個玩家可
以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此,圍棋、國際象棋和將棋問
題特別適合用大資料的方法“蠻力破解”。
問題來了,同樣的機制能解決更廣泛的問題嗎?
AlphaGo Zero的解釋中並沒有說明應用範圍,結果是否在其他挑戰中通用也沒有被提
及。事實是,即使在其他棋類遊戲中,這套方法可能並不適用。
圍棋程式需要的是強模式識別和樹搜索技能,但其他遊戲需要的能力可能不是這些。
文明系列的遊戲需要在不確定的交通網絡中做出決策,遊戲強權外交需要形成聯盟,字謎
遊戲需要語言技能等等。
還有一個例子,Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手,就需要
一套相關但不同的先天結構,這無疑和完美資訊的單機Atari遊戲需要的結構不同。
DeepMind想同時攻克這兩種遊戲,那他需要的是一套廣泛的先天機制,而不是僅適用于單
一遊戲的系統。
如何讓這套先天機制適用于完美資訊博弈以外的遊戲呢?我們接著往下看。
先天機制(Innate machinery)
僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠,那麼,如果要達到通用人
工智慧,我們需要怎樣的結構呢?
在去年10月5號和LeCun的論證中,我有機會總結出一套計算原語組合:
物體的表示
架構化和代數表示
基於變數的操作
type-token區別
表示集合、位置、路徑、軌跡、障礙和持久性的能力
表示物體的可視性的方法
時空鄰近(Spatiotemporal contiguity)
因果關係
平移不變性
分析成本效益的能力
具備了上述的基礎列表中的原語,可能自然就能擁有其他技能了。比如基於博弈的樹
搜索可能是AlphaStar與生俱來的,但是人們可能學習如何做出分析,即使精確度差了些
,但至少可以把時間、因果關係和意圖性結合在一起,具備成本效益分析的能力。
但上面列表僅僅是個初版,它應該有多長還是個未知數。這讓我想起1994年Pinker提
出的一組的先天能力,裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義
,但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。
更重要的是,就目前的目的而言,這個領域確實存在一些可能的先天機制值得AI研究
者去思考,簡單假設在預設情況下,包含很少或幾乎不包含先天機制就讓人滿意了,往好
了說這叫保守。往壞了說,不經過思考就承諾從頭開始重新學習可能也非常愚蠢,這是將
每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。
最後,附論文連結:
https://arxiv.org/abs/1801.05667
— 完 —
http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml