[新聞] 馬庫斯再談AlphaGo Zero:不是從零開始 

作者: joanzkow (星浪)   2018-01-21 06:43:18
馬庫斯再談AlphaGo Zero:不是從零開始 
文章來源:量子位公眾號
  紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)堅信AlphaZero仍依賴於一些
人類知識,也曾在AlphaZero解讀現場這樣diss哈薩比斯。
  可能覺得說得不夠,近日,馬庫斯在arXiv發佈了本月第二篇長文Innateness,
AlphaZero, and Artificial Intelligence,繼續論證AlphaZero“可以在沒有人類指
導的情況下訓練到超過人類水準”的說法被誇大了。
  “當代人工智慧論文(通常)用了一個‘相當不錯的’具體結果,對更廣泛的主題做
出了絕對普遍和離譜的斷言。”幾個小時前,他在推特引用了這句話,說明自己怒懟的原
因。
  在文章中,馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種“神奇的AI工
程”,代號“AlphaStar”。
  它是一種深層結構的混合,它不單利用深度學習人,也依賴於像樹搜索這樣的傳統符
號技巧(symbolic technique)。
  這到底是種怎樣的神奇工程?馬庫斯從DeepMind如何構建Alpha家族的架構開始講起
,量子位元將重點內容編譯整理如下。
  △ 馬庫斯
  從零開始?
  DeepMind在論文中說“一種純強化學習方法是可行的,即使在最具挑戰性的領域,它
也能訓練到超過人類的水準,並且無需人類的案例和指導。除了基本規則外,沒有任何領
域的基礎知識。”
  我不贊同。
  他們系統中的很多方面延續了在之前在圍棋程式上積累的研究,比如構建遊戲程式中
常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策,在樹狀結構上快速得到測試
結果。
  問題來了,蒙特卡洛樹這種結構不是通過強化學習從資料中學習的。相反,它在
DeepMind的程式中是與生俱來的,根深蒂固地存在於每個反覆運算的AlphaStar。
  可以發現,DeepMind給出的卷積結構很精確,有很多下圍棋的精確參數在裡面,這不
是通過純碎的強化學習學到的。並且,固有演算法和知識的整合的取樣機制不在
AlphaZero的實驗範圍內,這樣可能會導致模型效果變差。
  與其說AlphaGo是從白板開始學習,不如說是它在構建的開始就站在了巨人的肩膀上

  完美資訊博弈之外
  無論是圍棋、國際象棋還是將棋,都屬於完美資訊博弈。在這些遊戲中,每個玩家可
以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此,圍棋、國際象棋和將棋問
題特別適合用大資料的方法“蠻力破解”。
  問題來了,同樣的機制能解決更廣泛的問題嗎?
  AlphaGo Zero的解釋中並沒有說明應用範圍,結果是否在其他挑戰中通用也沒有被提
及。事實是,即使在其他棋類遊戲中,這套方法可能並不適用。
  圍棋程式需要的是強模式識別和樹搜索技能,但其他遊戲需要的能力可能不是這些。
文明系列的遊戲需要在不確定的交通網絡中做出決策,遊戲強權外交需要形成聯盟,字謎
遊戲需要語言技能等等。
  還有一個例子,Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手,就需要
一套相關但不同的先天結構,這無疑和完美資訊的單機Atari遊戲需要的結構不同。
DeepMind想同時攻克這兩種遊戲,那他需要的是一套廣泛的先天機制,而不是僅適用于單
一遊戲的系統。
  如何讓這套先天機制適用于完美資訊博弈以外的遊戲呢?我們接著往下看。
  先天機制(Innate machinery)
  僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠,那麼,如果要達到通用人
工智慧,我們需要怎樣的結構呢?
  在去年10月5號和LeCun的論證中,我有機會總結出一套計算原語組合:
物體的表示
架構化和代數表示
基於變數的操作
type-token區別
表示集合、位置、路徑、軌跡、障礙和持久性的能力
表示物體的可視性的方法
時空鄰近(Spatiotemporal contiguity)
因果關係
平移不變性
分析成本效益的能力
  具備了上述的基礎列表中的原語,可能自然就能擁有其他技能了。比如基於博弈的樹
搜索可能是AlphaStar與生俱來的,但是人們可能學習如何做出分析,即使精確度差了些
,但至少可以把時間、因果關係和意圖性結合在一起,具備成本效益分析的能力。
  但上面列表僅僅是個初版,它應該有多長還是個未知數。這讓我想起1994年Pinker提
出的一組的先天能力,裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義
,但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。
  更重要的是,就目前的目的而言,這個領域確實存在一些可能的先天機制值得AI研究
者去思考,簡單假設在預設情況下,包含很少或幾乎不包含先天機制就讓人滿意了,往好
了說這叫保守。往壞了說,不經過思考就承諾從頭開始重新學習可能也非常愚蠢,這是將
每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。
  最後,附論文連結:
https://arxiv.org/abs/1801.05667
  — 完 —
http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml
作者: jpg31415926 (圓週率π)   2018-01-22 00:23:00
感覺就是不同專業的在那邊鬼打牆
作者: ddavid (謊言接線生)   2018-01-22 01:14:00
這樣講吧,他說的其實是對的,但是從一開始兩邊切入點或者說對特定關鍵詞的定義就不一樣了,當然好像各說各話XD
作者: birdy590 (Birdy)   2018-01-22 01:18:00
用圍棋知識可以下西洋棋? 那也是奇了
作者: ddavid (謊言接線生)   2018-01-22 01:20:00
他是說光用來訓練的架構可能就得需要不一樣其實說真的,這點目前來說是無法證偽只能各說各話的部分,因為AlphaGo已經屌打人類了,目前誰也不知道能不能研發出
作者: birdy590 (Birdy)   2018-01-22 01:22:00
其實這套方法的目標是完全資訊遊戲堅持裡面一定有什麼圍棋知識還蠻奇怪的
作者: ddavid (謊言接線生)   2018-01-22 01:23:00
單一架構可以把非完美資訊遊戲也都吃下來
作者: birdy590 (Birdy)   2018-01-22 01:24:00
不然如何看待同一套方法可以通吃將棋西洋棋
作者: ddavid (謊言接線生)   2018-01-22 01:24:00
他的意思就是選取架構本身已經帶有「相對適合架構」的資訊
作者: birdy590 (Birdy)   2018-01-22 01:25:00
真的要講人類知識 也是「針對完全資訊遊戲」的知識
作者: ddavid (謊言接線生)   2018-01-22 01:25:00
類,當然研究目標就是同樣只用一套架構搞定
作者: ddavid (謊言接線生)   2018-01-22 01:26:00
所以說了啊,這目前基本上就是不能證偽的說法,只能大家都抱著自己的定義各說各話,事實上很難決定高下對錯
作者: birdy590 (Birdy)   2018-01-22 01:27:00
但不代表一定要往這方向走
作者: ddavid (謊言接線生)   2018-01-22 01:27:00
因為通用人工智能本來就是人工智慧的大目標,就算AlphaGo他們的目標也是如此,不然不會費心思又去測玩別的棋類、或者想同一架構轉移到別的問題上
作者: birdy590 (Birdy)   2018-01-22 01:28:00
終極目標應該是盡量逼近圍棋之神
作者: ddavid (謊言接線生)   2018-01-22 01:29:00
如果目標不是通用化,那下完圍棋就可以封印計畫了,解新問
作者: birdy590 (Birdy)   2018-01-22 01:29:00
但模仿人類跟這個目標其實沒什麼關係
作者: birdy590 (Birdy)   2018-01-22 01:30:00
通用化也包括了分類問題然後各個擊破
作者: ddavid (謊言接線生)   2018-01-22 01:30:00
事實上演算法的研究本來大目標就會擺在能更通用,往狹窄方
作者: birdy590 (Birdy)   2018-01-22 01:31:00
現實是解完問題就封印了沒錯啊 同一套方法要解星海應該是有困難 一定還要另外找突破點這問題本來就很難 前三十年都沒啥進度還不夠難嗎
作者: ddavid (謊言接線生)   2018-01-22 01:32:00
所以這只是表示AlphaGo架構並不夠通用,並不代表他們不想做出更通用的架構,實際情況跟目標當然會有差
作者: enjoytbook (en)   2018-01-22 18:13:00
alpha go 本來就不是圍棋專用不是嗎
作者: ddavid (謊言接線生)   2018-01-22 18:34:00
但是他們是「挑圍棋」來測試這個架構,不是「只想解圍棋」
作者: birdy590 (Birdy)   2018-01-22 21:48:00
重點在這個架構是針對完全資訊遊戲 不是圍棋看看原文裡的質疑就知道問題在哪了

Links booklink

Contact Us: admin [ a t ] ucptt.com