[新聞] AI科學家詳解AlphaGo Zero的偉大與局限

作者: qweewqq (風一樣的男子)   2017-10-21 19:13:40
AI科學家詳解AlphaGo Zero的偉大與局限
 (文章來源:量子位元 報導 | 公眾號 QbitAI 作者:夏乙 李根 發自 凹非寺 )
  “人類太多餘了。”
  面對無師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。
 如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:
  今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮0:3敗給了DeepMind的人
工智慧程式AlphaGo,當時的版本叫做Master,就是今年年初在網上60:0挑落中日韓高手
的那個神秘AI。
  AlphaGo Zero驟然出現,可以說是在柯潔快要被人類對手和迷妹們治癒的傷口上,撒
了一大把胡椒粉。
  被震動的不止柯潔,在DeepMind的Nature論文公佈之後,悲觀、甚至恐慌的情緒,在
大眾之間蔓延著,甚至有媒體一本正經地探討“未來是終結者還是駭客帝國”。
  於是,不少認真讀了論文的人工智慧“圈內人”紛紛站出來,為這次技術進展“去魅
”。
  無師自通?
  首當其衝的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經驗真的一點用都
沒有嗎?
  在這一版本的AlphaGo中,雖說人類的知識和經驗沒多大作用,但也不至於“多餘”

  在Zero下棋的過程中,並沒有從人類的對局經驗和資料中進行學習,但這個演算法依
然需要人類向它灌輸圍棋的規則:哪些地方可以落子、怎樣才算獲勝等等。
  剩下的,就由AI自己來搞定了。
  對於這個話題,鮮有人比曠視科技首席科學家孫劍更有發言權了,因為AlphaGo Zero
裡面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發明。
孫劍 孫劍
  孫劍也在接受量子位等媒體採訪的過程中,對AlphaGo Zero的“無師自通”作出了評
價,他認為這個說法“對,也不對”,並且表示“偉大與局限並存”。
  究竟對不對,還是取決於怎樣定義無師自通,從哪個角度來看。
  和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓練過程最開始的
時候,AI落子完全是隨機的,AlphaGo團隊的負責人David Silver透露,它一開始甚至會
把開局第一手下在1-1。在和自己對弈的過程中,演算法才逐漸掌握了勝利的秘訣。
  從這個角度來看,Zero的確可以說是第一次做到了無師自通,也正是出於這個原因,
DeepMind這篇Nature論文才能引起這麼多圈內人關注。
  但要說它是“無監督學習”,就有點“不對”。孫劍說:“如果仔細看這個系統,它
還是有監督的。”它的監督不是來自棋譜,而是圍棋規則所決定的最後誰輸誰贏這個信號

  “從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規則所帶來的監
督信號,它是一種非常弱監督的增強學習,它不是完全的無師自通。”
  孫劍還進一步強調:“但是同時這種無師自通在很多AI落地上也存在一些局限,因為
嚴格意義上講,圍棋規則和判定棋局輸贏也是一種監督信號,所以有人說人類無用、或者
說機器可以自己產生認知,都是對AlphaGo Zero錯誤理解。”
  離全面碾壓人類有多遠?
  Zero發佈之後,媒體關切地詢問“這個演算法以後會用在哪些其他領域”,網友認真
地擔心“這個AI會不會在各個領域全面碾壓人類”。
  對於Zero演算法的未來發展,DeepMind聯合創始人哈薩比斯介紹說,AlphaGo團隊的
成員都已經轉移到其他團隊中,正在嘗試將這項技術用到其他領域,“最終,我們想用這
樣的演算法突破,來解決真實世界中各種各樣緊迫的問題。”
  DeepMind期待Zero解決的,是“其他結構性問題”,他們在博客中特別列舉出幾項:
蛋白質折疊、降低能耗、尋找革命性的新材料。
  哈薩比斯說AlphaGo可以看做一個在複雜資料中進行搜索的機器,除了博客中提到幾
項,新藥發現、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。
  不過,究竟哪些領域可以擴展、哪些領域不行呢?
  孫劍說要解釋AlphaGo演算法能擴展到哪些領域,需要先瞭解它現在所解決的問題—
—圍棋——具有哪些特性。
  首先,它沒有雜訊,是能夠完美重現的演算法;
  其次,圍棋中的資訊是完全可觀測的,不像在麻將、撲克裡,對手的信息觀測不到;
  最後也是最重要的一點,是圍棋對局可以用電腦迅速類比,很快地輸出輸贏信號。
  基於對圍棋這個領域特性的理解,提到用AlphaGo演算法來發現新藥,孫劍是持懷疑
態度的。
  他說,發現新藥和下圍棋之間有一個非常顯著的區別,就是“輸贏信號”能不能很快
輸出:“新藥品很多內部的結構需要通過搜索,搜索完以後制成藥,再到真正怎麼去檢驗
這個藥有效,這個閉環非常代價昂貴,非常慢,你很難像下圍棋這麼簡單做出來。”
  不過,如果找到快速驗證新藥是否有效的方法,這項技術就能很好地用在新藥開發上
了。
  而用AlphaGo演算法用來幫資料中心節能,孫劍就認為非常說得通,因為它和圍棋的
特性很一致,能快速輸出結果回饋,也就是AlphaGo演算法依賴的弱監督信號。
  當然,從AlphaGo演算法的這些限制,我們也不難推想,它在某些小領域內可以做得
非常好,但其實並沒有“全面碾壓人類”的潛力。
  去魅歸去魅,對於AlphaGo Zero的演算法,科研人員紛紛讚不絕口。
  大道至簡的演算法
  在評價Zero的演算法時,創新工廠AI工程院副院長王詠剛用了“大道至簡”四個字。
  簡單,是不少人工智慧“圈內人”讀完論文後對Zero的評價。剛剛宣佈將要跳槽伯克
利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說,這篇論文“沒有提出任何新
的方法和模型”,但是徹底地實現了一個簡單有效的想法。
  為什麼“簡單”這件事如此被學術圈津津樂道?孫劍的解釋是“我們做研究追求極簡
,去除複雜”,而Zero的演算法基本就是在前代基礎上從各方面去簡化。
  他說,這種簡化,一方面體現在把原來的策略網路和價值網路合併成一個網路,簡化
了搜索過程;另一方面體現在用深度殘差網路(ResNet)來對輸入進行簡化,以前需要人
工設計棋盤的輸入,體現“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的資訊,而
現在是“把黑白子二值的圖直接送進來,相當於可以理解成對著棋盤拍照片,把照片送給
神經網路,讓神經網路看著棋盤照片做決策”。
  孫劍認為,擬合搜索和ResNet,正是Zero演算法中的兩個核心技術。
  其中擬合搜索所解決的問題,主要是定制化,它可以對棋盤上的每一次落子都進行量
化,比如會對最終獲勝幾率做多大貢獻,但是這其實並不是近期才產生的一種理論,而是
在很早之前就存在的一種基礎演算法理論。
  而另一核心技術是最深可達80層的ResNet。總的來說,神經網路越深,函數映射能力
就越強、越有效率,越有可能有效預測一個複雜的映射。
  下圍棋時要用到的,就是一個非常複雜的映射,神經網路需要輸出每個可能位置落子
時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常複雜的輸出,需要很深
的網路來解決。
  人類棋手下棋,落子很多時候靠直覺,而這背後實際上有一個非常複雜的函數,Zero
就用深層ResNet,擬合出了這樣的函數。
  ResNet特點就是利用殘差學習,讓非常深的網路可以很好地學習,2015年,孫劍帶領
的團隊就用ResNet把深度神經網路的層數從十幾二十層,推到了152層。
  也正是憑藉這樣的創新,孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠
軍。到2016年,他們又推出了第一個上千層的網路,獲得了CVPR最佳論文獎。
  而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero演算
法中的核心元件之一。
  這位Face++首席科學家表示很開心為推動整個AI進步“做了一點微小的貢獻”,同時
也很欽佩DeepMind團隊追求極致的精神。
  任劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更注重技術在產
業中的實用性,進一步推動整個AI產業的進步。
  另外,還有不少AI大咖和知名科研、棋手對AlphaGo Zero發表了評價,量子位彙集如
下:
  大咖評說AlphaGo Zero
  李開複:AI進化超人類想像,但與“奇點”無關
  昨天AlphaGo Zero橫空出世,碾壓圍棋界。AlphaGo Zero完全不用人類過去的棋譜和
知識,就再次打破人類認知。很多媒體問我對AlphaGo Zero的看法,我的觀點是:一是AI
前進的速度比想像中更快,即便是行業內的人士都被AlphaGo Zero跌破眼鏡;二是要正視
中國在人工智慧學術方面和英美的差距。
  一方面,AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍
棋是一種對弈遊戲,是資訊透明,有明確結構,而且可用規則窮舉的。對弈之外,
AlphaGo Zero的技術可能在其他領域應用,比如新材料開發,新藥的化學結構探索等,但
這也需要時間驗證。而且語音辨識、圖像識別、自然語音理解、無人駕駛等領域,資料是
無法窮舉,也很難完全無中生有。AlphaGo Zero的技術可以降低資料需求(比如說WayMo
的資料類比),但是依然需要大量的資料。
  另一方面,AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa
learning(白板學習,不用人類知識),是以前的圍棋系統Crazy Stone最先使用的。
AlphaGo Zero裡面最核心使用的技術ResNet,是微軟亞洲研究院的孫劍發明的。孫劍現任
曠視科技Face++首席科學家。
  雖然如此,這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術,
本身就具有里程碑意義。DeepMind的這一成果具有指向標意義,證明這個方向的可行性。
在科研工程領域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風
險就會巨幅下降。我相信從昨天開始,所有做圍棋對弈的研究人員都在開始學習或複製
AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。
  AlphaGo Zero的工程和演算法確實非常厲害。但千萬不要對此產生誤解,認為人工智
慧是萬能的,所有人工智慧都可以無需人類經驗從零學習,得出人工智慧威脅論。
AlphaGo Zero證明了AI 在快速發展,也驗證了英美的科研能力,讓我們看到在有些領域
可以不用人類知識、人類資料、人類引導就做出頂級的突破。但是,AlphaGo Zero只能在
單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如
AlphaGo Zero,也是在人類給下目標,做好數位優化而已。這項結果並沒有推進所謂“奇
點”理論。
  南大周志華:與“無監督學習”無關
  花半小時看了下文章,說點個人淺見,未必正確僅供批評:
  別幻想什麼無監督學習,監督資訊來自精准規則,非常強的監督資訊。
  不再把圍棋當作從資料中學習的問題,回歸到啟發式搜索這個傳統棋類解決思路。這
裡機器學習實質在解決搜尋樹啟發式評分函數問題。
  如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裡顯示出強化學習能
在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智慧傳統領
域可能因此巨變,或許不亞於模式識別電腦視覺領域因深度學習而產生的巨變。機器學習
進一步蠶食其他人工智慧技術領域。
  類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設
空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我
們自然放棄此等假設,所以這個嘗試相當大膽。
  工程實現能力超級強,別人即便跳出盲點,以啟發式搜索界的工程能力也多半做不出
來。
  目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務

  Facebook田淵棟:AI窮盡圍棋還早
  老實說這篇Nature要比上一篇好很多,方法非常乾淨標準,結果非常好,以後肯定是
經典文章了。
  Policy network和value network放在一起共用參數不是什麼新鮮事了,基本上現在
的強化學習演算法都這樣做了,包括我們這邊拿了去年第一名的Doom Bot,還有ELF裡面
為了訓練微縮版星際而使用的網路設計。另外我記得之前他們已經反復提到用Value
network對局面進行估值會更加穩定,所以最後用完全不用人工設計的defaultpolicy
rollout也在情理之中。
  讓我非常吃驚的是僅僅用了四百九十萬的自我對局,每步僅用1600的MCTS rollout,
Zero就超過了去年三月份的水準。並且這些自我對局裡有很大一部分是完全瞎走的。這個
數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170(見Counting Legal
Positions in Go),五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級,這兩個數
之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,只能
說明卷積神經網路(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看了
大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說,CNN的
inductivebias(模型的適用範圍)極其適合圍棋漂亮精緻的規則,所以稍微給點樣本水
準就上去了。反觀人類棋譜有很多不自然的地方,CNN學得反而不快了。我們經常看見跑
KGS或者GoGoD的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過
擬合奇怪的招法上。
  如果這個推理是對的話,那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假
設換一個問題(比如說protein folding),神經網路不能很好擬合它而只能採用死記硬
背的方法,那泛化能力就很弱,Self-play就不會有效果。事實上這也正是以前圍棋即使
用Self-play都沒有太大進展的原因,大家用手調特徵加上線性分類器,模型不對路,就
學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。
  二是或許卷積神經網路(CNN)系列演算法在圍棋上的成功,不是因為它達到了圍棋
之神的水準,而是因為人類棋手也是用CNN的方式去學棋去下棋,於是在同樣的道路上,
或者說同樣的inductive bias下,電腦跑得比人類全體都快得多。假設有某種外星生物用
RNN的方式學棋,換一種inductive bias,那它可能找到另一種(可能更強的)下棋方式
。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,
在側面上印證了這個思路。在這點上來說,說窮盡了圍棋肯定是還早。
  三就是更證明了在理論上理解深度學習演算法的重要性。對於人類直覺能觸及到的問
題,機器通過採用有相同或者相似的inductive bias結構的模型,可以去解決。但是人不
知道它是如何做到的,所以除了反復嘗試之外,人並不知道如何針對新問題的關鍵特性去
改進它。如果能在理論上定量地理解深度學習在不同的資料分佈上如何工作,那麼我相信
到那時我們回頭看來,針對什麼問題,什麼資料,用什麼結構的模型會是很容易的事情。
我堅信資料的結構是解開深度學習神奇效果的鑰匙。
  另外推測一下為什麼要用MCTS而不用強化學習的其它方法(我不是DM的人,所以肯定
只能推測了)。MCTS其實是線上規劃(online planning)的一種,從當前局面出發,以
非參數方式估計局部Q函數,然後用局部Q函數估計去決定下一次rollout要怎麼走。既然
是規劃,MCTS的限制就是得要知道環境的全部資訊,及有完美的前向模型(forward
model),這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定,狀態清晰,有完美
快速的前向模型,所以MCTS是個好的選擇。但要是用在Atari上的話,就得要在訓練演算
法中內置一個Atari模擬器,或者去學習一個前向模型(forward model),相比
actor-critic或者policy gradient可以用當前狀態路徑就地取材,要麻煩得多。但如果
能放進去那一定是好的,像Atari這樣的遊戲,要是大家用MCTS我覺得可能不用學policy
直接當場planning就會有很好的效果。很多文章都沒比,因為比了就不好玩了。
  另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過
不了多久就會有人重複出來,到時候應該會有更多的insight。大家期待一下吧。
  清華大學馬少平教授:不能認為AI資料問題解決了
  從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新
版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。
  對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是
可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能
實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋
譜,而是在以前系統的基礎上,通過強化學習提高系統的水準,雖然人類棋譜的作用越來
越弱,但是啟動還是學習了人類棋譜,並沒有實現“冷”啟動。
  根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習
,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把
人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何資料和知識了。僅通過3天訓
練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下
棋時的AlphaGo了。
  真是佩服DeepMind的這種“把革命進行到底”的作風,可以說是把電腦圍棋做到了極
致。
  那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?
  1。在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再
通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在
蒙特卡洛樹搜索的框架下,一點點提高自己的水準。
  2。不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵
,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入
模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經
網路結構的變化,使得神經網路層數更深,提取特徵的能力更強。
  3。將策略網路和價值網路合二為一。在AlphaGo中,使用的策略網路和價值網路是分
開訓練的,但是兩個網路的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這
兩個網路合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並
在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該 會更快吧?
  4。網路結構採用殘差網路,網路深度更深。AlphaGo Zero在特徵提取層採用了多個
殘差模組,每個模組包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從
而可以實現更好的特徵提取。
  5。不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬
的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網
路的結果代替隨機類比。這應該完全得益於價值網路估值的準確性,也有效加快了搜索速
度。
  6。只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天后可以戰
勝與柯潔交手的AlphaGo。
  對於電腦圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如
,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果
。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不
用人類資料,自己實現產生資料,自我訓練,自我提高下棋水準。但是這種方式很難推廣
到其他領域,不能認為人工智慧的資料問題就解決了。
  對於電腦圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如
,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果
。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不
用人類資料,自己實現產生資料,自我訓練,自我提高下棋水準。但是這種方式很難推廣
到其他領域,不能認為人工智慧的資料問題就解決了。
  Rokid祝銘明:資料學習到評分方法學習的切換
  Alpha Zero的文章有多少人認真看過,就在傳無監督學習,這次有意思的是方法其實
有點回歸傳統規則指導的思考模式。如果這個算是無監督學習,那幾十年前就有了。只是
這次是超大空間下的基於規則的決策樹裁決評分,文章最有價值的是把之前資料學習變成
了評分方法學習,這個其實有點意思,對於規則清晰問題可以大大減少資料依賴。
  簡單說這個就是如何通過學習,避免對超大規模搜尋樹的遍歷,同時保證決策打分的
合理性。其實有點白盒子的味道。這方法的確在很多規則簡單清晰,但空間規模大的問題
上有啟發意義,而且從理論上來說肯定比之前的基於資料學習的要優秀很多,因為過去的
方法仍然對經驗資料依賴。不過和大家說的無監督學習是兩碼事。這麼說大家都能理解了
吧。
  即將加入加州伯克利的馬毅教授
  熬夜讀完AlphaGo zero的Nature論文,深有感觸:我們一生與多少簡單而又有效的想
法失之交臂,是因為我們或者過早認為這些想法不值得去做或者沒有能力或毅力正確而徹
底地實現它們?這篇論文可以說沒有提出任何新的方法和模型——方法可以說比以前的更
簡單“粗暴”。但是認真正確徹底的驗證了這個看似簡單的想法到底work不work。在做研
究上,這往往才是拉開人與人之間差距的關鍵。
  柯潔九段
  一個純淨、純粹自我學習的AlphaGo是最強的…對於AlphaGo的自我進步來講…人類太
多餘了。
  還有一些零散討論:
  微軟全球資深副總裁、美國電腦協會(ACM)院士Peter Lee認為這是一個激動人心的
成果,如果應用到其他領域會有很多前景。其中的理論與康奈爾大學電腦系教授、1986年
圖靈獎獲得者John Hopcroft之前下國際象棋的工作相似,而且Deepmind之前做的德州撲
克比圍棋搜索空間更大、更難。不過受限規則下的圍棋跟現實世界的應用場景有天壤之別
,現在的自動駕駛、商業決策比遊戲複雜很多。
  John Hopcroft提到了他常說的監督學習和非監督學習,因為給大量資料標標籤是一
件非常難的事情。他還說,現在AI還在工程階段,我們先是把飛機飛向天,此後才理解了
空氣動力學。AI現在能告訴你是誰,未來能告訴你在想什麼,再之後會有理論解釋為什麼
這能工作。
  美國人工智慧學會(AAAI)院士Lise Getoor認為,在監督學習和非監督學習之上還
有結構化學習,如何讓機器發現可能是遞迴的ontological commitment。我們現在的深度
學習模型可能存在structure bias。
  楊強教授沒有說話,不過AlphaGo Zero論文剛一發佈,他擔任理事會主席的國際人工
智慧大會(IJCAI)就為這支團隊頒發了第一枚馬文·明斯基獎章,可謂最高贊許。
http://sports.sina.com.cn/go/2017-10-21/doc-ifymzzpv8473447.shtml
作者: aegis43210 (宇宙)   2017-10-21 20:50:00
超理科文,先推再看
作者: oldTim (TIME WILL TELL)   2017-10-21 21:29:00
用圍棋規則來反證無師自通很怪,意思只需懂規則就可當AlphaGO的老師,這比較像裁判而不是老師了八
作者: birdy590 (Birdy)   2017-10-21 21:32:00
論調很奇怪 因為明確的規則才讓遊戲有意義否則就會變成劉青雲對古天樂 一下台灣牌一下美國牌
作者: Yibooo ( )   2017-10-21 21:45:00
原來不是只有我有這種感覺-_-
作者: ddavid (謊言接線生)   2017-10-21 22:11:00
其實看起來他們是在講DM&ML裡面Supervised跟Unsupervised的差別而已,不知道為什麼講成跟不跟人類學習主要應該還是「無師自通」這個人類用詞跟Unsupervised其實定義有差,所以連著一起講意義混亂了,其實不應該拿Unsupervised來解釋「無師自通」XD對人類來講不吃棋譜就算是無師自通了,但是對學習演算法定義來說,只要能給解答(在圍棋上是判定勝負)就還是算在Supervised裡面
作者: oldTim (TIME WILL TELL)   2017-10-21 22:17:00
開頭那段無師自通看起來像是為了維護人類尊嚴,硬凹把人類的經驗知識與圍棋規則混為一談
作者: s891234 (嘟嚕咑)   2017-10-21 22:43:00
不是,他說的是無監督,無監督學習會跑出很多不可控的東西,像天網什麼的,但A/Z是微監督,也就是每一步都有規則在監督束縛他我猜啦
作者: xhakiboo (xhakiboo)   2017-10-21 22:52:00
何必說是無師自通 把圍棋史濃縮也是從第一個人什麼都是不懂開始的AI只是把時間縮短了
作者: ddavid (謊言接線生)   2017-10-21 23:16:00
沒有啥維護人類尊嚴啊,他就很明白講「無監督」式學習的定義而已,本來在Training有能評判確定對錯的規則就不會是無監督式學習了,這是完全正確的啊
作者: HeterCompute (異質運算)   2017-10-21 23:18:00
AZ確實是無師自通啊,人類沒教他任何相關知識
作者: ddavid (謊言接線生)   2017-10-21 23:18:00
只不過因為跟「無師自通」這個定義不同的人類用詞連著一起講讓讀者可能弄混了吧,其實文中還是有區分開來注意那一段開頭就有這句話:「究竟對不對,還是取決於怎樣定義無師自通,從哪個角度來看。」
作者: birdy590 (Birdy)   2017-10-21 23:22:00
training哪裡有辦法判定對錯
作者: ddavid (謊言接線生)   2017-10-21 23:22:00
他裡面也有區別人類覺得的無師自通以及機器學習認為的無師自通是不一樣定義了
作者: birdy590 (Birdy)   2017-10-21 23:23:00
要做的決策是決定哪一個選點最佳
作者: ddavid (謊言接線生)   2017-10-21 23:23:00
@birdy590 你下到完就會告訴你黑贏白贏,就是判定了
作者: birdy590 (Birdy)   2017-10-21 23:23:00
我倒認為是統整的人搞錯意思了
作者: ddavid (謊言接線生)   2017-10-21 23:24:00
而Training做的事就是從這一大堆自我對局累積的棋譜建出能下到贏的模型
作者: birdy590 (Birdy)   2017-10-21 23:25:00
實際上應該是 規則可以明確的判定勝負
作者: thomaspig (沈豬)   2017-10-21 23:25:00
作者: birdy590 (Birdy)   2017-10-21 23:25:00
有些遊戲的規則無法做到這一點
作者: ddavid (謊言接線生)   2017-10-21 23:26:00
本來就是這樣沒錯啊?就因為圍棋是可以明確判定勝負,所以
作者: birdy590 (Birdy)   2017-10-21 23:26:00
但這是本身的個性 不是人有沒有提供他什麼
作者: ddavid (謊言接線生)   2017-10-21 23:26:00
餵進去的資料都是有勝負標籤的,所以是監督式學習
作者: birdy590 (Birdy)   2017-10-21 23:26:00
特性
作者: ddavid (謊言接線生)   2017-10-21 23:29:00
這樣說好了,其實圍棋也不是不可以用無監督式的方式來學,只是八成會學得很爛XD我用一個比較直白的說法來講:叫一個完全不懂圍棋的人來,給他看一堆人類下棋的影片,但是不跟他講最後怎麼判定勝負,讓他猜圍棋到底怎麼下這個就是無監督式學習的學法了。很直覺的,在圍棋上用這種
作者: birdy590 (Birdy)   2017-10-21 23:31:00
這種說法沒有意義 你無法自己創立規則
作者: ddavid (謊言接線生)   2017-10-21 23:32:00
方法是既沒效率也沒意義的XD
作者: birdy590 (Birdy)   2017-10-21 23:32:00
自己發明的規則那也不是圍棋
作者: CGary (下雨天也挺浪漫的)   2017-10-21 23:32:00
他想講的是 我們告訴他下圍棋 所以他憑藉規則下圍棋 這是一種監督 他不會無端端看著一堆子 決定創造一個叫做圍棋的遊戲 這是我們在資訊領域對於智慧的一塊拼圖 同時也駁斥天網這種事的可能性 因為他不會無端端在我們設計給他的事上突然
作者: ddavid (謊言接線生)   2017-10-21 23:34:00
重點不在有沒有規則,而是訓練時拿不拿得到解答而已
作者: CGary (下雨天也挺浪漫的)   2017-10-21 23:35:00
「覺得要設計」一個東西來搞定人類... 他不是這樣的概念對於第一個題目 很多資訊科學家跟生物學家都很有興趣 去年
作者: ddavid (謊言接線生)   2017-10-21 23:36:00
CGary講到重點
作者: CGary (下雨天也挺浪漫的)   2017-10-21 23:36:00
DM發布AI學習各種走路法,但科學家更想知道的是一個軀體會無端端決定站起來嗎?類人猿不站起來的多的是...所以AI只是模擬了我們的決策後 把站起來這件事做出來 類似的討論而已
作者: birdy590 (Birdy)   2017-10-21 23:42:00
本質上還是在計算 只是跟人類的方式有些部分類似
作者: aegis43210 (宇宙)   2017-10-22 01:36:00
強化學習就是模擬人類的直覺,DM這個新演算法,只是更簡單及有效的模擬出人類對圍棋這遊戲的直覺科學家的確很希望AI能從圍棋棋盤和黑白子,自己創造出圍棋規則,這就是Intuitive Thinking
作者: Parazicecum (WTKD)   2017-10-22 03:30:00
科學家希不希望是一回事 問題AlphaGO就不是這樣設計的啊 Training的過程中是有給輸出 那就不是非監督
作者: rainlover   2017-10-22 09:12:00
科學家著眼的不止是圍棋,遊戲規則是種強監督吧
作者: peterhuo (人生位階樂勝真爽)   2017-10-22 09:29:00
很硬凹
作者: jpg31415926 (圓週率π)   2017-10-22 09:52:00
"不需要人類棋譜"跟"不需要遊戲規則"是兩件不同的事
作者: isntland (陸人甲)   2017-10-22 16:36:00
其實以研發新藥類比好了,即使AI能夠快速模擬組合篩選無數分子式,但是每一個候選分子式有沒有效果,如果還需人類標示結果,那就是監督學習。對應到圍棋遊戲,人類可以用精確的規則定義勝負,這點直接指導了Zero產生價值網絡的基礎,就是ML提到的人類經驗。
作者: Sinreigensou (神靈幻想)   2017-10-22 18:33:00
就很像蟻王 只要了解規則就能打爆天下無敵手
作者: oldTim (TIME WILL TELL)   2017-10-22 19:39:00
人類訂定的遊戲規則和人類經驗根本是兩回事想說AI不會失控或是人類不論如何都在指導AI就直說就好不需要偷換概念
作者: ddavid (謊言接線生)   2017-10-22 21:23:00
樓上,「監督式學習」定義就是那樣啊,哪邊偷換概念了而且事實上就真的有無監督式學習存在啊,並沒有什麼人類絕對都在監督AI這回事事實上監督式非監督式的差別也不在「人類」監督就是了XD
作者: CGary (下雨天也挺浪漫的)   2017-10-22 22:13:00
應該說 你跑去問一個資訊科學家 他自然會回答你"是也不是",他很清楚你想問什麼 但是站在他的立場 他要對他的專業負責強AI世界討論的是我們能否透過一台機器 把人類設計過的東西設計出來 這個現在連個影都還沒有 純粹的非監督式學習目前就是被「寄望」可以透過完全不需要人類給它定義(不用他們告訴電腦 什麼叫做贏 電腦自然知道我得要設計一個叫做贏的概念) 所以他才會提到這也是一種監督... 然而在弱AI世界中現在我們針對特定問題已經能夠處理得很不錯了 但這本質上跟一個複雜的sorting演算法有什麼差異呢? 我們也很不擅長高速排序 電腦也能處理得比我們好得多 這不是發展這門科學他們期待的結果 站在圍棋迷 大家希望AG更強 但DM還是把它資源拔去處理星海了 就是因為他們想要把問題通用化 這類資訊對稱的遊戲 他們已經有概念要怎麼處理了(這就是這篇演算法最好的地方,幾乎沒有參數化痕跡而完全使用演算法解), 所以要開始解決不對稱資訊的遊戲 才能知道我們怎麼通用化問題啊:)上面的例子也不是太對 在醫學上 我們是可以定義什麼叫做好的結果 只是比較麻煩的是 我們可能"很難"實驗4.9M次...XD
作者: oldTim (TIME WILL TELL)   2017-10-23 00:32:00
沒人否認AlphaGO仍是監督式學習,所謂偷換概念是指將監督學習所需輸入的人類訂定的遊戲規則,和無師自通所需輸入的人類知識混為一談,若是要硬凹圍棋規則也是人類知識的一種,而哪啟不是所有會下圍棋的人都有資格當AlphaGO老師如果只單看AI專機發言是沒啥問題,問題是編輯拿無監督學習來為人類的知識並不多餘來做辯護,可是看上下文,本文中先引用柯潔的話:人類的知識太多餘,顯然這裡的知識根本不是啥圍棋規則而是職棋的棋理,編輯就是這樣偷換觀念
作者: wadashi1 (阿拉丁)   2017-10-23 01:50:00
可以從象棋開始,把其他棋類血洗一遍...
作者: aegis43210 (宇宙)   2017-10-23 02:23:00
象棋和西洋棋的規則與限制太多了,沒必要去研究吧
作者: ddavid (謊言接線生)   2017-10-23 14:55:00
@oldTim 文中很明顯把人類認為的無師自通跟機器學習上的無師自通區分開來,我不覺得哪邊在偷換概念,雖然對於完全不懂的外行人來看還是可能會混在一起裡面每一個發表意見的人,其內容都應該獨立看待,編輯確實把所有不同專家的言論一併列出,不代表應該混在一起看,柯潔就不是機器學習專家就我看來這篇脈絡就是先引柯潔的話來表現一般人可能有的誤解,然後開始進入專家解說正確的認知應該是什麼,誤解在哪裡
作者: mothertime (我超愛傅紅雪這變態)   2017-10-23 15:07:00
無師自通跟無監督學習不同,他搞錯無師自通的定義了
作者: ddavid (謊言接線生)   2017-10-23 15:07:00
@wadashi1 都血洗難度更高的圍棋了,回去洗簡單的象棋是想幹嘛,嫌時間跟電費浪費太少喔?XD
作者: mothertime (我超愛傅紅雪這變態)   2017-10-23 15:08:00
理解基本規則是無師自通的前提
作者: oldTim (TIME WILL TELL)   2017-10-23 16:13:00
就編輯搞混無師自通的定義,硬要把兩種觀念嫁接編輯一開始引用柯潔的話"人類太多餘",然後接下來說"雖說人類的知識和經驗沒多大作用,但也不至於多餘"隨後以"但這演算法依然需要人類向它灌輸圍棋的規則"來做為人類知識經驗並不多餘的根據,這就是把圍棋規則當成是人類的經驗知識的一種,明顯魚目混珠,而後引用AI專家的話時,因為已有編輯錯誤的前提:圍棋規則也是人類知識一種等於是AI專家對非監督學習的解釋已經被扭曲成對非無師自通的辯護,實際上無監督跟無人類圍棋知識根本是兩回事再者,一開頭柯潔說的人類太多餘,和文中AI專家說的人類並非無用,也明顯是兩個不同觀念,前者是指職棋後者是指輸入規則的工程師,編輯用後者的回答來說明前者的論點不對也是張飛打岳飛,確實如ddavid大所說兩者應該並列來看但編輯就是要偷換概念把兩者混為一談我也無言事實上單獨看AlphaGO Zero,傳統職棋確實沒有幫助,若想幫職棋辯護,應該從軟體發展歷程角度切入,至少一開始版本是有學人類棋譜的,而不是硬凹反而讓說服力降低
作者: wadashi1 (阿拉丁)   2017-10-23 22:19:00
@ddavid 當然不是跟人挑戰,是跟目前最強的象棋軟體挑戰我在幫AlphaGo找工作啊!可以由zero的AG來看象棋的成長曲線,看花多久時間可以達成與其他最強象棋軟體的實力,其實是很具有意義的!藉由不同棋的挑戰,搞不好可觸發團隊新的想法也不一定!
作者: staristic (ANSI lover)   2017-10-23 22:50:00
樓上,你那個像是拿牛刀去殺雞來開發新式的牛刀刀法象棋和圍棋的難度差不是檔次的問題,是數量級的問題圍棋破解了以後再回頭去解象棋實在沒什麼意義
作者: wadashi1 (阿拉丁)   2017-10-23 23:16:00
就像博士在做數學研究,一直搞不出名堂,就換個方向玩玩國中小的數學益智遊戲.說的好像其他象棋軟體好像很弱一樣... 呵反正Alphago在圍棋上已經結束任務,除了等deepmind公佈他們的目標,不然很多希望他們做的事情,我多想都是多餘的,沒什麼好期待的..
作者: ddavid (謊言接線生)   2017-10-24 00:02:00
AlphaGo哪裡會沒工作,實際運用的幾個方面不都早講過了然後現在想幹Starcraft就發現難度太高(或說目前方法不適合解這類問題),就看會不會在這方向開發新技術了至於象棋,本質上就跟圍棋是徹底的同類問題,根本沒有太大觸發新想法的空間,你叫他玩暗棋或陸軍棋還比較有意義
作者: Eriri (英梨梨)   2017-10-24 01:39:00
Deepmind早就說過要進軍生藥或材料方面的領域了 棋類遊戲對他們不過是者試驗方法展示能力的平台罷了

Links booklink

Contact Us: admin [ a t ] ucptt.com