[情報] AlphaGo Zero，新版本的AlphaGo HeterCompute PTT批踢踢實業坊

[情報] AlphaGo Zero，新版本的AlphaGo

作者: HeterCompute (異質運算) 2017-10-19 01:36:59

https://www.youtube.com/watch?v=tXlM99xPQC8
https://www.youtube.com/watch?v=WXHFqTvfFSw
https://deepmind.com/blog/alphago-zero-learning-scratch/
新的AlphaGo Zero，是完全沒有受人類棋譜影響的AlphaGo，
訓練3天，以勝率100%打敗了AlphaGo 李世石版本，
21天，達到了Master版本(柯潔)的水準，
並且在訓練40天之後，對Master版本勝率90%，
論文也登在Nature。
https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html

作者: jacklin2002 2017-10-19 01:40:00

...終於要神乎其技了嗎？

作者: birdy590 (Birdy) 2017-10-19 01:46:00

訓練三天後完封李世石版, 最後對柯潔版 100 場贏 89演算法也變了.. 全靠自己訓練果然比人手動干預更強

作者: yys310 (有水當思無水之苦) 2017-10-19 01:47:00

Re:從零開始的下棋生活

作者: birdy590 (Birdy) 2017-10-19 01:48:00

policy/value network 合併, 不再使用 rollout~看看其它圍棋軟體多快會跟進

作者: ddavid (謊言接線生) 2017-10-19 01:53:00

這個進展有點快啊

作者: AirOctopus (AirOctopus) 2017-10-19 01:56:00

連結第二個是這個吧？https://www.youtube.com/watch?v=WXHFqTvfFSw

作者: Borges (波波波波) 2017-10-19 01:58:00

好想看master被虐的棋譜..無法想像master會怎麼被虐

作者: hcsoso (索索) 2017-10-19 02:00:00

棋譜在Nature論文的補充資料可找到:https://goo.gl/xx5jbF有自戰, 對李世石版本, 及對Master版本的棋譜

作者: hit0123 (@@") 2017-10-19 02:33:00

上帝降臨了...

作者: staristic (ANSI lover) 2017-10-19 02:35:00

快速打完了Zero對Master，佈局大概就兩種，開局前20手左右都長一樣，和先前55盤自戰多樣的佈局不同不知道是不是因為是掛在論文下的關係特別選的但是Zero的自戰又不一樣了，多數二連星對二連星但也有少數不是的，然後看到Zero對Master都沒出現的小目一間跳守角

作者: AirOctopus (AirOctopus) 2017-10-19 04:27:00

那個自戰，好像只有40block資料夾的最後一盤是完全體前面19盤似乎是各個階段的自戰

作者: bahamutjr (AT) 2017-10-19 08:22:00

https://youtu.be/-Wh4CfsWDyM https://youtu.be/xOVwmCOX7S4有新的系列影片上傳了 ZERO 對決 MASTER

作者: ilw4e (可以吃嗎？) 2017-10-19 08:26:00

天網要出現了XD

作者: Yibooo (　) 2017-10-19 08:32:00

《第一天下圍棋就上手》~AlphaGoZero著

作者: oldTim (TIME WILL TELL) 2017-10-19 08:32:00

推

作者: enjoytbook (en) 2017-10-19 08:35:00

右上那個定石不是黑棋自己挑的嗎xd

作者: qweewqq (é¢¨ä¸€æ¨£çš„ç”·å) 2017-10-19 08:43:00

是說Alphago要不要開放讓棋手練習這樣

作者: ztdxqa (ztdxqa) 2017-10-19 09:07:00

感覺Zero的下法比較淳樸沒有像master那麼震撼

作者: jaw13 (jaw) 2017-10-19 09:18:00

圍棋上帝...

作者: ztdxqa (ztdxqa) 2017-10-19 09:20:00

唯有deepmind才能打敗deepmind 騰訊做那麼久也沒啥進步 scientist 跟 engineer的差別

作者: vencil (vencs) 2017-10-19 09:59:00

真是厲害

作者: jpg31415926 (圓週率π) 2017-10-19 10:21:00

科學家或工程師又不相衝突...明明是開創者與追隨者的差別

作者: watermelon92 (ACE) 2017-10-19 10:32:00

終於來了！

作者: wz02022 (Jeter) 2017-10-19 10:37:00

崩潰

作者: oldTim (TIME WILL TELL) 2017-10-19 10:38:00

https://www.yikeweiqi.com/news/searching/36893/

作者: Austin820920 2017-10-19 10:51:00

真的是神了…

作者: Rain0224 (深語) 2017-10-19 10:52:00

前面的自戰棋譜人類棋手都還沒研究完，結果又有新的了@@

作者: s891234 (嘟嚕咑) 2017-10-19 11:17:00

........我還以為他們團隊去做別的計畫，怎麼這妖怪還能進化啊Orz

作者: lwei781 (nap til morning?) 2017-10-19 11:50:00

反普歸真之前就做了現在跑資料這四月多就寫好了啊

作者: oldTim (TIME WILL TELL) 2017-10-19 12:14:00

投nature審稿也要審個幾個月八

作者: yangsungo (林帛亨加油！！！) 2017-10-19 12:20:00

alphago繼續這樣下去圍棋會有唯一解到時就會有記憶派棋手出現了

作者: ilw4e (可以吃嗎？) 2017-10-19 12:33:00

唯一解還早，而且貼目數也有影響

作者: kenwufederer (Nash) 2017-10-19 12:37:00

不覺得圍棋會有唯一解，只有當前局面最好的一手

作者: lwei781 (nap til morning?) 2017-10-19 12:38:00

貼目影響應該爆大

作者: kenwufederer (Nash) 2017-10-19 12:40:00

我想，Zero就證明了這點

作者: ssccg (23) 2017-10-19 12:40:00

有唯一解也不見得記的住...對手又不會跟你一起下最佳解還要把所有變化都記住才算唯一解

作者: goldduck (哥達鴨) 2017-10-19 13:12:00

怎會有背最佳解會贏的可能

作者: Yibooo (　) 2017-10-19 13:33:00

先把國際象棋的惟一解找出來再來擔心這件事吧 -_-

作者: cubec (cubec) 2017-10-19 15:19:00

http://tinyurl.com/y8z2l6db AlphaGo Zero的80局對弈棋譜

作者: liaon98 (liaon98) 2017-10-19 16:45:00

圍棋有唯一解 kenwufederer大你自己講的話實際上邏輯矛盾你都知道每個局面都有最好一手那麼一盤局就是從頭到尾每一步都是一個局面所以每一步都有最好一手那麼這不就是在講圍棋有唯一解? 你前後自己矛盾

作者: lyricslee (奕) 2017-10-19 17:15:00

有唯一解是確定的事

作者: kenwufederer (Nash) 2017-10-19 18:27:00

哪裡矛盾…最好的一手不代表只有這一手…可能有兩手勝率相同

作者: lwei781 (nap til morning?) 2017-10-19 18:27:00

不是一定唯一啊而且要看貼目

作者: kenwufederer (Nash) 2017-10-19 18:33:00

只要有打劫，就不會有唯一解而且還要看對手的應法只有等到能算盡變化的效能出現才有唯一解不然這種演算法是不會有唯一解的

作者: liaon98 (liaon98) 2017-10-19 18:45:00

「只有等到能算盡變化的效能出現才有唯一解」你自己上面是說「不覺得圍棋會有唯一解」而不是說「這種演算法是不會有唯一解的」

作者: kenwufederer (Nash) 2017-10-19 19:44:00

圍棋本來就不可能有唯一解原因已經說明了，圍棋規則就是這樣就算兩個一樣的電腦都一樣有勝負問題在沒有Zero，Master是最強現在Zero出現，超越了Master之後我就認為當下最佳解是Zero至於唯一解，是給計算時間一年一步的Zero嗎？圍棋不是數學，如果你不能理解這個就繼續堅持有唯一解，不能說你的理念有錯

作者: staristic (ANSI lover) 2017-10-19 19:50:00

我說k大，你要不要去唸一下基礎的賽局理論

作者: kenwufederer (Nash) 2017-10-19 19:50:00

但必須說在現今圍棋規則下不可能

作者: staristic (ANSI lover) 2017-10-19 19:51:00

圍棋絕對是數學的一部份

作者: kenwufederer (Nash) 2017-10-19 19:51:00

沒有唯一解是規則造成的，不是其他原因連圍棋是數學的一部分都出來了…我只是想說明這些勝負規則是人定出來至於圍棋跟數學的關係，願聞其詳數學也沒有唯一解，都是目前最佳

作者: staristic (ANSI lover) 2017-10-19 19:54:00

圍棋本質就是賽局啊，賽局在數學上是一門分支

作者: kenwufederer (Nash) 2017-10-19 19:54:00

會覺得唯一解就是因為目前受限的原因

作者: staristic (ANSI lover) 2017-10-19 19:55:00

若圍棋不能被數學所描敘，AlphaGo根本就做不出來

作者: kenwufederer (Nash) 2017-10-19 19:55:00

OK，圍棋跟數學的關係是我錯了但我只是想說明圍棋一定有更上層次如同Master跟Zero一樣何況他們之間還不是100%的勝率但原因是因為人類棋譜干擾還是算法改變？這點我沒辦法確定，可能連他們工作人員也不能保證

作者: staristic (ANSI lover) 2017-10-19 19:57:00

沒什麼更上層次啦，圍棋之神也就是棵超大的賽局樹而已

作者: Seikan (星函) 2017-10-19 19:57:00

圍棋不是拓樸學的一種嗎？廣義來說算是數學吧？

作者: staristic (ANSI lover) 2017-10-19 19:58:00

困難點是無法證明我們的更好一手是真正的更好

作者: OilCy (OilCy) 2017-10-19 20:29:00

圍棋很偉大但是跟數學比較太渺小了..怎可能不是數學的一環

作者: oldTim (TIME WILL TELL) 2017-10-19 20:44:00

圍棋有唯一解可以用策梅洛定理(Zermelo's theorem)來證明策梅洛定理:在二人的有限遊戲(即完成遊戲下的步數有限)中如果雙方皆擁有完全的資訊，並且運氣因素並不牽涉其中那先行或後行者當一必有一方有必勝/必不敗的策略

作者: ssccg (23) 2017-10-19 20:58:00

圍棋程式是在降低複雜度找最好的近似解，相對於整個樹是更下層次，本來就不是用這種演算法在求唯一解

作者: yys310 (有水當思無水之苦) 2017-10-19 21:26:00

AG:0 不知道pair go還有沒有幫助

作者: joejoejoe (拎刀揮宿處) 2017-10-19 23:13:00

RL的演算法只是在Approximate最佳解而已吧我想最佳解是存在只是幾乎求不出來也無法證明已求出

作者: Rueyh (追尋永遠) 2017-10-19 23:26:00

星位被點三三 Zero給的答案是立四子搶先拆邊小飛被尖衝直接手拔大概又要開始被模仿一陣子了

作者: tlchen (台灣加油) 2017-10-19 23:41:00

必勝必敗跟唯一解可差多了

作者: jamesho8743 (加拿大好美) 2017-10-19 23:42:00

圍棋本質基本上跟井字遊戲沒有任何不同只是它的變化是天文數字在上帝或計算力非常高智慧體眼中也不過是一盤無聊的井字遊戲

作者: tlchen (台灣加油) 2017-10-19 23:43:00

在固定貼目下, 黑棋或白棋或必勝的策略, 但這不等同於唯一假設黑棋是必勝好了,也不是在361位置中只有一個位置必勝除去對稱性,黑棋必勝的第一手不一定只有一個

作者: jamesho8743 (加拿大好美) 2017-10-19 23:46:00

它就簡單的有最強應手能讓你輸最少（或羸最多）只是最強應手會有很多很多

作者: tlchen (台灣加油) 2017-10-19 23:47:00

即使以勝多少來當標準,也可能有好幾個第一手可以勝最多

作者: jamesho8743 (加拿大好美) 2017-10-19 23:48:00

Tlhen 説法正確

作者: tlchen (台灣加油) 2017-10-19 23:48:00

另外,我對於完全沒用到人類圍棋知識,我是很懷疑.之後找時間去看看論文之所以會懷疑,是有點訝異人類的三三定石,Alphazero也這樣去下.那些定石真的有到完美?或是不完美,但alpha-zero也剛好找到這樣當它的最佳解?

作者: jamesho8743 (加拿大好美) 2017-10-19 23:53:00

演算法好的話沒必要用到人類知識這沒什麼好懷疑的人類知識也一樣只是人類對局經驗累積而來假設人第一手下星位神第一手也下星位不能說神是抄人的也不能説人類經驗很重要真理總是殊途同歸只是神跟alpha go 更接近真理走得更遠

作者: AmibaGelos (Amiba Gelos) 2017-10-20 00:01:00

是真的沒用到人類知識,起始都是徹底隨機的. 唯一用到的是圍棋的旋轉鏡像對稱性. 其實master版跟0版就只差在master版有先用kgs棋局訓練過,而master版究竟訓練了多久論文裡也沒講. 蠻好奇同樣訓練60天會是誰強

作者: jamesho8743 (加拿大好美) 2017-10-20 00:01:00

某些基本定石一定也會有基本上神來也是這樣下因為不這麼下鐵虧除非周圍配置有所不同

作者: joejoejoe (拎刀揮宿處) 2017-10-20 00:07:00

好奇有多少版友因為AlphaGo開始接觸RL..

作者: jamesho8743 (加拿大好美) 2017-10-20 00:12:00

總之圍棋沒有唯一解但有數不盡的最佳解即雙方都最強手但最強手有很多選擇但最後勝負差是相同的

作者: birdy590 (Birdy) 2017-10-20 00:55:00

有公布前期棋譜啊根本隨機亂下下著下著人類歸納的很多棋理就慢慢出現了

作者: hne (hne ) 2017-10-20 01:11:00

就我對論文的理解，zero版和master版在演算法上還是有差異的可以看做 zero 版在演算法上又做了純粹的強化，以此條件開始從零開始自我訓練，訓練的強度上升比之前的版本快了很多。

作者: birdy590 (Birdy) 2017-10-20 01:16:00

論文有提到原本的演算法不適合完自我學習

作者: hne (hne ) 2017-10-20 01:17:00

對，因此, zero的版本更適合自我學習

作者: birdy590 (Birdy) 2017-10-20 01:18:00

兩個network合併準確率有下降但運算簡化有補回來結果棋力反而變強亂猜的rollout也被捨棄

作者: hne (hne ) 2017-10-20 01:19:00

看完只有拜服阿，從強到更強超強爆強的感覺 Orz

作者: birdy590 (Birdy) 2017-10-20 01:20:00

一開始愛吃子慢慢學會圍地和厚勢然後一些已知的定式被發現這時候就已經很強了

作者: hne (hne ) 2017-10-20 01:23:00

現在可以臭屁，我還可以贏學3小時的 alphago zero , lol

作者: AmibaGelos (Amiba Gelos) 2017-10-20 02:34:00

err其實只有差rollout跟feature,前者對訓練的影響是0後者差13倍但需要耗資源學規律所以很難說哪個比較好

作者: ddavid (謊言接線生) 2017-10-20 02:52:00

@tlchen 你只要想一下，人類的定石也不過就是從古至今從對局或自我研究中累積下來的經驗不斷傳承下來，人類一開始也是從零出發的現在AlphaGo Zero不過就是靠高速大量對局在以天計的時間內排完了人類長久以來的研究得到一樣甚至超前的結果而已而人類可以自豪的就是，以人類完成一局棋需要那麼久的時間，能進化的速度如此之慢，然而AlphaGo還是證明了人類畢竟長久的累積還是對了很多東西。不要因為被AlphaGo超越就開始否定人類累積下來的東西，這事實上就只是人類研發出來的新進化方式超越了人類以前的舊進化方式罷了

作者: oldTim (TIME WILL TELL) 2017-10-20 10:03:00

不過有看到一種說法，AlphaGO也有inductive bias，只是剛好它的算法跟人類下棋的bias是同一路數，所以有可能某日來了個外星人用全新的算法避開AlphaGO和人的bias達到更高

作者: tlchen (台灣加油) 2017-10-20 10:07:00

可能我太看清人類的能力了.所以,alphao zero所呈現的,我反

作者: oldTim (TIME WILL TELL) 2017-10-20 10:07:00

境界，也就是說現在Zero自學得出和人類類似的的定式未必能證明這些定式就是正確無誤

作者: tlchen (台灣加油) 2017-10-20 10:08:00

而是驚訝人類的成果.至於說 alpha zero 多快就達到多高的實力. 其實若是從下的局數來看, 而不是以時間來看,它或許不見得那麼厲害我當然不是說它不強,它強到沒有辦法去談.只是就學習來說不該只用時間來說它比人類快

作者: birdy590 (Birdy) 2017-10-20 11:50:00

AlphaGo 演算法目標只有一個, 就是要把會贏的方法記下來它連在棋盤上亂填都沒有排除, 這樣要怎麼說有 bias?

作者: aegis43210 (宇宙) 2017-10-21 00:51:00

個人覺得alphago/zero一定還有死活問題master還特別用個反master來消除master的死活問題

作者: vaper (風雨飄搖的世代) 2017-10-21 02:24:00

一種自我冥想練功的概念，阿發狗快出來社交，不然會變宅宅變得多強不是重點，還要下贏人才能稱神

作者: birdy590 (Birdy) 2017-10-21 03:23:00

zero 跟 master 不一樣沒剩下什麼是人類給它的

作者: lwei781 (nap til morning?) 2017-10-22 00:55:00

Master 處理死活防輸

作者: wadashi1 (阿拉丁) 2017-10-22 23:05:00

master已碾壓全部的人類,沒機會輸,而zero還碾壓master,一個神上面還有更高的神的境界,而且進步還沒有結束..

作者: lwei781 (nap til morning?) 2017-10-23 07:47:00

七龍珠感

繼續閱讀

[新聞] 連笑談AlphaGo：看不到弱點像“神”一樣qweewqq [新聞] 利民杯8強戰柯潔力克申旻埈中國包攬4強qweewqq [問題] 圍棋天地訂閱dinohsu1019 [Live] 第42期名人戰第5局井山裕太:高尾紳路zeat [新聞] 感恩杯中國4比1擊敗韓國成功衛冕台2:3日qweewqq [新聞] 利民杯柯潔屠龍大西龍平中韓對決3比1qweewqq [新聞] 感恩杯日本爆冷3比2戰勝韓國qweewqq [新聞] 李喆：AlphaGo——未來的圍棋qweewqq [新聞] 柯潔參加活動過多?聶衛平：他是圍棋界榜樣qweewqq [新聞] 圍甲聯賽19輪柯潔憾負朴廷桓 qweewqq