[情報] AlphaZero戰勝將棋與西洋棋最強軟體

作者: HeterCompute (異質運算)   2017-12-06 20:38:11
https://arxiv.org/pdf/1712.01815.pdf
這次論文的標題是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
從零學棋,
使用相似的神經網路架構,
一樣沒有使用任何人類知識,
4小時打敗西洋棋最強軟體Stockfish,
2小時打敗將棋最強軟體Elmo,
34小時打敗圍棋AlphaGoZero 20blocks 3天版本,
(圍棋其實有些爭議,因為他這次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒傳統的alpha beta search,
通用於完全訊息遊戲,
又一偉大的突破。
作者: staristic (ANSI lover)   2017-12-06 20:45:00
一個通用於下棋的AI?
作者: tetratio (徹拉修)   2017-12-06 20:50:00
又達到新境界了
作者: BBSealion (海獅)   2017-12-06 20:54:00
不知道限制多嚴格,有運氣成分的(例如暗棋)或多人的(例如跳棋)不知道能否通用過去
作者: birdy590 (Birdy)   2017-12-06 20:55:00
力王:大家可以回家啦~
作者: harrybbs (harrybbs)   2017-12-06 20:59:00
逆天啦 發展這麼快
作者: dongy (孤星...)   2017-12-06 21:01:00
暗棋可以計算機率的,但因複雜度不高,且有部分運氣,所以人類棋手會有一定勝率
作者: TWN2 (.....)   2017-12-06 21:04:00
想看阿法零跟赤木茂打麻將
作者: zeat (L.)   2017-12-06 21:06:00
AlphaGO老師:我是說在座的各位都是__
作者: aegis43210 (宇宙)   2017-12-06 21:15:00
已經征服完全訊息遊戲了,希望星海二也會有突破
作者: s891234 (嘟嚕咑)   2017-12-06 21:41:00
真的是在座的各位都是哈哈,可以回家啦~~~
作者: Lordaeron (Terry)   2017-12-06 21:43:00
多人跟雙人是有很多不同,沒問題就有鬼囉.
作者: turing (涂妮)   2017-12-06 22:22:00
這也終結了西洋棋的西西里防禦。
作者: MonkeyCL (猴總召)   2017-12-06 22:35:00
這世界變化太快好累啊
作者: hne (hne )   2017-12-06 22:52:00
太強了 O o
作者: asglay (收收收尾)   2017-12-07 00:11:00
借轉chess
作者: weiqi5566 (go5566)   2017-12-07 00:27:00
多人會有問題吧,有人合作或針對都會影響吧
作者: wadashi1 (阿拉丁)   2017-12-07 00:28:00
AlphaZero:我不是說人類而已,我是說連其他程式也都是_
作者: weiqi5566 (go5566)   2017-12-07 00:28:00
兩個人的完全訊息遊戲最複雜的應該就圍棋,其他應該都不是問題了
作者: Eleganse (艾勒更斯)   2017-12-07 00:30:00
這樣的話 完全訊息遊戲已經到盡頭了說不定世上最後一塊淨土會是麻將 AI與人類打成平手
作者: indium111 (#ttyhg)   2017-12-07 01:06:00
使用ZERO學習模式是不可能學會星海的,即使用map hack因為星海的規則和變化數遠遠超過圍棋太多太多了
作者: weiqi5566 (go5566)   2017-12-07 01:07:00
非完全訊息遊戲人類跟AI互有勝負不奇怪
作者: CGary (下雨天也挺浪漫的)   2017-12-07 01:12:00
這件事大概可以把所有完全訊息的問題解了...
作者: aegis43210 (宇宙)   2017-12-07 02:30:00
為什麼會是麻將?非完全訊息遊戲多如牛毛
作者: HanaYukii (ShioRin)   2017-12-07 02:35:00
德州撲克比麻將難多了吧
作者: david1124 (Master Jian)   2017-12-07 09:35:00
我比較想看它打LOL,個種壓血和反殺XD而且說不定它可以真正演算出最適合的對線角和友方英雄
作者: kenwufederer (Nash)   2017-12-07 10:19:00
期待生物科技或材料的革命性
作者: wadashi1 (阿拉丁)   2017-12-07 11:27:00
非完全訊息難在抽卡機率計算和本身牌組的搭配,麻將、德州撲克其實比較好解決,星海要模擬人的地方很多,要圖片辨視,很多非關策略的問題要解決,個人感覺其實難多了!
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2017-12-07 11:48:00
才剛出一個AlphaGO zero 又再創一個打敗他 我都麻痺了就像一開始看超級賽亞人打架好興奮 現在整個眼神死
作者: wadashi1 (阿拉丁)   2017-12-07 12:08:00
就如我之前所說的..先血洗其他棋類遊戲的軟體,沒想到只花這麼短的時間... (搞不好中國象棋也被KO,只是沒說..)
作者: harrybbs (harrybbs)   2017-12-07 12:15:00
中國象棋也同樣適用啊,可能是沒花資源訓練而已
作者: fossil313 (陣雨)   2017-12-07 12:21:00
老實說 連將棋和西洋棋這種有放回和翻轉的都沒問題了象棋根本只是小兒科吧
作者: Tabrith (血糖瑪琪朵)   2017-12-07 13:49:00
AlphaGo不要再玩遊戲了啦,學寫程式生一個AlphaGo二代w
作者: wadashi1 (阿拉丁)   2017-12-07 17:08:00
樓樓上說得好!
作者: toya123 (雷姆在我床上 閉嘴)   2017-12-07 17:48:00
ALPHAGO : 我要掃蕩各種競技遊戲!!
作者: ddavid (謊言接線生)   2017-12-07 18:35:00
@Tabrith 會有這個想法大概是不清楚難度跳了多少等級吧XD@fossil313 沒記錯的話將棋評估的複雜度是比中國象棋高的,將棋能搞定象棋基本上沒啥問題。是說圍棋都搞定了,本來其他棋類都是複雜度較低的啊XD基本上寫程式跟下棋在問題類型上就已經有距離了,而且難度差距可是很大
作者: zxshih (zxshih)   2017-12-07 18:43:00
德州撲克不是早就被AI打敗了嗎
作者: ddavid (謊言接線生)   2017-12-07 18:57:00
雖然自寫程式的研究是有,但其實沒有完全真正從零開始,比較像設計架構的感覺。從零開始的話還會扯出額外理解問題跟解讀結果的問題要解決,難度又比圍棋跳升不少了
作者: wadashi1 (阿拉丁)   2017-12-07 19:17:00
AlphaZero字面不就是從0開始,亂下由碰觸讓ai了解規則,再由人類修正bug,修練出強到不可思議的棋力!
作者: harrybbs (harrybbs)   2017-12-07 19:21:00
有人類修正bug嗎?
作者: supergogila (supergogila)   2017-12-07 19:27:00
Alpha go下一版本:Alpha skynet
作者: wadashi1 (阿拉丁)   2017-12-07 19:41:00
樓上,這個版本沒有go了,這版是AlphaZero了!
作者: ilw4e (可以吃嗎?)   2017-12-07 20:31:00
撲克是有限注能達到頂尖,無限注印象中還沒有能到顛峰的
作者: Tabrith (血糖瑪琪朵)   2017-12-07 23:25:00
@ddavid AlphaGo已經強到不像話了給他點挑戰嘛XD
作者: ilw4e (可以吃嗎?)   2017-12-07 23:58:00
那個不是跟頂尖高手打啊
作者: ddavid (謊言接線生)   2017-12-08 00:17:00
@Tabrith 強到不像話是指棋類而已,亂扯一個不同類問題有啥意義?XDF1賽車跟人賽跑也強得不像話啊,所以叫車去跟鳥比飛高嗎XD@HeterCompute TH有世界最大賽事,稱為World Series ofPoker,WSOPhttps://goo.gl/PWktDF其中世界大賽中的主要賽事(Main Event)就是比no-limitTH而能比到Main Event的決賽桌大多都是一時之選了而世界上也有許多知名的頂尖Poker選手都在這項賽事有好成績,例如Poker界的傳奇之一Doyle Brunson曾在1976和1977連續兩屆WSOP Main Event靠垃圾手牌非同花10-2逆轉獲勝,傳奇到自此10-2這手牌直接被用他的名字命名
作者: Tabrith (血糖瑪琪朵)   2017-12-08 00:32:00
yeah 的確不是叫alphago去學而是要alphago的AI系統學查了一下 google 已經在別的地方開始做了 (驚
作者: ddavid (謊言接線生)   2017-12-08 00:35:00
另外有個一般沒接觸TH有可能見過的知名高手是Johnny Chan,在麥特戴蒙主演的電影賭王之王(Rounders)中客串演出賭王的就是他,事實上也就是演出他自己另外在我有空且很迷TH的那陣子最喜歡的職業Poker玩家是Daniel Negreanu
作者: HanaYukii (ShioRin)   2017-12-08 00:42:00
撲克AI贏得只是限定100大盲的單挑 一般打的都是六人桌九人桌 籌碼也是上下波動的AI能在主流比賽或現金局都還沒攻克
作者: ddavid (謊言接線生)   2017-12-08 00:48:00
Poker AI如果攻克現金桌,基本上你就可以拿去玩線上TH做持續賺錢了,就好像如果你研發出預測股價的技術就拿去投入股市賺錢XD另外就是,TH的現金桌跟Tournament的打法也會有所不同,同一套訓練出來的AI基本上應該是沒法在這兩種環境共用的如HanaYukii提到,桌上人數的不同也會影響打法順帶一提,上面提到WSOP Main Event的buy-in(參賽費用)是一個人一萬美金
作者: ilw4e (可以吃嗎?)   2017-12-08 00:59:00
Poker AI如果夠強線上絕對看到一堆AI在打,畢竟是真錢在賭
作者: sivid (go back to sleep)   2017-12-08 02:04:00
順便提一下,master其實沒有跟zero平等較量過當時zero用的計算力比master拿到的強
作者: aegis43210 (宇宙)   2017-12-08 02:20:00
去西洋棋論壇看了一下,能對Stockfish無敗真是了不起的成就,每個棋譜都異常精彩
作者: oldTim (TIME WILL TELL)   2017-12-08 02:57:00
德撲的AI已經屌打人類了,之前李開復辦的比賽,卡內基美隆大學的Libratus樂勝,只是硬體要求有點高https://www.inside.com.tw/2017/02/03/how-libratus-work是有限注,補充一下樓上眾高手的說法
作者: HanaYukii (ShioRin)   2017-12-08 03:32:00
Libratus就僅限heads up單挑阿
作者: ddavid (謊言接線生)   2017-12-08 18:08:00
單挑比多人桌單純非常多,說服力還不夠有限注也比no-limit單純更多。另外就是,現金桌的職業高手的強項是強在1.懂得分辨出其他的高手並且避開,找出魚並坐在那一桌,2.判讀其他人臨場的情緒跟打法變化。大多是只打heads-up train不出來的東西AI要真的能打多個打多人桌而且決定入座或離桌,長期+EV會比較稱得上攻克現金桌XD 至於tournament又是另一個課題。話說看文章裡面寫說是玩no-limithttps://goo.gl/AQukJd wiki也寫是針對no-limit
作者: wadashi1 (阿拉丁)   2017-12-08 18:24:00
所以現在alphazero策略上訓練已經超凡入聖了,接下來要克服的就是非關策略上,理解、圖片辨識,諸多擬人上的問題了
作者: ddavid (謊言接線生)   2017-12-08 18:28:00
就算要說超凡入聖也只是針對容易模擬並評估結果的雙人對抗資訊公開類別的問題就是了,跳問題種類要研究的事情還多呢
作者: wadashi1 (阿拉丁)   2017-12-15 11:59:00
圍棋那邊的確有爭議,要不alphazero至少要挑戰40天版本40 block的alphago Zero,畢竟用了5000個TPU..不好意思!我就是抱著狗咬狗看好戲的心態,看有沒有機會elo破6000,或讓李世石版本4子還完勝之類的!

Links booklink

Contact Us: admin [ a t ] ucptt.com