簡單說一下AlphaGo怎麼掌控圍棋的,
AlphaGo的成功主要來自三個部分相輔相成,
一條是策略網路(policy network),
一條是價值網路(value network),
最後則是蒙地卡羅搜尋樹(Monte Carlo Tree Search 簡稱MCTS)。
策略網路的想法就是模仿人類的棋感,
從大量的棋譜中歸納找出最有可能的選點,
並把所有可能的選點加上機率。
價值網路的想法則是模仿人類的判斷,
他會判斷當前局面下誰贏的機率高,
同樣也給出機率的數字。
蒙地卡羅搜尋樹,
則是模仿人類細算的部分,
依照策略網路和價值網路給的訊息去分配要計算的多寡。
於是把這些通通結合之後,
成果就變的非常的強大,
因為他既能有效的找到最好的棋步去計算,
又能準確的判斷出當前局面誰好,
於是這些就成為AlphaGo邏輯推理上的基礎。
接著,AlphaGo要進步,就是靠著自我對弈,
自己發現自己邏輯上的漏洞,然後不斷的強大自我,
於是變成了人類再也看不懂,也沒辦法下贏的存在。
至於從零開始學習的AlphaGo Zero,
和最一開始的AlphaGo相比,
改進的第一點是他的網路架構變得更好,學的更有效率了,
接著第二點是,最一開始的蒙地卡羅搜尋樹是有一些人類的棋理在裡面的,
他會加上一些限制免的AlphaGo下出一些脫序的棋,比方說怎麼樣才是活棋,
以及征子怎麼算等等,
而改進的第二點就是把人類這些棋理拿掉。
而最後結果,雖然AlphaGo Zero用了一些小trick加強了網路,
從而得到好像比之前所有的版本都還要強的AlphaGo,
但是還是證明了從零開始,不用任何圍棋知識,
也能做出非常強大的圍棋AI。
而Zero偉大的地方在哪裡呢?
一個新的領域,就算我不太清楚他這塊領域的深入知識,
但是我只要掌握基礎知識,然後可以仿造自對弈的過程去製造data,
就能創造出遠遠超越人類知識的結果。
至於未來有沒有可能手機上的圍棋AI也能下贏頂尖職業棋士?
答案是有可能的,
AlphaGo Zero論文有說,他的AlphaGo一個局面如果只模擬1次,
相當於完全是第一感,沒有經過任何驗證,
但即便在這種條件下,等級分仍然有3000出頭,
相當於一個普通職業棋士的等級分,
所以這些,就是神經網路偉大以及強大的地方。
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:38:00你講的Zero偉大的地方那邊,有一個小小的 loophole就是呢,這種"自我鍛鍊並提升"的做法並沒有廣泛可行性圍棋算是這類應用裡面的軟柿子看看星海爭霸現在的情況就知道了
作者:
GKki2012 (chichi)
2018-03-22 09:40:00前天去書局買書的時候路過看到一本"類神經網路"的書
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:40:00我其實講來講去只是想表達:現代的AI沒那麼"聰明"
棋類遊戲是人類為了追求公平特別精練過的 規則比較嚴謹
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:41:00@GKki2012 你只要知道類神經網絡是一個模仿既有資料進行
作者:
tkigood (提谷德)
2018-03-22 09:41:00挑軟柿子吃也沒甚麼好責怪的 就跟妳不會說妳小學學加減
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:42:00我沒有說挑軟柿子吃不好 我做研究也絕對先吃軟柿子
現實社會上 變數很多 而且很難進行優劣判斷時 AI就很難用
作者:
GKki2012 (chichi)
2018-03-22 09:45:00可是討論AI的話 像arr大那麼專業且邏輯嚴謹的人不多
作者:
GKki2012 (chichi)
2018-03-22 09:46:00被高手電 可以了解一些以前不懂的概念很爽
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:46:00我一點都不專業啦 至少實務經驗很少 只是了解些理論類神經網絡並不是什麼新的概念或新科技只是以前因為硬體落後 很多應用時間上算不出來不能用
作者:
GKki2012 (chichi)
2018-03-22 09:47:00可是如果跟 似懂非懂 的人鬼打牆的話 就會很累
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:48:00我還是堅持人類比現在的AI聰明太多太多了XD至少人類從相對很少的案例就可以學到很多東西但是類神經網絡必須要用很多很多的案例才能學到一定程度
作者:
GKki2012 (chichi)
2018-03-22 09:50:00有些人類習以為常的動作對機器人來說需要非常精密的運算
作者:
arrenwu (鍵盤的戰鬼)
2018-03-22 09:51:00我是覺得如果不涉及思考的話 機器應該是比較強沒錯你所說的精密運算 是我們覺得很精密 但晶片可能1ms就算完
作者:
GKki2012 (chichi)
2018-03-22 09:53:00但是跟我們作出來的時候 自己會沒有意識到那些動作有多複雜度有多高
作者: madrac (madrac) 2018-03-22 09:55:00
類神經網路就是模仿人類的神經元, 做出有學習能力的東西
作者:
ssccg (23)
2018-03-22 10:22:00這邊前面沒錯,但Zero的差別不是你說的Zero拿掉人類知識的部分,是從0開始訓練,不是因為MCTS有人類知識,MCTS只是個算法,在每個點的選擇靠別的決策方式Zero中用的是在訓練時,以目前網路來做MCTS,再把結果用來更新目前的網路,下棋時只用這一個網路不再用別的方法是之前的AlphaGo是用人類知識做的MCTS,不是MCTS有人類知識Zero學的更有效率根本原因是拿MCTS來當學習的指導者啊但是就像你回推文的,舊AlphaGo中的人類知識不只MCTS有,神經網路本身就有supervised learning的結果你本文的說法像人類知識是在MCTS裡面,但Zero拿掉的人類知識不止這個,學習本身也改成隨機值開始、完全reinforcement大篇幅寫AlphaGo,但Zero很多部分接近砍掉重練卻草草帶過不覺得怪怪的嗎? Zero最終是一個網路輸出policy和value兩個結果,還比較像模仿人類一個腦同時選點和判斷局勢