http://www.slideshare.net/ShaneSeungwhanMoon/how-alphago-works
Shou-de Lin Facebook上面最新的文章(一直判定廣告網站不能貼)
這裡有講alphago的怎麼運作的
"反而利用過去學到的policy 結合了蒙地卡羅樹狀搜尋(MCTS)的方法找出最好棋步"
"必須要能夠走出前所未見的局面,降低它對於盤面估測的準確度才會有機會"
可以解釋為甚麼在李九段下出神之一手後就開始秀逗了
alphago利用過去棋譜和不斷自我訓練得一個函數
加上蒙地卡羅樹狀搜尋 來模擬最好的棋步
因為這神之一步是alphago在這幾千萬局中完全沒模擬到的一步
導致模擬全部重來所以之後幾步都下出低級失誤
弱點非常清楚下出alphago沒想出的一步
不過這一步的機會只能用一次
但是因為alphgo能一直不斷學習
這棋譜加入資料庫後同樣的手法就沒用了
所以第五局除非李九段可以下出和今天一樣的神之一手不然沒有機會贏
問題是根本不知道alphago哪些是它下過、哪些是它沒下過的