Re: [閒聊] AlphaGO棋風定型的可能性 jackeikuo PTT批踢踢實業坊

Re: [閒聊] AlphaGO棋風定型的可能性

作者: jackeikuo (逸容) 2016-03-13 09:41:28

※ 引述《Likedodo (小熊得冠軍)》之銘言：
: 以AlphaGo訓練的方式來說
: 他是以RL(reinforcement learning)
: 的方式去訓練結構的參數
: 就我的理解每次下完一盤(步)棋都會
: 依照不同的結果給的獎勵值去調整參數
: 因此alphaGo會不會在這三場棋後
: 變成更能適應小李的下棋模式甚至是
: 專門對付他的棋風(local minimum)而不是下出全局最佳解呢？
不太可能
Policy Network 跟 Value Network 都是千萬盤等級練出來的.
加個幾盤影響微乎其微.
而且, 會贏的棋步才對權重比較有影響力.
人類下贏 AlphaGo 時, AlphaGo 才會衍生出新招去剋制.
AlphaGo 是全能型的見招拆招, 無招勝有招, 誰對上它都會感覺自己的棋風被剋.
棋風被剋下不順就很難下出平常的水準.
: 感覺小李或越戰越辛苦改變既有的下棋方式會不會贏呢？
AlphaGo 目前還是由高手的棋路演化而來.
要導向 AlphaGo 不熟悉的領域, 用一些冷僻開局或許比較有機會贏
https://www.zhihu.com/question/30970383
不過冷僻開局人類同樣不熟, 就看誰技高一籌.

作者: unknow12 (LockOn) 2016-03-13 09:44:00

沒錯機器學習的結果由訓練資料決定

作者: wadashi1 (阿拉丁) 2016-03-13 09:49:00

這幾天李40有很多怪招應對,但結果明顯被評為臭招了..

作者: bxxl (bool) 2016-03-13 09:52:00

人類的怪招未必是alphago的怪招(他看的局數太多了)

作者: aegis43210 (宇宙) 2016-03-13 09:53:00

除非有新的棋手能走出新定石

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-13 10:04:00

李用怪招測了被罵臭頭看得懂門道的還叫李用人類研究透徹的走法徐圖勝利不過兩種都碰壁了

作者: ykes60513 (いちご) 2016-03-13 10:14:00

冷僻開局第一盤小李不就用過了

作者: a2156700 (斯坦福橋) 2016-03-13 10:15:00

要又冷又強嗎w

作者: yamiyodare (shantotto) 2016-03-13 10:26:00

沒有風車流那麼冷

繼續閱讀

Re: [心得] alphago稱不上勝過人腦coolbetter33 [新聞] AlphaGo對決圍棋王謝依旻力挺李世石zkow [新聞] 李世石苦於沒有復盤對象 zkow [情報] 不可思議的五路肩沖怎麼來的？asglay [轉錄] 從前兩局推測AlphaGo算法的重大進展rgx Re: [歷史] 李世石(黑) - AlphaGo(白) 第三局棋譜Pojin [影片] 古力第三盤復盤講解&柯潔訪問回應挑戰zkow [討論] 如果讓alphago吃的棋譜只到50年前hayuyang [問題] 柯潔和阿發狗的結局a1223356 [新聞] 柯潔：阿爾法是最強大對手風暴再猛烈點zkow