Re: [閒聊] AlphaGO棋風定型的可能性

作者: jackeikuo (逸容)   2016-03-13 09:41:28
※ 引述《Likedodo (小熊得冠軍)》之銘言:
: 以AlphaGo訓練的方式來說
: 他是以RL(reinforcement learning)
: 的方式去訓練結構的參數
: 就我的理解 每次下完一盤(步)棋都會
: 依照不同的結果給的獎勵值 去調整參數
: 因此alphaGo會不會在這三場棋後
: 變成更能適應小李的下棋模式 甚至是
: 專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
不太可能
Policy Network 跟 Value Network 都是千萬盤等級練出來的.
加個幾盤影響微乎其微.
而且, 會贏的棋步才對權重比較有影響力.
人類下贏 AlphaGo 時, AlphaGo 才會衍生出新招去剋制.
AlphaGo 是全能型的見招拆招, 無招勝有招, 誰對上它都會感覺自己的棋風被剋.
棋風被剋下不順就很難下出平常的水準.
: 感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
AlphaGo 目前還是由高手的棋路演化而來.
要導向 AlphaGo 不熟悉的領域, 用一些冷僻開局或許比較有機會贏
https://www.zhihu.com/question/30970383
不過冷僻開局人類同樣不熟, 就看誰技高一籌.
作者: unknow12 (LockOn)   2016-03-13 09:44:00
沒錯機器學習的結果由訓練資料決定
作者: wadashi1 (阿拉丁)   2016-03-13 09:49:00
這幾天李40有很多怪招應對,但結果明顯被評為臭招了..
作者: bxxl (bool)   2016-03-13 09:52:00
人類的怪招未必是alphago的怪招(他看的局數太多了)
作者: aegis43210 (宇宙)   2016-03-13 09:53:00
除非有新的棋手能走出新定石
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-13 10:04:00
李用怪招測了被罵臭頭 看得懂門道的還叫李用人類研究透徹的走法徐圖勝利 不過兩種都碰壁了
作者: ykes60513 (いちご)   2016-03-13 10:14:00
冷僻開局第一盤小李不就用過了
作者: a2156700 (斯坦福橋)   2016-03-13 10:15:00
要又冷又強嗎w
作者: yamiyodare (shantotto)   2016-03-13 10:26:00
沒有風車流那麼冷

Links booklink

Contact Us: admin [ a t ] ucptt.com