※ 引述《Likedodo (小熊得冠軍)》之銘言:
: 以AlphaGo訓練的方式來說
: 他是以RL(reinforcement learning)
: 的方式去訓練結構的參數
: 就我的理解 每次下完一盤(步)棋都會
: 依照不同的結果給的獎勵值 去調整參數
: 因此alphaGo會不會在這三場棋後
: 變成更能適應小李的下棋模式 甚至是
: 專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
不太可能
Policy Network 跟 Value Network 都是千萬盤等級練出來的.
加個幾盤影響微乎其微.
而且, 會贏的棋步才對權重比較有影響力.
人類下贏 AlphaGo 時, AlphaGo 才會衍生出新招去剋制.
AlphaGo 是全能型的見招拆招, 無招勝有招, 誰對上它都會感覺自己的棋風被剋.
棋風被剋下不順就很難下出平常的水準.
: 感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
AlphaGo 目前還是由高手的棋路演化而來.
要導向 AlphaGo 不熟悉的領域, 用一些冷僻開局或許比較有機會贏
https://www.zhihu.com/question/30970383
不過冷僻開局人類同樣不熟, 就看誰技高一籌.