※ 引述《turing (涂妮)》之銘言:
: 再看今天第78手後,發生什麼事情?
: 明顯這個「神之一手」不在其策略網路之前估計的棋步中。
: 所以,之前所有值網路所估計的勝率全部報廢。
: AlphaGo必需全部重新計算勝率,而需要約五步的時間(到第79~87步)
: 值網路才回復正常。
我的看法是 Policy Network 裡面有給過神之一手 (白 78)
AlphaGo 也算過相關變化, 但是算的不夠深, 或者說 Value Network 太晚估對.
假設 AlphaGo 搜尋深度固定 8 層 (簡化說明, 實際上不是如此)
AlphaGo 79 手: 我算過 79~86 手的變化了, 86 手的 value network 有 70%
我可以安心下 79.
AlphaGo 81 手: 81 手 value network 報 70%
讓我算一下 81~88 手為止的變化
WTF! 87 手的 value network 掉到 40% ?
可是 81 手的勝率 40% (被 87 手降低) 還是最高, 只好繼續下 81.
AlphaGo 83 手: 83 手 value network 報 70%
83 手的勝率 40% 還是最高, 只好繼續下 83.
AlphaGo 83 手: 85 手 value network 報 70%
85 手的勝率 40% 還是最高, 只好繼續下 85.
AlphaGo 87 手: 87 手的 value network 報 40%
我第 81 手時知道我錯了, 可是 81 手前下錯已經走上單行道.
想避開神之一手
AlphaGo 要能搜尋的更深提早知道 87 手的盤面很劣 (但要花很多運算時間)
或是 Value Network 早一點報對, 比如說第 80 手的盤面就知道很劣.
拉長搜尋時間不太可行 (今天都快用光時間了)
把 Value Network 訓練的更準應該是 AlphaGo 主要的目標.