可是paper裡好像只有用人類棋譜來建立SL策略網路,儘管它其實可以重新用訓練好的AlphaGo重建。當然這也可能是因為寫paper時AlphaGo還不夠強啦,不過他們的paper好像是說希望有某種被人類篩選過的雜訊。It is worth noting that the SL policy network per-formed better in AlphaGo than the stronger RL policynetwork, presumably because humans select a diversebeam of promising moves, whereas RL optimizes forthe single best move.今天的賽前訪問我聽的感覺像是在闡述人工智慧的前景和研發方向,不太記得是不是有特別指圍棋@@嗯對我想錯了其實不是同一件事XD,至少paper也沒解釋為
作者: lwei781 (nap til morning?) 2016-03-12 17:35:00