※ [本文轉錄自 GO 看板 #1Q9-Ito- ]
作者: HeterCompute (異質運算) 看板: GO
標題: [情報] AlphaZero戰勝將棋與西洋棋最強軟體
時間: Wed Dec 6 20:38:11 2017
https://arxiv.org/pdf/1712.01815.pdf
這次論文的標題是:
Mastering Chess and Shogi by Self-Play with a
General Reinforcement Learning Algorithm
從零學棋,
使用相似的神經網路架構,
一樣沒有使用任何人類知識,
4小時打敗西洋棋最強軟體Stockfish,
2小時打敗將棋最強軟體Elmo,
34小時打敗圍棋AlphaGoZero 20blocks 3天版本,
(圍棋其實有些爭議,因為他這次用了5000TPU,上次AlphaGoZero只用2000TPU),
以MCTS打倒傳統的alpha beta search,
通用於完全訊息遊戲,
又一偉大的突破。