最新的版本AlphaGo Zero
完全不依靠人類的數據
從零開始自我訓練
https://imgur.com/It4pAnf
3天後,以局數 100:0 打敗 AlphaGo(李世石版本)
21天後,達到 AlphaGo(Master/柯潔版本)的程度
40天後,成為最強版本的AlphaGo! o'_'o
https://imgur.com/1rVPHqI
以前版本的策略網路(Policy Network)和價值網路(Value Network)
合併成一個神經網路
演算法的改進使系統更強大且高效
Deepmind介紹:
https://deepmind.com/blog/alphago-zero-learning-scratch/
https://www.youtube.com/watch?v=tXlM99xPQC8
https://www.youtube.com/watch?v=WXHFqTvfFSw
Nature論文:
https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html