※ 引述《ousapas (komica123)》之銘言:
: https://www.youtube.com/watch?v=5iZlrBqDYPM
: Google DeepMind團隊剛剛釋出使用Deep Learning技術玩星海2畫面
: 和傳統戰略遊戲AI不同之處是
: 這個AI和人類一樣是根據目前看到的畫面做判斷
: 而不是根據遊戲內部數據
DeepMind 團隊在做出 AlphaGo 之前就已經把 Atari 遊戲都玩了一遍
大約有一半以上的遊戲可以超越人類 Pro 的水平
遠超過人類水平的像是打磚塊
https://www.youtube.com/watch?v=V1eYniJ0Rnk
這種學習方法特殊的地方在於直接把畫面丟進去學, 而且不需有人類指導.
以打磚塊來說, 一開始是隨機移動, 之後反饋分數強化類神經網路連結.
AI 不知道甚麼是磚塊, 甚麼是球, 甚麼是板子, 也不知道要去接球.
它只知道在某種畫面下應該下某個指令 (讓板子往左或右) 很可能會提高分數.
當 AI 不停地玩, 看過的畫面越多, 越知道要怎麼反應.
神奇的地方在於訓練幾個小時之後, AI 知道開出一條隧道可以有效提高分數.
沒有人教它, 這是它不斷嘗試各種移動方式後自己 "想" 出來的.
圍棋變化太多, 一開始隨機落子學習太慢, 所以 AlphaGo 先學業餘高段的棋步.
以打磚塊來說, 類似先告訴 AI 在哪些畫面下應該往哪邊動.
之後再透過自我對弈重複訓練, 變化出各式各樣的盤面 (畫面) 嘗試各種下一步,
反饋終盤的勝負讓 AI 知道下哪些地方比較可能贏, 以後盡量下那些地方.
星海的變化也是很多, 要從隨機指令開始學起恐怕也是很難.
完全隨機會經歷探測機亂逛不挖礦, 亂蓋建築物這種慘況很久一段時間.
所以我猜星海會從天梯高階 RP 開始學, 工兵會先乖乖挖礦或是探路或 all in.
4BG, 2BG 接各種一波, 裸雙, 雙 VS, 光炮快攻等 RP 有的招數會先拿出來嘗試.
透過自我對練瞭各種戰術對應的方式衍生各種變化, 最後也會出現沒看過的戰術.
星海有個跟圍棋差異很大的地方是因為有戰爭迷霧無法獲得完全資訊.
這也可能是 DeepMind 為什麼選擇它來挑戰的原因.