※ 引述《dharma (達)》之銘言:
: 有人說可能是架設攝影機來觀看螢幕畫面
: 機械手臂操控鍵鼠(限制手速)
: 讓AI能以最接近人類的方式來競賽
: 也有人說是遊戲內容會轉換成給AI軟體讀取的資訊
: 類似下面影片這樣
: https://www.youtube.com/watch?v=5iZlrBqDYPM
: 請問比賽方式有定案了嗎
: thanks
剛好這個禮拜又迎來了AlphaGo對柯潔的對局。不過目前Deepmind對星海這部分透露的還不
多,只能聊一些對未來可能作法的猜測了。
就像很多板友在推文裡談到的,人類與AI的對決會有很多技術性問題。例如要如何讓AI認
識每個單位、地形、資源,這也是原po連結中我們目前唯一可以瞥見的相關技術釋出。其
他的還有常常在爭議的輸入方式,包括APM等等。不過我認為對Deepmind來說,最重要的問
題還是「如何建立一個成功的決策系統」,而不會是悍馬2000這種對比於人類幾乎無限APM
的操作方式。
圍棋的資訊對兩方玩家都是完全公開的。玩家們都是靠著當下局面的同樣訊息進行決策。
而在攻克圍棋這個項目後,會來嘗試星海我想也是不讓人那麼意外的。圍棋和星海同樣是
現成的遊戲,所以它們的規則清楚、目標明確;而兩個遊戲在決策上最大的不同處則可能
在於資訊的透明程度。
從設計圍棋的決策系統來看,AlphaGo必須要能評估每個局面下的利益,這樣才能知道自己
下的這步棋是不是「好」的。對比到星海,我們可以常常想到小色和91這些「專業解說」
在下判斷時也常常會有「雖然吃掉這波兵,但是經濟落後太多」、「目前局勢對他不利,
就看他能用領先的科技打到什麼東西」,這類的「價值判斷」。而價值判斷正確與否的最
終判準在於遊戲最後是不是贏了。所以像是如何拿捏經濟、科技、兵力這種資源分配的決
策就是AI需要去學習的。另外,還有兵種如何搭配,例如人類機械化雖然正面強,但如果
被對方拖住戰線,自己的後方就很容易受到騷擾而又機動力不足,無法即時回撤。又比如
有時候「沒回頭路了,只能換家」、「這時候再不推出去就沒機會了」之類的戰機把握也
是相當重要的決策。
比起圍棋,因為規則的不同而使得星海的決策種類變得非常不同。而最該死的,更是這些
決策時常是建立在資訊的不完整上。「要如何運用手上已有的資訊來預測對方可能作出的
決策,並作出合理的決策來進行應對」,這話說起來很饒口,用例子可能比較清楚,最單
純的可能是看蟲族的農民數、有無開氣來猜測對方是慢狗開、快狗開、搶經濟等的戰略。
比較神乎其神的是像教主開圖那樣,覺得事情不對勁,抓到對方野兵營。比如很久以前看
到一場大雨神的比賽,對方野隱刀,但是大雨神(對我來說)莫名其妙的在沒偵查到隱刀塔
的情況下用三水晶把自己的家門封住。這樣的決策絕對是有理由的,其他板友的解釋是說
由於在偵察對方基地時看到對方早開氣,但又一直沒看到耗氣的兵種,所以下了對方野隱
刀這樣的判斷。
這使得如何、何時更新手上的資訊本身就變成重要的決策之一。例如幾分鐘灑雷達?幾分
鍾看到什麼代表什麼意思?前期的毒暴蟲巢是一波;中期的反而是為了防守。什麼時候又
要二次偵查?確定自己的情報不是被對方作表情誤導的?
這樣說起來,在星海中要做出一個成功的決策系統實在是滿高的挑戰。目前AlphaGo的勝率
也許可以挑戰九成以上了,雖然目前樣本不多,但從最舊的版本到目前最新的版本,人類
能贏的只有李世石那唯一的一盤。可以說在圍棋規則的決策環境中,AI已經可以代替人類
作出更好的決定了。跟星海比較起來,我想比較不同之處在於星海的資訊不透明上,另一
點則是決策時間更短,需要運算得更快。如何調配資源、配兵、出兵這類的決策我想對AI
來說不算太難,有足夠的時間應該就能建立起來。比較難的還是如何在有限的資訊量下持
續作出更好的決策,同時還得克服比起圍棋更加動態的局面。
APM等等問題,在人類對決中是重中之重,決定何方高手更能執行自己的決策。但我想對於
Deepmind來說,更重要的是透過遊戲這種「規則明確」、「價值判斷明確」的特性來學習
如何建立一個成功的決策系統。再不斷挑戰各種限制和複雜程度的環境之後,才更有機會
面對人類社會中的其他決策,畢竟生活之中有許多問題的決策比起遊戲更加複雜,或者曖
昧不明......