[新聞]擊敗星海爭霸職業玩家的AlphaStar是在作弊?

作者: zkowntu (冰封冷雁)   2019-01-28 15:52:22
“擊敗星海爭霸II職業玩家”的 AlphaStar是在作弊?
機器之心 · 2小時前
DeepMind 擊敗人類職業玩家的方式與他們聲稱的 AI 使命,以及所聲稱的『正確』方式
完全相反。
編者按:本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者 機器之心編
輯部。36氪經授權轉載。
DeepMind 的人工智慧 AlphaStar 一戰成名,擊敗兩名人類職業選手。掌聲和歡呼之餘,
它也引起了一些質疑。
在前天 DeepMind 舉辦的 AMA 中,AlphaStar 專案領導者 Oriol Vinyals 和 David
Silver、職業玩家 LiquidTLO 與 LiquidMaNa 回答了一些疑問。不過困惑依然存在
近日,Aleksi Pietikäinen 在 Medium 上發表了文章,提出了幾點疑問,在 Twitter
和 Reddit 上引起了極大的關注:
AlphaStar 使用了超人的速度,達到了超人的準確度。
DeepMind 稱限制了 AI 的操作速度,不至於人類無法企及。但他們並未做到,且大
概率意識到自己沒做到。
AlphaStar 擁有超人速度的原因可能是忘了考慮人類的無效點擊。作者懷疑
DeepMind 想限制它使它更像人類,但是卻沒有做到。我們需要一些時間弄清楚這一點,
不過這也正是作者寫本文的原因。
前谷歌大腦科學家 Denny Britz 也轉載了此文章並在 Twitter 上表示:「有時候誠實和
謙虛一點,就像『目前已經做得不錯了,但我們還沒有達到最優,還有很長的路要走。』
而不是『看!那職業選手被擊敗了!!』,這樣才能走得更遠。
最讓我煩惱的是,雖然 AlphaStar 在很多方面都有令人驚訝的結果,但其聲稱『限制在
人類的操作水準』的解釋讓整個事件變得更像是在做公關,對於不熟悉機器學習和星海爭
霸的人來說這就是誤導。」
讓我們看看 AlphaStar 究竟哪裡「作弊」了,以下為機器之心對該文章的編譯介紹:
首先,我必須聲明我是門外漢。最近我一直追蹤 AI 發展和星海爭霸 2,不過我在這兩個
領域都不是專家。如有錯漏,請見諒。其次,AlphaStar 確實是一項巨大成就,我很期待
看到它以後的發展。
AlphaStar 的超人速度
AlphaStar 團隊領導 David Silver:「AlphaStar 不能比人類選手反應速度快,也不會
比人類選手執行更多點擊。」
2018 年,來自芬蘭的蟲族選手「Serral」Joona Sotala 制霸星海 2。他是目前的世界冠
軍,且他在當年的九場大型賽事中取得了七次冠軍,在星海 2 歷史上是史無前例的選手
。他的操作速度非常快,可能是世界上最快的星海 2 選手。
在 WCS2018 上,Serral 的毒爆蟲讓局勢逆轉。
在比賽中,我們可以看到 Serral 的 APM(actions per minute)。APM 基本上表示選手
點擊滑鼠和鍵盤的速度。Serral 無法長時間保持 500 APM。視頻中有一次 800 APM 的爆
發,但只持續了一秒,而且很可能是因為無效點擊。
世界上速度最快的人類選手能夠保持 500 APM 已經很不錯了,而 AlphaStar 一度飆到
1500+。這種非人類的 1000+ APM 的速度竟然持續了 5 秒,而且都是有意義的動作。
一分鐘 1500 個動作意味著一秒 25 個動作。人類是無法做到的。我還要提醒大家,在星
海 2 這樣的遊戲中,5 秒是很長一段時間,尤其是在大戰的開始。
如果比賽前 5 秒的超人執行速度使 AI 占了上風,那麼它以大幅領先優勢獲取勝利可能
是由於雪球效應。
一位解說指出平均 APM 仍是可接受的,但很明顯這種持續時間並非人類所能為。
AlphaStar 的無效點擊、APM 和外科手術般的精准打擊
大部分人類都會出現無效點擊。無意義的點擊並沒有什麼用。例如,人類選手在移動軍隊
時,可能會點擊目的地不止一次。這有什麼作用呢?並沒有。軍隊不會因為你多點擊了幾
下就走得更快。那麼人類為什麼還要多點擊呢?原因如下:
1. 無效點擊是人類想要加快操作速度的自然結果。
2. 幫助活躍手指肌肉。
我們前面說過 Serral 最令人震驚的不是他的速度而是準確度。Serral 不只是具備高
APM,還具備非常高的 effective-APM(下文中簡略為 EAPM),即僅將有效動作計算在
內的 APM。
一位前職業玩家在看到 Serral 的 EAPM 後發推表示震驚:
Serral 的 EAPM 是 344,這實際上已經是前所未有了。APM 和 EAPM 的區別也涉及
AlphaStar。如果 AlphaStar 沒有無效動作,這是不是說明它的巔峰 EAPM 等於巔峰
APM?這樣的話 1000+的爆發更加非人類了。
我們還需要考慮 AlphaStar 具備完美的準確率,它的性能好到「荒謬」的程度。它總能
點擊到想去的地方,而人類會有誤點擊。AlphaStar 可能不會一直使用巔峰狀態,但在關
鍵時刻,它的速度是世界最快選手的 4 倍,而準確率更是人類專業玩家想都不敢想的。
星海 2 中存在一個共識:AlphaStar 的執行序列人類無法複製。其速度和準確率突破了
人類現有極限。
AlphaStar 只能執行人類選手可以複製的動作?David Silver 不認同這種看法。
正確做事 vs 快速做事
AlphaStar 的首席設計工程師 Oriol Vinyals:我們正在努力構建擁有人類驚人學習能力
的智慧系統,因此確實需要讓我們的系統以盡可能「像人類一樣」的方式學習。
例如,通過非常高的 APM,將遊戲推向極限可能聽起來很酷,但這並不能真正幫助我們衡
量智慧體的能力和進步,使得基準測試毫無用處。
為什麼 DeepMind 想限制智慧體像人類一樣玩遊戲?為什麼不讓它放飛自我?原因是星海
爭霸 2 是一個可以通過完美操作攻破的遊戲。
在這個 2011 年的視頻(https://www.youtube.com/watch?v=IKVFZ28ybQs)中,AI 攻擊
一組坦克,其中一些小狗實現了完美的微操。例如,在受到坦克攻擊時讓周圍的小狗都躲
開。
通常情況下,小狗不能對坦克做出太大 傷害,但由於 AI 完美的微操,它們變得更加致
命,能夠以最小的損失摧毀坦克。
當單元控制足夠好時,AI 甚至不需要學習策略。而在沒有這種微操時,100 只小狗沖進
20 架坦克中只能摧毀兩架坦克。
並不一定對創建可以簡單擊敗星海爭霸專業玩家的 AI 感興趣,而是希望將這個項目作為
推進整個 AI 研究的墊腳石。
雖然這個研究項目的重要成員聲稱具有人類極限限制,但事實上智慧體非常明顯地打破了
這些限制,尤其是當它利用超人速度的操作來贏得遊戲時,這是完全無法讓人滿意的。
AlphaStar 能夠在單位控制方面超越人類玩家,當遊戲開發者仔細平衡遊戲時,肯定不會
去考慮這一點。這種非人類級別的控制可以模糊人工智慧學習的任何戰略思維評估。
它甚至可以使戰略思維變得完全沒有必要。這與陷入局部極大值不同。當 AI 以非人類級
別的速度和準確率玩遊戲時,濫用卓越的控制能力很可能變成了玩遊戲時的最佳策略,這
聽起來有些令人失望。
這是專業人士在以 1-5 的比分輸掉比賽之後所說的 AI 優點和缺點:
MaNa:它最強的地方顯然是單位控制。在雙方兵力數量相當的情況下,人工智慧贏得了所
有比賽。在僅有的幾場比賽中我們能夠看到的缺點是它對於技術的頑固態度。
AlphaStar 有信心贏得戰術上的勝利,卻幾乎沒有做任何其它事情,最終在現場比賽中也
沒有獲得勝利。我沒有看到太多決策的跡象,所以我說人工智慧是在靠操作獲得勝利。
在 DeepMind 的 Replay 講解和現場比賽之後,星海爭霸玩家群體幾乎一致認為
AlphaStar 幾乎完全是因為超人的速度、反應時間和準確性而獲得優勢的。
與之對抗的職業選手似乎也同意。有一個 DeepMind 團隊的成員在職業玩家測試它之前與
AlphaStar 進行了比賽。他估計也同意這種觀點。
David Silver 和 Oriol Vinyal 不斷重複聲稱 AlphaStar 如何能夠完成人類可以做的事
情,但正如我們已經看到的那樣,這根本不是真的。
在這個視頻中關於「AlphaStar 如何能夠完成人類可以做的事情」的描述非常粗略。
為什麼 DeepMind 允許 AlphaStar 擁有超人的操作能力
現在讓我們回顧一下這篇文章的主要觀點:
我們知道了 APM、EAPM 和無效點擊等概念;
我們對人類玩家操作能力的上限有一個粗略的瞭解;
我們知道了 AlphaStar 的遊戲玩法與開發人員聲稱允許執行的遊戲玩法完全矛盾;
我們的一個共識是 AlphaStar 通過超人的控制能力贏得了比賽,甚至不需要卓越的
戰略思維;
我們知道,DeepMind 的目標不是創建一個只能微操的 AI,或者以從未打算過的方式
濫用技術;
令人難以置信的是,在 DeepMind 的星海爭霸 AI 團隊中沒有人質疑爆發的 1500+
APM 是否對於人類而言可及。他們的研究人員可能比我更瞭解這個遊戲。他們正與擁有星
海爭霸系列 IP 的遊戲公司暴雪密切合作,使 AI 盡可能接近人類才符合他們的利益(參
見本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前幾個要點和使命陳述)

這是我對事情真相的猜測:
1)在專案一開始,DeepMind 同意對 AlphaStar 施加嚴格的 APM 限制。因此 AI 不會在
演示中出現超人的操作速度。如果讓我來設計這些限制,可能包含如下幾項:
整場比賽的平均 APM;
在短時間內爆發的最大 APM。我認為每秒加上 4-6 次點擊是合理的。還記得
Serral 和他的 344 EAPM 超越了競爭對手?這還不到每秒 6 次點擊。與 MaNa 對戰的
AlphaStar 版本在連續的時間段內每秒可以執行 25 次點擊。這比人類可以做到的最快
無效點擊速度要快得多,我認為原始限制是不允許這樣做的。
點擊之間的最短間隔。即使 AI 的速度爆發被限制,它仍然可以在當前所處時間段的
某個時刻執行幾乎暫態的動作並且仍然以非人類的方式執行。人類顯然無法做到這一點。
有些人會主張還可以在準確率上添加隨機性來進行限制,但我懷疑這會過多地阻礙訓練的
速度。
2)接下來,DeepMind 會下載數以千計高排名的業餘遊戲視頻並開始模仿學習。在這個階
段,智慧體只是試圖模仿人類在遊戲中所做的事情。
3)智慧體採用無效點擊的行為。這很可能是因為人類玩家在遊戲過程中使用了這種點擊
行為。幾乎可以肯定,這是人類執行的最單調重複的行為模式,因此很可能深深紮根于智
慧體的行為中。
4)AlphaStar 爆發的最大 APM 受限於人類進行無效點擊的速度。由於 AlphaStar 執行
的大多數操作都是無效點擊,因此沒有足夠的 APM 可用於在戰鬥中進行實驗。如果智慧
體未進行實驗,則無法學習。以下是其中一位開發人員昨天在 AMA 上所說的話:
AlphaStar 的首席設計工程師 Oriol Vinyals:訓練人工智慧玩低 APM 非常有趣。在早
期,我們讓智慧體以非常低的 APM 進行訓練,但它們根本沒有微操。
5)為了加速開發,他們改變 APM 限制以允許高速爆發。以下是 AlphaStar 在演示中使
用的 APM 限制:
AlphaStar 的首席設計工程師 Oriol Vinyals:尤其是,我們在 5 秒的時間段內設置的
最大 APM 為 600,在 15 秒內最大為 400,30 秒內最大為 320,在 60 秒內最大為 300
。如果智慧體在此期間執行更多的操作,我們會刪除/忽略這些操作。這些是根據人類統
計資料設置的。
這相當於通過統計數字作弊。乍一看,對星海不太瞭解的人可能會覺得這樣做很合理,但
它會允許我們之前討論的超人速度爆發以及超人滑鼠精度,這是不太合理的。
人類進行無效點擊的速度是有限的。最典型的無效點擊形式是對一個單位發出移動或攻擊
命令。這是通過用滑鼠點擊地圖某個位置來完成的。
請盡你最快的速度點擊滑鼠試試。智慧體學會了這種無效點擊。它不會點擊地太快,因為
它模仿的人類無法點擊太快。而能讓它達到超人速度的額外 APM 可以被認為是「自由的
」APM,它可以用於更多次嘗試。
6)自由的 APM 被用於在交戰中進行實驗。這種交互在訓練中經常發生。AlphaStar 開始
學習新的行為以帶來更好的結果,它開始擺脫經常發生的無效點擊。
7)如果智慧體學會了真正有用的動作,為什麼 DeepMind 不回到最初對 APM 更苛刻、更
人性化的限制呢?他們肯定意識到了其智慧體正在執行超人的動作。
星海社區一致認為 AlphaStar 擁有超人的微操技術。人類專家在 ama 中表示,
AlphaStar 的最大優勢不是其單位控制,而其最大的弱點也不是戰略思維。
DeepMind 團隊中玩星海的人肯定也是這麼想的,理由是因為智慧體偶爾還是會進行無效
點擊。
雖然在玩遊戲的大部分時間裡,它能直接執行有效動作,但它還是經常做無效點擊。這一
點在它與 MaNa 的比賽中很明顯,該智慧體在 800APM 上無意義地點擊移動命令。
儘管這完全沒必要,而且消耗了它的 APM 資源,但它仍不忘記這麼幹。無效點擊會在大
規模戰爭中對智慧體造成很大傷害,它的 APM 上限可能會被修改以使它在這些對抗中表
現良好。
不要在意這些細節?
現在你明白是怎麼回事兒了。我甚至懷疑人工智慧無法忘記它在模仿人類玩家過程中學習
到的無效點擊行為,因而 DeepMind 不得不修改 APM 上限以允許實驗進行。
這麼做的缺點就是人工智慧有了超越人類能力的操作次數,從而導致 AI 以超越人類的手
速,不用戰術戰略就能打敗人類。
我們對 APM 如此關心,是因為 DeepMind 擊敗人類職業玩家的方式與他們所希望的方式
,以及所聲稱的「正確」方式完全相反。而 DeepMind 放出的遊戲 APM 統計圖也讓我們
對此有所洞悉:
這種統計方式似乎是在誤導不熟悉星海爭霸 2 的人。它似乎在把 AlphaStar 的 APM 描
述為合理的。我們可以看看 MaNa 的資料,儘管他的 APM 均值比 AlphaStar 要高,但在
最高值上 AI 遠高於人類,更不用說在高 APM 時人類操作的有效性了。
請注意:MaNa 的峰值是 750,而 AlphaStar 高於 1500。想像一下,MaNa 的 750 包含
50% 的無效點擊,而 AlphaStar 的 EAPM 幾乎完美……
至於 TLO 的「逆天」手速,星海爭霸主播黃旭東和孫一峰在直播時認為他明顯使用了快
速鍵盤(通過特殊品牌的鍵盤熱鍵功能,設置某單個快速鍵/複合鍵代替多次滑鼠點擊)

快速鍵盤可以讓人類的 APM 達到不可理喻的高度,比如 15,000 多——但並不會提升你
的有效操作。
然而,你用快速鍵盤能做的唯一一件事就是無效施法。出於某些莫名的原因,TLO 在濫用
這個技術,這種操作的統計結果讓不熟悉星海爭霸的人看起來好像 AlphaStar 的 APM 是
在合理範圍之內的。
DeepMind 的介紹性博客並沒有提到 TLO 荒謬數字的原因,如果沒有解釋,這個數字就不
應該被列在圖中。
這簡直是在統計數字上作弊。
可以說有局限性,可以說潛力巨大
AlphaStar 星海爭霸 2 的人機大戰吸引了人工智慧領域裡很多專業人士的關注,它對於
AI 技術的發展會有什麼樣的啟示。比賽過後,Facebook 研究科學家田淵棟在知乎上表
示:
昨天晚上抽空看了一下 DM 的 demonstration 還有 live 的比賽。確實做得很好。
我星海水準很爛,星海 2 也玩得不多,相信大家已經看到了大量的遊戲評論,我就跳過
了。
整個系統和 AlphaGo 第一版很接近,都是先用監督學習學會一個相當不錯的策略,然後
用自對弈(self-play)加強。當然有兩個關鍵的不同點,其一是自對弈用的是
population-based 以防止掉進局部解(他們之前在 Quake 3 上也用到了)。
其二是在 network 裡面加了一些最近發表的神經網路模型,以加強 AI 對於遊戲全域和
歷史長程關聯性的建模能力(比如說用 transformer,比如說讓 AI 可以一下子看到全部
可見區域),這兩點對於不完全資訊遊戲來說是至關重要的。
因為不完全資訊遊戲只能通過點滴的歷史積累來估計出當前的狀態,尤其是對手的狀態,
多一點歷史記錄就能學得更好些,這個我們做過一些即時戰略遊戲(MiniRTS)的研究,
很有體會。
星海一個很大的問題是輸出的行動空間(action space)巨大無比,我記得他們在一開始
做的基線(baseline)演算法裡面用了 language model 輸出精確到單位的行動(
unit-level action),但在 DM 的 blog 裡面卻說每個時間節點上只有 10 到 26 種不
同的合法行動。
然後在他們的 demonstration 裡面「considered Build/Train」下面有 33 個輸出。這
些都讓人非常困惑。或許他們在監督學習的時候已經建立了一些子策略(比如說通過聚類
的方法),然後在訓練的時候直接調用這些子策略就行了。但具體細節不明,期待完整論
文出來。
另外,這次 AlphaStar 沒有用基於模型進行規劃的辦法,目前看起來是完全用經典的
off-policy actor-critic 加大量 CPU 硬來,就有這樣的效果。
關於 AlphaStar 輸掉的那局。實話說被簡單的空投戰術重複幾次給拖死了,讓人大跌眼
鏡。聯想到 OpenAI Five 對職業選手也輸了,主要還是應變能力不強,無法對新戰術新
模式及時建模。
圍棋因為遊戲規則和雙方資訊完全透明,下棋的任何一方都可以用蒙特卡羅樹搜索(MCTS
)對當前局面進行臨時建模和分析,但不完全資訊博弈因為得要估計對手情況就沒有那麼
簡單。
AlphaStar 目前似乎是無模型的(model-free,Reddit 上的解答確認了這一點)。我不
知道是不是在進行充分的訓練之後,純粹無模型(model-free)的方法可以完全達到樹搜
索的效果——但至少我們能看到在圍棋上。
就算是用相當好的模型比如說 OpenGo,要是每盤都不用搜索而只用策略網路的最大概率
值來落子,還是會經常犯錯。
所以說,若是在不完全資訊博弈裡面用上了基於模型(model-based)的方法,並且能夠
穩定地強於無模型(model-free)方法,那在演算法上會是一個比較大的突破。
所以其實深度強化學習還是有很多很多很多沒有解決的問題,你可以說它有很大局限性,
也可以說它潛力巨大。
在這之上,更難的一個問題是如何讓 AI 具有高層推理的能力。人對將來的預測是非常靈
活且極為穩定的,可能會想到一秒後,也可能會想到一年後,而且對新模式可以很快概括
總結並加以利用。
但真寫點演算法去模仿人的預測能力,就會出現各種各樣的問題,比如說對沒探索過的地
方過於自信,多次預測產生累計誤差等等。那麼到底什麼樣的預測模型是穩定有效且靈活
的,目前還是研究熱點,沒有一個統一的答案。
對應到星海上,人在全域戰略上的優化效率要遠遠高於 AlphaStar,比如說一句「造兩個
鳳凰去滅了那個來空投的棱鏡」,可能就頂 AlphaStar 自對弈幾天幾夜。
這個效率的差距(可能是指數級的)是否可以用大量計算資源去填補,會是和頂尖高手對
局勝敗的關鍵所在。
https://www.36kr.com/p/5174690
作者: badend8769 (壞結局)   2018-01-28 15:52:00
太長
作者: blargelp (bernie)   2019-01-28 15:55:00
長文不付懶人包in2019= =
作者: weltschmerz (威爾特斯克˙悶死)   2019-01-28 15:55:00
轉貼還不編輯 上面重複一樣的段落
作者: gcobc36557 (比目魚)   2019-01-28 15:56:00
太長
作者: akun710191 (akun)   2019-01-28 15:56:00
轉文怎麼轉得這麼爛==
作者: Shift2 (小老鼠)   2019-01-28 15:57:00
整理一下好不好
作者: blargelp (bernie)   2019-01-28 15:57:00
反正大概就是人類了不起幾百APM,而且還參雜無笑效的。AI說已經有限制了APM但還是可以破千,且全部有效?
作者: gmoz ( This can't do that. )   2019-01-28 15:58:00
懶人包:AI的有效APM(假定他沒有無效點擊)高達1000+超過人類極限
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 15:59:00
又長又無聊 = = AS那也不是作弊 就操作比人類強然後DeepMind做這個實驗也不是為了要證明AS玩遊戲會贏人而是想知道在戰鬥策略規劃上AS有沒有可能展現高智能畢竟只是玩這遊戲玩贏人類有啥屁用?
作者: spfy (spfy)   2019-01-28 16:00:00
裡面好多重複的廢話 你直接轉中國文章沒處理吧
作者: gigayaya (gigayaya)   2019-01-28 16:00:00
AI:朱雀 人類:魯魯修
作者: y124421473 (ˊ_>ˋ)   2019-01-28 16:00:00
打那麼多誰他媽看的完
作者: gigayaya (gigayaya)   2019-01-28 16:01:00
魯魯修:這不是人類辦的到的事情 朱雀:我來吧 !?
作者: spfy (spfy)   2019-01-28 16:01:00
段放123...N頁 還會塞很多廢話...
作者: hdjj (hdjj)   2019-01-28 16:07:00
開頭一句「首先我必須聲明我是門外漢」,然後下面打了一堆這不就是說自己是在發廢文嗎?XD
作者: siro0207 (希羅)   2019-01-28 16:10:00
超多廢話...
作者: jasmine2015   2019-01-28 16:12:00
簡單來講就是人類的APM其實很大一部分是無意義動作但是開發人員忽略這點 把AI的APM上限調太高 我是覺得不如讓AI挑戰操作不那麼吃重的RST 例如英雄連之類的
作者: durg (........)   2019-01-28 16:13:00
確實是門外漢講廢話。
作者: sth7667 (豪)   2019-01-28 16:15:00
裡面那影片看了大概就懂意思了,那種操作人類不可能辦到
作者: www8787 (進擊derLoser®)   2019-01-28 16:19:00
簡單說就像打大老二比牌技時 電腦的吐胚可以贏葫蘆
作者: siro0207 (希羅)   2019-01-28 16:20:00
簡單來說 這些比賽原本的目的應該是要測試AI能不能制定
作者: jupto (op)   2019-01-28 16:20:00
純粹是開發團隊給人類選手一個可以嘴的空間吧
作者: alonelykid (咩咩)   2019-01-28 16:21:00
其實只有操作強是失敗的 早就有悍馬2000這種神級AI
作者: siro0207 (希羅)   2019-01-28 16:21:00
戰略或戰術來獲勝 而不是靠單純的微操
作者: iwinlottery (我中樂透頭彩)   2019-01-28 16:21:00
這的確要限制啊
作者: zseineo (Zany)   2019-01-28 16:22:00
呃這個AI學會了營運好嗎,只是他順便練出了超強的操作
作者: www8787 (進擊derLoser®)   2019-01-28 16:22:00
要讓電腦的兔胚比人類葫蘆強 可以 但那失去比牌技的意義
作者: alonelykid (咩咩)   2019-01-28 16:22:00
這種感覺比較想跟電腦比打字速度而不是寫文章
作者: zseineo (Zany)   2019-01-28 16:23:00
然後他的目的嘛,可以去星海板看Jotarun大的文
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:23:00
AS確實學會了營運,但只是要做到這件事情寫個script就行
作者: siro0207 (希羅)   2019-01-28 16:27:00
畢竟這種微操在現實戰爭面來看非常的不現實 就像叫一群步兵衝進敵人的砲兵陣列 然後指揮官透過無線電指揮每個士兵 讓敵人的每發砲彈都只擊中一個士兵
作者: jupto (op)   2019-01-28 16:29:00
整體來說AS的微操已經被限制在哪裡可實現的範圍 只是人類還有有失誤與耐久的限制
作者: siro0207 (希羅)   2019-01-28 16:30:00
或者是每發砲彈都打不中這樣
作者: jupto (op)   2019-01-28 16:31:00
至於沒有加入這兩個限制 原因是技術 開發者失誤 還是其他原因就不知了
作者: hdjj (hdjj)   2019-01-28 16:32:00
在現實戰爭面來看很現實啊,有一種東西叫無人機
作者: zseineo (Zany)   2019-01-28 16:32:00
因為目的就不是做一個彷人類會失誤的AI然後AS的高速操作人類是作不到的
作者: hdjj (hdjj)   2019-01-28 16:34:00
而且現代軍隊火力操縱也大多由電腦來控制,人類只需下令開火
作者: siro0207 (希羅)   2019-01-28 16:35:00
我的例子就不是無人機啊如果今天配給你的士兵只是一般人 那你這AI不就垃圾
作者: amsmsk (449)   2019-01-28 16:38:00
操作散小狗有讀取到後台訊息了 as是看現場應對這能比嗎這作者知道自己講啥嗎
作者: zseineo (Zany)   2019-01-28 16:38:00
啊就重學啊XD 今天DM給他的APM限制就這樣,他就練出這種戰術啊
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:40:00
我發了個懶人包 大家有興趣的可以看看
作者: dimw   2019-01-28 16:43:00
感覺和以前的深藍一樣 不知道之後要幹嘛了
作者: jupto (op)   2019-01-28 16:43:00
其實最好的方式就是把決策與操控做成兩個獨立的系統 操控提供決策許多戰術包 決策負責判斷使用哪個戰術包 這樣只要依照比賽對手條件調整戰術包的數量與參數就可以達到限制操作的目的
作者: amaranth (liann)   2019-01-28 16:44:00
簡單講就是電腦可以操縱部隊開無雙來藉此獲勝,可是研究的目的是希望能學習用戰術/策略取勝
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:44:00
其實我還滿相信這文章某個論點,就是限制APM的話AS可能沒辦法拿出來展示
作者: dimw   2019-01-28 16:45:00
回歸AI目的 在過去大概可以說是想模擬人類的大腦現在的話大概是想突破奇點 不過不管哪個實際上都還很遙遠
作者: bahamutjr (AT)   2019-01-28 16:46:00
中間一段說學人類的關西 所以有無效操作 才需要放寬APM的限制 後面又說EAPM完美 沒有無效操作
作者: jupto (op)   2019-01-28 16:48:00
我倒是認為AI其實早就離這些目的一步之遙 只人類永遠不敢去打開那道大門
作者: s81048112 (**********已加密)   2019-01-28 16:48:00
AI幹嘛要去仿人類失誤?
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:48:00
一步之遙...想太多囉
作者: aegisWIsL (多多走路)   2019-01-28 16:48:00
太長
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:50:00
參考這個 http://rail.eecs.berkeley.edu/deeprlcourse/Reinforcement Learning 現在還一堆問題有很多做法看起來就像矇對的一樣現在AI之所以變強是因為人類幫他簡化問題並想方法找出正確的自我提升方向。這跟強AI是完全不同的東西
作者: dimw   2019-01-28 16:54:00
人類在學習成長的過程中 會犯的錯誤大多是有意義的當然我是不敢說這種有意義的錯誤會是智慧的必要條件
作者: jupto (op)   2019-01-28 16:55:00
我倒認為這只是解釋人類目前連表達出自己想要什麼都一大堆bug需要修正
作者: zseineo (Zany)   2019-01-28 16:55:00
上面有些失誤是在講肌肉耐力或點擊失誤這種東西
作者: lturtsamuel (港都都教授)   2019-01-28 16:56:00
不是AI要模彷人類失誤 而是AI的對手人類本來就會失誤而這個遊戲本來就是這樣去設計平衡性的用一個不失誤的AI去打敗會失誤的人類 能說它比人類更"智慧"嗎?這裡所謂的人類失誤也不是在智慧上的失誤 而是肌肉控制或反應時間導致的
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 16:59:00
我還是覺得現在不用急著限制APM 因為人類還可以用策略贏
作者: lturtsamuel (港都都教授)   2019-01-28 17:01:00
不限APM 它就是一直往高操作兵種的方向去學習然後用超越平衡的打法去玩遊戲 我是覺得這樣練出來的
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:02:00
但我覺得要先求有,至少目前要讓他能夠戰勝人類
作者: lturtsamuel (港都都教授)   2019-01-28 17:02:00
結果還挺歪的啦
作者: dieorrun (Tide)   2019-01-28 17:02:00
戰勝又沒意義 只是要贏的話方法一堆
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:03:00
問題是現在他們的實驗成果沒辦法戰勝人類啊
作者: jupto (op)   2019-01-28 17:03:00
現在不就是限制了APM電腦還是靠操作就屌打人類 才會產生AS作弊一說?
作者: zseineo (Zany)   2019-01-28 17:03:00
我覺得要弄懂DM的目的而不是自己定義AI的成功與否啦XD
作者: lturtsamuel (港都都教授)   2019-01-28 17:04:00
這不就像拳擊打不贏就吃禁藥一樣 吃禁藥打贏了技術會進步嗎我是覺得不吃禁藥打輸也比吃禁藥打贏學到更多啦它不是打贏職業了嗎 雖然是二線的沒錯 但不能說人類打100%會贏吧 serral打二線都不敢說自己100%會贏了
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:06:00
我是自己猜如果APM限制得更嚴苛 可能會沒辦法DEMO你可以看最近那個現場跟Mana的表演賽,他不會打空投他不會打空投的原因是他根本不了解要怎麼對抗
作者: lturtsamuel (港都都教授)   2019-01-28 17:06:00
我也是這樣想 也許低APM那的區域數學性質很難收斂
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:07:00
這其實很妙喔 因為神族對抗的rp 空投非常常見
作者: zseineo (Zany)   2019-01-28 17:07:00
目前AS有很多不同的版本,總戰績是10-1
作者: lturtsamuel (港都都教授)   2019-01-28 17:07:00
那它的方向應該是想辦法學會守空投 不是變成APM怪物
作者: lturtsamuel (港都都教授)   2019-01-28 17:09:00
因為目前技術還沒跟上啊 不然咧@@
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:09:00
我的看法是這暗示要理解"1隻鳳凰可以解決稜鏡"這件事情並沒有很容易
作者: dieorrun (Tide)   2019-01-28 17:09:00
所以到底是要怎樣 就成果和大家預期的不一樣啊
作者: arnold3 (no)   2019-01-28 17:09:00
我玩即時戰略那麼久了 還真沒遇過打不贏的ai
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:10:00
所以我覺得先讓他們可以在沒有APM限制下讓AS學會所有基本概念比較...好啦XD
作者: dieorrun (Tide)   2019-01-28 17:10:00
甚至有點練錯方向了 問題在哪
作者: arnold3 (no)   2019-01-28 17:10:00
主要還是打幾場沒找到對電腦的打法而已
作者: theyolf (qq)   2019-01-28 17:10:00
這種AI跟以前那種超級電腦有啥不同? 那個也叫營運嗎
作者: zseineo (Zany)   2019-01-28 17:10:00
就大家要的AI跟DM要的都不一樣啊,其實都在雞同鴨講
作者: lturtsamuel (港都都教授)   2019-01-28 17:10:00
我也覺得 目前的AI要理解空軍剋稜鏡 它的過程一定跟人類差很多
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:11:00
我不太相信大家要的AI跟DM不一樣啦XD
作者: lturtsamuel (港都都教授)   2019-01-28 17:11:00
假如我現在突然擁有超越serral的手速 我相信我對遊戲的理解一定會歪掉
作者: arrenwu (鍵盤的戰鬼)   2019-01-28 17:12:00
人類的學習能力本來就是比較快的 這倒是一直都沒有疑問
作者: lturtsamuel (港都都教授)   2019-01-28 17:12:00
例如追獵剋不朽
作者: lturtsamuel (港都都教授)   2019-01-28 17:13:00
我是覺得可以用高手速來pretrain 然後慢慢調低不過這作法這麼直覺 絕對有人做過 不知結果如何
作者: jupto (op)   2019-01-28 17:26:00
最簡單就是分解成決策與操作兩個系統 其實人類大腦也是這樣在搞 只是這樣可能就無法完全突破奇點
作者: hitmd (hitmd)   2019-01-28 18:17:00
我以為 AI是每個單位都獨立自己可以行動,還可以掌握配合
作者: jupto (op)   2019-01-28 18:24:00
其實樓上說的這些 遊戲內建的引擎已經處理了不少
作者: WindSucker (抽風者)   2019-01-28 19:06:00
輸不起
作者: notneme159   2019-01-28 19:32:00
太長 整理一下吧
作者: ge781221   2019-01-28 20:06:00
拿AI跟人類比本來就沒啥意義,會這樣比只是想凸顯AI會學習戰術,但是不管你再加上諸多限制,AI的操作始終有優勢,這種優勢在遊戲內是會一直擴大的,再說了比賽之所以好看是因為人類可能有失誤,選手如何降低失誤甚至是失誤之後怎麼挽回,都是讓比賽精彩的地方
作者: yadohime (君莫愁)   2019-01-28 20:21:00
簡單說就AI微操控兵就車翻你了就沒必要去想戰略,而製作者真正要的是戰略戰術的層次。講得明白點,輸了就輸了不用東拉西扯真要有效應該讓AI對AI ,完全不限制性能,在此之上再發展戰略跟戰術

Links booklink

Contact Us: admin [ a t ] ucptt.com