面對最菜TI戰隊,OpenAI在Dota2上輸的毫無還手之力
https://zhuanlan.zhihu.com/p/42747177
機器之心報導,作者:Tony Peng.
去年,OpenAI 的1v1 AI 擊敗了世界頂尖選手Dendi,OpenAI CTO Greg
Brockman 承諾:明年,我們會帶著5v5 的AI bot 重回TI。今天,他們履行
了諾言,帶著全新的OpenAI Five,意欲挑戰全世界最頂尖的Dota 2 人類玩
家。然而,51 分鐘的比賽之後,OpenAI 經歷了一場完敗。
據介紹,本屆TI8 的很多參賽隊伍都報名想參加與AI 的比賽,OpenAI 今天
遇到了第一個對手:來自巴西的戰隊paiN,後者也是本屆TI8 比賽第一支被
淘汰的隊伍。但不可否認,它仍然是目前為止全球最為強大的18 支隊伍之
一。而在此之前的公開比賽中,OpenAI Five 在1v1 比賽中戰勝了Dendi,
又在5v5 比賽中戰勝了人類前職業玩家、遊戲解說員組成的6000 分級別戰
隊。
有AlphaGo 圍棋的「前車之鑑」,比賽之前,人們紛紛預測OpanAI 的人工
智能穩贏。然而事實並沒有這麼簡單,雖然OpenAI 的智能體在操作反應等
方面比較有優勢,當在整體策略與合作上仍比不上人類團隊。
TI8,開局不利
今天的人機大戰僅進行一場,比賽雙方陣容如下:
OpenAI 天輝方:直升機、巫妖、死亡先知、冰女、潮汐
paiN 夜魘方:萊恩、死靈法師、巫醫、火槍、斧王
比賽一開始,OpenAI 就給了自己97% 的勝率,然而開局就出師不利,paiN
選擇了開霧直接衝進天輝野區,四人圍攻落單的潮汐,搶到了一血。OpenAI
也展示出了人工智能「不聰明」的一面,在塔下不斷插眼。
paiN 開局打的不錯,遊戲進入7 分半,OpenAI Five 落後1000 經濟。
OpenAI 逐漸在10 分鐘時把比分掰成了7 比7,場面陷入了焦灼。我們可以
看到,電腦並不注重殺人,只專注於推塔。隨後,AI 在兩撥下路團戰中抓
住了機會。至17 分鐘,OpenAI 的經濟反超人類選手。
21 分半,AI 拿下Roshan,這也是AI 首次在公開比賽中擊殺Roshan,直升
機拿盾。不過,在25 分鐘直升機在夜魘野區被抓,盾被浪費了。AI 也沒有
來救,直接拋棄大哥了。32 分鐘第二次拿下Roshan,但是沒想到的,
OpenAI 非常「自私」,誰殺掉了Roshan 誰拿走不朽盾,就算他是輔助位!
隨後,OpenAI 下路野區打出一波二換四。
人工智能對於插眼的思路異於人類,我們最多可以看到三個真眼被放在了
Roshan 門口!而AI 同時還在家裡也放了三個眼,引來了解說的吐槽。在滿
級之後,我們看到了AI 死亡先知一直在大招收野區,很強!
paiN 的玩家雖然人頭落後,在英雄操作上不佔優勢,但逐漸找回了節奏,
在推掉下路後佔據了場面上的優勢。35 分鐘,人類玩家上了高地,此時
OpenAI 預測的勝率降低到了67%。
當然,人類並不認為此時AI 還能佔據優勢。在37 分鐘,paiN 經濟已經領
先了9000。到40 分鐘,OpenAI 在擊殺了人類兩個英雄後選擇了第三次打
Roshan,不過此時人類職業玩家似乎已經掌握了人工智能的套路。
比賽進行到第49 分鐘,AI 認為自己的勝率已經降低到20%,大局已定。
最終,paiN 的人類玩家在團滅OpenAI 之後打爆了水晶。TI8 人機大戰第一
場比賽以人類的勝利告於段落。
今天的比賽,AI 存在著三個巨大的問題:
首先,遊戲中期不會Gank 也不會集中優勢推塔了。在20 分鐘到35 分鐘的
時候,有一段空窗期,paiN 的火槍和斧王都還沒有出BKB,這是AI 的好機
會。但是除了到處插眼,就是在Roshan 附近晃悠,也沒有組織起像樣的抓
人和推塔。等到敵方經濟打出來,BKB 出來之後,比賽呈現了一邊倒的態
勢。
其次,沒有位置之分,不會合理安排資源。Dota 歷來有1-5 號位,1 號位
Carry,4-5 號位輔助。將最優資源分配給1 號位是Dota 多年來的經驗,本
場比賽paiN 也是將資源優先分配給火槍和斧王。反觀AI 這邊,遵守著人人
平等的原則,竟然出現了讓潮汐和巫妖拿不朽盾這種「戰術安排」。
最後,出裝出現大的問題。AI 似乎不明白什麼裝備合適,而且浪費了大量
的金錢在插眼上。
OpenAI Five 項目組成員、研究科學家Jonathan Raiman 告訴機器之心,團
隊成員並沒有特別失望,「賽前,我們大多數人覺得贏下本場比賽的機率大
概就30%-40%。這場比賽我們學到了很多東西,比如AI 擊殺了Roshan 很多
次,這些都值得我們回去好好研究。」
Raiman 透露,此次比賽環境因為改變信鴿的設置,信鴿變得可以被擊殺,
這讓模型又要重新適應新的環境,一定程度上影響了很多因素,比如裝備的
購買;此外,團隊正在反思關於未來獎勵權重的設置。OpenAI 有一套團隊
協作機制(後文會詳細介紹),一切獎勵都圍繞遊戲最終勝利為前提,但現
在看來,這樣的設置降低了AI 在前期farm 和積累經濟的積極性。
這只是OpenAI 在TI8 期間的第一場比賽,之後還有兩場比賽留給OpenAI 挽
尊。只不過,從6 月首次公開OpenAI Five 研究成果,到一路順風順水地在
基準測試中虐殺人類隊伍,OpenAI Five 為何在今日遭受當頭棒喝,或許,
我們可以從它之前的故事裡,得到一些啟示。
(中間描述OpenAI之前為何選擇Dota2以及目前成果的部分跳過)
但無論如何,OpenAI 實現了在非完美的環境裡實現了複雜協作和長期遊戲
操作,這已經是巨大的突破了。儘管OpenAI 並沒有自主開發出具有突破性
的算法,但他們將現有的最前沿的算法和模型和算力相結合,讓一個智能體
從什麼都不會、通過自我對抗和學習、發展出一套合理的行為模式,這種方
法在其他的AI 應用、機器人和遊戲裡都將可能被應用。
TI8 不是OpenAI Five 的最後一站,他們還會舉辦最後一場比賽,時間未
定,預計在10-11 月,甚至有可能在明年年初。屆時,OpenAI 希望可以開
放英雄池裡所有的英雄,放開所有限制,讓AI 和人類玩家真正打一局酣暢
淋漓的Dota 2 比賽。
從現在來看,OpenAI 的Dota 之旅,還遠遠沒有結束。