作者:
zkow (逍遙山水憶秋年)
2018-04-19 11:43:32前阿里大神AI創業主打決策智慧 先攻《星海II》
量子位元 報導 | 公眾號 QbitAI
看看別人家的玩遊戲事蹟。
在北京大學第42屆ACM-ICPC國際大學生程式設計競賽全球總決賽現場,一款基於《星
海爭霸II》的AI人機協作挑戰賽也在同期進行,主辦方啟元世界,一家主打決策智慧的AI
初創公司。
比這家初創公司更知名的是其創辦者:前阿里淘寶推薦演算法團隊創始人袁泉(演算
法P10),以及前阿里搜索廣告架構負責人龍海濤,他們都出自阿里電商核心部門。
“星海是我們一代人的青春記憶,也是決策智慧絕佳的訓練場景”,出於對《星海爭
霸》的熱愛,也出於決策智慧的篤定,他們在2017年攜手創業,並且很快獲得高榕資本數
千萬元天使投資。
袁泉和龍海濤,都不簡單。
袁泉和龍海濤其人
袁泉,離職前擔任阿里認知計算實驗室負責人、資深總監,是手機淘寶、手機天貓推
薦演算法團隊締造者,2013年到2016年期間率隊打造了“千人千面”的手淘推薦系統,因
此還拿下了當年雙11的CEO特別貢獻獎。“有好貨”、“猜你喜歡”等電商個性化產品,
均出自其間。
加入阿里前,袁泉是IBM中國研究院的研究員,從事推薦等智慧決策演算法的研究,
是IBM2011年全球銀行業FOAK創新專案發起人。
學術方面,還有十餘篇論文中標國際頂級會議ACM RecSys、KDD、SDM等,擁有多項中
美技術專利,長期擔任ACM RecSys審稿人、IEEE Transaction on Games審稿人。
龍海濤則是袁泉阿里和IBM中國研究院的老戰友。在2013-2017年期間,龍海濤在阿里
巴巴負責搜索廣告業務的架構設計,主導了其核心的離線系統、線上引擎和索引內核的升
級換代,並因此獲得了阿里媽媽“最佳團隊獎”、“最佳項目獎”和“雙十一個人創新特
別獎”。
IBM研究院期間,他則從事移動計算方面的研究。之後還有過多年成功的技術創業經
歷,為電信、銀行、能源等大型企業提供過IT解決方案。
目前,袁泉和龍海濤已經組建起了一支幾十人規模的團隊,在位於北京海澱區的辦公
室,整日“吃飯睡覺打遊戲”,以及搞AI。
http://n.sinaimg.cn/sports/crawl/59/w550h309/20180419/3Yp3-fzihnep7826742.jpg
AI打星海
利用打遊戲搞AI,已經不算陌生。
廣泛一點看,AlphaGo、冷撲大師等標誌性的AI事件都在打遊戲。
即便狹隘一些,DeepMind、OpenAI等知名組織也都希望從星海、DOTA2這樣的遊戲中
尋得AI突破,騰訊則還用AI+遊戲進行模型演算法研發、訓練。
那為啥啟元世界也選擇《星海爭霸》?
袁泉告訴量子位,《星海爭霸》一直是遊戲玩家心目中即時戰略類的經典之作,歷時
十多年而不衰,現在之所以成為深度強化學習、決策智慧演算法研究的一個主要平臺和工
具,是因為其蘊含了多智慧體協作、多工學習、宏觀策略規劃等複雜問題,一旦取得部分
突破和進展,對商業和社會發展都會帶來極大影響。同時,《星海爭霸》十多年來積累了
非常非常多的資料,還可以從之前的經驗中進行學習和優化演算法。
此外挑戰也看得見。
第一,比起像圍棋或者象棋這種大家都可能看得見的、完全資訊下的博弈,《星海爭
霸》是有戰爭迷霧的,所以必須去探路、偵查、瞭解對手的資訊,從而在不確定的情況下
去做智慧決策。
第二,有非常巨大的搜索空間。圍棋的搜索空間大概在10^170,《星海爭霸》在128
×128的地圖上並且人口上限是400個unit的情況下,它的搜索空間大概在10^1685,比圍
棋高很多個數量級,這還沒有算上其他狀態(比如說血量等等)的情況下。所以現有的任
意一個單一演算法根本不可能解決《星海爭霸》裡面所有的問題。
第三,星海是一個即時對抗類的遊戲。如果說正常遊戲大概是1秒鐘24幀,那在星海
中必須在42毫秒之內做出迅速的反應,而且這個反應不是一個action,而是一系列的
action,每個unit都會採取行動,這對我們演算法的性能、效率、工程上的考慮都是非常
大的挑戰。
第四,時間、空間上的推理。想要玩好星海,必須基於時序上、空間上去做推理,比
如說地理位置的優勢,坦克如果架在哪裡可能會比較好,如果開分機在哪個位置去開會比
較有利,甚至於軍營造在什麼地方,這些對於AI來說都需要進行一個空間上的推理。
最後,涉及多個智能體協作。《星海爭霸》最高有400個unit,所以需要多個智慧體
協作,需要多個兵種去配合,這對AI來講也是一個很大的挑戰。
可以順路一提的是,關於AI打《星海爭霸》,量子位也有過專門文章介紹,並且傳送
過暴雪和DeepMind的工具包,感興趣即可移步。
啟元世界挑戰賽
在此次ACM-ICPC贊助活動現場,啟元世界也基於《星海爭霸II》給出了兩道人機協作
的挑戰賽。
賽題一 :人機協作 vs 機機協作
水晶採集賽:在規定時間內,分為A、B兩隊,每隊兩個單位分別收集地圖上的藍色水
晶。A隊為1人加1個具備協作能力的AI智慧體;B隊為兩個具備協作能力的AI智慧體。 比
賽的關鍵在於A隊中的人和AI能否即時觀察、理解對方的意圖與行動,並能採取有效的行
為進行合理分工,採集到更多的水晶。
http://n.sinaimg.cn/sports/crawl/67/w550h317/20180419/xsdz-fzihnep7826772.jpg
賽題二:人機對抗賽
Reaper爭霸:玩家與AI分佈操控10個星海爭霸II中獨具特色一類角色——Reaper,在廣袤
的場地上進行對抗博弈。Reaper可發射一般子彈,也可以扔出手雷。選手需要審時度勢,
根據不同的遊戲場景,採取靈活的協作博弈策略,操控己方的單位對AI一方進行攻擊,取
得比賽的勝利。
在ACM-ICPC期間,有意者均可前往北大英傑交流中心試試。
或者直接尋求拿著薪水打遊戲,袁泉說目前公司在演算法、工程方面都希望招賢納士
,擴充更多工程師入坑一起“玩遊戲”。
當然,更長遠未來,從《星海爭霸》中學習訓練的AI,還會進入各行各業,從工業機器人
的生產與操控,到自動化農業,智慧交通、物聯網領域,都不缺乏應用場景。
— 完 —
http://sports.sina.com.cn/go/2018-04-19/doc-ifzihnep7897916.shtml