Re: [問題] 為何不研發LOL的AlphaGo?

作者: tonylo2ooo (Logo)   2017-05-26 09:23:37
我剛好研究所是念機器學習的,
平時對人工智慧跟類神經網路應用在遊戲上也有一些研究,
提供給你最一線的資訊參考一下。
因為這些名詞都是原文書或是論文裡面會用到的,等等會有一些專有名詞來源是英文
我會簡單的翻譯一下,所以有更好的名詞翻譯歡迎提出。
※ 引述《z50905 (z50905)》之銘言:
: 看完棋王對AlphaGo的第二場對決
: 實在感嘆 AlphaGo經過了上億場演算經驗的學習
AlphaGo的理論我想網路上很多文章了,這邊不多說。
重點就是(你也已經知道)AlphaGO是藉由輸入棋譜,加上對弈增強的即可。
: 成長到了人類無法想像的世界
因為資訊的交流在電腦世界是用電的速度,而人腦因為受限於神經傳導素的速度,
跟輸出媒介(手腳,或是廣泛一點說是肌肉),
或是靠發展幾千年的語言,累積的深厚codec,用少量的文字筆畫代表背後深厚的意涵。
: 不禁有個疑問
: 本身就是用電腦進行的LOL
: 也有玩家VS電腦的選項 但感覺電腦都廢廢的
這邊要想講,AI有兩種,一種是Rule-Based,也就是藉由大量的判斷式來模擬人類
例如:敵方殘血->算傷害後完美接一套
自己殘血->算對面的魔量 傷害等等,撤退
這樣的AI很容易被玩家抓到漏洞並且exploitation(反覆操作特定動作來獲勝)
例如中階電腦以前會一直追玩家,你就可以在開場二塔去拖怪,拖到自家塔下殺賺錢。
另一種則是像AlphaGo一樣的,一開始什麼都不會,但是每做錯一次就會回饋
回神經網路去強化或是抑制特定行為,也就像人腦一般。
需要大量長時間的訓練,成千上萬甚至數億次的對決,每個細微的操作都會回饋給網路
拿馬力歐來舉例的話 可以看這影片:
https://www.youtube.com/watch?v=qv6UVOQ0F44
一開始AI什麼都不會玩,一直送。
這跟rule-based藉由人知道不要送頭寫一個殘血回家的code是不同的。
: 要創造出AlphaGo等級的LOL電腦應該滿容易的吧
其實DeepMind已經著手在星海爭霸上面進行學習了,
https://www.youtube.com/watch?v=5iZlrBqDYPM
但為什麼不挑LOL? 因為人的因素太多,AI沒辦法對勝負有全盤的掌握
也就是說,除了對手之外,AI還要考慮剩下四個會不會心態炸裂然後放推
說不定AI這整波的操作其實是很棒的,結果一個人忽然送頭輸掉
這樣會增加訓練的難度,因為人的變異數太大。
: 畢竟電腦不會有反射神經時間 反應速度都趨近於0秒
這我有一點點小意見,因為人的反應還需要經過腦袋的思考,
多麼簡單的步驟都是經過處理的。也就是AI也是要把它接收到的資訊丟進神經網路
然後回饋,或許也是需要幾ms甚至好幾分鐘的。
有興趣去看一下alphaGo的對弈,你會發現AI會想很久,
因為它正在進行決策樹的裁減跟硬爆。
(把一些很不可能的動作去掉,然後細算那些可能的操作)
另一方面,對,這是用電生理(神經傳導素) 跟 純電流的差別
統計來說,你的眼睛看到畫面,到大腦最後做出反應大概有80ms的差距
: 大家覺得有可能創造出LOL版阿法狗嗎
可以,但有幾個原因
1. 前面說過,浪費時間,因為人的變數太多
一次訓練五台一起打又有難度,不如訓練一個StarCarft,從部隊數量到控兵都可以掌握
連基地的建設,擺放位置等等訓練起來,跟LOL誰簡單都還很難說,
但是可以讓人知道AI對戰局全盤的掌握度。
LOL只能控一隻,沒辦法展現那種像是圍棋對弈中的大局觀。
2. 有在看星海比賽都知道,任何部隊的交換都是綁定經濟(晶礦與瓦斯)
也就是AI會有一個立即可以回饋的函數。
每一支兵的交換他可以知道這波 “虧還是不虧”,
這可以讓AI從小會戰的操作跟大局配置分開來訓練。
類似有些選手吃兵操作不好,但是大局觀很強。(西...門?)
: PS:現行LOL電腦VS玩家
: 在地圖的黑暗處電腦的五個玩家真的有在運行嗎?
: 例如打野那些 求解
這邊問題沒看懂,先跳過。
最後回應一下推文內有一些錯誤的觀念,像是什麼跟現在走位外掛有關的。
現在看到星海的暴力AI,或是LOL輔助程式,
都是透過寫死的神奇走位拉打做出來的。
也就是他單位跑速比你快的時候,你毒爆蟲滾到死也炸不到半隻。
李星Q到死都Q不中。
機槍兵(遠程小兵)整隊邊散邊拉打,APM突破天際。
但是DeepMind現在在做的AI,是連毒爆蟲來了要散兵都不知道,
再沒有任何人類給定預備知識的情況,只根據每隻單位,加上總體經濟的交換來目的。
而且是有被限制APM的(應該是最高200-240左右),APM對他來說就像資源。
也就是AI如果發現用細節操作散兵,就能一直贏,他就滿足了。
但如果發現APM239/240都拿去操作,家裡亂亂蓋,都不能贏,
他就會把一部分操作資源拿去探視野之類的。
所以推文中提到那種變態AI,跟我們這邊討論的alphaGo以類神經網路為主的不同。
十年後可能除了圍棋AI對決之外,
還有星海AI對決,而且用的介面可能跟人類差不多,限制最大APM
並且畫面轉換要綁定滑鼠DPI啊,
那些都要固定,然後來一場公正的AI 星海對決。
作者: PerfectFlash (完美閃現)   2017-05-26 09:33:00
恩恩 跟我想的一樣
作者: RyneSandberg (小熊傳奇)   2017-05-26 09:36:00
寫的好
作者: snowmanturtl (森之傑尼龜)   2017-05-26 09:37:00
做出一隊AI 會不會比較簡單?
作者: howard841013 (complexacid)   2017-05-26 09:52:00
暫停好扯......好像漫畫的情節
作者: qazwsx879345 (qazwsx879345)   2017-05-26 10:08:00
U文
作者: zZzZzZzZ5566 (天龍人)   2017-05-26 10:24:00
認真優文
作者: yeswater5566 (悅氏礦泉水56)   2017-05-26 11:13:00
u文
作者: ysesst911840 (apink teba)   2017-05-26 11:35:00
好猛的文
作者: yapdasccryay (瀨尿牛丸)   2017-05-26 11:50:00
U文
作者: s56565566123 (OnlyRumble)   2017-05-26 12:27:00
那bp可以研發嗎
作者: heveninferno (歐給)   2017-05-26 14:26:00
作者: ArayaHellCat (喵喵)   2017-05-26 14:29:00
優文推
作者: redickshot25   2017-05-26 14:44:00
U質推推
作者: YuenYang5566   2017-05-26 18:02:00
世紀帝國的弓手就像你說的會個別拉打散開

Links booklink

Contact Us: admin [ a t ] ucptt.com