Re: [討論] 電腦弱點:中腹有打劫可能的複雜生死戰?

作者: stimim (qqaa)   2016-03-14 17:56:38
: 電腦好似還有一個問題就是落後時下出的各種大虧損無理手。當然可以理解電腦
: 的邏輯就是:這樣下你不應我就贏了所以勝率很高,但這對人類是沒用的。相對
: 於之前有人假設電腦落後會變更強因為要追回來,目前看起來反而是電腦落後就
: 走遠了,因為它的追棋方式對人類來說是毫無意義的只會讓自己越虧越多勝機越
: 渺茫。
其實如果我們假想自己是電腦,應該很容易可以理解這樣的行為。
在人的世界,當我們發現自己落後時,所用的方法可能是把局面弄的更複雜,
和對手比計算力;可能是採取守勢,等對手犯錯等等之類的。這些的前題是,
我們知道對手也是人,人在複雜的局面容易犯錯,人在慢長的棋局中很難每一
手都下的完美,可能這裡虧一點,那裡虧一點,最後就被追上了。
電腦呢?「他以為人的思考方式和他一樣」,所以,當他發現自己落後時,代
表在他所想的到的變化中,只要對手正確的回應,他都追不回來。
那他覺得對手會犯錯嗎?
1. 我想到了,為什麼他想不到
2. 如果他真的會下錯,那在每一種情況下都應該都有可能犯錯
=> 如果他每一種都有可能犯錯,那我當然下他犯錯後我得利最大的
所以我們在第四局會看到這些不可思議的棋。
換句話說,電腦並不知道「這一手很難,他可能想不到」這種事情,對於追回目
數的兩種選擇:
a) 這一手如果對手應錯了我得利 1 目
b) 這一手如果對手應錯了我得利 10 目
對人類來說,a 的難度可能遠大於 b ,所以我們下 a ,而不去下 b 。
但是這兩個選擇對電腦來說卻是 b > a ,
因為他覺得對手在 a b 兩個情況下犯錯的機率可能是差不多的。
以上是我對第四盤 87 手開始的解釋
(當然他在87手之後還是有比較正常的應手,所以這也不能完美的解釋他的行為)
作者: NaoGaTsu (那歐卡茲)   2016-03-14 18:04:00
推這篇,實際上八九不離十。
作者: ilw4e (可以吃嗎?)   2016-03-14 18:07:00
對阿,所以才說這種機制對人類來說反而更容易維持優勢
作者: profyang (prof)   2016-03-14 18:11:00
對腦不是選得利最大的吧 是選勝率最大的
作者: goldduck (哥達鴨)   2016-03-14 18:12:00
如果這樣的話 那一開始就出現一堆這種棋了 但是可惜都沒有
作者: profyang (prof)   2016-03-14 18:12:00
你這假設是a和b犯錯率差不多 但是如果犯錯率不一樣呢?更何況今天這盤電腦開始起笑的時候他還沒輸 就自己算不清楚就開始發瘋了
作者: ilw4e (可以吃嗎?)   2016-03-14 18:17:00
那邊人算覺得不明,也許電腦已經估自己勝率掉到很低了
作者: MicroB ( )   2016-03-14 18:20:00
就是要把她打成豬頭連他媽(Aja大神)都不認得她才能逼瘋AG
作者: kurc (辛拉麵)   2016-03-14 18:23:00
推,觀念很接近這樣,因為電腦是自己和自己對練來做learning
作者: Verola (sometimes I love you)   2016-03-14 18:27:00
邏輯上很合理
作者: vencil (vencs)   2016-03-14 18:35:00
我也是這樣想,所以AlphaGo落後時反而可能下的跟豬一樣
作者: birdy590 (Birdy)   2016-03-14 18:36:00
這程式根本從頭到尾都不知道什麼叫目數
作者: stimim (qqaa)   2016-03-14 18:38:00
他的確不知道,可是他覺得「會贏」,其實就是目數要比較多所以如果一個變化的目數追不回來,value network 的分數大概也不會太高
作者: anjackie (AN)   2016-03-14 19:11:00
所以其實alphago如果建立賽局理論的模型是否可修正bug?
作者: broodworld (john)   2016-03-14 20:01:00
要到確定輸才會下怪,前幾盤落後棋盤大很會追
作者: pttview (瀏覽者)   2016-03-14 20:30:00
如果是這樣那對練時不就知道了...
作者: aaaba (小強)   2016-03-14 20:57:00
你的意思是alphaGo有“對手若應錯”的概念嗎?在論文哪裡?

Links booklink

Contact Us: admin [ a t ] ucptt.com