從象棋觀點看AlphaGO為什麼會輸

作者: ctrl (一哥)   2016-03-14 15:55:21
原文恕刪...
本文只是要借用一下變化圖來講AlphaGO第四局為什麼會輸所以連標題都換了敬請見諒
相信大家都覺得很好奇...
為什麼AlphaGO前幾盤走的像神 昨天卻整個像是吃了瀉藥一樣整個烙賽?
坦白講...當昨天看到白78以後一段 我不但不意外
反而還覺得很熟悉、很感動...像是喚醒了塵封已久的記憶......
作為一個象棋社社員 十幾年前我就在和電腦學棋了
從早期將族、象棋水滸傳一路玩到後面象棋奇兵、棋天大聖、象棋旋風...
一路玩了差不多快10種棋軟左右吧 可以說自己的棋力完全是電腦教出來的
在這邊亂入介紹一下象棋界的生態...
作為一個以計算為主的棋種 象棋界很早就承認電腦勝過人腦的事實
從十幾年前網路象棋的最高殿堂
作者: birdy590 (Birdy)   2016-03-14 15:57:00
電腦象棋沒那麼爛好嗎
作者: indium111 (#ttyhg)   2016-03-14 16:01:00
只要是用MCTS當基礎就不可能去計算獲勝的子目
作者: nanlong (懶龍)   2016-03-14 16:05:00
推一下 分享
作者: sck921 (The Fate)   2016-03-14 16:06:00
問題是時間沒用完吧
作者: Miule (Miule)   2016-03-14 16:10:00
不是計算能力,而是判斷基準的問題這樣?
作者: wnglon (冷面笑匠)   2016-03-14 16:14:00
推回五樓的問題 是對的 程式就是以基準的判斷執行任何動作
作者: broodworld (john)   2016-03-14 16:16:00
其實人也差不多,新定石不知道下哪也是亂下
作者: wnglon (冷面笑匠)   2016-03-14 16:16:00
目前了解 電腦會用方程式機算勝率
作者: wnglon (冷面笑匠)   2016-03-14 16:17:00
以勝率高低去下每一步 如果勝率都是一樣 就隨意下勝率高的棋電腦會送頭 是因為他想清楚了解逆勢
作者: bbbtri (cycling)   2016-03-14 16:20:00
很有意思
作者: wnglon (冷面笑匠)   2016-03-14 16:20:00
把不確定因素排除後 數據會更單純
作者: wnglon (冷面笑匠)   2016-03-14 16:21:00
這樣電腦才能繼續下棋
作者: bbbtri (cycling)   2016-03-14 16:21:00
樓上講得也很有道理!重點是送完還是先手
作者: mathbug (天堂的定義)   2016-03-14 16:32:00
作者: kurc (辛拉麵)   2016-03-14 16:32:00
推推 看完很有收穫
作者: sfHong (嘿嘿嘿)   2016-03-14 16:37:00
推 好文
作者: bearching (Pandora`s Box)   2016-03-14 16:40:00
作者: Uizmp (黑袍法師)   2016-03-14 16:45:00
推這篇
作者: tomic (細推物理須行樂)   2016-03-14 16:55:00
獲益良多 內容很好
作者: DreamFly0811 (飛輪)   2016-03-14 17:04:00
推! 很清楚的解釋!XD
作者: milk7054 (莎拉好正)   2016-03-14 17:10:00
阿法狗覺得會輸的時候,就會自暴自棄,人的話還會撐到神蹟來臨XDD小李運氣不錯,巧合踩斷電腦的理智線XD
作者: upu (傑犽無糖口香糖)   2016-03-14 17:27:00
id滿酷的
作者: realroad (曉風‧殘月)   2016-03-14 17:49:00
這id讓我想起一個簽名檔
作者: BoyPlunger (少年賭客)   2016-03-14 18:07:00
Ctrl + F4 沒用
作者: goldduck (哥達鴨)   2016-03-14 18:18:00
狗狗發瘋時還未輸 但發瘋個幾十手後不輸也難
作者: kennyluck (Kenny)   2016-03-14 18:27:00
AG 論文有說他們沒用 dynamic komi(動態貼目)但是沒說為什麼 我想是因為這樣只會讓下棋更像「職棋」但是無法調高勝率......
作者: birdy590 (Birdy)   2016-03-14 18:31:00
因為估值網路訓練的時候就是設定貼 7.5 目如果要改用其它規則(例如貼6.5目) 參數要重新訓練過因為它整個流程裡對於"目數"這件事並沒有意識
作者: shishio7 (紅心7)   2016-03-14 18:36:00
推這篇
作者: maplefoxs (狐狸怎麼叫)   2016-03-14 18:40:00
同意,跟我想的差不多
作者: opparay (阿沛沛)   2016-03-14 18:41:00
但當阿發狗發現劣勢的時候不是應該會找尋剩下落子處勝率最大的點嗎?
作者: HuangJS (段譽)   2016-03-14 19:13:00
同感
作者: chordate (封侯事在)   2016-03-14 19:48:00
應該不是你說的這樣會亂下的情況,應該只存在勝率很高或很低的情況下
作者: ddavid (謊言接線生)   2016-03-14 19:49:00
這一篇的分析其實不錯。不一定是AlphaGo發生狀況完整的理
作者: chordate (封侯事在)   2016-03-14 19:49:00
目數對勝率的影響才會小到機器分別不出
作者: chordate (封侯事在)   2016-03-14 19:50:00
可是AlphaGo是有認輸機制的,勝率小於20%就會認輸
作者: SiFox (疝氣の嚕嚕米)   2016-03-14 19:50:00
推推
作者: oldxeng (Someone call for the do)   2016-03-14 20:23:00
完全同意! 很久沒下象棋了
作者: imperfectJJT ( )   2016-03-14 20:47:00
分析相當深入 亮點是中文文法怎讀起來不太像台人 XD
作者: ekeyson ( 空笑夢)   2016-03-14 20:50:00
作者: wenjia (Ivy)   2016-03-14 21:26:00
電腦象棋確實如此.看到阿法狗79的走法就好像看到象棋軟體象棋會努力送子尤其先送對頭兵.這問題到現在都一樣只是下的人要先有本事把電腦逼到判斷劣勢的地步
作者: asglay (收收收尾)   2016-03-14 21:40:00
加上這一個勝率相差不大時 以數子或數目作為判別的指標
作者: intointo (櫻花)   2016-03-14 23:04:00
寫的不錯
作者: horseorange (橘小馬)   2016-03-15 00:16:00
優文推
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-15 02:15:00
關於chordate的問題我有一個想法,應該說那些瘋手確實是建立在取勝機率最高的位置沒錯 只是有個前提 那就是李40沒有正確對應的話 勝率會是最高。當敗象已成 我在搜點時理當找勝率最高的點 可是阿法狗最常面對的就是自己 他自我打了不知幾千萬局 如果自己在選點時 自己的應手 有60%下錯地方 那阿法狗就自以為勝率高的點就在那裏 殊不知那是因為對手同樣是阿法狗換成人呢?會讓你這麼好過嗎?我想講的就是 當你叫兩個笨蛋對局上千萬局?這兩個笨蛋是會變高手呢? 還是全然不知自己的盲點在哪?
作者: wukevinboy (wukevinboy)   2016-03-15 02:22:00
我的文引發優文,真的很高興!
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-15 02:22:00
還有一個佐證我說法的點 那就是看阿法狗今天對奕的速度你跟我說這種對奕速度半年打3千萬局!?肯定不可能也就是說 阿法狗在自我學習時 跟在跟人對戰時 評估系統是不同的 跟人打時可以打出五路肩衝 自己跟自己打就不一定行了 為了加速對戰 勢必調整 或者是用另一套邏輯
作者: birdy590 (Birdy)   2016-03-15 02:32:00
請樓上先去爬一下田淵棟的文章吧...我發現到現在還是很多人不知道三千萬局是啥意思
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-15 08:45:00
#1MvjmKPj這篇田淵棟的文章不正是在說我的猜測嗎?節錄當篇幾個如我所想的段落那為什麼估值網絡會出問題呢?可能是用於訓練估值網絡的自學習(self-play)的樣本分佈有盲點。為了提高樣本生生成速度,AlphaGo的自學習樣本是通過用兩個純粹的DCNN互搏來生成的(完全沒有搜索),而DCNN下出來的棋因為是純模式識別,一個大問題是死活不確定,經常是在死棋裡下子 如果兩邊都笨了 那盲點就出現了
作者: RedFireE (厚厲害ㄟ紅火蟻)   2016-03-15 19:48:00
你是阿發狗開發人員膩

Links booklink

Contact Us: admin [ a t ] ucptt.com