[閒聊] Adversarial Policies Beat Professional-Level Go AIs

作者: fxfxxxfxx (愛麗絲)   2022-11-03 17:17:16
前天發在 arXiv 上的文章
https://arxiv.org/abs/2211.00241
看標題很嚇人:
他們訓練出能被人類輕易打敗
但卻能打敗 KataGo 的圍棋 AI
簡單的說,就是要找到隱藏在 KataGo 模型裡的缺陷
而訓練出來 AI 單純就是為了攻破 KataGo 而生
本身幾乎不具備圍棋知識,所以會被人類輕易打敗
以前看過一些欺騙 AI 判斷圖片的例子
做在圍棋 AI 上倒是比較新奇
但實際看過這篇論文之後有點失望
下面是他們贏過 KataGo 的例子
https://i.imgur.com/1ZbR4VI.png
他們是蜷縮在角落的那方
阿看這個圖第一個反應是 這哪有贏
再看他們的說明之後才知道
用的是一個叫 Tromp-Taylor 的規則
這和一般的規則很像,只是你必須把對手明顯死掉的棋子吃掉
否則就不算死棋,所以圖裡的 KataGo 是輸的一方
因為 KataGo 並不是用這個規則訓練的
用的是不需要吃死棋的規則,在終局時會認為不需要再下而 pass
在搜尋深度不夠的情況下,會輸掉是蠻顯然的結果
看一下論文宣稱做到的事
1. KataGo 不搜尋的情況下有 99% 勝率
2. KataGo 搜尋深度足以超越所有人類時仍有過半勝率
第一個馬上會出現的疑問是為什麼要使用 Tromp-Taylor 規則
雖然 KataGo 在官網上說他們支援 Tromp-Taylor 規則
但為什麼非得用一個和 KataGo 訓練時不一樣的規則呢
我覺得答案很明顯,就是不這樣就做不出來
甚至要更懷疑論一點的話
搞不好是先人工發現 KataGo 處理不了這種情況才開始研究的
還有就是,為什麼只讓 KataGo 的搜尋程度恰好能達到超人類水準,而不再更多一點呢
應該也是因為如果再放寬一點就贏不了了
甚至我想說,在 Tromp-Taylor 下應該就不是超人類水準了
畢竟我覺得這人工也很可能發現的,只是這個規則沒人在用
你可能會說這還是有它的價值在,
像是他幫我們自己找出了漏洞 (畢竟是官網宣稱支援的規則)
只是就有點..ㄜ..失望
而且處處充滿著非常特設、感覺像是要改到贏為止的設定
不太行
作者: gnech73579 (rocky)   2022-11-03 17:18:00
嗯嗯,懂了

Links booklink

Contact Us: admin [ a t ] ucptt.com