[閒聊] Adversarial Policies Beat Professional-Level Go AIs fxfxxxfxx PTT批踢踢實業坊

[閒聊] Adversarial Policies Beat Professional-Level Go AIs

作者: fxfxxxfxx (愛麗絲) 2022-11-03 17:17:16

前天發在 arXiv 上的文章
https://arxiv.org/abs/2211.00241
看標題很嚇人:
他們訓練出能被人類輕易打敗
但卻能打敗 KataGo 的圍棋 AI
簡單的說，就是要找到隱藏在 KataGo 模型裡的缺陷
而訓練出來 AI 單純就是為了攻破 KataGo 而生
本身幾乎不具備圍棋知識，所以會被人類輕易打敗
以前看過一些欺騙 AI 判斷圖片的例子
做在圍棋 AI 上倒是比較新奇
但實際看過這篇論文之後有點失望
下面是他們贏過 KataGo 的例子
https://i.imgur.com/1ZbR4VI.png
他們是蜷縮在角落的那方
阿看這個圖第一個反應是這哪有贏
再看他們的說明之後才知道
用的是一個叫 Tromp-Taylor 的規則
這和一般的規則很像，只是你必須把對手明顯死掉的棋子吃掉
否則就不算死棋，所以圖裡的 KataGo 是輸的一方
因為 KataGo 並不是用這個規則訓練的
用的是不需要吃死棋的規則，在終局時會認為不需要再下而 pass
在搜尋深度不夠的情況下，會輸掉是蠻顯然的結果
看一下論文宣稱做到的事
1. KataGo 不搜尋的情況下有 99% 勝率
2. KataGo 搜尋深度足以超越所有人類時仍有過半勝率
第一個馬上會出現的疑問是為什麼要使用 Tromp-Taylor 規則
雖然 KataGo 在官網上說他們支援 Tromp-Taylor 規則
但為什麼非得用一個和 KataGo 訓練時不一樣的規則呢
我覺得答案很明顯，就是不這樣就做不出來
甚至要更懷疑論一點的話
搞不好是先人工發現 KataGo 處理不了這種情況才開始研究的
還有就是，為什麼只讓 KataGo 的搜尋程度恰好能達到超人類水準，而不再更多一點呢
應該也是因為如果再放寬一點就贏不了了
甚至我想說，在 Tromp-Taylor 下應該就不是超人類水準了
畢竟我覺得這人工也很可能發現的，只是這個規則沒人在用
你可能會說這還是有它的價值在，
像是他幫我們自己找出了漏洞 (畢竟是官網宣稱支援的規則)
只是就有點..ㄜ..失望
而且處處充滿著非常特設、感覺像是要改到贏為止的設定
不太行

作者: gnech73579 (rocky) 2022-11-03 17:18:00

嗯嗯，懂了

繼續閱讀

[方舟] 小確幸kevinlee2001 [閒聊] 新竹有什麼實在的玩具店模型店的DreaMaker167 Re: [瓦特] 造成我逐漸不看V的理由sustainer123 Re: [瓦特] 造成我逐漸不看V的理由a1234555 [瓦特] 168koy784512 自SRushia Re: [瓦特] 造成我逐漸不看V的理由walter741225 [瓦特] 168Nakirigumi 性行為訓練可領300萬！15歲少女滾床賣力學　竟medama [瓦特] 168ephraim13825