[新聞] AI專家:攻克圍棋原理已找到 GPT學圍棋令

作者: joanzkow (星浪)   2024-05-14 22:21:08
AI專家:攻克圍棋原理已找到 GPT學圍棋令人期待
  國家圍棋隊官方合作夥伴少年縱橫特約報導。
  2017年柯潔淚灑烏鎮後,人類圍棋與人工智慧圍棋之間的對抗徹底沒有了懸念。雖然
AlphaGo退役了,但根據他們的相關論文,後來又衍生出了絕藝、天壤、星陣、KataGo等
諸多圍棋人工智慧,有的已經成為了大家日常研究圍棋的工具。在研發這些人工智慧的專
家眼裡,“人工智慧攻克圍棋了嗎”這個問題是什麼樣的呢?
  天壤與樸廷桓的“人機大戰”
  李凱華,原天壤圍棋負責人,2018年人機對弈擊敗樸廷桓。
  新浪棋牌:您覺得人工智慧攻克圍棋了嗎?
  李凱華:沒有。圍棋的變化數量決定了其最優解集合都可能是一個無法估計的大小。
人工智慧當然沒有攻克圍棋。人工智慧目前所做到的是其探索的圍棋變化數量比人類已經
探索的圍棋變化數量大出很多個數量級,大約是:AI目前所有的訓練棋譜 / (人類已經
下過的所有棋譜+人類已經研究過的變化圖) 大約 = 1萬倍到10萬倍。
  這個數量距離圍棋合法變化總數也就是10的170次方個盤面,仍然有相當大的差距。
  當然對於科學研究來說,AI已經做到了在現有技術條件下最大限度的探索。原因有兩
點:
  1。 通過數學層面的推導,可以得出通過深度神經網路和強化學習可以不斷讓棋力變
強,所以只要:人類有足夠的時間和足夠的存放裝置可以生成並存儲10的170次方個盤面
,一定可以找到圍棋的最優解。科學研究上走通了這條路就可以了。畢竟即使每一顆原子
上都能存一個合法變化的,宇宙裡也只有10的70次方個原子,離圍棋的合法盤面總數還有
10的100次方倍。
  2。 圍棋是完全資訊下的零和博弈,相比之下,德撲、麻將這種非完全資訊博弈,以
及協作情況下的非零和博弈,甚至跳出博弈論層面,在生成層面,有更複雜的情況需要去
研究,所以在14年Ian Goodfellow搞出來了生成式對抗網路,17年Google大腦搞出來了《
Attention is All You Need》,也就是ChatGPT的基礎Transformer模型。然後AI研究的
領域前沿就一直是在Transformer模型了。
  3。 現在來看結論是客觀上AI並沒有真的攻克圍棋,但是原理上已經找通了攻克圍棋
的方法,所以科學上可以認為“人工智慧已經攻克了圍棋”。
  新浪棋牌:您認為當前人工智慧圍棋最高水準達到了什麼程度?
  李凱華:1。因為圍棋的合法盤面數是10的170次方,人類大概探索過不超過100萬種
變化,人工智慧探索過差不多100億種變化。即使如此,還有10的160次方種變化,所以如
果圍棋上帝是100的話,目前AI探索了不到兆分之一。人類是AI的萬分之一。離之前說的
7%,都相去甚遠。
  2。 當前人工智慧的最高水準如果按最新的KataGo的強化學習來說,最新的模型達到
了13500左右的Elo分。
  3。 注意Elo分只能用來比較同一個體系下的相互強弱,也就是AI的Elo分和人的等級
分是兩個體系,不能直接比較數值。除非找到一個錨點,比如用李世石的Elo分來估計
AlphaGo Lee版本的棋力。
  4。 但是只有兩個人有充分的對局之後,Elo分所體現的強弱才有效,所以比如古力
和李世石兩個人下了幾十盤棋,他們之間的Elo分差距可以表示他們的棋力強弱,但是想
要Elo分的誤差在5分以內,兩個選手需要對局至少89局。想要誤差在3分以內,兩個選手
需要對局至少200局。所以所謂用李世石的Elo分帶入AlphaGo的Elo分再比較AlphaGo和當
時的棋手之間的棋力差距,純屬娛樂。對局太少。
  5。 Elo分還有膨脹的現象,即如果模型都是同一個風格,或者同一個體系的話,同
時沒有外部模型的干擾,如果一個階段的模型出現過擬合的現象,那麼很快分數就會因為
這些模型被膨脹起來。後續也無法進行修正。
  6。 目前如果粗略估計一下棋力的話,最強的KataGo如果搭配很好的分散式伺服器,
比如說給個100張A800顯卡,或者最新的那個GB800顯卡,讓人類最強棋手3-4子是可能的
。不過那一局棋的電費恐怕得小10萬了。
  2018年與天壤對弈的樸廷桓九段
  新浪棋牌:後續研究的終點在哪裡,還有無難關?
  李凱華: 1。 從AlphaGo到Leela到KataGo的路線相當於讓一個嬰兒只看棋譜學下棋
。腦子只會下棋。所以需要大量的棋譜來教他。同時因為他其實是看圖學下棋,沒有邏輯
推理能力,所以想要變強只能不停地自己下,看更多的變化來學習下棋。顯得很笨重。
  2。 後續可能會希望讓ChatGPT,一個10幾歲智商但是什麼都會的孩子,但是有一定
的語言方面的推理能力,看能不能不通過看圖的方式,而是研究棋譜的方式來學下棋,有
沒有可能用更少的棋譜來實現跟AlphaGo一樣的強度。甚至等更強的ChatGPT 5.0版本,如
果能相當於一個成年人的推理能力,應該會更順利。
  人機對弈現場
  新浪棋牌:人工智慧圍棋陪練技術有何發展?
  李凱華: 1。 如果能走通讓語言模型來下棋的話,那麼讓語言模型來解釋它為什麼
這麼下棋就是一件很輕鬆的事情了。
  2。 目前的話職業棋手主要還是靠背和猜來理解人工智慧下的棋。
  3。 面向孩子的AI陪練的等級和難度非常能把握,因為孩子棋力的提升是不連續的,
往往是一個階段性躍升的情況。而且不同的棋力所對應的計算力、博弈能力也不是線性提
升的,導致目前所有的調參都很蠢,基本上是無參可調的情況。這一方面可能是一個長期
存在的問題。不妨等著4(a)解決了之後交給AI來解決吧。
  (周遊)
https://sports.sina.com.cn/go/2024-05-14/doc-inavenmw3616642.shtml
作者: KAOKAOKAO (鬼斗)   2024-05-15 14:11:00
但是沒有理由認為 Chain of Thought 串出來的「解析」真的是它下出那手的理由
作者: aegis43210 (宇宙)   2024-05-15 23:10:00
近期圍棋AI並沒有革命性的進化,對GPT下棋應該也沒明顯優勢

Links booklink

Contact Us: admin [ a t ] ucptt.com