李喆:AlphaGo——未來的圍棋
來源公眾號:杭州棋文化 作者:李喆
該論文為第五屆(2017)中國杭州國際棋文化峰會研究成果。
在未來的圍棋史上,2016年可稱為圍棋智慧時代元年。AlphaGo的出現,對人工智慧
領域而言,是一個標誌性的事件;對圍棋界而言,它帶來了前所未有的大變局。2016年3
月,AlphaGo的V18版本以4:1戰勝李世石九段,宣告新一代圍棋AI達到了前所未有的高度
。
新時代驟然到來。AlphaGo對棋界帶來的生態變化,在2017年仍屬醞釀之中。在這一
年,許多變化已經開始顯現,最終將會發展定型為何種形態,卻非此時所能確知。身處其
中,將眼前所見所思略作記述,便是本文之目的。
就技術水準而言,AlphaGo的V18版本已經達到了略勝於人類當代最頂尖棋手的水準,
而AlphaGo-Master對人類頂尖棋手取得60戰全勝,已明顯大幅超出了人類棋手的水準。此
後,AlphaGo在烏鎮3:0完勝柯潔,並公佈了55局自對弈棋譜。從棋譜上看,V18版本還有
明顯的人類棋譜痕跡,而Master之後則有很多全新的著法。本文挑選圍棋AI的一些棋譜片
段進行結合圍棋技術、演算法和思維的分析,展現以AlphaGo為代表的圍棋AI的棋力強度
和特徵,反思人類思維與機器演算法的同異,並探尋未來在圍棋領域人機合作的可能路徑
。
一、棋手思維與圍棋AI演算法的同異
人機對弈,其本質是人類思維與AI演算法的博弈。圍棋是一個封閉的有限空間,但變
化之多遠非人力所能窮極。要想深入分析思維與演算法之爭,首先要回顧人類棋手思維的
特徵。
(一)邏輯與經驗
面對圍棋這樣複雜的思維物件,人類通過幾千年來的長期實踐形成了一些綜合的思維
方法,這些方法與人類普遍的認識能力相符合。概而論之,經驗和邏輯是其中最為核心的
兩種方法。所謂計算,其內涵即以此兩種思維方法為核心。
1。邏輯。邏輯運算主要用於在人的能力限度內可以明確區分優劣的局面物件。例如
:封閉的死活和對殺,大小明晰的官子,局部的手割分析等等。面對這些場景,人能夠通
過演繹的方式,明確地比對出對殺的要點、官子的次序以及局部的效率。其方法的核心在
於找到明確的比對標準以便確定優劣,例如,死活對殺的比對標準是:哪個選點能夠使己
方達到或做活或殺棋的作戰目標(在同樣能達到目標的選點中,繼續比對其他方面的利益
)。官子的標準則是:哪種下法能夠使己方的地域利益最大化,進而取得終局的勝利。手
割分析則是較為高級的方法,其內容是假設變換次序以獲得局部分析的邏輯條件,其標準
是與基礎圖的效率對比。當然,在棋手的計算中,純粹的邏輯運算是極少的,大部分都包
含了經驗的成分。
2。經驗。在圍棋世界中,經驗分為兩類。一類是個人的實踐經驗,一類是整體的歷
史經驗。前者依靠弈者自己的對局、複盤等圍棋訓練,後者則是經過千年累積而成的一些
常法定論。在一般的意義上,前者建基於後者之上。經驗的作用,主要是處理難以量化的
模糊局面。首先是形成棋感。棋感即是圍棋中的直覺,包括對當前著手的直覺、對接下來
的手段和變化的直覺、對全域形勢的直覺等。在歷史經驗的累積下,還發展出了一套將經
驗轉化為知識的體系,即所謂二元判斷的體系,包括“虛實、厚薄、地勢、陰陽、輕重、
緩急”等等,這些是由經驗累積總結而成的一套人類的認知體系,幫助弈者對模糊局面進
行定義和分析。
早期的電腦圍棋,邏輯運算是其中的重要部分。對於難以量化的局面,作者將人類的
一些已有的圍棋知識轉化為機器語言輸入軟體,這種做法是當時在人工智慧領域流行的“
專家系統”在圍棋上的應用。這種方法在當時取得了一定的成效,但很快就陷入了瓶頸。
這一代圍棋AI,以“手談”為代表。
第二代電腦圍棋,引入了“蒙特卡洛演算法”,這同樣是在人工智慧領域取得了一些
進展的演算法。這種方法建立在概率論的基礎之上,將對弈局面理解為一個有很多分支的
、具有隨機性質的搜尋樹。這種方法對於模糊局面的搜索處理相當有效,使得電腦圍棋的
水準大幅提升,達到了業餘4-5段的實力。但這一方法也遇到了瓶頸,它缺乏類似於棋感
這樣的有效剪枝手段,以致於它的搜尋樹太廣而無法深入精確計算。這一代圍棋AI,以“
CrazyStone”和早期的“Zen”為代表。
第三代電腦圍棋,即以AlphaGo為開創者的圍棋AI,其關鍵演算法是引入了深度學習
演算法,並構建了一套適合於圍棋應用的演算法構架。本文記述之時,AlphaGo的創作團
隊DeepMind聲明將會發佈的關於圍棋AI的新論文尚未面世,因此涉及到演算法原理的分析
仍以2016年1月發表於《Nature》的論文為依據。
毫無疑問,DeepMind團隊於2016年1月發表的論文“Mastering the game of Go
with deep neural networks and tree search”具有劃時代的意義。到2017年上半年,
效法此論文而達到職業水準的圍棋AI已有4款以上。
(二)三要素
值得注意的是,AlphaGo的演算法結構在一定程度上類比了人類思維。人類在對弈中
做出決策的過程大體上可分為三個要素:直覺、計算、判斷。任給一個盤面,人類棋手會
無意識地根據自身經驗和印象形成棋感,這些棋感是整個計算的基礎。職業棋手和業餘愛
好者的水準差異,很大程度上在於棋感的差距。
沿著這些棋感展開計算,是通常情況下的第二步。圍棋中的計算與數學中的計算有所
不同,它的特點在於模擬演算可能產生的變化,而非根據已有的資料計算出確定的結果。
這就意味著,圍棋中的計算主要是一種或然性的計算,而非必然性的計算,這一方面是因
為對手的落子在本質上是不能為我們所完全預知的,另一方面是因為我們的模擬驗算所憑
藉的由經驗而產生的棋感是不能窮盡局面的。
第三點是判斷,我們對計算得出的不同局面進行比較,從而最終能夠選擇導向更優局
面的初始選點。局面判斷的本質是對計算的簡化,即算到一定程度時,後續的計算成本太
大,難以為人力所及,此時我們停止後續的演算,而採取一些方法對局面進行判斷。大體
上,判斷有量化和非量化兩類方法。量化的方法即以點目和子效分析為主,常作用於較為
穩定的局面;非量化的方法以知識和經驗感覺為主,將模糊的局面用厚薄、虛實等概念來
理解,進而幫助判斷。這部分對模糊局面的判斷是人類棋手較弱的環節,後文將以棋例對
此進行分析闡述。
棋感、計算、判斷,這是弈者面對棋局做出決策的三要素。非常有趣的是,與以往的
圍棋軟體不同,AlphaGo的演算法結構幾乎完全複現了這三要素。神經網路中的策略網路
(PolicyNetwork)基本上相當於人類的棋感,即盤上直覺;價值網路(Value Network)
基本上相當於判斷;傳統的蒙特卡洛演算法(MC)加上快速走子(Fast rollout)則充當
了計算的功能。整個AlphaGo的架構在理論上可以理解為將神經網路和蒙特卡洛等演算法
工具結合為一個充分實現了對局決策三要素的系統。AlphaGo-Master的架構可能與
AlphaGo-V18有所不同,但仍可能蘊含了這三個對局要素,只是具體的實現方式或有所優
化。我認為,AlphaGo的成功,與它充分地實現了人類決策的整體結構相關。或者說,面
對圍棋這樣不可窮盡的複雜物件,人和AI使用了類似的路徑來盡可能解決問題。這既可能
存有巧合的成分,又顯然與AI是人類所創造有直接的關聯。雖然,在另一個層面,這也只
是人類理解AI的一種方式。
雖然三要素的結構基本一致,但人和AI在具體這三者的實現方式上有顯著區別。這些
區別的影響直接地反映在棋盤上,形成有趣的課題。以下選取棋例進行分析。
(三)棋例分析——地與勢
取材自2017年第一屆中信證券杯世界智慧圍棋人機對局,DeepZenGO執黑對孔傑九段
+CGI,黑中盤勝。
DeepZenGo和CGI是本次世界智慧圍棋大賽的冠亞軍,兩者皆出師於AlphaGo的首篇論
文。在這次比賽中,兩款AI相互對陣一勝一負,實力相當,綜合水準大約接近於
AlphaGo-V18,略勝於人類頂尖棋手。賽事主辦方舉辦的這次人機對局很有意義,是對即
將到來的人機合作時代進行探索。對局過程中,孔傑九段有權隨時查看CGI的推薦選點、
勝率走勢和變化圖。在這局棋進行到如圖局面時,出現了非常有趣的狀況,展現了人類思
維與AI演算法的差異。
行至56手,右下的轉換告一段落。根據當時的解說和局後的諮詢,包括頂尖棋手在內
的絕大部分職業棋手都認為此時白方局面不錯,而包括DeepZenGo和CGI在內的所有強圍棋
AI都不約而同地認為黑方明顯優勢。大部分局面下,似乎一流棋手和強圍棋AI的局勢判斷
不至於差別如此之大,又由於此局有一流棋手親身參與對局,使得此局尤其值得重視研究
。
首先,我們來看人類棋手的判斷方式。整個右邊是地和勢的轉換,白棋以極高的效率
淨吃了右下原本屬於黑棋的角,取得了三十目的實地。而黑方獲得了週邊的勢力,其價值
尚未可知。對於地與地的轉換,人可以用量化的方式比較大小,而對於這種地勢轉換,量
化分析失效,因為外勢無法量化為目數。面對這種情況,人類常用的方法是子效分析,即
對比局部的效率或每一手交換的效率來分析局面。
在這個局面,人類棋手通常會首先對右下角白方實地的效率進行分析。其分析方法,
以簡易的手割法為主,即去掉一些交換以分辨成空效率。例如,將黑方的3、9、13、37、
55和白方的8、20、22、38、56這各五手棋去掉,根據經驗可以看出,白棋右下的成空效
率相當之高,幾乎省略了近一手棋。在週邊沒有非常明顯的大損的情況下,此局部的手割
分析便足以使棋手得出白棋不錯甚至是白棋優勢的判斷。
在對局中,從第34手開始就有可能算到此局面的最終形成,而最初的判斷在那時應該
已經做出。右下的高效吃角,一方面可以通過局部手割分析判斷其有利,一方面可通過人
類的對局經驗來判斷此局面吃角一方的實地利益足以抗衡黑方外勢。基於這些原因,無論
是選擇了白方吃角變化的孔傑九段,還是講解和觀戰的職業高手,以及局後諮詢的許多一
流棋手,都認為此時白棋局勢很好,分歧只在白棋是“不錯”還是“優勢”。
然而無論是對局中的DeepZenGo和CGI,還是觀戰的其它強AI,都認為白方從34手開始
吃角的結果明顯虧損,至如圖局面,已經是黑棋明顯優勢,如DeepZenGo認為黑方勝率達
到了65%。差異只在優勢反映在勝率上的幅度,越強的AI,優勢的勝率幅度越大。
人與AI對這個局面的判斷差異如此顯著,並非是偶然現象。在一些地勢均衡的局面下
,通常人類高手和強圍棋AI的判斷較為接近;但在地勢轉換的局面下,人與AI由於判斷的
具體方法不一樣而容易產生不同的結論。如前所述,人類通常以手割分析等方法來處理實
地局部的子效分析,這部分的分析能夠建立在較強的邏輯基礎之上。但對於外勢和中腹模
糊地帶的價值判斷,則是以經驗和感覺為手段,感覺“黑外勢的價值似乎不如白實地那麼
大”。這種基於經驗和印象的判斷,自然是不十分準確的。但由於人類棋手的判斷方法基
本一致,在以往人與人的對局中,這種判斷的不準確尚不能得到十分明顯的呈現。
此局後來的進程印證了AI的判斷,白方在中腹大鬧天宮順利做活,卻最終實地不足而
中盤落敗。AI的勝率判斷當然也不是絕對準確,真正完美的判斷是與概率無涉的。但是,
這一代AI在演算法上並未如人類一般區分“實地”和“外勢”,也就沒有如人類一般在地
勢判斷上的方法差異。人類能夠較為準確地對實地進行量化分析,而在分析外勢時不能保
持同樣的品質。這一強弱差別在人與人對弈時並未明顯呈現,但在人機對弈時得到體現。
也就是說,在根本上並非AI重視外勢或長於對外勢的判斷,而是人類棋手不善於分析外勢
的這個弱點在均衡的AI面前暴露出來。
圍棋AI並沒有專門針對外勢進行分析,甚至它不必要理解什麼是外勢。它的方法在於
,一方面使用了蒙特卡洛和快速走子進行大量的搜索,每一次搜索都模擬到棋局結束。如
果將這一過程理解為計算,那麼當然包含了大量對中腹的計算。另一方面,AI通過自對弈
訓練出來的價值網路能夠不帶偏見和傾向地分析局面,在它達到很高的水準之後,自然壓
制了人類的弱項。
關於人類思維與AI演算法的對比,尚有諸多話題值得後續研究及延展論述,本文暫止
於此。
二、Master——全面的超越
從圍棋的技術角度而言,模糊局面這一弱項使得人類面對V18水準的圍棋AI時已然落
入下風。在當時,很多人已經意識到判斷並非人類所長,而將人類的優勢希望寄託於複雜
局面的計算能力之上。這一期望有V18對陣李世石九段時的唯一敗局以及其他AI的諸多敗
局為證。然而,AlphaGo-Master及其後續版本向我們展現了,所謂的戰鬥弱點,只在早期
版本中存在。達到Master的水準,意味著圍棋AI對人類棋手在絕對實力上的全面超越,人
類向AI學棋的時代正式到來了。
(一)弱點的消失
在2016年末至2017年初Master對人類的60連勝中,Master似乎並未面對非常複雜的戰
鬥局面。這一方面是因為雙方實力不在同一層面,尤其是序盤階段人類常常要面對自身較
弱的模糊判斷,很容易在幾十手後便落入明顯下風;另一方面是由於60局都是網路快棋,
人類想要保持局面較長時間的均勢殊為不易。
這一代的圍棋AI,一旦取得明顯優勢,常常會選擇退讓直到小勝。這是因為,對於AI
而言,在較大的優勢下,通常會存在很多條能夠保持優勢的路徑,這些選擇雖然在目數上
存在差異,但在勝率上可能較為接近,甚至有時目數虧損的選擇勝率更高。AI的隨機性使
得它常常會選到那些目數虧損的下法最終導向小勝。圍棋AI只求取勝不求多勝的特點在
2016年第一次人機對弈時還不能為多數人所理解,但在今天已為人所熟知。
2017年5月,在烏鎮人機對弈的第二局中,AI面對複雜局面的能力得到了些許展現。
在當時很多棋手認為AlphaGo似乎面臨一定程度的危機,但從事後的複盤研究來看,那時
AlphaGo已經勝券在握,只是人類棋手和一些弱於AlphaGo的程式還無法算清局面。
AlphaGo不懼複雜局面的這一特點在此後公佈的55局自對弈中得到了淋漓盡致的體現。在
那55局中,有很多局的複雜程度遠勝於AlphaGo與人類對弈的所有對局,而AlphaGo通常都
能在非常複雜的局面下找到路徑最終仍形成接近的局勢。在那55局中,有接近一半的對局
最終形成了一子以內的勝負,可見兩方局面之膠著。
無論是對殺、官子、劫爭,在55局自對弈中都可以看到很多,AlphaGo的下法幾乎找
不到問題。而它的佈局和序盤又大出於人類定式之外,甚至通過複盤研究都難於理解。這
意味著,對於人類棋手所處的水準而言,AlphaGo升級為Master版本之後,AI的弱點已經
基本消失了。當然這並不意味著AlphaGo已經完美到沒有弱點,而是它的弱點已經不足以
為人類棋手所捕捉。更為準確的說法是,圍棋AI本無所謂優缺點,只是在與人類棋手對比
時才會呈現出優缺點,從人的認識出發,人類的弱點回饋為AI的長處,人類的長處回饋為
AI的弱點。如今人類棋手的長處在棋盤上也被AI以演算法優化所壓制,這就使得圍棋AI的
弱點看起來完全消失了。
據DeepMind團隊透露,Master能夠對V18版本達到讓三子的水準。即使考慮AI自對弈
時讓子的過擬合現象,讓三子也只可能是略有水分,從絕對實力而言達到讓兩子應是較為
保守的估計。而V18以及大致處於同等水準的絕藝、DeepZenGo等AI已經能夠在勝率上明顯
壓制頂尖棋手。基於這一資訊以及對AlphaGo自對弈棋譜的深入研究,一線的棋手普遍認
同與AlphaGo之間存在兩子左右的差距。這一差距,加上AlphaGo不像人類有發揮失常的偶
然性,使得AlphaGo在對陣人類棋手時能夠保證100%的勝率,一局不失。
以下用選取棋例分析略作闡述。
(二)棋例分析
取材自AlphaGo自對弈第55局,白勝1/4子。
序盤的下法暫且略過。白74、黑75是正常下法,白欲先手得角,黑反搶先手,此時白
76按照人類的正常思維一定會在75的左邊擋,最多是考慮是否先在5位下一路先虎一下再
擋角,這兩者都是與74所謂“相連貫”的下法。
然而,實戰白棋碰在了76位。對人類棋手而言,這一步不僅難於下出,甚至在打譜時
也難於理解。首先,這步棋顯然不在人類棋手的第一感中。其次,在左上急需定型的情況
下,按照慣性思維,也難以想到脫先。再者,這步棋的目的相當不明確,其時機也較難理
解。
當然,我們根據AlphaGo的複盤系統可以對此著進行分析,從而用人類的方式理解其
中的邏輯,進而品味到此著的妙味。但這畢竟是難以想像的一手,如果AlphaGo的策略網
路使得它的第一感就是這步,說明它的棋感已經領先于人類棋手太多。
更有趣的是,黑77再次難以想像地脫先了。它既沒有在左上角懲罰白棋的脫先,也沒
有跟著76選擇應手,而是直接脫先去了左下角,其選點也較為少見。這兩步棋。如果出現
在業餘的棋譜中,恐怕會被視為亂下的代表。亂下和高著的共同點,在於難以理解。對這
樣的著法,人類棋手難以在未經深入研究的情況下給出合理的邏輯鏈條,因此很多棋手感
到AlphaGo自對弈棋譜中的很多著法“看不懂”。
這盤棋的中盤戰鬥異常複雜。用人類棋手的語言來說,經過了一系列的厚薄、地勢轉
換,雙方形成了非常膠著的局面。行至182手,全域已經被分割為11塊棋,並出現了一個
事關死活的劫爭。最終,劫爭持續至236手,形成大型轉換,形勢極度細微。
此局共弈330手,黑方盤面7目。經過複雜的官子大戰,白方在左下使出妙手收官,最
終以最微弱的優勢取得了勝利。
這一盤自對弈棋譜綜合地展現了AlphaGo的棋感、複雜局面、劫爭和官子能力。以下
另選一局,專門體現AlphaGo面對複雜對殺時超出人類的能力。
取材自AlphaGo自對弈第51局,白中盤勝。
具體的棋局進程在此不作評述。
行至黑左下三角的這一手拐,全域形成了令人眼花繚亂的超級複雜局面。黑白雙方相
互層層包圍、切斷,細數之,全域被分割為17塊棋,其中只有4塊是確定無疑的活棋,另
外13塊都處在生死不明的狀態。這種對殺的激烈程度前所未見,即便是古代以激烈著稱的
當湖十局亦不能及。此後雙方形成轉換,白方吃掉左邊,黑棋鯨吞右邊,白棋繼而取得下
邊,從而取得了最終的勝利。
令人讚歎的是,在如此複雜的對殺局面,職業棋手經過仔細的複盤,也未能找出雙方
明顯的問題手。這意味著在某種意義上,這局複雜對殺、轉換的結果甚至可能遠在對殺開
始之前早已註定。
由這兩局棋例分析可以看出,AlphaGo在進化為Master版本之後,對人類的棋力形成
了全面的超越。無論是佈局、序盤,還是戰鬥、劫爭、官子,AlphaGo的水準對於人類棋
手而言已不存在短板。
這再一次提醒我們,圍棋的人機對抗已經沒有競技上的意義,當前已經進入了人類棋
手向AI學棋的時代。
三、AlphaGo——未來的圍棋
AlphaGo對人類棋力的全面超越,與Master可能採用的新方法有關。與V18水準接近的
圍棋AI尚徘徊在略勝於人類頂尖的水準,但仍會常常輸給人類棋手,其棋譜中的創造性著
法也較為少見。Master所採用的新方法,或許是結構上的調整,其具體方法在寫作本文時
尚不能得知。由演算法推想,神經網路應當仍是主體,其中的策略網路和價值網路可能已
經進化到相當驚人的地步,使得它很快能發現與人類棋感完全不同的好手,並對局面做出
迅速而異常精准的判斷。
對於棋手而言,2017年可以說是向AI學棋的第一年。在這一年,職業棋手對許多下法
的認識產生了翻天覆地的變化。
(一)點三三之興起
取材自AlphaGo自對弈第19局。
黑7面對星位直接點三三,是AlphaGo進化為Master版本之後非常喜愛的下法。這一下
法的核心,在於避免過早在二路扳粘,不至於使對方外勢較厚,保留一些借用甚至是攻擊
的手段和可能性。
在自對弈棋譜公開之後,這一下法逐漸在職業棋戰中大量出現,被公認為有力的手段
,成為針對星位的常見下法。
本文所要反思的是,這一下法為何沒有出現在人類的棋譜之中,而被AlphaGo發現?
究其原因,從人類的角度而言,這一下法的未能發現與人類積累圍棋知識的方法有關
。如前所述,人類的圍棋經驗包含整體經驗和個人經驗。所有下到職業甚至頂尖的棋手,
都經歷過從小學棋的階段。在學棋的階段,點三三的定型手法都必然包含二路扳粘的交換
,而由於這一交換使得對方週邊較厚,在實踐中過早點三三容易吃虧,因此成為了在對方
已有連片時的場合下法。
如圖9、11即為傳統的二路扳粘定型手法。
可以說,在AlphaGo帶來顛覆以前,二路扳粘的定型手法已經與點三三連在一起印在
所有學弈者的圍棋知識之中,即使是下到最頂尖的棋手,也很難以個人的能力去反思這樣
一些整體經驗留下的知識和慣性。
另外,關於點三三的整體經驗之形成,又存在一些歷史的原因。在中國古代,一直到
民國以前,規則都要求還棋頭,即終局時多一塊則需多還一子。在這一條件下,雖然座子
提供了很多直接點三三的機會,但點三三顯然將使己方平白多出一塊棋,在還棋頭規則下
已經先虧一子。在這種條件下,點三三自然不會出現,而掛角成為最常見的起手下法。而
日本古棋取消了還棋頭和座子,起手以小目居多,很少有人下在星位,也使得研究點三三
的機緣不多。
現代圍棋承襲自中日古棋。如面對星位的小飛掛,在施襄夏的《弈理指歸》中已明確
說明是掛角最好的選點,也是AlphaGo出現之前面對星位的最常見下法。在這種歷史的強
大慣性下,沒有人能夠跳出來,提出面對星位可以直接點三三,可以不在二路扳粘。
歷史慣性的另一個例子,是妖刀定式。
(二)妖刀定式之滅亡
前4手,是著名的妖刀定式,以白2、4狀似妖刀而得名。妖刀定式與雪崩定式、大斜
定式齊名,是聲名卓著的三大複雜難解定式之一,在近幾十年來不斷被研究、推敲,直到
2016年仍然是職業棋界的流行變化之一。如圖,白10通常是在黑1上一路扳,其後可能出
現非常複雜的引征局面,在比賽中屬於比拼研究深度的定式下法。
然而,AlphaGo的出現使得妖刀定式驟然接近於滅亡。其原因,在於AlphaGo在化身為
Master與人類棋手對戰時,兩次使用了白10、12這樣不符合常形的俗手下法並勝出。其後
,AlphaGo的作者之一Aja Huang博士公佈,AlphaGo認為這一所謂定式下法行至白10、12
沖,黑棋勝率已大幅下跌15%。這一資料的公佈,輔以AlphaGo目前的實力為保證,使得尚
存疑惑的棋手也放棄了這個黑棋的下法。
有趣的是,當棋手放下成見,重新審視這一變化時,發現對於白10這一下法的正確認
識原本並非不可能。
如圖,是白10俗沖之後的基本定型。人類棋手最初的判斷,是白棋雖然取得了一定的
實地,但黑方獲得了不錯的外勢,總體感覺黑棋外勢優於白方實地。
但當AlphaGo公佈勝率之後,很多棋手對此變化進行了深入的反思。一位高手告訴我
們,他使用手割方法分析這一變化,得出的結論與AlphaGo接近,也是白棋便宜。其手割
圖大致如下:
首先,黑角變為白2先占角,從佈局理論可知是黑棋稍虧。黑3-白6是雙方正常,此後
黑7是明顯不好的下法,白8脫先正常,黑9、11又不太好,白12繼續脫先。此後黑13-白16
交換正常,白18-黑21交換正常,黑由於小目位置死去一子而送白22一手。由此手割圖可
以看出,黑棋沒有明顯便宜的交換,而白方有三處占得便宜,因此原圖當為白棋明顯有利
。
這一分析相當簡潔有力,令我信服。值得反思的是,在AlphaGo出現之前,雖然也有
直接俗沖的棋譜,但大家並沒有對此後的變化進行這樣有效的手割分析,以致於錯過了這
一簡明變化而沉溺於複雜的引征變化之中。
與點三三一樣,這也是歷史加之于人的思維慣性的展現。從小學習、背誦的定式,其
關鍵著手已經形成為棋感,難以抹去。即使有所發現,也很難引起重視。
從這一點來看,吳清源大師更為令人敬仰,他的圍棋生涯不斷地超越了歷史慣性的限
制。例如,大雪崩定式的內拐下法,在當時是令人驚訝的新手,但在Aja Huang 公佈的
AlphaGo變化圖中,大雪崩的內拐被確認為最佳的一手。
(三)未來的圍棋
“未來的圍棋”這一講法具有雙重含義。
其一,是指AlphaGo所下出的棋,假如沒有AI的出現而以人類棋手的不斷進步而論,
可能會是未來幾百、幾千年後下出來的棋。在這樣的歷史進程中,需要出現一些如吳清源
大師這樣極富創造力的棋手,使得內拐、點三三、妖刀俗沖等下法能夠超越歷史慣性的束
縛而出現。
AlphaGo之所以能夠創造出一系列全新的有效下法,便是因為它逐漸超越了人類的圍
棋經驗,而更多地依賴於它自對弈的經驗。在它自對弈的不斷嘗試中,一些原本不被注意
的選點在大量的帶有隨機性的對弈中被發掘出來,其中有良好效果的著法通過訓練在
AlphaGo的策略網路中不斷提升其優先度,最終成為AlphaGo的直覺下法。例如點三三這一
手,在我們看來是震撼的新手,但在AlphaGo那裡恐怕早已實踐過百千萬局。
其二,是探討未來的圍棋會是何種面貌。假如DeepMind關於AlphaGo的第二篇論文順
利發佈,將會有許多AI能夠模擬複現Master的架構,從而通過一定時間的訓練達到接近甚
至超過Master的水準。其中,很可能有一些AI將會發佈單機版,以供愛好者和職業棋手購
買使用。也就是說,全面超越人類水準的圍棋AI單機版進入市場,已經是在不遠處可以看
到的事情。在這一條件下,整個圍棋界的生態將會發生很大的變化。
對弈網站、教學模式、競賽方法等等都需要進行與之相適應的調整。從業餘愛好者到
職業棋手的練棋方式都將發生根本上的變化。尤其是對於職業棋手和沖段少年而言,借助
AI的訓練將成為最重要的訓練方式。如何在訓練中將AI的價值最大程度地發揮,成為一個
關乎競技水準的重要課題。
從圍棋技術而言,人類棋手的水準將得到前所未有的大飛躍,尤其是佈局到序盤的階
段,可以完全地借助AI來進行學習和分析,大幅提高人類棋手的薄弱環節。隨著這一次水
準飛躍的速度差異,競技生態也可能發生一定程度的變化。短期來看,現有的職業高手中
哪些人能夠較快地掌握新式訓練方法,並且能夠有效地將AI著法轉化為自身理解,其競技
成績將得到顯著提升。長遠來看,歐美棋手通過從小與圍棋AI的訓練成長為世界一流棋手
也成為可能。
更為重要的是,有了圍棋AI的幫助,圍棋的正面推廣、圍棋文化的發展都有了全新的
利器。
一切變化都在向我們走來。2017年,在圍棋史上可能會被認為是過渡的一年。未來的
圍棋,令人期待。
http://sports.sina.com.cn/go/2017-10-13/doc-ifymvuys8723860.shtml