Re: [好文推薦] 這兩盤棋 沒人會比李世石做得好

作者: saltfish (笨魚)   2016-03-12 09:35:20
※ 引述《nnlisalive (nnlisalive)》之銘言:
: 我覺得要從程式碼方面下手了
: 首先就是阿發狗所謂的"勝率"是怎計算出來的?
: 不外乎用盤面上所得到的資訊轉換成數據
: 再代入勝率函數得到每一點的勝率
: 那這個函數適用於任何盤面嗎? 沒有任何邏輯漏洞和盲點?
: 算出來的勝率沒有誤差? 如果有個點勝率是70%
: 具體來說應該是下了這個點跑到結束N次 有0.7*N次會贏
: 但明明就還沒下完 也不知道對方會怎下
: 所以只要能騙過電腦 讓他一直下到誤判勝率的棋
: 阿發狗就會輸到怎死的都不知道了
: 問題是要怎騙過阿法狗?
: 我 不 知 道 !
AlphaGO "勝率"計算大約是
最原始概念
假設現在盤面上AlphaGO有ABCDE五個地方值得下
就對ABCDE這個五位置後續各往後 快速隨機亂下1000盤
一直下到官子結束看最後贏幾盤
假設結果
A位置 贏830盤 輸170盤
B位置 贏750盤 輸250盤
C位置 贏640盤 輸360盤
D位置 贏912盤 輸 88盤
E位置 贏120盤 輸880盤
電腦不會管平均贏了幾目只看輸贏 最後就會選位置D
==================================
當然圍棋"隨機亂下"一千盤參價值可能有限
接下來做的就是讓
"隨機亂下1000盤"變成"快速下出1000盤有參考價值的棋"
MCTS圍棋的棋力就建構在
"隨機亂下"階段 有意義的落子選擇還有快速下完那1000盤的棋局質量
作者: nnlisalive (nnlisalive)   2016-03-12 09:54:00
原來如此 要有價值就是慢 而且夠多盤的機率越準這樣看來電腦還是在用窮舉法逼近圍棋之神只是這次的窮舉法比較聰明 加進了機率與統計圍棋就是變化複雜的特性 正好讓用機率來計算落子的AlphaGo變得超級強
作者: fermib (ohyah)   2016-03-12 09:58:00
這種"窮舉"已經很像人了 是一種經驗累積 只是比較無腦的經
作者: clark78118 (clark)   2016-03-12 10:01:00
這篇錯的 value network is used to reducethe depth of the search treeAlphaGo透過輸入的棋譜跟自我對戰 學習兩件事1.哪裡可能值得下 2.形勢判斷
作者: NaoGaTsu (那歐卡茲)   2016-03-12 10:12:00
簡略化的概念的確如本篇所說AG強的地方在於,他有能力能判斷「哪些位置需要去測勝率
作者: clark78118 (clark)   2016-03-12 10:12:00
他沒有把棋下到end game 而是用形勢判斷
作者: NaoGaTsu (那歐卡茲)   2016-03-12 10:13:00
」這件事,因此需要消耗大量資源與時間的全盤式隨機落子以及算完所有分支樹的狀況在AG的考量下不會發生。
作者: darkseer   2016-03-12 10:20:00
To clark78118: The second rollout phase of eachsimulation begins at leaf node sL and continuesuntil the end of the game. 他有算完啦XD只是它不只快速算完,也用了你說的形勢判斷我之前po文的時候自己也沒看懂...剛才才去改@@原po說這是原始概念也對,paper分析說這部分影響最大我覺得深度學習帶來的新能力是: 可以在極短時間不計算而做出業餘初段等級的直覺判斷。想像如果人類可以用0.01秒做到業餘初段等級的判斷,那加上計算就不得了了。
作者: fgkor123 (n(N))   2016-03-12 10:48:00
有講到是三段等級的https://www.zhihu.com/people/tian-yuan-dong連結,搜 Table 7,剛好看到跑勝率圖
作者: darkseer   2016-03-12 11:01:00
感謝,我說業餘初段完全是個隨意估計,抱歉@@不過我覺得DarkForest在這點還是很難超出職業棋評?
作者: fgkor123 (n(N))   2016-03-12 11:08:00
剛對了一下第二盤步數,6446開時,講評也是眾說紛紜

Links booklink

Contact Us: admin [ a t ] ucptt.com