[閒聊] AlphaGO棋風定型的可能性 Likedodo PTT批踢踢實業坊

[閒聊] AlphaGO棋風定型的可能性

作者: Likedodo (小熊得冠軍) 2016-03-12 23:38:54

以AlphaGo訓練的方式來說
他是以RL(reinforcement learning)
的方式去訓練結構的參數
就我的理解每次下完一盤(步)棋都會
依照不同的結果給的獎勵值去調整參數
因此alphaGo會不會在這三場棋後
變成更能適應小李的下棋模式甚至是
專門對付他的棋風(local minimum)而不是下出全局最佳解呢？
感覺小李或越戰越辛苦改變既有的下棋方式會不會贏呢？

作者: BRANFORD (請保佑我的父親) 2016-03-12 23:39:00

他前兩盤變啦沒用這盤變回來更慘

作者: touyaman (とーやまん) 2016-03-12 23:40:00

她跟小李下三盤跟自己下幾百萬盤你覺得這三盤有影響嗎

作者: bxxl (bool) 2016-03-12 23:41:00

他現在不一定在training phase, 可能不會改參數

作者: Cocochia (我是閃電經濟學家) 2016-03-12 23:42:00

據了解不會，他只會不斷變強

作者: NaoGaTsu (那歐卡茲) 2016-03-12 23:44:00

沒可能，因為三盤的量實在太少，他每天至少能自我對局一百萬盤，請算算看3/1,000,000會造成多大影響。

作者: owlonoak (深邃光輝) 2016-03-12 23:44:00

理論上它應該不會針對對手進行演算法的調整

作者: zelkova (*〞︶〝*) 2016-03-12 23:45:00

說不定吧單機版都贏得了分散式版代表不是沒有機會

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-12 23:45:00

不會這三盤跟插花一樣他每天自我對戰一百萬局耶

作者: arnold3 (no) 2016-03-12 23:45:00

微乎其微更何況沒輸代表原本的知識已經夠用了大概就每天下一百萬局中其中對手弱弱的一局

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-12 23:46:00

但是如果輸入棋譜的阿法購VS自練起家的阿法購打千萬盤

作者: touyaman (とーやまん) 2016-03-12 23:46:00

說實在的 AI現在根本不知道跟他對下的是誰等到有一天

作者: Cocochia (我是閃電經濟學家) 2016-03-12 23:46:00

你下輸他，應該不會列入參考吧！我想

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-12 23:47:00

當他有一個性質迥異的對手陪他打個千萬盤可能出棋楓

作者: touyaman (とーやまん) 2016-03-12 23:47:00

AI知道對面是誰那才恐怖

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-12 23:49:00

有天AlphaGO刻意走出第一局對戰棋型彷彿在問:是你嗎?天啊想到就毛毛的

作者: NDSLite (Matrix in 臥虎藏龍) 2016-03-13 00:11:00

自我training跟實戰調整的參數應該會不一樣吧

作者: birdy590 (Birdy) 2016-03-13 00:13:00

正常的話實戰中根本不會 training, 回去再手動做較好我記得 Aja 好像有提到這次用的網路參數和去年底一樣所以這三場以來一面戰鬥一面學習只是個幻想而已

作者: aegis43210 (宇宙) 2016-03-13 01:00:00

所以alphaGO只自我對弈到去年底而已？

作者: birdy590 (Birdy) 2016-03-13 01:04:00

訓練的結果只是一堆數字, 可以任意抽換不同版本

作者: mrmowmow (mow) 2016-03-13 01:05:00

這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變下法嗎？

作者: birdy590 (Birdy) 2016-03-13 01:05:00

我想要換成純 AlphaGo 對奕棋譜重新訓練也有研究意味在訓練完可以拿兩種版本互相對奕看看棋力是不是真有增強

作者: moonlind (又多了敷臉卡跟覓食卡了~) 2016-03-13 01:06:00

拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ

作者: aegis43210 (宇宙) 2016-03-13 01:07:00

所以google還沒拿出最近的參數出來…，太扯了

作者: goldduck (哥達鴨) 2016-03-13 01:10:00

其實是整個棋盤掌握力狗狗力勝全職棋當你發現狗狗走出大損還樂勝代表實力差距之大

作者: cute64627732 (香吉士) 2016-03-13 01:18:00

AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手?

作者: darkseer 2016-03-13 03:28:00

birdy590請問有印象Aja哪裡提到嗎，意思是其實這次的跟1月底的paper差不多呀..

作者: s9209122222 (海海海) 2016-03-13 06:37:00

期待純 AlphaGo 打破過去大家認為有用的定石

作者: darkseer 2016-03-13 10:00:00

下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多，(跟去年底的比起來)從ELO看起來也是如此，作者(之一)Silver也是表示到賽前某段時間(?)有持續自我訓練

繼續閱讀

[新聞] 華學明：脫帽致敬李世石連線下難贏阿爾法zkow [討論] 人類群戰AlphaGO與歷史bjiyxo [情報] 柯洁向AlphaGo提出挑戰了！vb0824 [新聞] 李世石稱錯估阿爾法實力背負太大壓力才輸zkow [新聞] 對話5位日本九段:中國應該有人能贏Alphagozkow [討論] 李世石 VS AlphaGo 第三局看法wukevinboy [心得] AlphaGo 的啟示colorless [問題] 如果ALPHA GO下完五盤不流通市面的話MaYingJoe [問題] 阿法對阿法的譜Vonix [歷史] 李世石(黑) - AlphaGo(白) 第三局棋譜zelkova