[閒聊] AlphaGO棋風定型的可能性

作者: Likedodo (小熊得冠軍)   2016-03-12 23:38:54
以AlphaGo訓練的方式來說
他是以RL(reinforcement learning)
的方式去訓練結構的參數
就我的理解 每次下完一盤(步)棋都會
依照不同的結果給的獎勵值 去調整參數
因此alphaGo會不會在這三場棋後
變成更能適應小李的下棋模式 甚至是
專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
作者: BRANFORD (請保佑我的父親)   2016-03-12 23:39:00
他前兩盤變啦 沒用 這盤變回來 更慘
作者: touyaman (とーやまん)   2016-03-12 23:40:00
她跟小李下三盤 跟自己下幾百萬盤你覺得這三盤有影響嗎
作者: bxxl (bool)   2016-03-12 23:41:00
他現在不一定在training phase, 可能不會改參數
作者: Cocochia (我是閃電經濟學家)   2016-03-12 23:42:00
據了解不會,他只會不斷變強
作者: NaoGaTsu (那歐卡茲)   2016-03-12 23:44:00
沒可能,因為三盤的量實在太少,他每天至少能自我對局一百萬盤,請算算看3/1,000,000會造成多大影響。
作者: owlonoak (深邃光輝)   2016-03-12 23:44:00
理論上它應該不會針對對手進行演算法的調整
作者: zelkova (*〞︶〝*)   2016-03-12 23:45:00
說不定吧 單機版都贏得了分散式版 代表不是沒有機會
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-12 23:45:00
不會 這三盤跟插花一樣 他每天自我對戰一百萬局耶
作者: arnold3 (no)   2016-03-12 23:45:00
微乎其微更何況沒輸代表原本的知識已經夠用了大概就每天下一百萬局中其中對手弱弱的一局
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-12 23:46:00
但是如果 輸入棋譜的阿法購VS自練起家的阿法購 打千萬盤
作者: touyaman (とーやまん)   2016-03-12 23:46:00
說實在的 AI現在根本不知道跟他對下的是誰 等到有一天
作者: Cocochia (我是閃電經濟學家)   2016-03-12 23:46:00
你下輸他,應該不會列入參考吧! 我想
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-12 23:47:00
當他有一個性質迥異的對手 陪他打個千萬盤 可能出棋楓
作者: touyaman (とーやまん)   2016-03-12 23:47:00
AI知道對面是誰那才恐怖
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-12 23:49:00
有天AlphaGO刻意走出第一局對戰棋型 彷彿在問:是你嗎?天啊 想到就毛毛的
作者: NDSLite (Matrix in 臥虎藏龍)   2016-03-13 00:11:00
自我training跟實戰調整的參數應該會不一樣吧
作者: birdy590 (Birdy)   2016-03-13 00:13:00
正常的話 實戰中根本不會 training, 回去再手動做較好我記得 Aja 好像有提到 這次用的網路參數和去年底一樣所以這三場以來一面戰鬥一面學習只是個幻想而已
作者: aegis43210 (宇宙)   2016-03-13 01:00:00
所以alphaGO只自我對弈到去年底而已?
作者: birdy590 (Birdy)   2016-03-13 01:04:00
訓練的結果只是一堆數字, 可以任意抽換不同版本
作者: mrmowmow (mow)   2016-03-13 01:05:00
這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變下法嗎?
作者: birdy590 (Birdy)   2016-03-13 01:05:00
我想要換成純 AlphaGo 對奕棋譜重新訓練 也有研究意味在訓練完可以拿兩種版本互相對奕 看看棋力是不是真有增強
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-13 01:06:00
拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ
作者: aegis43210 (宇宙)   2016-03-13 01:07:00
所以google還沒拿出最近的參數出來…,太扯了
作者: goldduck (哥達鴨)   2016-03-13 01:10:00
其實是整個棋盤掌握力 狗狗力勝全職棋當你發現狗狗走出大損還樂勝 代表實力差距之大
作者: cute64627732 (香吉士)   2016-03-13 01:18:00
AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手?
作者: darkseer   2016-03-13 03:28:00
birdy590請問有印象Aja哪裡提到嗎,意思是其實這次的跟1月底的paper差不多呀..
作者: s9209122222 (海海海)   2016-03-13 06:37:00
期待純 AlphaGo 打破過去大家認為有用的定石
作者: darkseer   2016-03-13 10:00:00
下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多,(跟去年底的比起來)從ELO看起來也是如此,作者(之一)Silver也是表示到賽前某段時間(?)有持續自我訓練

Links booklink

Contact Us: admin [ a t ] ucptt.com