作者:
Likedodo (小熊得冠軍)
2016-03-12 23:38:54以AlphaGo訓練的方式來說
他是以RL(reinforcement learning)
的方式去訓練結構的參數
就我的理解 每次下完一盤(步)棋都會
依照不同的結果給的獎勵值 去調整參數
因此alphaGo會不會在這三場棋後
變成更能適應小李的下棋模式 甚至是
專門對付他的棋風(local minimum)而不是下出全局最佳解呢?
感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢?
作者:
BRANFORD (請保佑我的父親)
2016-03-12 23:39:00他前兩盤變啦 沒用 這盤變回來 更慘
作者:
touyaman (とーやまん)
2016-03-12 23:40:00她跟小李下三盤 跟自己下幾百萬盤你覺得這三盤有影響嗎
作者:
bxxl (bool)
2016-03-12 23:41:00他現在不一定在training phase, 可能不會改參數
作者:
Cocochia (我是閃電經濟學家)
2016-03-12 23:42:00據了解不會,他只會不斷變強
沒可能,因為三盤的量實在太少,他每天至少能自我對局一百萬盤,請算算看3/1,000,000會造成多大影響。
作者:
zelkova (*〞︶〝*)
2016-03-12 23:45:00說不定吧 單機版都贏得了分散式版 代表不是沒有機會
作者:
moonlind (又多了敷臉卡跟覓食卡了~)
2016-03-12 23:45:00不會 這三盤跟插花一樣 他每天自我對戰一百萬局耶
作者:
arnold3 (no)
2016-03-12 23:45:00微乎其微更何況沒輸代表原本的知識已經夠用了大概就每天下一百萬局中其中對手弱弱的一局
作者:
moonlind (又多了敷臉卡跟覓食卡了~)
2016-03-12 23:46:00但是如果 輸入棋譜的阿法購VS自練起家的阿法購 打千萬盤
作者:
touyaman (とーやまん)
2016-03-12 23:46:00說實在的 AI現在根本不知道跟他對下的是誰 等到有一天
作者:
Cocochia (我是閃電經濟學家)
2016-03-12 23:46:00你下輸他,應該不會列入參考吧! 我想
作者:
moonlind (又多了敷臉卡跟覓食卡了~)
2016-03-12 23:47:00當他有一個性質迥異的對手 陪他打個千萬盤 可能出棋楓
作者:
touyaman (とーやまん)
2016-03-12 23:47:00AI知道對面是誰那才恐怖
作者:
moonlind (又多了敷臉卡跟覓食卡了~)
2016-03-12 23:49:00有天AlphaGO刻意走出第一局對戰棋型 彷彿在問:是你嗎?天啊 想到就毛毛的
作者:
NDSLite (Matrix in 臥虎藏龍)
2016-03-13 00:11:00自我training跟實戰調整的參數應該會不一樣吧
作者:
birdy590 (Birdy)
2016-03-13 00:13:00正常的話 實戰中根本不會 training, 回去再手動做較好我記得 Aja 好像有提到 這次用的網路參數和去年底一樣所以這三場以來一面戰鬥一面學習只是個幻想而已
作者:
birdy590 (Birdy)
2016-03-13 01:04:00訓練的結果只是一堆數字, 可以任意抽換不同版本
這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變下法嗎?
作者:
birdy590 (Birdy)
2016-03-13 01:05:00我想要換成純 AlphaGo 對奕棋譜重新訓練 也有研究意味在訓練完可以拿兩種版本互相對奕 看看棋力是不是真有增強
作者:
moonlind (又多了敷臉卡跟覓食卡了~)
2016-03-13 01:06:00拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ
其實是整個棋盤掌握力 狗狗力勝全職棋當你發現狗狗走出大損還樂勝 代表實力差距之大
AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手?
birdy590請問有印象Aja哪裡提到嗎,意思是其實這次的跟1月底的paper差不多呀..
期待純 AlphaGo 打破過去大家認為有用的定石
下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多,(跟去年底的比起來)從ELO看起來也是如此,作者(之一)Silver也是表示到賽前某段時間(?)有持續自我訓練