Re: [好文推薦] 這兩盤棋 沒人會比李世石做得好

作者: fallcolor (秋天走了)   2016-03-12 11:35:18
有些觀念我覺得要釐清一下比較好
ML的訓練過程說穿了也只是一種數學問題
要分析演算法還是得回到數學的本質
既然Alphago的決策模式加入了隨機性
再加上訓練NN的過程也不能保證得到global optimum
換言之
不管你在training階段餵多棒的data進去
testting階段就是有機會掉到local optimum
而當local optimum距離真正的global optimum很遠時
預測就可能出錯
NN模型具有弱點可以從不同面向說明:
1. 因為它的數學模型複雜, 不屬於convex函數
任何最佳化演算法本來就不能在這類模型上保證得到global optimum
2. 訓練時採用的stochast gradient descent演算法
本身就是局部最佳求解的方式之一
3. 訓練過程中其實也參與一些隨機的機制 (dropout)
現在NN能再紅起來是靠大數據加上研究者聰明的訓練方式
(冠上deep learning之名重新出發)
很大程度地壓抑住上面的本質問題
但不代表它就沒有被破解的空間
否則那些研究如何加雜訊使模型失效的研究者不就是做心酸的嗎
:
作者: darkseer   2016-03-12 11:39:00
推,請問餵什麼data有什麼一般理論嗎?好像有時候要餵好的,有時候要餵unbiased的,譬如說AlphaGo這麼強,但是似乎也不是自己餵給自己?
作者: fallcolor (秋天走了)   2016-03-12 11:45:00
看data source的性質 如果是像sensor收到的這種數值
作者: Tkuei (it's me)   2016-03-12 11:46:00
可是就我所知,deep跟傳統的ML很不一樣
作者: fallcolor (秋天走了)   2016-03-12 11:46:00
勢必帶noise 那訓練階段就要故意加一點noisy data下去
作者: AmuroRay (聯邦の白き流星)   2016-03-12 11:46:00
我一直覺得 好像真的認為AG找到的是最佳解的人沒那麼多只是爭論的是當它下出一個看似有問題的手(如果不是簡單邏輯就能判斷的壞棋)到底要怎麼判斷 畢竟終究人類本來累積的認知也可能離global optimum有段距離
作者: Tkuei (it's me)   2016-03-12 11:47:00
ML你不告訴他的他不會知道,但是deep確有可能自己找出來
作者: fallcolor (秋天走了)   2016-03-12 11:48:00
ML可以阿 只是過去ML模型沒這麼複雜 泛化能力就差而且這樣說很奇怪 deep本來就是ML的一種
作者: Tkuei (it's me)   2016-03-12 11:48:00
可是ML還是base on人設計給電腦的rule
作者: Tkuei (it's me)   2016-03-12 11:49:00
但是deep是讓電腦自己把rule找出來喔,我應該是說傳統的ML跟deep L至少就我的認知,傳統的ML我們把棋譜那些「劣手」當作劣手餵給電腦去train的話,那test時的時候就不會把劣手當好手但是deep我們不會告訴他好壞,所以好壞是電腦子自己找到的因此原本在棋界公認不好的下法,卻被AlphaGo翻盤
作者: darkseer   2016-03-12 11:59:00
請問樓上,可是AlphaGo的paper裡看起來光用SL policynetwork和它的變體就很強了,我的理解這邊是單純學習就很強了,這個有什麼特別的解釋嗎?
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:02:00
policy不能用RL,因為RL會有破台後便固定玩法的問題
作者: aaaba (小強)   2016-03-12 12:03:00
推認真討論。我把我的說法多闡明一下,乾淨的資料使得分類器的boundary可以劃分的很好,如此一來,人類棋手若非因為細算的理由,而在正手旁一路落子,“極大的機會”是一招惡
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:03:00
或著說他會很容易掉到local minimal上,比較合理的還是
作者: aaaba (小強)   2016-03-12 12:03:00
手,而非引發bug的雜訊。另外,就統計而言,deep net只要比人更靠近另一個更好的local opt就足夠勝過人類,加上mcts的架構,大大補足了non cvx的問題。
作者: Tkuei (it's me)   2016-03-12 12:24:00
抱歉小弟並非ML專精,只是因為研究需要略懂皮毛,用詞失準還請多多指正。雖然說影像動輒5000*3000,棋盤只有19*19,但是拿來相比未必適合,因為點與點之間關係的複雜性是不能相比的
作者: fool5566 (愚者56)   2016-03-12 12:24:00
可以借這篇問一下嗎 alphago的用時策略是固定的嗎
作者: AmibaGelos (Amiba Gelos)   2016-03-12 12:32:00
用時估算,fast policy等關鍵點google肯定是不會講的大家講的神乎其技的DCNN反而是最簡單的部分@@
作者: aaaba (小強)   2016-03-12 12:36:00
認同樓上,那邊很吃domain knowledge
作者: birdy590 (Birdy)   2016-03-12 12:36:00
他又不是純靠nn 干擾他只能造成mcts效率降低而且資料是操作人員在餵 想靠污染不切實際
作者: aaaba (小強)   2016-03-12 12:38:00
認同樓上
作者: birdy590 (Birdy)   2016-03-12 12:57:00
真正決定落子的是Mcts 裡面用的網路目標只是要比亂數好Nn不準只是效率差點 還沒法控制
作者: AmibaGelos (Amiba Gelos)   2016-03-12 13:00:00
只要比RN好OTZ,從RL Value到SL policy就從6d升到8d了
作者: fallcolor (秋天走了)   2016-03-12 13:03:00
說的是 但貼那個link就是要說明有策略可以讓NN效率變差MCTS如何破解的部分就需要其他專家補充了
作者: drajan (EasoN)   2016-03-12 14:01:00
想不到在圍棋版可以看到關於ML/AI的討論@@ 受益良多
作者: bpsk (kaoyu)   2016-03-12 15:22:00
RBM?

Links booklink

Contact Us: admin [ a t ] ucptt.com