[新聞] 中國版人機大戰緣何沉寂?劉:缺乏專業人才

作者: zkow (逍遙山水憶秋年)   2016-11-25 21:49:59
中國版人機大戰緣何沉寂? 劉知青:缺乏研究人才
 文章來源:北京青年報
  一年前,在北京工體旁的網魚網咖,第一屆世界電腦圍棋錦標賽上,來自中國、韓國
、日本、美國、法國、捷克的圍棋人工智慧軟體捉對廝殺了3天後,總冠軍韓國的“石子
旋風”受讓5子,卻被中國七段棋手連笑擊敗。那時還無人知曉AlphaGo的大名。一年 過
去了,圍棋AI(人工智慧)早已被炒得火熱,去年曾在北京亮相的日本圍棋軟體“ZEN”
,也首次不受讓子,前天與日本著名棋手趙治勳九段戰成1比2。可這一年間,中國的圍棋
智慧軟體哪兒去了?
  阿爾法狗火了 中國AI卻沉寂
  “第二屆世界電腦圍棋錦標賽?早就確定不搞了。”首屆錦標賽媒體推廣人陳昭告訴
北京青年報記者,“中國研發人員覺得,如果達不到AlphaGo今年3月與李世石對陣的水準
,那還不如不露面。”
  去年,來自北京郵電大學、武漢大學,以及臺灣的三支中國隊伍參加了角逐。但最好
的一支國內隊伍僅獲第七名。在連笑輕鬆戰勝人工智慧冠軍“石子旋風”後,現場觀戰的
中國圍棋隊主教練俞斌九段認為,電腦真正下過人類,還得20年。
  今年3月AlphaGo4比1完勝韓國名將李世石,證明了智能的成長性。中國也隨即掀起討
論圍棋智慧的熱潮。又過了8個月,北青報記者發現,中國相關圍棋智慧研究,依然處在
缺乏政策傾斜,少有資金眷顧,各自為戰的鬆散局面。
  擁有天河二號不等於AI厲害
  當AlphaGo4比1大勝李世石,專家跌碎一地眼鏡之餘也指出,其成功之道不止是軟體
的突破,還有大金主的資金和硬體的支援。但當時就有中國棋友詰問:我們有天河二號啊

  天河二號超級電腦作為中國“最強大腦”,耗資一億美元打造,峰值計算速度每秒
5.49億億次,記憶體總容量1400萬億位元組。2015年以每秒33.86千萬億次的浮點速度,
第六次蟬聯世界超級電腦排行榜的冠軍。
  陳昭坦言,在策劃第二屆電腦圍棋錦標賽時,曾經聯繫過天河二號所在的廣州超算中
心。“聯繫了一陣,後來還是決定不搞了。”北青報記者從北京郵 電大學電腦圍棋研究
所所長劉知青教授那裡,瞭解到更多詳情。據他介紹,搞圍棋人工智慧,靠一個人,一台
電腦肯定不行,一定要有頂級硬體條件支援。“但另 一方面,我們還需要長期在圍棋人
工智慧領域工作的人才,還需要在軟體方面有所突破,才能真正把硬體優勢發揮出來。”
他說。換言之,沒有類似AlphaGo 那樣的智慧軟體,硬體再快也無用武之地。
  還在解讀AlphaGo論文階段
  那麼,中國圍棋智慧軟體水準目前處在什麼層次?劉知青一方面表示,這一年我們的
軟體水準還是有進步的,一方面也承認,目前大家的目標,就是解讀AlphaGo之前發表的
論文,“爭取達到它在今年3月的水準。”
  在AlphaGo之後,人工智慧領域最大的進步,當屬日本圍棋軟體DeepZenGo。去年的錦
標賽,“ZEN”還不能在程式間的對決中獲勝, 一年後已不受讓子勝趙治勳九段一盤。但
對此成績,劉知青並不太認同。“從去年受讓6子,到如今戰勝趙治勳,確實有進步,”
他說,“但還沒有達到 AlphaGo的水準。”
  即使如此,中國尚沒有匹敵“ZEN”的圍棋軟體。但劉知青認為,中國已走在正確的
道路上。“AlphaGo證明了人工智慧走神經網路,價值判斷的路是正確的,我們的AI也走
這條路。相信在消化吸收了AlphaGo的論文,我們會取得更多突破。”
  缺乏資金和政府層面支持
  值得注意的是,去年首屆錦標賽上,已經提出走商業化發展的中國圍棋AI,沒有在
AlphaGo打出的人工智慧風口推動下飛上天,反而陷入各自為戰的沉寂。
 AlphaGo與李世石的人機大戰剛過去一周,中國人工智慧協會就會同中國圍棋協會召開
論壇,邀請包括工程院院士李德毅、北郵校長林金桐等各界人士,討論人工智慧前景。而
具體到北郵電腦圍棋研究所研發的圍棋AI,最終也未獲得政府或大企業的青睞。
  那麼,是圍棋人工智慧的應用前景不被看好嗎?劉知青予以否認。他認為,AlphaGo
有強大的總體把握能力,可以簡明地把優勢轉化為勝勢。而圍棋問題有天文數字的狀態空
間和決策空間,解決圍棋問題,是證明人工智慧研究突破的重大節點。
  如此具有前景的應用領域,已經吸引了國外多個科技巨頭投入,而在中國似乎還處在
各幹各的局面。“比如前一陣,我們經政府牽線,與騰訊人工智慧部門談過合作,後來不
了了之,最近聽說他們在自己搞相關工作了。”劉知青說。
  劉知青坦言,中國目前其實不缺硬體,更不缺資金,缺乏的是長期在該領域投入的研
究人才和時間的累積。“目前中國在這一領域時間最久的就是我,也不過十餘年。未來中
國只有在人才積累,軟體科技積累達到一定水準,才能取得突破。”也許那時才是中國相
關人工智慧的真正風口。(記者 褚鵬)
http://sports.sina.com.cn/go/2016-11-25/doc-ifxyawmm3363951.shtml
作者: aaaba (小強)   2016-11-25 22:23:00
alphaGo論文參數都出來了,起跑線就是定死在這邊,幹嘛要跟劉知青合作,那樣還得派車回頭把他接來起跑線看這文章只說明了他是局外人
作者: arthurwang (莫言)   2016-11-25 23:21:00
就為了中國人的面子,堅持要搞一個完全自己的AI嘛
作者: Lordaeron (Terry)   2016-11-25 23:40:00
@aaaba你確定照論文可以出一個打敗一般業餘選手的?
作者: aaaba (小強)   2016-11-26 00:18:00
不是我講的話你問我確不確定幹嘛...我上面推文中哪邊可以得出你問題裡的敘述
作者: MonkeyCL (猴總召)   2016-11-26 01:00:00
台灣又被偷渡在中國國內裡面了
作者: skyhawkptt (skyhawk)   2016-11-26 01:57:00
天河二只是跑分好看,至於AI https://goo.gl/xV8p4B
作者: semihumanity (沙漠之狐)   2016-11-26 04:20:00
都過多久了還在解讀論文,有點弱啊!
作者: jpg31415926 (圓週率π)   2016-11-26 08:39:00
硬體規格就是錢堆出來的 怎麼用才是重點吧
作者: Lordaeron (Terry)   2016-11-26 09:44:00
see?alphaGo論文參數都出來了,起跑線就是定死在這邊.從alphago的論文, 有定出起跑線?
作者: aaaba (小強)   2016-11-26 10:19:00
所以跟5F的陳述有關聯嗎?不要亂生話啊生完還想塞到別人嘴裡要別人解釋,莫名其妙
作者: nanlong (懶龍)   2016-11-26 12:28:00
前陣子的訊息是中國有AI已跟一般圍甲棋手打的差不多估計應不輸這次上場的Zen。後面1年大概仍是AlphaGo一支獨秀, 日本跟中國爭大老二。但拉到3年後? 就不好預測了。怕google沒興趣繼續投入圍棋AI。
作者: aaaba (小強)   2016-11-26 12:48:00
http://i.imgur.com/WDiv1pi.jpg 而且根據黃博士的說法,講alphaGo的論文是中國軟體業大公司的起跑線,應該不為過,不認同也就罷了,個人自由。但硬是想出一句風馬牛不相及的論點然後要求對方解釋,還真的不曉得下限為何。
作者: Lordaeron (Terry)   2016-11-26 12:55:00
@aaaba,話是你講的, 我是沒看到什麼起跑線的.不然請你指出在哪?
作者: aaaba (小強)   2016-11-26 12:56:00
你先解釋5樓的言論吧?
作者: Lordaeron (Terry)   2016-11-26 13:26:00
@aaaba,解釋什麼? 你自己說, 起跑線就在哪.又說參數都有. 當然得問說是不是照招就有alphago囉至於你說是aja講的, 最少你給出的圖, 我看不出來他有講
作者: aaaba (小強)   2016-11-26 13:31:00
“照論文可以出一個打敗一般業餘選手的” <-- 這句話到底是誰說的?
作者: Lordaeron (Terry)   2016-11-26 13:32:00
你的意思就是這樣, 不然是什麼?還是你想AJA的話, 又解釋成你的樣子?
作者: aaaba (小強)   2016-11-26 13:35:00
我的意思不是這樣,不要生話塞給別人秀下限我是在說騰訊為何不用跟劉知青合作,你想到哪去了我可無法理解
作者: Lordaeron (Terry)   2016-11-26 13:39:00
起跑線跟騰訊為何不用跟劉知青合作有何關係?
作者: aaaba (小強)   2016-11-26 13:39:00
這跟你隨便找一個人來複製論文,卻打不過業餘棋手根本兩回事
作者: Lordaeron (Terry)   2016-11-26 13:40:00
更妙的是aja 沒講過你的:中國軟體業大公司的起跑線.這樣的話, 是誰塞話給別人了?
作者: aaaba (小強)   2016-11-26 13:40:00
你先承認幫別人生話吧你你質疑的點換來換去,我就問你5樓的話是不是你生的?
作者: Lordaeron (Terry)   2016-11-26 13:42:00
我沒幫你塞話, 話是你講的, 變我了?
作者: forfunmerely (棄置倒數中)   2016-11-26 13:42:00
OUI
作者: Lordaeron (Terry)   2016-11-26 13:43:00
aaaba:alphaGo論文參數都出來了,起跑線就是定死在這邊英譯:flow alpahgo paper and you will get the same
作者: aaaba (小強)   2016-11-26 13:44:00
呵,我那句提了某人複製論文的棋力跟業餘棋手的關係
作者: Lordaeron (Terry)   2016-11-26 13:44:00
as alphago.還需要中譯一次嗎?另外, 塞別人話的人是你,你的截圖中AJA 什麼都沒講.結果到你口中, 變成中國企業的起跑線了.
作者: aaaba (小強)   2016-11-26 13:46:00
你複製論文不成功,干我屁事?
作者: Lordaeron (Terry)   2016-11-26 13:47:00
哪你複製成功了?你知什麼是supervise ?
作者: aaaba (小強)   2016-11-26 13:48:00
我又沒說複製論文就一定成功,你還要翻成flow什麼的,紅藍式翻譯嗎?
作者: Lordaeron (Terry)   2016-11-26 13:49:00
你沒說一定成功啊,意思是成功就是? 你知supervise?
作者: aaaba (小強)   2016-11-26 13:50:00
我那句說一定成功,你又在生話我不用知道supervise也知道你生話塞給別人
作者: forfunmerely (棄置倒數中)   2016-11-26 13:51:00
癢癢
作者: Lordaeron (Terry)   2016-11-26 13:52:00
不成功, 哪來起跑線? 還要轉?你知什麼是deep learning 是supervise 的?不知什麼是supervise, 就別亂講, 照論文可以出起跑線.還有,aja也沒講過什麼中國企業的起跑線之類的話.愛塞話的人是你. 別轉了.
作者: forfunmerely (棄置倒數中)   2016-11-26 13:58:00
旋轉跳躍我B著眼~
作者: aaaba (小強)   2016-11-26 13:59:00
你起跑失敗也要怪東怪西?他論文寫在那邊,你複製的效果是你家的事
作者: ztdxqa (ztdxqa)   2016-11-26 14:01:00
插個話 Lordaeron語文能力不太好 對話看得有點辛苦中文英文都不大好XD
作者: aaaba (小強)   2016-11-26 14:03:00
至少那些公司是先試圖重現alphaGo部分成果,不用回頭找劉知青。然後你生那些英文,顯得可笑,沒有論述的單詞一直屁有什麼用?
作者: forfunmerely (棄置倒數中)   2016-11-26 14:04:00
一群銅牌
作者: ztdxqa (ztdxqa)   2016-11-26 14:06:00
說實在話 要複製AlphaGo的論文太難了 有太多訓練的技巧
作者: Lordaeron (Terry)   2016-11-26 14:06:00
如果不知什麼是supervise,哪麼, 你的重現是什麼鬼?
作者: ztdxqa (ztdxqa)   2016-11-26 14:07:00
深度強化學習比普通的CNN要難訓練太多了 DeepMind那群人
作者: Lordaeron (Terry)   2016-11-26 14:07:00
@ztdxqa, 你是?
作者: Lordaeron (Terry)   2016-11-26 14:08:00
@ztdxqa,又來幫別人講話了.你等DeepMind?還是有試圖複製過AlphaGo的論文?
作者: aaaba (小強)   2016-11-26 14:09:00
z大說法中肯,哪像某人一副我如果複製失敗你來負責的拽樣
作者: Lordaeron (Terry)   2016-11-26 14:10:00
連supervise 都不懂是什麼的人, 還可以幫別人生話.說什麼起跑線的.
作者: ztdxqa (ztdxqa)   2016-11-26 14:10:00
我沒有複製過 但是知道非常的困難
作者: forfunmerely (棄置倒數中)   2016-11-26 14:11:00
最i你der人4我 你怎麼捨der窩難過~
作者: Lordaeron (Terry)   2016-11-26 14:11:00
沒你也知, 這麼強?
作者: ztdxqa (ztdxqa)   2016-11-26 14:11:00
你是要說監督是學習嗎 幫你更正一下supervise"d" learning
作者: forfunmerely (棄置倒數中)   2016-11-26 14:12:00
買個錶買個錶
作者: Lordaeron (Terry)   2016-11-26 14:12:00
我只看到你說, 複製alphago 的論文, 就有alphago 而已.而不知道, 什麼是supervised
作者: aaaba (小強)   2016-11-26 14:13:00
呵,z大人好好,我還真希望聽他多烙一些高深的英文詞彙
作者: Lordaeron (Terry)   2016-11-26 14:13:00
不用多高深, 只是看到有人說複製alphago 的論文, 就有alphago而已,
作者: forfunmerely (棄置倒數中)   2016-11-26 14:14:00
One night in古亭 我liu下許多情~~~~
作者: aaaba (小強)   2016-11-26 14:14:00
又開始生話
作者: Lordaeron (Terry)   2016-11-26 14:14:00
還敢拿出aja的對話,來塞他話。又開始裝傻了, 一樓的推文就在哪. 要吃回去?
作者: forfunmerely (棄置倒數中)   2016-11-26 14:16:00
唉 原來妳也在這裡
作者: Lordaeron (Terry)   2016-11-26 14:16:00
還有你根據aja說法的哪一段, 也要吃回去了?
作者: aaaba (小強)   2016-11-26 14:20:00
你自己定義起跑線=複製成功,然後賴來我頭上,我的意思是那些公司先從著手複製論文起步,你不要再生話了行不行
作者: forfunmerely (棄置倒數中)   2016-11-26 14:23:00
妙筆生花 省話一哥
作者: Lordaeron (Terry)   2016-11-26 14:27:00
哈...aaaba, 複製論文,參數都在哪, 不就是複製成功, 就有alphago了的意思?但明明就不知什麼是需要supervise的.意思是, 結果的好壞, 是需要人去定義的.連它是supervised 的方法要人去supervise都不知.
作者: aaaba (小強)   2016-11-26 14:29:00
更可笑的是還翻成英文然後更改文意,哪招?
作者: Lordaeron (Terry)   2016-11-26 14:30:00
還敢說出, 複製論文就好了.
作者: forfunmerely (棄置倒數中)   2016-11-26 14:33:00
你從不知道 我想做的不只是朋友~
作者: aaaba (小強)   2016-11-26 14:34:00
你不懂有參數代表可以少走很多冤枉路,也來在那邊秀下限?這篇論文分享得很有誠意了,但能否成功,是看你自己的造化有參數又代表複製成功了喔?這招一直用,你煩不煩啊
作者: forfunmerely (棄置倒數中)   2016-11-26 14:38:00
煩哪煩哪煩得沒有力氣煩哪 我煩啊煩哪煩哪煩得不敢相信煩哪煩哪煩得歇斯底里煩哪
作者: BRANFORD (請保佑我的父親)   2016-11-26 14:53:00
f君吃了什麼?我也點一份^_^
作者: semihumanity (沙漠之狐)   2016-11-26 15:39:00
AlphaGO的重點明明是reinforcement learning...不懂為什麼一直提"supervise"我只知道supervised learning而且supervised learning也不是「人」去監督啊...
作者: Lordaeron (Terry)   2016-11-26 15:49:00
不然是誰去教他哪個是對錯? 你懂參數會少走?AlphaGO的重點明明是reinforcement learning? 哪來的?
作者: Wush978 (拒看低質媒體)   2016-11-26 22:18:00
樓上要不要先去學一下再來問?否則說的內容像外行,口氣卻很衝,很不協調
作者: forb9823018 (風過無痕)   2016-11-26 22:27:00
論文有不少細節和參數沒有寫上去
作者: Lordaeron (Terry)   2016-11-26 22:30:00
@Wush978, 哪還得讓你來教我一下呢.@forb9823018, 要不要先去學一下再來講,不然Wush978...
作者: forb9823018 (風過無痕)   2016-11-26 22:32:00
我花了好幾個小時論文看過好幾次了看你的推文不知你又學了多少不如指教一下光是一堆feature的詳細定義和怎麼得出來的都沒講了
作者: Lordaeron (Terry)   2016-11-26 22:36:00
咦, 不是我說參數都在裏面的哦, 別扯到我頭上來.
作者: forb9823018 (風過無痕)   2016-11-26 22:36:00
不如你講一下一些feature怎麼實作
作者: forb9823018 (風過無痕)   2016-11-26 22:37:00
所以我說論文有不少細節和參數沒有寫上去這句話哪裡有錯?自己說自己也要去重學的人叫別人學一下再來講...
作者: Lordaeron (Terry)   2016-11-26 22:40:00
請看清楚, 不然Wush978要怎麼講.
作者: forb9823018 (風過無痕)   2016-11-26 22:42:00
論文有不少細節和參數沒有寫上去=>這句話哪裡有錯又不是他對我的話有疑問是你有疑問當然問你我管他怎麼講我又不是回他
作者: Lordaeron (Terry)   2016-11-26 22:42:00
我覺得你沒錯, 但不代表aaaba及wush978, 而既然只是我覺得沒錯, 而Wush978叫我回去重學了, 只好提醒你囉.
作者: forb9823018 (風過無痕)   2016-11-26 22:43:00
你覺得我沒錯那你又怎麼知道我沒學過?我也沒再回你是你自己跳出來對叫我回去學的
作者: Lordaeron (Terry)   2016-11-26 22:44:00
我跟你都覺得沒錯, 而我要重學, 推得.
作者: forb9823018 (風過無痕)   2016-11-26 22:46:00
我覺得就算能100%還原原文也頂多只能追到跟原本發表時差不多的結果alphago這時不知又進步多少
作者: Lordaeron (Terry)   2016-11-26 22:47:00
哦, aaaba就說了, 照論文就能100%的了, 就是人家的起跑線了.
作者: forb9823018 (風過無痕)   2016-11-26 22:48:00
機器學習很多時候都是想出一些看似可行的方法但實際效果如何沒跑過不知道除非可以問deepmind團隊裡面個個名字的細節不然很有可能光是複製就走很多冤枉路
作者: Lordaeron (Terry)   2016-11-26 22:49:00
直接copy code 比較快吧.
作者: forb9823018 (風過無痕)   2016-11-26 22:51:00
隨便找一個人來複製論文...就算是專家如果只有一個人
作者: Lordaeron (Terry)   2016-11-26 22:51:00
@forb9823018, 哇, 你完全和aaaba說法相反了呢.
作者: Lordaeron (Terry)   2016-11-26 22:53:00
當然不可能一篇就全講, 也不可能講得清的.
作者: forb9823018 (風過無痕)   2016-11-26 22:53:00
不一樣就要整個打掉重來
作者: forb9823018 (風過無痕)   2016-11-26 22:55:00
有論文當然比沒方向好 但deepmind團隊機器學習的專家全世界最頂尖的100人中裡面就佔好幾個了他們重確定架構到微調成之後的強度也花了不少時間其他人不想做的原因是花很多人力物力只複製出很之前的進度目前其他還有在座的團隊的目標大概是能做出一般電腦能跑 齊力有一般職業水準的電腦最頂尖大概只會留給deepmind自己做了
作者: aaaba (小強)   2016-11-26 23:29:00
我只說了其他公司以複製該篇論文起步,然後論文裡有滿多訓練時的參數非常有參考價值(沒完整卻也足夠讓其他公司做出超越v13的版本了),而找劉知青來幫助不大。至於什麼保證百分之百成功這些我沒說,有點羞恥心就別一直玩抹黑這套
作者: Lordaeron (Terry)   2016-11-26 23:41:00
這麼快吃回去了? 還好推文還在呢.等等等alphago 教學中....
作者: HeterCompute (異質運算)   2016-11-26 23:46:00
樓上這些人只是因為ptt不知道語氣於是在為了說話細節上爭吵,有點可愛XD本來這些都是不需要爭的XD
作者: Eric0605 (我還有點餓)   2016-11-27 00:17:00
最強的軟體人才都去歐美了 中國最強的軟體人都搞電商了至於AI 中國人大概還只拿來當遊戲 跟本沒有公司想做
作者: aaaba (小強)   2016-11-27 00:31:00
我就不信狂問別人supervise是什麼的人能有多少料,結果一說到feature就說自己要重學,然後靠著嘴炮到別人懶得回就在那邊得意...
作者: Lordaeron (Terry)   2016-11-27 00:40:00
@aaaba,我需不需要重學你不知道, 但你絕對是連哪是什麼都不知, 就將話講滿了, 連AJA沒講的都塞給他了.我就等大師來教我ALPHAGO 的論文.Wush978, 快來一篇吧.
作者: semihumanity (沙漠之狐)   2016-11-27 02:55:00
不知道reinforcement learning?肯定沒看論文明明是machine learning外行人,講話還這麼衝…
作者: Lordaeron (Terry)   2016-11-27 08:51:00
我有沒有看論文, 是不是外行人, 就等你來教.你真內行, 就開一篇看看. 看你看論文看得怎樣.Wush978, 快來一篇吧.
作者: ddavid (謊言接線生)   2016-11-27 09:23:00
我怎麼覺得起跑線跟複製完全是兩回事,複製成功明明就是終點線不是嗎XD然後Supervised中所謂好壞確實是人定義的,但不代表學習過程中需要人去看……,人類的Supervised是運作在學習前對使用的資料進行定義,以及學習後回顧檢查並解讀一下結果,學習中人力是不介入的學習中要有人力介入的,叫做Semi-supervised learning不管是Supervised還是Unsupervised learning都是學習過程中不用人力監督的,因為那個Supervised根本不是在指學習過程至於AlphaGo並非Supervised learning,這又是另一回事了
作者: semihumanity (沙漠之狐)   2016-11-27 11:09:00
連深度學習基礎都沒有、只會嗆的人該怎麼教…這已經不是半瓶水響叮噹了,根本是空瓶子吵死人XD如果你真的有興趣請去下載論文,搜尋reinforcement等你把論文看完再來發問好嗎?不要再亂嗆人了唷
作者: Lordaeron (Terry)   2016-11-27 12:23:00
@semihumanity, 就等你開一篇, 少在這reinforcement.Wush978, 沒開, 你可以來開.你的Deep learning 的課,快開。別在這一直跳針式的扯reinforcement.提醒你們一件事, 自monte carlo方法出來後, 圍棋AI 就有一次大的進展了, 而這些作AI 的人, 照你們的說法, 都是笨蛋, 將monte carlo和reinforcement結合.不就解決了, 等什麼BBC之類的呢。
作者: semihumanity (沙漠之狐)   2016-11-27 13:06:00
死不看論文,只會嗆人...你沒付錢,憑什麼要人教?AlphaGO就是MCTS結合deep learning用reinforcementlearning學習,才得到這樣的棋力。結果還是不小心教了...伸手黨真是不可取
作者: Wush978 (拒看低質媒體)   2016-11-27 13:22:00
同領域的看推文就知道有沒有料了樓上太佛了
作者: Lordaeron (Terry)   2016-11-27 13:38:00
@semihumanity,Wush978. 台大剛好有篇文章, 自己看.太佛了.要是單單reinforcement有用, 還用等到CNN的加入?而通過自下的方式增強棋力, 正是AJA 的畢業論文.而他的畢業作品程式, 就嬴過一次圍棋AI 冠軍.要是單單這個可這麼強, 哪就不會只有一次了.
作者: aaaba (小強)   2016-11-27 13:54:00
又在生話了,別人沒說“單單”,自己在那邊單單
作者: Lordaeron (Terry)   2016-11-27 14:10:00
哈....不是用XXX才有嗎? 哪不用就沒有了呢.所以主要是reinforcement 啊.
作者: roujuu (老中)   2016-11-27 14:10:00
根據『 http://0rz.tw/YzQSX 』,大陸不是有
作者: roujuu (老中)   2016-11-27 14:11:00
「神威‧太湖之光」嗎?她平常每日CPU time不是只用到60%
作者: Lordaeron (Terry)   2016-11-27 14:12:00
還好我們不同領域,也還好我也可以看推文就知道有沒有料
作者: roujuu (老中)   2016-11-27 14:12:00
,可以用她寫類似AlphaGO的東東,也可以不用使用DeepMind的程式構想方式,只要找對人,應該很快就可以和AlphaGO分先了。
作者: Wush978 (拒看低質媒體)   2016-11-27 15:00:00
那你前面講的supervised 用你自己論點打不就更可笑嗎?XD
作者: Lordaeron (Terry)   2016-11-27 15:01:00
啊?我打什麼了? alphago的重點是supervised.是誰跳出來加持一下reinforcement?有沒有料, 一看就知道...fuego 就是用CNN supervised加強可以贏GNU GO 達97%
作者: aaaba (小強)   2016-11-27 15:04:00
無知還狂問別人supervise是什麼,哈哈哈
作者: Lordaeron (Terry)   2016-11-27 15:04:00
而你們兩位口中的reinforcement 在aja的論文就有了。
作者: Wush978 (拒看低質媒體)   2016-11-27 15:05:00
alpha go 的重點是過去人類的棋譜還是他自己下的?
作者: Lordaeron (Terry)   2016-11-27 15:05:00
重點在reinforcement的話, aja 的程式的結果要比fuego好才對.
作者: Wush978 (拒看低質媒體)   2016-11-27 15:06:00
所以說你外行啊,這行哪有這麼簡單「有用這個就會強」「因為aja過去的AI只拿一次冠軍所以reinforcement learning 不重要」 能下出這種推理,我是覺得也太...
作者: aaaba (小強)   2016-11-27 15:09:00
而且連reinforcement是一個類別也不知道,說什麼早就有用,用起來學問可大了,不是一句有用過就完事了
作者: semihumanity (沙漠之狐)   2016-11-27 15:55:00
越講破綻越多XD連訓練方式和網路架構都分不清楚你以為reinforcement learning只有一個algorithm?CNN只有一種訓練方法?
作者: ggoutoutder (女朋友的左手)   2016-11-27 15:59:00
原來是AI版 我還以為是圍棋版
作者: semihumanity (沙漠之狐)   2016-11-27 16:01:00
AlphaGO如果沒用reinforcement learning,只用人類棋譜做supervised learning,程度就是業餘段位而已不讀論文,只會講一些似是而非的東西
作者: wjmd92   2016-11-27 16:12:00
真精彩!看到這裡,先打個卡,明天續看
作者: Lordaeron (Terry)   2016-11-27 16:12:00
@semihumanity,Wush978, 有用到又如何?@Wush978, 不然主要是什麼?還要轉嗎?我有說過AlphaGO沒用reinforcement learning?
作者: Wush978 (拒看低質媒體)   2016-11-27 16:15:00
Alpha GO棋力會強是因為過去人類的棋譜還是他自己對自己的棋譜?
作者: Lordaeron (Terry)   2016-11-27 16:15:00
還是說重點不是reinforcement learning.@Wush978, 當然是過去人類的譜.要是自己對下的譜, 哪aja 的論文就夠了.內行?就有人一直鬼扯別人都不懂. 懂不懂, 很清楚.
作者: semihumanity (沙漠之狐)   2016-11-27 16:21:00
真的是活在自己的世界耶~AlphaGO是靠自我對奕三千萬盤才達到職業九段以上的棋力好嗎?論文和DeepMind的宣傳都有講,您為什麼要這樣呢?
作者: ztdxqa (ztdxqa)   2016-11-27 16:23:00
Lordaeron還是先去看論文好了 別再秀下限了
作者: Lordaeron (Terry)   2016-11-27 16:25:00
@semihumanity,誰不得論文, 很清楚的.
作者: ztdxqa (ztdxqa)   2016-11-27 16:27:00
真正把AlphaGo推到職業頂尖的關鍵就是DRL
作者: Lordaeron (Terry)   2016-11-27 16:27:00
文中清楚的跟你講, 它是improving SL.但是在SL 的基礎上作的.中譯, 就是你沒有SL 作底, 你是什麼?
作者: Wush978 (拒看低質媒體)   2016-11-27 16:28:00
論文裡面的描述是學習有三階段, SL of policy network,RL of policy network, RL of value network我是不太喜歡爭論SL重要還是RL重要,因為這種行為本身就外行。但是說RL不重要,我是笑了
作者: semihumanity (沙漠之狐)   2016-11-27 16:29:00
算了算了~他活在自己的世界開心就好XD
作者: ztdxqa (ztdxqa)   2016-11-27 16:33:00
餵棋譜只是給AlphaGo一個common sense 這樣能到的棋力只有業餘高段 有點像是他的pretrained model接下來再靠自我對局去調整 事實上整篇paper講的都是RLpolicy跟value這兩個詞也是RL領域的術語 deep learning只是要把傳統RL generalize到實際問題的方法
作者: Lordaeron (Terry)   2016-11-27 17:28:00
@Wush978,這麼快, 就不玩了?@semihumanity,的確是活在自己的世界就好了, 連有過什麼論文都不知.而RL 是imporived SL, 當然RL比較常見.同樣是CNN的狀況, ALPHAGO就大輸fuego.這要算業餘高段?
作者: semihumanity (沙漠之狐)   2016-11-27 18:04:00
AlphaGO大輸fuefgo!XDDDD害我笑到打錯字XD
作者: sean51623 (千陽)   2016-11-27 18:16:00
這串看完 覺得大家好有耐心 不要理他不就好了嗎 何必呢
作者: Wush978 (拒看低質媒體)   2016-11-27 18:20:00
RL不是improved SL,這兩個東西不一樣
作者: TWN2 (.....)   2016-11-27 18:21:00
AlphaGO大輸FGO 以手遊來說
作者: Lordaeron (Terry)   2016-11-27 18:28:00
不看論文的穿了哦!
作者: aaaba (小強)   2016-11-27 18:38:00
第一次在go板看到透過曝露自己短處來獲得快感的人,總是會多看幾眼,久了就會開始無視了
作者: blacktom (泉)   2016-11-27 18:41:00
你們都是資訊專家嗎,好強喔,我啥都不懂
作者: Lordaeron (Terry)   2016-11-27 19:21:00
@aaaba,你不就是了, 當然Wush978+semihumanity三人組原來是不看論文的人,狂叫人家看論文.圍棋AI 哪幾支的論文都沒看過的人, 卻是內行人呢.
作者: Wush978 (拒看低質媒體)   2016-11-27 19:28:00
@blacktom,我是在相關領域工作多年了,只是看到有人發表一些錯誤概念,上來聊聊罷了要說服當事人我看是很難,但求錯誤的資訊別誤導人就好RL對於alpha go 是相當重要的,根據nature 上的Masteringthe game of Go with deep neural networks and tree search 中可以得知,Alpha go 的機器學習分成三階段:SL ofpolicy network, RL of policy network and RL of valuenetwork. 其中SL of policy network的部分,主要都是採用相關工作的方法,並沒有看到太多新的東西, Paper中主要cite了5篇之前關於圍棋AI的工作。RL of policy network的部分讓SL的結果從預測下一手的問題轉成贏棋>事實上,這篇paper自稱最大的改善是在policy 和 valuefunction 上,所以他們主要的貢獻在於導入Deep Learning相關方法來解決圍棋AI的問題。看下來,說RL對Alpha Go不重要的理由到底是什麼?明明內容中都在講RL比較多了,SL都是之前的工作不過Alpha GO說不定最主要的貢獻是發展在GPU上根據policyand value network做搜尋的算法,因為他們propose的做法計算量太大了,所以需要借助GPU等硬體工具做大大的加速
作者: Lordaeron (Terry)   2016-11-27 19:55:00
啊,不是說RL 跟SL 不同?我怎麼看到The second stage of the training pipeline aims atimproving the policy network by policy gradientreinforcement learning (RL)往下還有一小段. and 12% against a slightly weakerprogram Fuego前面還有一段The RL policy network p ρis identical in structure to the SLand its weights ρ are initialised to the samevalues.
作者: aaaba (小強)   2016-11-27 19:59:00
秀下限又開始了,論文看不懂先承認再求人教你
作者: Lordaeron (Terry)   2016-11-27 20:00:00
@aaaba, 快來教我吧.你的參數都在哪, 快拿出來.
作者: Wush978 (拒看低質媒體)   2016-11-27 20:02:00
不同啊,因為兩個方法看待資料的角度是不同。以這為例,RL的資料是自己產生資料,SL是觀察的資料一個是觀察的資料,一個是自我產生的資料SL的S在強調的是資料有提供答案,而RL則是要具備能產生資料的環境
作者: Lordaeron (Terry)   2016-11-27 20:11:00
繼續轉, 英文就在哪了. 謝謝.
作者: Wush978 (拒看低質媒體)   2016-11-27 20:11:00
以上是ML的一般知識,你想反駁請找定義不用拿一個應用的paper中的一句話來戰你那句話只代表這個問題剛好SL和RL都能解
作者: Lordaeron (Terry)   2016-11-27 20:13:00
英文就在哪了. 謝謝.
作者: Wush978 (拒看低質媒體)   2016-11-27 20:18:00
你不信就算了,其他網友別被誤導就好
作者: Lordaeron (Terry)   2016-11-27 20:36:00
我正在學當中, 不置可信, 我只學過pattern recognitionML這種高級貨, 我是不會懂的.致於誰在誤導別人, 就看誰整天叫人去看論文. 結果自己沒看的吧.
作者: blacktom (泉)   2016-11-27 20:42:00
怎麼都不發文?
作者: Lordaeron (Terry)   2016-11-27 20:44:00
這是圍棋版, 不是AI 版.但你可以請他教你alphago的論文.
作者: semihumanity (沙漠之狐)   2016-11-27 21:20:00
原來你是論文看不懂啊...也對啦!訓練方法和網路架構分不清楚,怎麼會懂說出RL=SL這種話,我也只能笑了Wush,那句話並不是說SL和RL都能解喔...
作者: Lordaeron (Terry)   2016-11-27 21:31:00
@semihumanity, 我是真的看不懂的, 英文就在哪, 等你來解釋嘛.不過, 你最好先實現一個alphago 出來, 比較有說服力.
作者: semihumanity (沙漠之狐)   2016-11-27 21:32:00
我前面說過了,我為什麼要免費教你?你以為知識是免費的?
作者: Lordaeron (Terry)   2016-11-27 21:33:00
哦, 哪就算囉. 你這麼懂alphago.
作者: semihumanity (沙漠之狐)   2016-11-27 21:33:00
我雖然沒做過AlphaGO,但也自己寫過RBM,CRBM,CNN
作者: Lordaeron (Terry)   2016-11-27 21:34:00
期待你的alphago 復刻版.加油1.
作者: semihumanity (沙漠之狐)   2016-11-27 21:42:00
我是沒Wush那麼好心,怕別人被誤導。想學的人再問我
作者: Lordaeron (Terry)   2016-11-27 21:43:00
真的,連論文都沒看的, 就會笑. 真的是不錯.
作者: aoeu   2016-11-28 02:26:00
The RL policy network p is identical in structure to theSL and its weights p are initialized to the same values.中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連結方式和每個連結的權重 (weights)。這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以前就有,但把兩者結合起來並發展出一套適合用在圍棋上的model 是相當有難度的,也是 AlphaGo 創新的地方。
作者: Wush978 (拒看低質媒體)   2016-11-28 03:30:00
@semihumanity 我只是指出,要拿該句話論證RL=SL的問題點[email protected]/RL在Paper中的角色。
作者: mom213 (mom213)   2016-11-28 03:35:00
L大一開始說得也沒錯 圍棋AI不像computer vision的問題例如釋出FASTER R-CNN的MODEL大家可以很輕鬆的基於這個模型去對影像偵測達到很不錯的表現阿法狗的RL太多眉眉角角在裡面 能訓練出一樣水平的模型不是那麼容易的 我也覺得起跑線那句話有點不妥但後來跟別人戰論文就有點不知所云......
作者: Wush978 (拒看低質媒體)   2016-11-28 03:41:00
我是覺得不離譜。這不代表重現paper簡單,但是當別人把做法的核心都放出來後,要達到接近的高度,已經比無中生有還要容易的多了。畢竟已經有前人走在前面,並且達到高度。像我自己在做研究時,多的是方法難做,也不清楚做出來是不是真的能夠比現有的好... 痛苦阿
作者: ztdxqa (ztdxqa)   2016-11-28 04:06:00
不知道以後alphago會不會opensourceXD
作者: aaaba (小強)   2016-11-28 09:42:00
wush大真的有說到相關研究人員的難處,調整模型的時候,哪怕是多知道一個參數的起始值該怎麼設,就足夠省下N倍的時間。當然一般研究生是無法靠論文重現alphaGo的,我原始推文是在說騰訊為何不需要劉知青,所以所謂起跑線,是對騰訊這種公司而言,請勿放大解釋,以為有論文就有alphaGo。扭曲他人言論這種不入流的事,在我多次澄清後,希望別再發生
作者: HeterCompute (異質運算)   2016-11-28 10:38:00
推大神們出來說明
作者: semihumanity (沙漠之狐)   2016-11-28 13:02:00
aoeu太佛心了吧…看不懂的人自以為懂就好了啊
作者: Lordaeron (Terry)   2016-11-28 15:49:00
@semihumanity,連棋AI 都沒做過的, 的確是看懂就好.
作者: ddavid (謊言接線生)   2016-11-28 15:51:00
我真的覺得不需要糾纏下去,當RL=SL時你還能說什麼呢
作者: Lordaeron (Terry)   2016-11-28 15:52:00
而SL train出來的東西, 並沒有保證準確,最終還是要有人來檢視, 訂正. 要是哪麼簡單, GNU GO 上的盤就夠多的了, GNU Go 借fuego 的論文train 一下不就好了.
作者: ztdxqa (ztdxqa)   2016-11-28 17:29:00
看到Lord大的文我也是醉了 居然會講到需要人來訂正 檢視
作者: semihumanity (沙漠之狐)   2016-11-28 17:34:00
他大概不知道DeepMind如何修正AlphaGO第四局的問題就我所知,Fuego不是用MCTS嗎?有用deep learning?還是他說的SL不是DL裡的SL?XD
作者: aaaba (小強)   2016-11-28 17:48:00
原來需要人檢視啊,這就是supervise 啊! 難怪我不懂以後遇到人一定得問上一句:你知道supervise嗎?
作者: AmibaGelos (Amiba Gelos)   2016-11-28 22:30:00
來朝聖sl=rl LOL
作者: jpg31415926 (圓週率π)   2016-11-29 02:39:00
這裡有一批便宜的稻草人 請打這支電話 ****-***-***
作者: Lordaeron (Terry)   2016-11-29 16:31:00
@semihumanity,你不知的東西,真的很多. 但你很會笑.@ztdxqa,不需要人來檢視,aja的程式必然早就最強了.還整天在搞哪些pattern幹嘛@aaaba,你扭曲aja講的話這種事, 還在推文中.@semihumanity, https://arxiv.org/abs/1412.3409好笑嗎?相關的討論在computer-go.org 上都有討論.
作者: ddavid (謊言接線生)   2016-11-29 17:33:00
最後結果人去檢視跟SL的Supervised是兩回事……XD
作者: Lordaeron (Terry)   2016-11-29 18:09:00
啊, 有人說是同一回事?但如果有人認為,照論文就可以產生一個一樣強的程式.就真的是想太多了.
作者: semihumanity (沙漠之狐)   2016-11-29 19:31:00
為什麼要一直逗我笑XD那篇論文有說Fuego有用deeplearning嗎?你找錯論文了,Fuego的論文不是這篇喔真的是第一次看到臉皮這麼厚的人,一直伸出來要人打
作者: Lordaeron (Terry)   2016-11-29 20:22:00
@semihumanity, 你又打算不自文就出來笑了?上回還笑不夠?
作者: semihumanity (沙漠之狐)   2016-11-29 22:11:00
我猜你是要說「不讀論文」,但目前為止都是你看不懂論文啊!「同樣是CNN的狀況, ALPHAGO就大輸fuego」XDD你到現在還不知道你這句話哪些地方錯了?你有看懂你找的那篇論文嗎?
作者: aaaba (小強)   2016-11-29 22:46:00
樓上太佛了,一直指導他,可是他比較需要的是開導
作者: kennyluck (Kenny)   2016-12-06 05:25:00
推 forb9823018 aoeu mom213 其他人的語言能力跟情商都很值得加強啊......

Links booklink

Contact Us: admin [ a t ] ucptt.com