Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 staristic PTT批踢踢實業坊

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

作者: staristic (ANSI lover) 2017-11-11 10:22:34

原文恕刪
我相信原po是真心很認真的想討論
也很歡這討論的風氣
但是，原po的問題卻得到一個幾乎大家圍攻的結果
我來舉個例子說明為什麼大家會覺得原po在鑽牛角尖好了
今天我們把問題換成排序
假設有一群剛發明電腦的工程師，現在在建構最初的演算法
他們試圖解決排書櫃的問題
於是他們先試著模仿人類的排書的方法，比方說排「4, 5, 6, 1, 3, 2」
的時候，人類會把 4,5,6 一起處理 (回憶一下人是怎麼處理書架上的書的)
於是他們弄出了一套演算法，但是效能不怎樣
對應圍棋AI的例子，傳統的Zen，CrazyStone 就是這樣的算法
然後突然有一個天材，發現了 Bubble Sort
一個電腦按自己的方式排，又借鏡了一部份人類排序的經驗(一直把小的往前丟)的算法
相當於 AlphaGo 出現了
最後，另一群天材把這個演算法優化成 Quick Sort
一個人類在現實中排書絕對不可能用到的演算法
相當於 AlphaGo Zero (小朋友學棋再怎樣也不會教他從亂丟開始，對吧？)
發了篇論文說明他們整個演算法共同的地方只有一段「交換位子」的函式
其它都不一樣
換成 AlphaGo ，就是告訴你，我都是用機器學習作方法，但是其它都不一樣
然後原po現在的質疑在一般人的眼中看起來像是：
Quick Sort還是用到了人類排序書櫃的經驗！
當然大家會覺得莫名
有人會有 Quick Sort 來排書架嗎？
大概是這樣

作者: jackcselab (monk) 2017-11-11 10:29:00

我覺的是他一開始舉了一個錯誤的例子(棋局停止)，突顯他不了解圍棋規則，導致後續討論就充滿了火藥味了進而讓他的原意失焦了

作者: HeterCompute (異質運算) 2017-11-11 10:54:00

風向就是從那個棋子不能自殺的時候被帶起的QQ

作者: tetratio (徹拉修) 2017-11-11 11:49:00

我真的有用quick sort排過一大堆亂掉的書...不過大概不影響你的舉例啦

作者: HeterCompute (異質運算) 2017-11-11 12:08:00

人類可以學sort，但是不能學神經網路，有種來把神經網路背起來啊

作者: ztdxqa (ztdxqa) 2017-11-11 12:12:00

XD 這舉例好傳神耶但原po還是不懂quicksort阿

作者: HeterCompute (異質運算) 2017-11-11 12:17:00

t大都說數學統計出身會learning，說他不會QS會不會太侮辱人

作者: s891234 (嘟嚕咑) 2017-11-11 12:58:00

人類用Quick Sort幹嘛啦XDDD只會比較煩而已

作者: ForeverOrz (Lumis eterne) 2017-11-11 14:04:00

譬喻不錯但原po懷疑是有理也沒錯

作者: hannocps (拍劭) 2017-11-11 14:11:00

quicksort是啥…是否可以解釋一下

作者: HanaYukii (ShioRin) 2017-11-11 14:32:00

隨機取中點小丟左大丟右遞迴到每區剩一個

作者: jpg31415926 (圓週率π) 2017-11-11 16:36:00

人類比較偏向insert或select不過不影響你的舉例XD

作者: oldTim (TIME WILL TELL) 2017-11-11 17:33:00

推，好比煉金術士和化學家的關係，化學家有參考煉金術士的實驗結果，用完全不同的一套理論體系去篩選、解釋最終產生新的一套科學事實，裡面雖有部分認定煉金術士經驗也符合科學事實，但這顯然跟認同煉金術士的經驗是兩回事

作者: tlchen (台灣加油) 2017-11-11 18:46:00

板主舉的例子,從 Bubble Sort 變成 Quick Sort, 是屬於我說的模型不同. 而不是 master 與 Zero 的最大差別在參數優化參數優化, Zero 不同於 master, 沒用到人類棋譜,這沒爭議但在模型上, 並沒有太大的改變我要質疑的是, 這模型是否用到人類圍棋知識

作者: capita (小明) 2017-11-11 18:51:00

模型差別很大啊

作者: Uizmp (黑袍法師) 2017-11-11 18:53:00

我可不可以問一下tl一直要追究這個問題的原因是甚麼?

作者: oldTim (TIME WILL TELL) 2017-11-11 19:07:00

Zero只用一個policy network這樣模型的差別還不夠明顯嗎?

作者: HeterCompute (異質運算) 2017-11-11 21:05:00

master哪有跟zero模型天差地遠差rollout和一開始是監督學習而已，神經網路一樣你搞錯了吧，master就已經合併了

作者: birdy590 (Birdy) 2017-11-11 21:54:00

其實主要差別只有訓練吃的棋譜不一樣

作者: CGary (下雨天也挺浪漫的) 2017-11-12 00:35:00

一樣的他們只是選用了不同參數給了不同資源因為他們想試試看Master的模型能不能通用但是我覺得實作的內部可能還是差很多因為如果事情只是rollout跟開始的監督部分就不會需要請aja把有內建圍棋知識的code拿掉了想必那邊有很多細微的優化是他們沒講（也不開源，所以應該就是不會講了）

作者: staristic (ANSI lover) 2017-11-12 00:46:00

意思是這部份反正他不開源，只能相信Deepmind的宣佈再吵也沒意義，對吧？

作者: HeterCompute (異質運算) 2017-11-12 00:48:00

就算他是先射箭再畫靶，你也沒辦法啊XD

作者: CGary (下雨天也挺浪漫的) 2017-11-12 01:28:00

這個其實有個方法就是別人照著DM的paper實作做不出來攻擊他們, 但目前沒有太多公司有這麼強的運算資源做這種驗證...

作者: birdy590 (Birdy) 2017-11-12 01:36:00

大概只有騰訊出的起願不願意花就難講了google自己搞TPU就先省一大筆

作者: aegis43210 (宇宙) 2017-11-12 03:58:00

光訓練一個20block res-net，沒百張1080ti就免談...

作者: OverInfinity (超越無限) 2017-11-12 23:40:00

master的時候還是有兩個網路啦 zero才只有一個

作者: sunev (Veritas) 2017-11-13 00:22:00

樓上可參考HeterCompute的筆記：[情報] 黃博士今日演講內容

作者: OverInfinity (超越無限) 2017-11-13 01:35:00

感謝，確實論文也是這樣寫的沒錯

作者: staristic (ANSI lover) 2017-11-13 01:51:00

我發現搞錯的不止我一個，稍微得到一點安慰XD

作者: OverInfinity (超越無限) 2017-11-13 01:55:00

XDD

作者: elfkiller (沒有暱稱) 2017-11-16 02:01:00

其實我不懂質疑論文標題有甚麼意義......當然是可以質疑拉...... 頂多就是用字不精確罷了給人家的感覺就是好像網路筆戰抓錯字一樣......

繼續閱讀

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程tlchen [心得] 三個你不該買zen7的理由HeterCompute [新聞] 柯潔：未來屬於AI 我將在金融和教育做探索qweewqq [新聞] 圍甲聯賽啟用“新規則” 隊員首次上交手機qweewqq [情報] Leela 0.11.0 & Leela Zerolockcole [情報] 黃博士今日演講內容HeterCompute [討論] 如果有機會問黃士傑博士問題cabon Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程capita Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程jamesho8743 [新聞] 柯潔:只要觀眾願意，會繼續和人工智慧對奕qweewqq