※ 引述《soaping (撿肥皂ing)》之銘言:
: 小魯是文組啦
: 現在看到一堆人在吹捧人工智慧阿 機器學習阿
: 只是覺得很好奇為啥一堆非本科系 沒寫過code的人也可以出來吹捧?
: 看內容比較像是他們自己的想像
: 根本就是把威爾史密斯的機械公敵拿出來說嘴
: 就像是現在一堆人拿excel說他們在做big data一樣
: 現實中有在做這領域的專家or研究生真的覺得這東西很猛嗎?
: 有看人家寫說 到現在model跑的過程中發生甚麼事情無法得知
: 會跑甚麼東西出來也不知道 就像是創造了一個自己也不了解的東西
: 版上神人極多
: 有比較貼近真實的研究現況嗎?
不是這樣,「機器學習」就是一個「以前技術換上新引擎」,很久以前就有了
會說出「不曉得機器在幹嘛,無法得知」只是一個噱頭用語,讓自己作得東西好像很厲害
機器學習的目的,用簡單的形容就是「找到一組有史以來最棒的參數」
找到的方法,很簡單,非常大量的嘗試和錯誤(數十萬GPU小時以上)
所以正確講法不是「不曉得機器在幹嘛」,而是「不曉得這組參數好在哪」
因為參數的數目太多層,每一層又太多個參數
舉例來說,想像一個網球選手,每揮一次拍,在這不到兩秒的動作中
動作被切割成「千微毫秒」,每「千微毫秒」都分配一百個體育專家去研究
各自研究好後,上百萬組的體育專家,把結果統整起來成原來的兩秒,在揮一次拍
如果沒比較好,沒關係在重來一次,我們的資源足夠為了一次揮拍進行上兆次「嘗試」
經過好幾天,上百上千張的GPU運算後,終於產出的有史以來最好一組「揮拍參數」
要這麼多參數的原因很簡單,因為要達到「有史以來最好」的這個目的
把參數的數目一直提高,例如很簡單的一個「找到黑色物體」這個動作
不需要任何科學性的「假設驗證」,手法只是很粗糙的提高層數和數目
你就有可能就可以獲得顯著的進步,一個很甜的糖果,所以有能力負擔硬體資源的大公司
這領域讓他門不用累死人的研究,就能做出超越以往「傳統方法」的科學
這陣子國外的學術界就在呼籲,是否要把硬體資源「公開化」
因為現在提出「又找到新的試參數玩法」的論文,有很多都是來自大公司的「數十萬GPU小時論文」
這讓傳統學術圈或是學校,沒有這種硬體資源去作到
歸功於GPU的平行運算框架的普及(例如CUDA),這個以前乏人問津的舊技術
現在利用「天文次數的嘗試和錯誤」正在延伸到各個領域「解決問題,並作到有史以來最好」
例如:醫學,電腦視覺,自動駕駛,文本,翻譯,法律,行為預測,氣候預測...等等