Re: [請益] 機器學習在台灣的出路

作者: f496328mm (為什麼會流淚)   2017-08-29 00:36:16
前面有幾篇說,拉一拉就好,連阿罵都會用.....
這也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那寫 R、Python 的是??? 寫 code 就是有他的強項阿
況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強??
就不講 data cleaning 了
確實目前工具很完善,隨便都能做分析,做的很爛而已,
沒做 feature engineering 的分析,頂多發碩論混畢業而已
feature engineering 絕對無法使用拖拉介面做出來,
以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說
feature engineering 完全不同,這需要一些經驗,
特別是,書上都不會教你這些,只能靠實作累積經驗
大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯,
你的 feature engineering 怎麼做才是重點,
甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data
做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題,
再回去修正你的機台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋?
不是分析完就沒事了,
Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間,
是分析的兩三倍以上,原始 data 是非常髒的,
不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰
最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決,
特別是目前 ML model 還在進化中,
最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等,
同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度
比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的,
不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道,
遇到 missing value 怎麼處理?
特別是學校碰到的 data 都只是玩玩罷了,data 小就算了,
有些做二元分類連 imbalance 也不懂
另外國外這方面的職缺還是不少
在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才
https://www.kaggle.com/jobs
如果你只會拉一拉,調調參數,那不叫做資料科學
作者: celestialgod (天)   2017-08-29 00:38:00
正名一下 是eature engineering.../f
作者: Murasaki0110 (麥當勞歡樂送)   2017-08-29 00:41:00
一個學過小畫家就說幹嘛學photoshop的概念
作者: vu04y94 (今)   2017-08-29 01:18:00
為何討論的方向偏向data mining了?
作者: lukelove (午睡)   2017-08-29 01:20:00
@@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人這摸多, 想必如outrunner master等級的人也很多
作者: vu04y94 (今)   2017-08-29 01:25:00
我的意思是還有CV NLP之類的 尤其台灣作多媒體的公司不少啊
作者: popo14777 (草草)   2017-08-29 01:45:00
好像真正如大大所說的,都在騙計畫..很多碩論都有SVM
作者: hsnuyi (羊咩咩~)   2017-08-29 02:17:00
原PO你是數學出生的吧 很多CS的都沒你清楚啊XDD講個笑話 為了跟上潮流 政府計畫名稱每幾年就要改個一次一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧XX XDDD
作者: del680202 (HANA)   2017-08-29 07:27:00
外國外這方面的職缺還是不少 << 標題在問台灣來著
作者: angusyu (〒△〒)   2017-08-29 09:05:00
結論就是台灣沒適合的職缺
作者: ken90242 (大人)   2017-08-29 09:52:00
這幾篇弄的我好亂
作者: senjor (哞哞)   2017-08-29 09:57:00
我同意,我不認同的只是前幾篇有人提到不會寫自己的工具,只會拿別人工具來應用在案例上的人沒出路,這其實不太合理
作者: ckp4131025 (ckp4131025)   2017-08-29 10:02:00
以後可能會分工成,model廠商和應用廠商吧,我覺得會類似eda,ide那種感覺
作者: exthrash (Wherever I may roam)   2017-08-29 11:02:00
這篇才是真正在業界的人會po的心得很多學生以為打打Kaggle 就跟實際工作差不多真正工作上data cleaning/preprocessing佔了超多時間另外 懂數學 會讓你調參數事半功倍
作者: jason91818 (jason)   2017-08-29 11:10:00
作者: Telemio (Telemio)   2017-08-29 12:25:00
推 真材實料心得
作者: lukelove (午睡)   2017-08-29 12:31:00
祝福大大早日 master
作者: gogogogo3333 (gogogogo33333)   2017-08-29 12:32:00
陳天奇 那種等級的 已經超出一般人境界了...
作者: lukelove (午睡)   2017-08-29 12:35:00
看看陳天奇的論文 數學推論成份也很高
作者: say29217074 (:)))))   2017-08-29 12:48:00
同意做過svm不知道KEREL那段qq
作者: stosto (樹多)   2017-08-29 17:55:00
做SVM不知道kernel?另外使用很多演算法都要自己創model出來那才是真的演算法核心
作者: searcher ( )   2017-08-29 19:58:00
用autoML調參數呢?連用哪個演算法也不用選了
作者: chocopie (好吃的巧克力派 :))   2017-08-29 20:43:00
我是看過很多報期末專案,SVM或RF之類的跑一跑,數據列一個小表格,好,結束。然後一學期的愉快課程又結束了XD摸完後回去繼續做自己的前端/後端
作者: searcher ( )   2017-08-29 21:06:00
用競賽的角度來說當然是比誰最厲害但不是所有的情況都是這樣
作者: angusyu (〒△〒)   2017-08-29 22:33:00
我只想說,這世界有太多人瞧不起工具應用
作者: howhowyang (好好癢)   2017-08-30 02:21:00
真的!碩班做計畫收來的資料真的很髒,preprocessing超花時間,不過跟大大接觸過的資料比起來應該也只是小兒科
作者: senjor (哞哞)   2017-08-30 09:58:00
大家寫的程式語言也不是自己開發的,這樣程式怎麼寫的好(X
作者: lspci (awk sed echo)   2017-08-31 03:06:00
現在一堆腦殘會算平均標準差就自詡資料科學家了
作者: ppc ( )   2017-09-02 18:37:00
這篇寫得很好ㄟ剛碰Kaggle 真的覺得feature engineering很重要 請問有推薦的課程可以看嗎 我是打算先看Johns Hopkins的Data Science感謝稍微喵一下感覺這課程好像不怎樣@@

Links booklink

Contact Us: admin [ a t ] ucptt.com