Re: [請益] 機器學習在台灣的出路 f496328mm PTT批踢踢實業坊

Re: [請益] 機器學習在台灣的出路

作者: f496328mm (為什麼會流淚) 2017-08-29 00:36:16

前面有幾篇說，拉一拉就好，連阿罵都會用.....
這也太扯了，就像 excel 、 spss，也是拉一拉就好了，
那寫 R、Python 的是??? 寫 code 就是有他的強項阿
況且你還要連 SQL ，甚至從 hadoop 撈 data ，阿罵這麼強？？
就不講 data cleaning 了
確實目前工具很完善，隨便都能做分析，做的很爛而已，
沒做 feature engineering 的分析，頂多發碩論混畢業而已
feature engineering 絕對無法使用拖拉介面做出來，
以我做 Kaggle 上的庫存銷售預測、購物籃分析、生產線分析來說
feature engineering 完全不同，這需要一些經驗，
特別是，書上都不會教你這些，只能靠實作累積經驗
大家都用相同的 model，憑什麼比別人好? 在 Kaggle 上這點就很明顯，
你的 feature engineering 怎麼做才是重點，
甚至是做 n-fold 去確保模型穩定，你不是靠運氣選到好的 testing data
做 feature selection 找出關鍵變數，找出哪個製程影響最大、出問題，
再回去修正你的機台
用 ML 分析 data 也只是 data mining 的一小部分，
你要如何視覺化呈現？套件很多沒錯，那你要如何選擇？要如何解釋？
不是分析完就沒事了，
Kaggle 比較著重在分析，但事前的 data 收集、data cleaning 所花的時間，
是分析的兩三倍以上，原始 data 是非常髒的，
不同部門沒整合就不用說了，變數命名不同，日期格式不同等等，會弄到崩潰
最後，單就 Kaggle 來說，依然有非常多企業丟出 data，丟出問題要你解決，
特別是目前 ML model 還在進化中，
最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等，
同樣問題，過去無法商業化，因為模型改進，未來有可能達到商業化的程度
比較可惜的是，台灣真正在做的很少，學校就不用講了，一堆騙計畫的，
不少研究生也說自己做過 ML ，用 SVM ，卻連 Kernel 都不知道，
遇到 missing value 怎麼處理?
特別是學校碰到的 data 都只是玩玩罷了，data 小就算了，
有些做二元分類連 imbalance 也不懂
另外國外這方面的職缺還是不少
在 kaggle 提供相關徵才中，就有超過 20 家公司需要這方面的人才
https://www.kaggle.com/jobs
如果你只會拉一拉，調調參數，那不叫做資料科學

作者: celestialgod (å¤©) 2017-08-29 00:38:00

正名一下是eature engineering.../f

作者: Murasaki0110 (麥當勞歡樂送) 2017-08-29 00:41:00

一個學過小畫家就說幹嘛學photoshop的概念

作者: vu04y94 (今) 2017-08-29 01:18:00

為何討論的方向偏向data mining了?

作者: lukelove (午睡) 2017-08-29 01:20:00

@@ 一直搞不清楚DM 跟 ML 的分界, 板上比kaggle 的人這摸多, 想必如outrunner master等級的人也很多

作者: vu04y94 (今) 2017-08-29 01:25:00

我的意思是還有CV NLP之類的尤其台灣作多媒體的公司不少啊

作者: popo14777 (草草) 2017-08-29 01:45:00

好像真正如大大所說的，都在騙計畫..很多碩論都有SVM

作者: hsnuyi (羊咩咩~) 2017-08-29 02:17:00

原PO你是數學出生的吧很多CS的都沒你清楚啊XDD講個笑話為了跟上潮流政府計畫名稱每幾年就要改個一次一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧XX XDDD

作者: del680202 (HANA) 2017-08-29 07:27:00

外國外這方面的職缺還是不少 << 標題在問台灣來著

作者: angusyu (〒△〒) 2017-08-29 09:05:00

結論就是台灣沒適合的職缺

作者: ken90242 (大人) 2017-08-29 09:52:00

這幾篇弄的我好亂

作者: senjor (哞哞) 2017-08-29 09:57:00

我同意，我不認同的只是前幾篇有人提到不會寫自己的工具，只會拿別人工具來應用在案例上的人沒出路，這其實不太合理

作者: ckp4131025 (ckp4131025) 2017-08-29 10:02:00

以後可能會分工成，model廠商和應用廠商吧，我覺得會類似eda,ide那種感覺

作者: exthrash (Wherever I may roam) 2017-08-29 11:02:00

這篇才是真正在業界的人會po的心得很多學生以為打打Kaggle 就跟實際工作差不多真正工作上data cleaning/preprocessing佔了超多時間另外懂數學會讓你調參數事半功倍

作者: jason91818 (jason) 2017-08-29 11:10:00

推

作者: Telemio (Telemio) 2017-08-29 12:25:00

推真材實料心得

作者: lukelove (午睡) 2017-08-29 12:31:00

祝福大大早日 master

作者: gogogogo3333 (gogogogo33333) 2017-08-29 12:32:00

陳天奇那種等級的已經超出一般人境界了...

作者: lukelove (午睡) 2017-08-29 12:35:00

看看陳天奇的論文數學推論成份也很高

作者: say29217074 (:))))) 2017-08-29 12:48:00

同意做過svm不知道KEREL那段qq

作者: stosto (樹多) 2017-08-29 17:55:00

做SVM不知道kernel?另外使用很多演算法都要自己創model出來那才是真的演算法核心

作者: searcher ( ) 2017-08-29 19:58:00

用autoML調參數呢?連用哪個演算法也不用選了

作者: chocopie (好吃的巧克力派 :)) 2017-08-29 20:43:00

我是看過很多報期末專案，SVM或RF之類的跑一跑，數據列一個小表格，好，結束。然後一學期的愉快課程又結束了XD摸完後回去繼續做自己的前端/後端

作者: searcher ( ) 2017-08-29 21:06:00

用競賽的角度來說當然是比誰最厲害但不是所有的情況都是這樣

作者: angusyu (〒△〒) 2017-08-29 22:33:00

我只想說，這世界有太多人瞧不起工具應用

作者: howhowyang (好好癢) 2017-08-30 02:21:00

真的！碩班做計畫收來的資料真的很髒，preprocessing超花時間，不過跟大大接觸過的資料比起來應該也只是小兒科

作者: senjor (哞哞) 2017-08-30 09:58:00

大家寫的程式語言也不是自己開發的，這樣程式怎麼寫的好(X

作者: lspci (awk sed echo) 2017-08-31 03:06:00

現在一堆腦殘會算平均標準差就自詡資料科學家了

作者: ppc ( ) 2017-09-02 18:37:00

這篇寫得很好ㄟ剛碰Kaggle 真的覺得feature engineering很重要請問有推薦的課程可以看嗎我是打算先看Johns Hopkins的Data Science感謝稍微喵一下感覺這課程好像不怎樣@@

繼續閱讀

[請益] 動畫業 Pipeline TDz5612365 轉[徵才] 趨勢科技徵軟體測試工程師dadaray Re: [請益] 機器學習在台灣的出路NUKnigel [請益] 前進國際-顧問SearchNow Re: [請益] 機器學習在台灣的出路langrisser19 Re: [請益] 機器學習在台灣的出路del680202 [請益] 先工作還是先準備作品？nereuseng [請益] VS2015 express chtdinroyal Re: [請益] 機器學習在台灣的出路popo14777 [徵才] 雲發科技 Frontend Engineer 60~90/YrDeDanann