前面有幾篇說,拉一拉就好,連阿罵都會用.....
這也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那寫 R、Python 的是??? 寫 code 就是有他的強項阿
況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強??
就不講 data cleaning 了
確實目前工具很完善,隨便都能做分析,做的很爛而已,
沒做 feature engineering 的分析,頂多發碩論混畢業而已
feature engineering 絕對無法使用拖拉介面做出來,
以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說
feature engineering 完全不同,這需要一些經驗,
特別是,書上都不會教你這些,只能靠實作累積經驗
大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯,
你的 feature engineering 怎麼做才是重點,
甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data
做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題,
再回去修正你的機台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋?
不是分析完就沒事了,
Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間,
是分析的兩三倍以上,原始 data 是非常髒的,
不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰
最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決,
特別是目前 ML model 還在進化中,
最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等,
同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度
比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的,
不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道,
遇到 missing value 怎麼處理?
特別是學校碰到的 data 都只是玩玩罷了,data 小就算了,
有些做二元分類連 imbalance 也不懂
另外國外這方面的職缺還是不少
在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才
https://www.kaggle.com/jobs
如果你只會拉一拉,調調參數,那不叫做資料科學