前面有幾篇說,拉一拉就好,連阿罵都會用.....
這也太扯了,就像 excel 、 spss,也是拉一拉就好了,
那寫 R、Python 的是??? 寫 code 就是有他的強項阿
況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強??
就不講 data cleaning 了
確實目前工具很完善,隨便都能做分析,做的很爛而已,
沒做 feature engineering 的分析,頂多發碩論混畢業而已
feature engineering 絕對無法使用拖拉介面做出來,
以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說
feature engineering 完全不同,這需要一些經驗,
特別是,書上都不會教你這些,只能靠實作累積經驗
大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯,
你的 feature engineering 怎麼做才是重點,
甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data
做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題,
再回去修正你的機台
用 ML 分析 data 也只是 data mining 的一小部分,
你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋?
不是分析完就沒事了,
Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間,
是分析的兩三倍以上,原始 data 是非常髒的,
不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰
最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決,
特別是目前 ML model 還在進化中,
最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等,
同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度
比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的,
不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道,
遇到 missing value 怎麼處理?
特別是學校碰到的 data 都只是玩玩罷了,data 小就算了,
有些做二元分類連 imbalance 也不懂
另外國外這方面的職缺還是不少
在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才
https://www.kaggle.com/jobs
如果你只會拉一拉,調調參數,那不叫做資料科學
正名一下 是eature engineering.../f
作者:
vu04y94 (今)
2017-08-29 01:18:00為何討論的方向偏向data mining了?
@@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人這摸多, 想必如outrunner master等級的人也很多
作者:
vu04y94 (今)
2017-08-29 01:25:00我的意思是還有CV NLP之類的 尤其台灣作多媒體的公司不少啊
好像真正如大大所說的,都在騙計畫..很多碩論都有SVM
作者: hsnuyi (羊咩咩~) 2017-08-29 02:17:00
原PO你是數學出生的吧 很多CS的都沒你清楚啊XDD講個笑話 為了跟上潮流 政府計畫名稱每幾年就要改個一次一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧XX XDDD
外國外這方面的職缺還是不少 << 標題在問台灣來著
作者:
angusyu (〒△〒)
2017-08-29 09:05:00結論就是台灣沒適合的職缺
作者:
senjor (哞哞)
2017-08-29 09:57:00我同意,我不認同的只是前幾篇有人提到不會寫自己的工具,只會拿別人工具來應用在案例上的人沒出路,這其實不太合理
以後可能會分工成,model廠商和應用廠商吧,我覺得會類似eda,ide那種感覺
作者:
exthrash (Wherever I may roam)
2017-08-29 11:02:00這篇才是真正在業界的人會po的心得很多學生以為打打Kaggle 就跟實際工作差不多真正工作上data cleaning/preprocessing佔了超多時間另外 懂數學 會讓你調參數事半功倍
作者:
Telemio (Telemio)
2017-08-29 12:25:00推 真材實料心得
作者: gogogogo3333 (gogogogo33333) 2017-08-29 12:32:00
陳天奇 那種等級的 已經超出一般人境界了...
作者:
stosto (樹多)
2017-08-29 17:55:00做SVM不知道kernel?另外使用很多演算法都要自己創model出來那才是真的演算法核心
作者:
chocopie (好吃的巧克力派 :))
2017-08-29 20:43:00我是看過很多報期末專案,SVM或RF之類的跑一跑,數據列一個小表格,好,結束。然後一學期的愉快課程又結束了XD摸完後回去繼續做自己的前端/後端
用競賽的角度來說當然是比誰最厲害但不是所有的情況都是這樣
作者:
angusyu (〒△〒)
2017-08-29 22:33:00我只想說,這世界有太多人瞧不起工具應用
作者: howhowyang (好好癢) 2017-08-30 02:21:00
真的!碩班做計畫收來的資料真的很髒,preprocessing超花時間,不過跟大大接觸過的資料比起來應該也只是小兒科
作者:
senjor (哞哞)
2017-08-30 09:58:00大家寫的程式語言也不是自己開發的,這樣程式怎麼寫的好(X
作者:
lspci (awk sed echo)
2017-08-31 03:06:00現在一堆腦殘會算平均標準差就自詡資料科學家了
作者:
ppc ( )
2017-09-02 18:37:00這篇寫得很好ㄟ剛碰Kaggle 真的覺得feature engineering很重要 請問有推薦的課程可以看嗎 我是打算先看Johns Hopkins的Data Science感謝稍微喵一下感覺這課程好像不怎樣@@