Re: [北美] 請問machine learning的工作內容

作者: scan33scan33 (亨利喵)   2014-09-19 13:41:02
工作完來回一下好了~
我不知道各種業界怎樣~我就說我待過的公司跟teams
先說背景,不才小時候愛玩ML比賽,正值ML還不太紅的200x年,
贏了一些獎,覺得自己很厲害~
後來去學校發了些paper,自我覺得超強。
就衝去hackathon然後試試看startup,結果很慘。
只好join Google休息一下,繼續作machine learning,
做了兩年,幫公司賺了不少錢可是paper都發不出來,來點坐領乾薪的魯蛇分享。
先講玩比賽的時候:
比賽的時候我都只會一招,就是把feature expand很大,
然後用liblinear跑一次。
基本上那時候我是相信,只要有一個好的feature engineering tool
人生就無敵了。
我當時就寫了個這個:
http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/
然後我就去念博班:
唸了博班發現,很多paper都亂寫,model超漂亮,跑出來超overfit。
用一個paper的model跑另一個paper的data很常就會GG。
最後發現最強的還都只有liblinear跟隨機森林。
於是我就生氣了,想說去hackathon或是開開startup
初出茅廬:
當時做了一些health data,然後show說自己可以predict acc多高,覺得超屌。
我就去跟別人present,可是別人都看不懂。
這時候才知道業界很多人重視的一件事情「可解釋性」。
你有一個好model,如果不能解釋哪個feature強,在很多領域是無用的。
(像health他們好像就很注重,病的causality關係之類的。
像你可以predict一個人會生病,不過他想要知道哪個feature讓他生病的。
這種東西很多時候是model很難去數理上含括的。)
在Google:
基本上我現在都還是一直在用liblinear。
我遇到的很多不是純粹learning for accuracy的問題。
很多時候像stability很重要(e.g. 當有missing features,你的model是不是
不會go crazy)
有時候生data很重要,data生不好,很容易target leak,不小心train出來accuracy就
100%,還以為自己要得Turing Award了。
有時候prediction速度很重要,如果query很多,要怎樣才能快速serve。
我覺得其實很多work都會越作越general,但是多數是從domain example開始作。
就像可能你今天作text classification很猛,可是你可能想要improve。
你第一件事情大概還是去看data,看看是不是哪些字常常會是noise,
還是sentence的parser不好。那就會從中改善,最後也會越作越general。
最後可能就會有很好得方法可以給你在很多問題上都有
10%的accuracy gain然後改變世界。
但是其實人生大部分的事情是不能generalized的,就像愛情(?)。
所以大部分的事情都只是pointwise fix,例如說:cross兩個feature。
通常這種pointwise fix,都只會給你1%的accuracy gain。
所以這時候我就要來亂引用了,有人說過
「1% gain是engineering,10% gain是research。 」
最後,公司還是要賺錢的,所以也很難一直給你時間想好玩得新演算法去try。
我現在的mode就是邊做engineering邊做research,
也期望有一天能發個ICML Best Paper,
但是大部分的時間其實都還是找個新feature然後重跑liblinear。
對了,liblinear真的很強。請愛用liblinear!
※ 引述《milc (milc)》之銘言:
: 大家好
: 不好意思想請問一下關於ML的工作內容,
: 我是在coursera上Andrew Ng的ML影片課程自學,
: 之前也僅用過Weka取些features來做一些文件分類工作,
: 之後找工作想做這一方面的, 但是不知道業界工作內容,
: 想請問一下各位先進,
: 一般工作是用既有的ML方法套用來解決我們所面對的問題?
: 還是大部分都要提出新的演算法了?
: 另外請問找ML工作前有沒有什麼要再加強與自學的建議?
: 謝謝大家(如果我提出的問題太過無知請原諒)
作者: kolen (kolen)   2014-09-19 13:50:00
Scan!
作者: frank11118 (想睡覺)   2014-09-19 14:22:00
作者: shiuhungjr (米蟲)   2014-09-19 16:16:00
這是很熟ML的強者才有辦法解釋的這麼有趣又好懂。
作者: johnny94 (32767)   2014-09-19 18:10:00
想請問做這個 數學底子要很深嗎?
作者: TianBonBon (田蹦蹦)   2014-09-19 18:40:00
推,后生可畏,江山代有才人出呀
作者: bbgg (逼逼居居)   2014-09-20 02:56:00
'只好join Google' 真是太牛了
作者: Armuro (再傳我一次=.=)   2014-09-20 05:03:00
作者: chenchenkuo (關鍵的這一年)   2014-09-20 09:04:00
強者
作者: jeremy89183 (蔗的平方)   2014-09-20 09:40:00
學長真的是對liblinear很有愛XDDD
作者: grtfor (哦啦啦)   2014-09-20 14:19:00
10年前用過libsvm ~ 推一個
作者: bkjbkj (Kame)   2014-09-20 14:24:00
推!

Links booklink

Contact Us: admin [ a t ] ucptt.com