Re: [北美] 請問machine learning的工作內容 scan33scan33 PTT批踢踢實業坊

Re: [北美] 請問machine learning的工作內容

作者: scan33scan33 (亨利喵) 2014-09-19 13:41:02

工作完來回一下好了～
我不知道各種業界怎樣～我就說我待過的公司跟teams
先說背景，不才小時候愛玩ML比賽，正值ML還不太紅的200x年，
贏了一些獎，覺得自己很厲害～
後來去學校發了些paper，自我覺得超強。
就衝去hackathon然後試試看startup，結果很慘。
只好join Google休息一下，繼續作machine learning，
做了兩年，幫公司賺了不少錢可是paper都發不出來，來點坐領乾薪的魯蛇分享。
先講玩比賽的時候：
比賽的時候我都只會一招，就是把feature expand很大，
然後用liblinear跑一次。
基本上那時候我是相信，只要有一個好的feature engineering tool
人生就無敵了。
我當時就寫了個這個：
http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/
然後我就去念博班：
唸了博班發現，很多paper都亂寫，model超漂亮，跑出來超overfit。
用一個paper的model跑另一個paper的data很常就會GG。
最後發現最強的還都只有liblinear跟隨機森林。
於是我就生氣了，想說去hackathon或是開開startup
初出茅廬：
當時做了一些health data，然後show說自己可以predict acc多高，覺得超屌。
我就去跟別人present，可是別人都看不懂。
這時候才知道業界很多人重視的一件事情「可解釋性」。
你有一個好model，如果不能解釋哪個feature強，在很多領域是無用的。
（像health他們好像就很注重，病的causality關係之類的。
像你可以predict一個人會生病，不過他想要知道哪個feature讓他生病的。
這種東西很多時候是model很難去數理上含括的。）
在Google：
基本上我現在都還是一直在用liblinear。
我遇到的很多不是純粹learning for accuracy的問題。
很多時候像stability很重要(e.g. 當有missing features，你的model是不是
不會go crazy)
有時候生data很重要，data生不好，很容易target leak，不小心train出來accuracy就
100%，還以為自己要得Turing Award了。
有時候prediction速度很重要，如果query很多，要怎樣才能快速serve。
我覺得其實很多work都會越作越general，但是多數是從domain example開始作。
就像可能你今天作text classification很猛，可是你可能想要improve。
你第一件事情大概還是去看data，看看是不是哪些字常常會是noise，
還是sentence的parser不好。那就會從中改善，最後也會越作越general。
最後可能就會有很好得方法可以給你在很多問題上都有
10%的accuracy gain然後改變世界。
但是其實人生大部分的事情是不能generalized的，就像愛情(?)。
所以大部分的事情都只是pointwise fix，例如說：cross兩個feature。
通常這種pointwise fix，都只會給你1%的accuracy gain。
所以這時候我就要來亂引用了，有人說過
「1% gain是engineering，10% gain是research。」
最後，公司還是要賺錢的，所以也很難一直給你時間想好玩得新演算法去try。
我現在的mode就是邊做engineering邊做research，
也期望有一天能發個ICML Best Paper，
但是大部分的時間其實都還是找個新feature然後重跑liblinear。
對了，liblinear真的很強。請愛用liblinear！
※ 引述《milc (milc)》之銘言：
: 大家好
: 不好意思想請問一下關於ML的工作內容,
: 我是在coursera上Andrew Ng的ML影片課程自學,
: 之前也僅用過Weka取些features來做一些文件分類工作,
: 之後找工作想做這一方面的, 但是不知道業界工作內容,
: 想請問一下各位先進,
: 一般工作是用既有的ML方法套用來解決我們所面對的問題?
: 還是大部分都要提出新的演算法了?
: 另外請問找ML工作前有沒有什麼要再加強與自學的建議?
: 謝謝大家(如果我提出的問題太過無知請原諒)

作者: kolen (kolen) 2014-09-19 13:50:00

Scan!

作者: frank11118 (想睡覺) 2014-09-19 14:22:00

推

作者: shiuhungjr (米蟲) 2014-09-19 16:16:00

這是很熟ML的強者才有辦法解釋的這麼有趣又好懂。

作者: johnny94 (32767) 2014-09-19 18:10:00

想請問做這個數學底子要很深嗎?

作者: TianBonBon (田蹦蹦) 2014-09-19 18:40:00

推,后生可畏,江山代有才人出呀

作者: bbgg (逼逼居居) 2014-09-20 02:56:00

'只好join Google' 真是太牛了

作者: Armuro (再傳我一次=.=) 2014-09-20 05:03:00

推

作者: chenchenkuo (關鍵的這一年) 2014-09-20 09:04:00

強者

作者: jeremy89183 (蔗的平方) 2014-09-20 09:40:00

學長真的是對liblinear很有愛XDDD

作者: grtfor (哦啦啦) 2014-09-20 14:19:00

10年前用過libsvm ~ 推一個

作者: bkjbkj (Kame) 2014-09-20 14:24:00

推!

繼續閱讀

[免費] 美國企業工作機會,豐富您的履歷!studydiy [北美] 請問machine learning的工作內容milc Re: [北美] 軟體工程師應該去美國工作嗎?SILee [徵才] Wal-Mart IT Rotational Programa020977 [北美] 遲報美國稅幾問roypower428 Re: [北美] 軟體工程師應該去美國工作嗎?AmosYang Re: [北美] 軟體工程師應該去美國工作嗎?starysky Re: [北美] 軟體工程師應該去美國工作嗎?AmosYang Re: [北美] 綠卡海外資產是否課稅Freak1033 Re: [北美] 綠卡撤籍稅Freak1033