同為物理PhD,分享自己的經驗給你參考
1. 程式語言
Python或R。這兩種并不互斥,我們team不少人兩種都會。個人覺得重點在:
1. 平行計算(concurrent/multi-threading/processing):根據問題是CPU-bound還是I
/O-bound來選擇處理方式
2. iterator/generator:像用deep learning train model時需要的資料都很大,不太
可能全部load到記憶體,以及做data generator讓一筆raw data產生多筆訓練資料時都會
需要用到generator
3. profiling tools:要先知道程式的bottleneck在哪才有辦法優化
Python 我推薦Micha Gorelick跟Ian Ozsvald寫的High performance python這本書
2. 資料庫
SQL跟NoSQL基本上都會用到
3. 統計
重中之重。除了不同的machine learning方法,怎麼處理空值、極端值、unbalanced dat
a、抽樣、假設檢定都很重要。特別是假設檢定,身為data scientist,不管在哪個產業
,基本上都需要回答「根據現有的資料,哪種情況是最可能的」這種類型的問題。
個人推薦 Garett James, Daniela Witten, Trevor Hastie, Robert Tibshirani 寫的 A
n introduction to statistical learning with R 這本書
4. 資料結構跟演算法:要有效率的處理軟體工程方面的問題,這方面的知識很重要。
我推薦Coursera上面Princeton的Robert Sedgewick跟Kevin Wayne開的Algorithms I & I
I。這門課的精華在programming assignment。每個assignment基本上都會有50-70個test
cases來測試時間跟空間複雜度,還有一些corner cases。不同的情況都要考慮到才能拿
到滿分。語言是用Java,但就算沒學過應該也不是問題,我那時也是邊學邊寫。題目通常
要你做一個module,裡面需要好幾個functions 但他只會給你interface,內容都要自己
寫。不像吳恩達的machine learning跟deep learning,很多內容都給了,只要把關鍵的
部份補上。我上了不少online courses,這門課是唯一我認為有難度的。但相對的,通過
的話軟工能力可以提升一個層次。
順便提一下面試的事。我不知道其他公司會怎樣準備跟進行,我們會看面試者的博論跟著
作,這都是網路上找的到的資料。我們會問面試者在工作或研究上使用過的工具,例如你
來,那可能會請你解釋一下基因演算法跟Monte Carlo method,為什麼選擇這個方法?它
的優點跟缺點?有考慮過其他的方法例如X或Y嗎?諸如此類的問題。我們會對面試者當時
做選擇背後的思考過程有興趣,藉此了解他工作或研究的廣度跟深度。
不確定自己有沒有面試過50個人,但30個一定有。結果幾乎都是entry level(可能是敝
司太爛強者不想來面)。有些人對自己使用工具背後的原理、假設、限制都不清楚,單純
call套件下指令。而大部份人選擇工具或方法的原因是「因爲老師/學長說的」。這並不
能怪他們而是我們的文化就是如此,但很難不令人感到絕望。找個mindsets ok的entry l
evel進來自己訓練比較實際。想轉data scientist的人不少,但很多都只是想想,真的有
付出行動的不多。往好處想,在台灣你不用付出太多努力就可以贏過不少人。
另一方面,我也去面過十幾間公司,不少是想成立資料分析的部門(那些單純跟風,沒算
過成本跟效益的就不提了)。所以面試我的人其實并沒有能力評估我究竟適任與否,這也
同樣令人絕望。
最後,講一下資料科學家的工作
1. 資料的清理跟準備
Garbage in garbage out 這可不是說假的。舉凡補空值、trimming、處理unbalanced da
taset、de-noise、normalise、feature selection and generation都在這部份。就我自
己的經驗,這部分對最終結果的影響是最大的,花費的時間也是最多的。
2. Background research。要唸很多papers,將有機會解決手中問題的方法盡可能找出來
3. 設計實驗,包括抽樣範圍跟方法,實驗怎麼進行,結果怎麼評估
4. 結果的解釋跟呈現(資料視覺化)
但在成為資料科學家之前,你必須先是位工程師
作者:
PHEj (Vino)
2018-05-18 00:05:00推講得很中肯
作者:
errard (I love GMAT)
2018-05-18 00:09:00推個
作者:
eggy1018 (羅密æ與豬éŽå¤œ)
2018-05-18 00:33:00謝謝提點!
作者: cry004 (巷口) 2018-05-18 01:27:00
推 好清晰
作者:
lovepork (我愛豬肉不愛牛肉)
2018-05-18 01:33:00感謝大師分享!
作者:
bowin (盡其在我)
2018-05-18 04:13:00推分享!
作者:
shiauji (消極)
2018-05-18 05:45:00強
作者: crow1270 (鴉) 2018-05-18 08:42:00
推
作者: kekking 2018-05-18 09:00:00
推
作者:
bcew (bcew)
2018-05-18 09:41:00推分享
作者:
pig0038 (顆顆)
2018-05-18 09:50:00推
作者:
gmoz ( This can't do that. )
2018-05-18 09:54:00NICE
作者:
ian90911 (xopowo)
2018-05-18 09:57:00推分享
作者:
b160160 (HG Life is Foo~~~)
2018-05-18 10:26:00推
大部份人選擇工具或方法的原因是「因爲老師/學長說的」這點真的很中肯
作者: qazedcrfv (512) 2018-05-18 10:53:00
中肯,推!
作者: yuchio (yuchio) 2018-05-18 10:57:00
推
作者: Fen9ze 2018-05-18 11:19:00
推
作者:
Yukirin (いい天気!)
2018-05-18 11:21:00心有戚戚焉
作者:
yamakazi (大安吳彥祖)
2018-05-18 12:13:00看來要當資料科學家也是不容易很多物理系的覺得轉職資料科學家不是太困難 但真的轉成功也沒那麼容易
作者:
Sunal (SSSSSSSSSSSSSSSSSSSSSSS)
2018-05-18 14:21:00或許覺得比拿物理PhD簡單吧...
作者: az75225 2018-05-18 17:43:00
謝謝分享
作者:
abc53 (abc)
2018-05-18 17:47:00推
作者: adsl54010 (haha) 2018-05-18 19:12:00
謝謝分享
作者: orcahmlee 2018-05-18 23:39:00
謝分享!
作者:
wxtn (不一樣的聲音)
2018-05-19 21:28:00推推推
作者:
jojojen (JJJ)
2018-05-20 10:32:00推
作者:
Arctica (欲聆聽,必先靜默)
2018-05-20 14:58:00感謝分享
作者:
ntddt (滅頂,降公投罷免門檻)
2018-05-21 22:19:00大推
作者:
lovepork (我愛豬肉不愛牛肉)
2018-05-23 12:22:00請教一下,資料科學家必須先從資料工程師當起嗎?我近期有去跟資策會的課程經理談過,他說他的課程只能培訓出資料工程師,但我看那個課程已經是非常硬的了一到五 0900~1700 密集上五個月才能結業!所以假設我去上完資策會的資料工程師培訓,還要補足統計所的一些課程,才有資格去應付資料科學家所賦予的挑戰?superalf大 能否點建議? 感謝!