現在台灣許多人對big data的認知似乎把big data跟data science混在一起了
連張善政都說要用big data來當作教育方針參考...
如果你的資料真的是big data等級
那從原始data到真的能進行分析,有一段非常長的距離
如果你的資料不需要處理就能進行分析,那他的量絕對沒有到big data那麼大
我現在在一家線上廣告公司 (不是google)工作
工作剛好就是hadoop platform engineer
這家公司每日進來的raw data有好幾TB
我們這組的主要工作就是除去重複的資料
將相關的event放在一起(ad impression / ad click)
產生可以向客戶收費的報表,封存等等
封存後的資料,才有data scientist去試著撈資料作研究
通常撈的只能是很小一塊的資料,因為量真的太大了...
在傳統的database engineering中,就是所謂的ETL (Extract Transform Load)
* * *
我想表達的是,big data engineer != data science
儘管我自己也有學一些ML相關的課,但在big data上面目前無暇用到
同理,想做data science不需要是 big data
要考慮的是,data science從研究到能推出產品的週期很長
要看公司願不願意投資長線研發這類型的產品
我覺得這才是在台灣覓職所需要考慮的主要因素
* * *
最後想吐槽一點小事情
包含美國,很多data scientist都想學hadoop
但這真的不必要
因為他們最後都是在select ... from table;
連sum/count都沒有用
都是把資料用select拿出來後再自己用python去count
這樣能處理的資料是能有多大= ="