Re: [請益] Big data(ML)與Robotics領域在台灣的發展

作者: dryman (dryman)   2014-05-26 01:37:20
現在台灣許多人對big data的認知似乎把big data跟data science混在一起了
連張善政都說要用big data來當作教育方針參考...
如果你的資料真的是big data等級
那從原始data到真的能進行分析,有一段非常長的距離
如果你的資料不需要處理就能進行分析,那他的量絕對沒有到big data那麼大
我現在在一家線上廣告公司 (不是google)工作
工作剛好就是hadoop platform engineer
這家公司每日進來的raw data有好幾TB
我們這組的主要工作就是除去重複的資料
將相關的event放在一起(ad impression / ad click)
產生可以向客戶收費的報表,封存等等
封存後的資料,才有data scientist去試著撈資料作研究
通常撈的只能是很小一塊的資料,因為量真的太大了...
在傳統的database engineering中,就是所謂的ETL (Extract Transform Load)
* * *
我想表達的是,big data engineer != data science
儘管我自己也有學一些ML相關的課,但在big data上面目前無暇用到
同理,想做data science不需要是 big data
要考慮的是,data science從研究到能推出產品的週期很長
要看公司願不願意投資長線研發這類型的產品
我覺得這才是在台灣覓職所需要考慮的主要因素
* * *
最後想吐槽一點小事情
包含美國,很多data scientist都想學hadoop
但這真的不必要
因為他們最後都是在select ... from table;
連sum/count都沒有用
都是把資料用select拿出來後再自己用python去count
這樣能處理的資料是能有多大= ="
作者: damody (天亮damody)   2014-05-26 02:00:00
請問是台灣的公司嗎?看上一篇文 看來不是
作者: pttnews (PTT新聞)   2014-05-26 10:03:00
sum/count 是因為DB已經很累了,就別再操他了
作者: dryman (dryman)   2014-05-26 11:07:00
我是指從Hadoop中拿資料。map reduce最擅長的就是sum/count
作者: gmoz ( This can't do that. )   2014-05-26 12:55:00
用hive,pig或impala拿出來又用自己程式算的意思@@?
作者: MOONY135 (談無慾)   2014-05-26 15:39:00
台灣目前的感覺就是想跟風...
作者: saladim (殺拉頂)   2014-05-26 18:01:00
dry大隱版了 好可惜 我都在裡面挖文章學習 xdd
作者: dryman (dryman)   2014-05-26 21:15:00
@gmoz 我看到很多人這樣做不過回頭想想可能是prototype演算法階段也只能這樣做吧
作者: ckaha (★閃亮數學推理★)   2014-05-26 22:52:00
還好拉, 還是有在做sum count group by case when而且大部分簡單的貝式就能推出很多有用的資訊囉~
作者: DrTech (竹科管理處網軍研發人員)   2014-05-27 20:59:00
台灣有自己的一套,不信去104搜尋hadoop吧

Links booklink

Contact Us: admin [ a t ] ucptt.com