[討論] 會用Hadoop == 具備大數據處理能力?

作者: deo2000 (800IM)   2016-07-06 13:34:29
最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力,
甚至會看研究所做的題目是不是Hadoop?
例如這篇
https://goo.gl/0cTk60
還有這篇
https://www.facebook.com/thank78/posts/630689647078714
但我對這種現象感到疑惑。
我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法,
以及相關應用(例如挖掘特定領域的資訊)。
Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義,
但我們都知道data無用,information才有用,
因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義,
而不是單純的資料管理。
更何況論文研究出來的知識,不應該綁定在特定工具。
或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。
但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。
或許因為我非資訊本科系、也不熟資料庫,
請問,是不是我對 Hadoop 或 Big Data 有什麼誤解?
為什麼 Big Data 的核心能力會是某種工具,而不是方法?
作者: dreamnook (亞龍)   2016-07-06 13:36:00
很多東西只是個口號或是個舊有技術的新標籤
作者: LaPass (LaPass)   2016-07-06 13:41:00
這就是學術跟實務的落差學術是告訴你理論,並認為你能靠理論去作實務。公司是,有某個目標在,你要能用那些工具去達成目標。
作者: king4647 (發呆)   2016-07-06 13:43:00
還有聽說Spark = 大數據的...
作者: LaPass (LaPass)   2016-07-06 13:44:00
拿mysql當雲端以及大數據的都有....
作者: femlro (母豬教謀神異端審問官1.5)   2016-07-06 13:49:00
因為你所說的工具正是因為針對某些特定用途而生成
作者: wt5566 (commend & comment)   2016-07-06 13:53:00
Hadoop不是過氣了現在很像都Spark
作者: exthrash (Wherever I may roam)   2016-07-06 13:59:00
你說的是modeling 建模型不一定要大數據很多應用的數據量其實不大 像生物統計一類
作者: Yshuan (倚絃)   2016-07-06 14:04:00
可能是產品作大數據 但現在只缺瑪農
作者: exthrash (Wherever I may roam)   2016-07-06 14:06:00
另一方面 有些職缺真的單純就找人負責處理大數據的工具但是model是別人在建
作者: sean2449 (肉鬆)   2016-07-06 14:08:00
應該說這是infra的基本...machine learning再怎麼強,跑個training要20天應該也很難做事
作者: exthrash (Wherever I may roam)   2016-07-06 14:12:00
應該說任何model用少量數據都可以train但不一定able to generalize
作者: dreamnook (亞龍)   2016-07-06 14:14:00
要回到之前的梗嗎XD 「沒有數據的大數據」XD
作者: Masakiad (Masaki)   2016-07-06 14:15:00
因為你要拿學術上的知識自己從頭刻會太久,hadoop通常指一整個生態系,包含儲存、分散運算的框架,不用從頭;另外像spark底下也有些ml演算法可以直接拿來用,所以實務上會希望要具備能力使用這些適合處理big data的工具,專心。但學術上的概念很重要,這樣才兜的出效果好的模型。
作者: exthrash (Wherever I may roam)   2016-07-06 14:15:00
我想說的是通常ML相關工作 = model+處理數據的tool小公司找的人可能身兼兩職 大公司找就比較專精其中一項
作者: puffs (泡芙好吃)   2016-07-06 14:41:00
因為他是 HR , 不是 RD 主管....
作者: ChrisMullin (上帝的左手)   2016-07-06 14:47:00
該人資主管有些文章論點令人發噱
作者: manaup   2016-07-06 14:53:00
那篇文... 只是在暗褒自己好厲害而已 別太當回事
作者: fgkor123 (n(N))   2016-07-06 14:53:00
上課用py+spark基本的幾個model用過 不精找工作沒路用
作者: manaup   2016-07-06 14:55:00
這時代 FB只是用來隱惡揚善的公關工具因為也沒有更值得一提的有價值事物了 只能拿小事做文章
作者: fgkor123 (n(N))   2016-07-06 14:57:00
而且蠻好笑的,課名有提到APP的。反而都教很淺
作者: popxpopxpop (爆爆爆)   2016-07-06 15:38:00
某單位的課程完全符合上面幾位說的
作者: andreli (小狗跟正妹是我的死穴)   2016-07-06 18:10:00
一個是 data engineering, 一個是 data science 吧
作者: sing10407 (阿U)   2016-07-06 20:35:00
要先解釋資料探勘和大數據的差別
作者: oread168 (大地的精靈R)   2016-07-06 21:39:00
真累
作者: coronach (...)   2016-07-07 09:45:00
首先你舉的例子是同一個人,那個人第一不是技術主管,第二待的又是板上不推的公司...HR主管或Head hunter知道大數據跟Hadoop已經是極限了,你不可能要求他們知道整個生態系的各種工具用途,也很難讓他們理解資料工程師跟資料科學家的差別推完發現上面都講了,補一句,不是美國外商的技術就不會有問題XD
作者: vaga (消遣用)   2016-07-09 01:21:00
簡單說公司想做這個但是不想花成本訓練(但是如果評估這人學習力快可能願意招募),所以告訴你我們用Hadoop 做bigdada,

Links booklink

Contact Us: admin [ a t ] ucptt.com