Re: [工具] Hadoop 業界應用

作者: qrtt1 (有些事,有時候。。。)   2014-07-04 11:23:18
※ 引述《dryman (dryman)》之銘言:
: 自我在美國開始開發 hadoop 相關程式已經一年多
: 最近開始想把一些所學整理並回饋給台灣的版眾
: 鑑於我當data engineer的時間並沒有很長,如果有缺漏的還請高手指點
: 先簡介一下我現在待的公司 OpenX
: 我們是一家線上廣告公司,每天平均流量有TB等級
: production data cluster 有三百台機器
: storage data cluster 也有兩百五十台機器
: 目前我負責開發並維護production data cluster,以及擔任release engineer
: 不過我還很資淺,也只有接觸到整個hadoop生態系當中的一小部分而已就是了
: 一般提到 Hadoop 時,都是指整套環繞著HDFS, Hadoop map reduce API相關的生態系
: 諸如高階語言pig, hive, NoSQL 如 hbase, log batch processing 的 flume 等
: 現在有些人還會將storm, kafka, spark等近親也包含進去
: 一開始接觸時,免不了會覺得眼花繚亂
: 在實務上,基本上上面一個技術就需要一個人來維護
: 如果你的team沒有很大,那請慎選自己的stack
: 這些技術擅長的面向都不同
[...]
感謝 dryman 的解說,讓我們還沒有學習 hadoop 技術生態的人
能建立一些背景知識。
剛好上個月有參加一個小型的 hadoop 部署比賽,有寫了二篇參賽分享:
門外漢的 Hadoop 部署大賽(上)
http://goo.gl/KYygWp
門外漢的 Hadoop 部署大賽(下)
http://goo.gl/Mby70r
會參加的原因主要是被推坑(因為一個人太宅又太閒,時間太多)
本來是想 hadoop 這麼複雜,官文的文件實在是看不太懂,
還真怕去拖累別人。不過,這是個 deploy & tuning 為主的賽程
加上看看參賽說明與計分方式
http://ehc.etusolution.com/index.php/tw/#AGENDA
可以看出,其實這比較不像比賽,而是透過比賽指引來降低學習門檻
有明確說,要怎麼做才是建議的,依著「目標」練習過的程
還有隊友的討論,不知不覺漸漸對於 hadoop 有哪些 component 有概念
什麼 process 是什麼功能,也會慢慢有 sense。
有興趣的朋友,也許可以試著這樣的方式開始認識 hadoop
至於多數的書上,大多是由 hadoop common api 教起的,
完全沒有自己架過,會有點腳踩不到地的感覺(不踏實)
試著動手做做,先「體驗」一下外貌,再來寫程式也許會比較有感覺。
寫程式的門檻又是另一件事,那就是 hadoop 子專案真多,
如同前輩介紹的,看得眼都花了,但核心仍得學一下 map reduce 怎麼寫
官文多以 maven 為主的,我推薦另一個起手式,以 gradle 為主
https://www.facebook.com/groups/hadoop.tw/permalink/532218333554213/
https://github.com/popcornylu/hadoop-wordcount
這些簡單的入門練習都能成功跑起來後,
就能試著進入不同的環境,像是在自己架的 cluster 上跑
或是使用 aws emr 或 azure hdinsight 環境。
畢竟台灣多數還是小公司,要自己養 cluster 有點難度。
目前以我有限的知識只能先分享到這裡,
後續有再進一步學習,再繼續分享^^
作者: popcorny (畢業了..@@")   2014-07-04 11:31:00
推!! 媽我在這 XD

Links booklink

Contact Us: admin [ a t ] ucptt.com