Re: [討論] 會用Hadoop == 具備大數據處理能力? pelicanper PTT批踢踢實業坊

Re: [討論] 會用Hadoop == 具備大數據處理能力?

作者: pelicanper (派立肯) 2016-07-06 20:17:44

小弟在國外銀行做BI,剛好最近導入Hadoop剛做完PoV
Big Data的部分先放在後面,先來談談為什麼要用Hadoop
最主要的原因還是在銀行有太多不同的系統和資料來源,甚至有的老到幾十年都有
加上我們銀行上面又有別的國家的母銀行,十幾年前就發展了一套 Global Data Warehouse
這種GDW顧名思義就是管你來源是甚麼最後都進到一個統一的資料庫
然後下面再根據需求做ETL等等工作,為了資安和效率,GDW下面還有很多不同的資料庫
然後presenatation level再根據不同的需求去用這些資料
這樣行之有年也沒甚麼問題,但是慢慢這幾年就出現瓶頸
最簡單的例子就是ETL中的storage table因為太龐大,許多像是歷史交易資料如果
join其他table就常常跑到超過一個小時,還有其他許多需求就不再贅述
另外一個瓶頸就是即時性,GDW的架構讓下游資料庫只能用到前一天的資料
因為所以外部系統都要在營業日結束後才匯集資料,
所以最近我們就準備在未來幾年慢慢把GDW這種架構淘汰,慢慢轉換成Hadoop
搭配Informatica當作data quality 和 ETL 工具, presenation layer的最後通通
通過API取在Hadoop中被Informatica處理好的資料
Big Data直覺上就是資料龐大,不過複雜資料來源,時間性和輸出的效率都是其特性
至於用甚麼Analytics tool去分析我反而覺得那已經是Big data很末端的事情
Hadoop也不是傳統資料庫的替代品,我們目前也只評估20%現行的程序可以被取代
然後慢慢地提升也許到50%,同時間改善現行Sql Server的效能和空間問題
這樣各發揮各的優點,小弟最近做了一套程序,把銀行十幾年上百萬Excel檔案
根據不同的類別掃描變成JSON格式然後進Hadoop,好處就是不需要依賴任何資料庫
新的資料只需要一直append在檔案尾端,只要換一個schema就可以在Hive裡面有新的view
Informatica做任何ETL也不會用到任何多餘空間當staging table,結果直接寫回hive
別的部門可以直接用像是SAS VA看到最新的資料
你說會Hadoop重不重要,我會說重要,我們通常稱這種role是 big data engineer
尤其在銀行這種注重架構,流程,正確性,效率的環境必須要仰賴這種人來確保
整個機器運轉的順暢,某種程度像是傳統 DBA 和 System Administrator的綜合
至少在我們銀行些用ML只要我們BI生的出資料,他們其實不太管前面怎麼搞
大概是這樣,理性討論勿戰 :)
※ 引述《deo2000 (800IM)》之銘言：
: 最近看到一些公司在找人，把會用Hadoop認定是有大數據處理能力，
: 甚至會看研究所做的題目是不是Hadoop？
: 例如這篇
: https://goo.gl/0cTk60
: 還有這篇
: https://www.facebook.com/thank78/posts/630689647078714
: 但我對這種現象感到疑惑。
: 我認知的處理Big Data核心能力，是一些資料探勘、機器學習相關的演算法，
: 以及相關應用（例如挖掘特定領域的資訊）。
: Hadoop是一個分散檔案系統的軟體工具，或許符合"Big Data"字面上的意義，
: 但我們都知道data無用，information才有用，
: 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義，
: 而不是單純的資料管理。
: 更何況論文研究出來的知識，不應該綁定在特定工具。
: 或許研究者本人只熟悉Hadoop或某種套裝軟體，這難免的。
: 但研究貢獻、他人欲重現研究過程等，都不應該綁死在特定軟體工具上。
: 或許因為我非資訊本科系、也不熟資料庫，
: 請問，是不是我對 Hadoop 或 Big Data 有什麼誤解？
: 為什麼 Big Data 的核心能力會是某種工具，而不是方法？

作者: neo5277 (I am an agent of chaos) 2016-07-06 20:33:00

推，我最近也遇到這種問題，流程中人為變數太多，很難haccp，想改成像是你這類型架構。

作者: expiate (夜露死苦) 2016-07-06 21:08:00

你比上一篇的推文懂多了，別太謙虛

作者: Vitaceae (Vit) 2016-07-06 21:27:00

好帖我頂

作者: dreamnook (亞龍) 2016-07-06 21:49:00

經過n個人跟我口頭BigData後你是目前唯一ㄧ個使用範例解釋的人= =

作者: dryman (dryman) 2016-07-06 22:13:00

建議使用avro而不是json，json解譯很慢

作者: yotsuba1022 (Carl) 2016-07-06 22:29:00

謝謝分享~

作者: james732 (好人超) 2016-07-06 22:48:00

強者

作者: allan80625 (兒兒) 2016-07-06 22:52:00

好奇,分散式的儲存還有其他的,為什麼會挑hadoop?

作者: CRPKT (crpkt) 2016-07-06 22:53:00

台灣比較怕的是連 BI 都沒有就要做 big data

作者: SuM0m0 (Part Time Player) 2016-07-06 23:29:00

因為選了Informatica的關係 ... 嗎

作者: sonicnaru (披者狼皮的羊) 2016-07-07 01:06:00

pov是?

作者: alice78226 (紫) 2016-07-07 08:55:00

c大突破盲點

作者: coronach (...) 2016-07-07 09:51:00

推

作者: gmoz ( This can't do that. ) 2016-07-07 13:22:00

好久沒看到派大了還有在打鼓嗎因為開源/免錢/資源還是HADOOP大宗吧

作者: bocard (亞特陰影) 2016-07-08 16:36:00

應該是POC? Proof of Concept~

繼續閱讀

Re: [請益] 請問我還欠缺了什麼? G4321 Re: [請益] 請問我還欠缺了什麼? wax207 [徵才] iStaging誠徵R&D工程師shayuron Re: [請益] 研究所VS作品walao81 Re: [請益] 請問我還欠缺了什麼? Dovelpc Re: [請益] 請問我還欠缺了什麼? skyyen999 [徵才] 數據科技徵才前端工程師roninn [討論] 會用Hadoop == 具備大數據處理能力?deo2000 Re: [請益] 請問我還欠缺了什麼? clairewind [請益] 碩0研究生一些疑問phil576