[請益] Web跟資料工程

作者: lin3835 (小小母牛)   2023-04-10 04:36:31
各位好
小弟目前的工作是後端Web仔寫寫API
後來業務上有接觸到mapreduce Apache Flink 這種大數據運算框架
想請教一下各位前輩
如果為了下一份工作打算
會用這些框架 是有辦法往資料工程師當下一份工作嗎?
或者是說需要補足的知識工具其實更多?
靠刷題之後找Backend Engineer比較容易?
謝謝各位
作者: ripple0129 (perry tsai)   2023-04-10 06:13:00
Chatgpt問世後未來說不準了
作者: kimoji (好舒服)   2023-04-10 08:35:00
很多資料工程都要值班維運喔
作者: gpctv (gpctv)   2023-04-10 08:55:00
ETL很可怕
作者: BigCockman (大雕男)   2023-04-10 09:49:00
身兼backend和data 老闆最愛
作者: hsuchengmath (AlbertHSU)   2023-04-10 12:24:00
要轉data eng ,看他的JD啊,或是去linkedin敲dataeng 然後問
作者: acgotaku (otaku)   2023-04-10 12:46:00
這些都是高級excel 只是工具 沒啥優勢或門檻AI 取代這種工具類的操作/分析者 是可預見的未來
作者: samhsu (sam)   2023-04-10 12:56:00
Data Engineer 炙手可熱,就算沒落也可以轉後端,沒道理不選
作者: alan5 (小安)   2023-04-10 13:00:00
你可以試著取代看看啊 de的重點一直是人不是工具操作
作者: acgotaku (otaku)   2023-04-10 13:09:00
我沒有說取代de 是取代初級的分析操作者因為我認為原po敘述 離 de的能力需求還是差滿多
作者: loadingN (sarsaparilla)   2023-04-10 13:39:00
看你想清資料還是繼續當web仔
作者: DrTech (竹科管理處網軍研發人員)   2023-04-10 13:39:00
身為專業工程師,有時間可以拿實際證據與實作來說明吧。如果DE可以被AI部分取代,真的歡迎拿實際例子來交流學習。資料工程師養成,要實務一點,不要會一堆工具,然後什麼都沒做過。舉例:有10億筆結構化資料,你要怎麼存與查詢,一秒可以查到? 朝這種很實務的角度去學,才是正軌。沒環境就自己造垃圾資料,架虛擬環境來玩。只是用過工具,然後一遇到實際問題就掛,可能很難找類似工作。
作者: Hsins (翔)   2023-04-10 14:36:00
DE 在處理的主要業務不是分析操作,樓上 DrTech 說的才是 DE 在關心的,需要根據業務需求規劃資料生命周期內的資料儲存方式跟型態,說是高級 Excel 工具是在哈囉……
作者: abc65379 (silent)   2023-04-10 15:00:00
看起來你想走運算平台而不是倉儲?
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2023-04-10 16:00:00
原來現在DE只是專注工具的使用?那被AI取代剛剛好
作者: cmcer (lazyman)   2023-04-10 16:22:00
大家都預設AI不能解決實務的問題也是挺值得討論的點
作者: alan5 (小安)   2023-04-10 17:15:00
解決老闆不想用rdb想用mongo存結構化資料的問題ai應該會叫我解決老闆
作者: breccia (布蕾莎)   2023-04-10 17:30:00
說mapreduce Apache Flink是高級excel是在搞笑嗎= =?先搞清楚資料分析和data engineer的區別好嗎
作者: TAKADO (朕沒給的你不能搶)   2023-04-10 19:45:00
好的DE跟日本原裝壓縮機一樣十分稀少,要對domain 的深入理解跟大量的技術與經驗積累。遇過那種高手就知道,本來只能等都更炸掉重改的中古垃圾屋,都能給你翻成漂漂亮亮的北歐風溫馨文青宅。
作者: kero961240 (阿哲)   2023-04-10 20:47:00
想詢問哪裡可以學到相關知識
作者: Hsins (翔)   2023-04-10 22:58:00
倉儲是資料工程喔,經典著作 The Data Warehouse Toolkit有時間可以慢慢翻一下。會說是高級 Excel 工具應該是指看到MapReduce 的部分,但這種操作並不是只能用在分析上……至於待遇跟薪水問題,去看 DrTech 寫過的某篇文吧,國家跟產業的權重會比職稱和使用的技術要高,你說資料工程跟後端來比誰高,不提產業也無從比較起…框架的大方向未必是處理效率問題,有的是處理擴展性問題Hadoop 生態系沒有偏向資料分析呀~ 至於 Flink 是是為了處理一些需要實時計算的資料的,當大量資料實時產生的同時需要分析計算會用到,要看一下你現在的業務到底接觸的是哪一越接近用戶端使用的部分,相較是比較簡單的,上面 D 大提到的,是偏向於提供資料使用人員(DS/DA)去做的 infra多數 DE 會在串接跟維護 Data Pipeline,你說的套用某個規則去整理出某人或是某個部門的資料,可能只是這條 pipeline上,某一個資料出水口需要做的事~ 要挖的東西是滿多的,有興趣可以從這個方向開始切進來~的確在有些公司 DE 除了基礎服務設施和資料處理之外,還要
作者: luce   2023-04-10 23:38:00
現在有人在用mapreduce? 我還真的沒在商業產品上看到過
作者: Hsins (翔)   2023-04-10 23:38:00
包山包海去處理分析和視覺化…
作者: alihue (wanda wanda)   2023-04-10 23:42:00
公司資料量夠大都要靠 map reduce 來做分散式處理吧…幾億筆資料的 indexing 難到你要一台機器做還有大量 log 的 data pipeline,use case 很多
作者: Hsins (翔)   2023-04-10 23:54:00
還有不少用 Hive 的,背後做還是 MapReduce,現在的確 Spark 跟 Flink 居多
作者: alan5 (小安)   2023-04-11 12:17:00
只是比較沒有純寫mapreduce 框架背後還是mr啊de會去服務使用flink分析的user de就要了解flink
作者: ab07275566   2023-04-12 09:44:00
DE 是個坑,每家DE 要的技能點可能都有點些許不同,進來會發現包山包海,什麼能力都要,可以多看看,再看要不要走 DE
作者: weinine32 (隨意)   2023-04-12 10:00:00
mapreduce早被淘汰了,居然還有人在用Zzzz
作者: daydream772 (皮老闆)   2023-04-12 14:54:00
分散式運算被後概念就是mr啊,還是你以為跑spark就不是MR
作者: weinine32 (隨意)   2023-04-12 18:18:00
那你應該先學Java,順便把原始碼、論文看一看,加油 Zzzz

Links booklink

Contact Us: admin [ a t ] ucptt.com