大數據如果簡單的講就是描述資料量非常的大,
這種大是無法在一台電腦儲存或處理的,記憶體也許會爆掉。
通常要設計平行化的處理架構,
或是用一些框架來處理,像是熟知的Hadoop、Spark。
當然也不一定是資料量大,
而是有時候產生的複雜度過高,也可能嘗試用此方式處理。
像是有些問題產生O(N^2)的計算空間,
就可以把計算空間分給不同電腦。(例如相似度計算問題)
然而所有問題的核心,都是要回歸到基本的演算法。
也就是資料量比較小的情況,
單機版是怎麼做的,然後多機板又可能會是那樣做。
(像是一台電腦怎麼做KNN群集計算,多台電腦又是怎麼做KNN群集計算?)
因此熟知每一種資料分析常見演算法是非常重要的。
雖然套件提供的算法可以直接馬上用,
但是熟悉算法,對於優化算法有很大的重要性。
甚至是可以不用這些現成的套件,直接寫自己量身訂造的演算法,
這樣效率更高。
並且,幾乎所有的時間,都是資料前處理問題,
把資料整理需要的格式,放到演算法的程式套件去計算,
實際真正的處理時間通常都是非常快的。
因此你的程式能力的基本功,就會變得非常的重要。
當你程式的基本功(資料結構、OOP......)越能掌握得越好,
你處理資料分析的專案速度也就會越快,
(像是如何從檔案或資料庫把資料讀出來,
如何使每筆資料占用的記憶體最小..諸如此類的)
也就是你能把各類資料玩弄於股掌之間。
並且Hadoop、Spark、R的相關說明,
只要有受過相關程式訓練的,並且熟悉資料分析的算法的,都是非常好理解的。
你學的只是知道如何去用和呼叫。
然而,很多公司的資料,並沒有達到BigData的層級,
大部分一台電腦就可以處理,
其實很多老闆認為的Big Data = 單機資料分析。
因此只要把基本的程式能力學好,
並且去了解基本的算法,我想會是當務之急。
比你花十萬去學還更有價值。
PS:
本身研究所主修為Big Data,
目前為資料分析師,有興趣可以來信討論。
※ 引述《s00771book (320)》之銘言:
: 想問問前輩們
: 目前小妹的工作只是個
: 用BI cognos 拉資料做數據分析的助理
: 再用Excel樞紐分析 寫寫函數
: 做報告給主管看的工作
: 薪水少之又少 也不算是一技之長
: 根本不足以與大數據相提並論
: 目前嚮往大數據工作的方向
: (也是很有未來的工作 大陸已經很成熟了)
: 查看了104人力銀行
: 大數據分析工作需要的條件:
: MS SQL 資料探勘 R語言 Hedoop
: 所以我去巨匠諮詢了一下
: 課程規劃師說要學 MCSA MCSE
: 再考微軟證照70-461.462.463.464.465
: 才算是完全學會這套軟體
: 和證明給面試官看
: 但是學費竟然快要十萬
: 想請問有在做這方面工作的朋友們
: 真的值得花這筆錢嗎?
: P.S.我只是個國立科大 企管+金融的學士而已
: 沒有漂亮的學歷 只能學一技之長補足自己
: 也不是資工 資管的科系的
: 希望前輩們能給我建議 謝謝你們>////<