※ 引述《robin112 (Robin)》之銘言:
: 小弟四中統計研究所應屆畢業,
: 論文內容主要討論logitudinal data的clustering,
: 會想踏入這個領域主要還是因為發現自己對於資料分析還是樂在其中XD
: 基本統計工具都還算可以(regression,GLM,multivariate analysis),
: 求學階段也有使用過這些工具分析過一些小的raw data。
: 主要的語言工具為R(loop,array,function etc.)
: 可以將大部份知道邏輯或步驟的統計方法寫出來,
: C++有摸過但不熟悉,目前正在跟著codecademy學Python,
: 目的是想作一些蜘蛛抓data下來,再進行後續分析來玩。
: 這一個多月在網路上投了不少Data Mining相關的履歷,
: 有的職缺感覺條件蠻相符的卻像石沉大海一般,
: 有些說可以培訓或接受新鮮人也沒有回應,
: 或是覺得我有潛力但還是不符要求。
: 看著身邊不少同學都已經找到好工作了自己也開始緊張,
: 爬文也了解自己的弱勢在於如何從資料庫中抓data(ex:SQL),
: 以及現在流行的Hadoop及MapReduce等big data的技術,
: 但我疑惑的是,對業界而言是否不會這些技術就無法踏入?
: 因此想來請各位給我一點建議,謝謝!
最近我注意到相關職缺的公司有:
廣告分析: Vpon、Appier
電信業: 遠傳、台灣大哥大
電子業: 台達電、中強光電、和碩聯合
財團法人: III、ITRI
資訊服務: Trend、HTC
其他: 藍科數位、新蛋
有些是要找有經驗的人,有些是可接受新鮮人。工作機會應該是不少。
我看了您的敘述,感覺您最缺乏的就是一完整解決方案的描述,
例如: 一個商業需求出現後,資料擷取你都怎做,如何淨化資料,因為該需求
如何選擇分析方式,分析方式你怎麼依據特定行業做調整,產生結果如何呈顯,
如何驗證資料...等等的完整描述。
若你有相關經驗,應該於履歷把這整個Solution簡短的寫出來。
不要斷斷續續地說你會什麼工具或分析方法而已。
我想你碩士論文應該都有做,只怕你沒有表現出來。
再來是工具部分,找工作時,請大膽的說你會 C++/Python,
若真的被考倒,盡力表達所知即可,不用怕考太差。
程式語言都可以工作時邊做邊學的。
最後,建議您先專注於能獨立完成一個解決方案的技術,先不要管資料量大小。
例如你的解決方案需要SQL就去學,你的解決方案缺Python 就去學。
你的解決方案缺 Machine Learning的方法論就去學。
但先暫時不要管什麼 Hadoop 與 Big Data。
對你現在的狀況而言玩 Big Data的技術 C/P值太低了。
例如,MapReduce對我來說一直都是C/P值很低工具(雖然我用他解決了一些問題)
但 MapReduce 只是一個我處理資料時,批次分析的工具"之一",
可能某些專案用RDBMS來做就好,某些專案用NoSQL做就好。
另外現在國外大廠(例如:Hortonworks、Cloudera、MapR),都很邪惡。
為了自己的利益不斷炒作新工具。例如一開始炒 MapReduce、Mahout
炒到沒利益就開始炒各種 Interative query、searching、
最近又為了利益不斷的說 MapReduce 有多爛。
用各種方式,想把已經很成熟,沒利益空間的企業資料分析生態系統大賺一筆。
其實當初 MapReduce 剛出來時,猛炒傳統分析方式該淘汰了,就有學者跳出來說,
這種批次處理方式,大量存取I/O的方式不就是在資料庫技術還沒出來時的方式嗎?
分散式系統也是1990年就有的東西嗎?
怎麼在炒作這種倒退了20年技術的東西?
結果大家沸沸揚揚的吸金了幾年後,果然MapReduce就逐漸被邊緣化了。
至於新的替代技術,目前看起來也是商業炒作居多,
誰知道現在的商業炒作(例如:Spark),會不會主宰未來發展呢,
所以我對一般人的建議還是,多累積資料分析的專案經驗,即使資料量少也沒關係。
即使分析的結果不如預期也沒關係,這都可以持續更新到履歷表。
反而是Big Data,不是現在您該學習的重點。