資料來源: www.jackie-datascience.com
這張圖是來源自我的一篇文章:大數據時代商業模式, 表示一位資料科學家應該基本具備
的能力: 1. 統計學(statistics) 2. 機器學習演算法(machine learning algorithms)
3. 編程能力(programming)。而圖裏的推薦書籍是我讀過且認為不錯的能力養成書籍。
當然, 全球有將近50%的資料科學人員使用R語言, 但它有先天上的限制, 就是若要包裝成
一個獨立運作的系統是較為困難。 R語言的操作環境R Studio比較像我們習慣的Matlab環
境, 當然它也是免費的! 另一個限制就是它是由統計學家所設計的語言, 語言的思維模式
不像一般的程式語言(如 C/C++, JAVA等…)
習慣於大部分程式語言思考模式的朋友, 可以選擇Python, 想使用Python作大數據分析的
朋友, 我推荐上面二本書(1.Python for Data Analysis 2.Python Machine Learning)。
在機器學習與大數據領域, R跟Python幾乎是主流語言! 它們具備的開發套件真的會讓開
發人員讚嘆! 免費軟體的時代早己來臨, 只要你具備基本的軟體開發能力…, 網路上的開
源碼(Open Source)資源正是我們每一個人能夠取得的巨大寶庫!
機器學習演算法(Machine Learning Algorithms)是資料科學技術的核心, 但它並不是新
發明, 這些演算法早己存在幾十年了! 那為什麼這些老東西現在這麼熱門呢? 原因是進入
21世紀以後, 資料儲存與運算成本的大幅崩跌, 世界儲存的資料量變得異常巨大, 而當這
些巨量資料由電腦分析, 演算法可以短時間內, 從茫茫資料海中找出人類無法找出的線索
與金礦!
電腦天生就擅長做巨量資料的運算; 但人腦卻不是!
因此這個時代將會有愈來愈多的由人所執行的工作被電腦所取代(如物理治療師、醫生、
記者、MIS人員、行銷人員、股票交易員、行政人員…等等), 這些被取代的工作都有二個
共通點, 一是重覆性(Repeatable), 二是可預測性(Predictable)。 只要你目前做的工作
具有以上二點的其中一個, 就有機會被機器取代!
我們應該思考! 什麼是人做得到, 而電腦目前還做不到的事!
我認為這才是真正重要的問題!