https://i.imgur.com/SW8iFCS.png
Apache Spark是一個開源叢集運算框架,最初是由加州大學柏克萊分校AMPLab所開發。相
對於Hadoop的MapReduce會在執行完工作後將中介資料存放到磁碟中,Spark使用了記憶體
內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark在記憶體內執行程
式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟
時,Spark也能快上10倍速度。Spark允許用戶將資料加載至叢集記憶體,並多次對其
進行查詢,非常適合用於機器學習演算法。