[分享] 五個用R 處理大資料的方法

作者: Wush978 (拒看低質媒體)   2013-12-02 21:57:48
[關鍵字]: R, big data
[出處]: http://blog.eoda.de/2013/11/27/five-ways-to-handle-big-data-in-r/
[重點摘要]:
1. 怎樣的資料算大?
Hadley Wickham: 當處理資料的時間超過開發程式的時間
Jan Wijffels:
- < 10^6, R 可以容易的處理
- 10^6 ~ 10^9: 花點心思可以用R 處理
- > 10^9: Map Reduce, R + Hadoop
2. 如何處理大資料:
- 抽樣
- 擴充硬體 (64-bit R 最多可以吃 8TB的RAM)
- 在硬碟上處理 (請參考套件ff和ffbase)
- 和C++ 或java整合 (請參考套件Rcpp或rJava)
- 更強大的interpreter (請參考pqR, Renjin, TERR和Oracle R)
作者: ww2308 (Liang)   2013-02-02 23:43:00
感謝
作者: gsuper (Logit(odds))   2013-02-03 13:43:00
8TB = =a 是我在用的1000倍
作者: lin15 ( )   2013-02-03 15:52:00
記憶體大速度有變快嗎?
作者: clickhere (It's time to go home.)   2013-02-04 00:30:00
memory加大不會變快,只是能載入較多的資料,相對是變慢1000台8G就有8TB了
作者: Wush978 (拒看低質媒體)   2013-02-04 02:00:00
會不會變快要case by case來看,因為每個程式的瓶頸都不同
作者: obarisk (OSWALT)   2013-02-04 21:16:00
重點應是一般來說R只能在記憶體運作啊
作者: laba1014   2013-02-05 03:16:00
作者: super101 (pursue of happiness)   2013-02-10 20:06:00
8T機器去那買
作者: clickhere (It's time to go home.)   2013-02-10 23:23:00
去amazon or google租,不用買.

Links booklink

Contact Us: admin [ a t ] ucptt.com