Re: [心得] 資料整理套件介紹-第二章 dplyr(上)

作者: Wush978 (拒看低質媒體)   2015-07-22 22:38:44
dplyr 這個套件除了可以對R 的data.frame做處理之外,
也可以對SQL-like Data Source做資料ETL。
所以我是非常推薦版友把時間投資在這類套件之上。
這裡分享我一個實務經驗與玩具專案:
https://github.com/wush978/dplyrSparkSQL
我利用這個套件串接Apache Spark這個高效能資料處理平台,
只要利用和dplyr完全一樣的語法,
可以輕鬆在一分鐘內處理億筆資料的整理。
我認為這類的介面會越來越多,因為不算難擴充(我自己花一個週末就寫了一個)
所以花時間投資dplyr ,未來的潛力是滿高的。
作者: celestialgod (天)   2015-07-22 22:43:00
當初要提這點也忘記了,感謝版大
作者: Wush978 (拒看低質媒體)   2015-07-22 23:05:00
你寫得很棒,我只是錦上添花罷了
作者: celestialgod (天)   2015-07-22 23:14:00
謝謝,不過版大提到的也很重要,這個套件不只在資料整理方面還有其他值得投資的點,像是sql的api等等
作者: hyekyo0608 (魚)   2015-07-23 09:22:00
跟著強者學習,覺得很幸運^^

Links booklink

Contact Us: admin [ a t ] ucptt.com