[問題] Rprof()的正確用法？ dppman PTT批踢踢實業坊

[問題] Rprof()的正確用法？

作者: dppman (*^o^*) 2014-05-29 09:26:22

[問題類型]:
效能諮詢(我想讓R 跑更快)
我目前的R Code中，有一段repeat要跑很久
想用Rprof()去做Profiling，但是Rprof()該怎麼塞到Code裡才會抓到正確的資料了？
另外，除了Rprof()，還有其他更好用的R Profiling tool嗎？
[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
利用rhdfs讀取Hadoop HDFS檔案系統上的超大CSV擋
[程式範例]:
Sys.setenv(HADOOP_CMD="/usr/lib/hadoop/bin/hadoop")
Sys.setenv(HADOOP_COMMON_LIB_NATIVE_DIR="/usr/lib/hadoop/lib/native/")
Sys.setenv(HADOOP_STREAMING="/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.2.0.6.0-101.jar")
library(rmr2);
library(rhdfs);
hdsf.init();
f = hdfs.file("/etl/rawdata/201111.csv","r",buffersize=104857600);
Rprof(tmp0528<-tempfile())
repeat {
m = hdfs.read(f)
duration <- as.numeric(difftime(Sys.time(), start.time, unit = "secs"))
print(length(m) / duration)
start.time <- Sys.time()
Rprof() /*Rprof()放這正確嗎？還是要放repeat迴圈才是正確呢？
}
summaryRprof(tmp0528)
[關鍵字]:
Performance, Profiling, Debug

作者: Wush978 (拒看低質媒體) 2014-05-29 22:24:00

我沒弄錯的話，Rprof會觀測tmp0528到Rprof()之間的效能我覺得怎麼放都可以, 不知道怎麼回答「對不對」的問題

繼續閱讀

Re: [問題] movielens將電影類別分類HeroNoah [問題] movielens將電影類別分類locka Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔dppman [問題] 型別轉換？ljta Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔Wush978 Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔dppman [問題] 載入TSA 但沒有eacf和coeftest函數IminXD [問題] 建置個人的R + Hadoop環境Pagan [問題] 透過R使用Rhdfs package讀取超大CSV檔dppman 需要懂R的人幫忙解釋一小段晶片微陣列程式碼waynecomm021