Re: [問題] 快速產生column, 和前幾個row相依 celestialgod PTT批踢踢實業坊

Re: [問題] 快速產生column, 和前幾個row相依

作者: celestialgod (å¤©) 2014-08-30 07:20:19

可以試試看tapply做會比迴圈再快一點
我自己模擬了一筆13000左右的資料只比迴圈快1.86倍
我有試過把比過的跳掉，可是發現變更慢
還在想有沒有什麼方法更快
code：
data$Session = unlist(tapply(data$Time, data$ID, function(v){
output = rep(0, length(v))
i = 1
session_num = 1
repeat
{
loc = as.numeric(v - v[i], unit='hours') < 1 & output == 0
output[loc] = session_num
session_num = session_num + 1
i = i + sum(loc)
if(i > length(v))
break
}
output
}))
模擬資料：
set.seed(100)
n = 2100
data = data.frame(ID = rep(1:n, ceiling(runif(n) * 10) + 1))
nrow(data)
# 13812
data$Time = Reduce(c, tapply(rep(1, nrow(data)), data$ID, function(v){
start_time = strptime("2014-08-01 00:00:00", "%Y-%m-%d %H:%M:%S")
as.POSIXlt(sort(start_time + round(86400 * runif(length(v)))))
}))
迴圈：5.301304 secs
tapply: 2.846163 secs

作者: forloricever (sigh...) 2014-08-30 07:24:00

感謝! 來試試可能有貼錯, 砍了改了一些 code已修正可再請問tapply如何產生在一次loop 生二個 column?ex有個 col:Date 把同一個ID, session 都設為第一個

作者: bxxl (bool) 2014-08-30 23:18:00

你時間轉成POSIXct,不要用POSIXlt, 大概還可以降一半再把時間差改成difftime(v, v[i], unit='hours') < 1

繼續閱讀

[問題] 快速產生column, 和前幾個row相依forloricever Re: [問題] 重複配對ching0629 [問題] 重複配對yaowei2010 Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔Wush978 [問題] Rattle中文問題morefunmba Re: [問題] 撈資料HeroNoah Re: [問題] 撈資料cywhale Re: [問題] 撈資料celestialgod Re: [問題] 撈資料yaowei2010 Re: [問題] 撈資料koai