Re: [問題] 製作dummy variable矩陣效能問題

作者: tan800630 (天ㄦ)   2017-12-29 15:23:39
同上一篇我自己的回文,這個code絕對還有很大的進步空間:p
請版上的各位再不吝指教
我自己想的方向是先把資料整理成long_format的資料格式,再用dcast轉形狀
模擬的資料筆數較大時兩個方法運作時間會差比較多
因此我把n設成10000而非原本的1000(在n=1000時甚至你的方法比較快一點)
希望對你有幫助:)
code:https://ideone.com/sVCoRD
require(dplyr)
require(data.table)
#前置作業如原文
w2long=function(array){
lapply(c(1:length(array)),function(i) {
data.table("id"=i,"player"=as.character(array[i]) %>%
strsplit(", ") %>% .[[1]])
}) %>% rbindlist()
}
out=merge(
w2long(data$p.combination) %>% mutate(show=1) %>%
dcast(id~player,value.var="show"),
w2long(data$p.com.allowed) %>% mutate(show=-1) %>%
dcast(id~player,value.var="show"),by="id",suffix=c("_O","_D")
)
out[is.na(out)]=0
※ 引述《mowgur (PINNNNN)》之銘言:
: - 問題: 當你想要問問題時,請使用這個類別。
: 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。
: [問題類型]:
: 效能諮詢(我想讓R 跑更快)
: [軟體熟悉度]:
: 使用者(已經有用R 做過不少作品)
: [問題敘述]:
: 大家好 我的資料是紀錄籃球比賽每個play是哪5個進攻及防守球員在場上
: 想做的事情是: 假設總共有500位球員 做出一個n(750000) x p(1000)的矩陣
: 前500欄為進攻 後500欄為防守
: 矩陣內的元素為1代表球員在場上進攻(防守為-1) 不在場上為0
: 所以每列會有5個1及5個-1還有很多個0
: 資料大概長這樣
: data$p.combination data$p.com.allowed
: 1 A, B, C, D, E J, K, L, M, N
: 2 A, C, F, H, I K, L, M, N, O
: 3 C, D, X, Y, Z K, M, O, Q, R
: ... ... ...
: 人名之間是用逗號和一個空格分開
: 用我自己寫的已經跑了快12小時還沒跑完
: 想請教版上各位大大有沒有更好的寫法
: [程式範例]:
: https://ideone.com/PaBtM4
: library(magrittr)
: p.combination = character(1000)
: for(i in 1:length(p.combination)){
: p.combination[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ")
: }
: p.com.allowed = character(1000)
: for(i in 1:length(p.com.allowed)){
: p.com.allowed[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ")
: }
: data = data.frame(p.combination = p.combination,
: p.com.allowed = p.com.allowed)
: player = LETTERS[1:26]
: input.matrix0 = function(data, player, off){
: X = matrix(ncol = length(player), nrow = dim(data)[1])
: for(i in 1:dim(data)[1]){
: if(off) {
: colnames(X) = paste0("O_",player)
: coding = 1
: pp = data$p.combination
: } else {
: colnames(X) = paste0("D_",player)
: coding = -1
: pp = data$p.com.allowed
: }
: player.temp = pp[i] %>% gsub(", ", "|",.)
: index = grep(player.temp, player)
: X[i,index] = coding
: X[i,-index] = 0
: }
: return(X)
: }
: input.matrix = function(data, player){
: X.off = input.matrix0(data, player, T)
: X.def = input.matrix0(data, player, F)
: return(cbind(X.off, X.def))
: }
: out = input.matrix(data,player)
作者: andrew43 (討厭有好心推文後刪文者)   2017-12-30 00:32:00
來解題請不必自謙。有寫解題想法大致流程也很棒。

Links booklink

Contact Us: admin [ a t ] ucptt.com