Re: [問題] 用*apply或dplyr::do批次跑ANOVA celestialgod PTT批踢踢實業坊

Re: [問題] 用*apply或dplyr::do批次跑ANOVA

作者: celestialgod (å¤©) 2015-11-17 22:07:25

※ 引述《helixc (@_2;)》之銘言：
: [問題敘述]:
: 手上有一筆資料，基本上要看在四個不同樣區(site)當中，物種種類(SpeciesType)
: 如何影響某個值(n)，資料如：http://pastebin.com/qyLga5Za ，要跑ANOVA和TukeyHSD。
: 要用工人智慧自己寫一樣的程式碼四次目前是做得到的，但總想找到更聰明的方法。
: 理想上想要寫個程式一次把重要的統計欄位(如F-value, P-value...etc)整理出來。
: 看了各種資料，知道在R當中各種*apply是向量化處裡資料重要的指令，
: 我想做的工作理論上可以用*apply實現。
: 但目前只對基礎的apply比較熟悉，sapply/lapply今天摸一摸才比較懂，
: 而tapply/mapply還還沒有機會用過。
: 在股狗的過程當中也發現dplyr::do也可以做類似的工作，也查到了Wush978的簡略介紹，
: 但用一用還是有點卡住...是因為dplyr::do只能處裡data.frame的關係嗎？
: *apply或dplyr::do的參考資料都是這個網頁 http://goo.gl/WYJXtC
: [程式範例]:
目前我覺得這種最漂亮還是用map XD (PS: map其實就是lapply而已)
library(data.table)
library(magrittr)
library(purrr)
dat = fread('test.txt')
models = split(dat, dat$site) %>% map(~aov(n~SpeciesType, .))
AOVtables = models %>% map(~summary(.)) %>%
map(~na.omit(c(.[[1]][['F value']], .[[1]][['Pr(>F)']]))) %>%
do.call(rbind, .) %>% set_colnames(c("F", "p.value"))
TukeyHSDtables = models %>% map(~TukeyHSD(.)$SpeciesType)
: 3. 改用dplyr::do來寫，用aov，但怎麼寫都會吐錯誤訊息...
: data<-data %>% group_by(site)
: models <-data %>% do(mdls=aov(n~SpeciesType, data=.))
: models %>% rowwise %>% do(data.frame(summary(.$mdls)))
: 錯誤訊息：
: Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors =
: stringsAsFactors) : cannot coerce class "c("summary.aov", "listof")" to
: a data.frame
我個人不太愛用do，我的使用經驗上，do在很多時候會很慢
之前遇到的案例：
set.seed(100)
library(plyr)
library(dplyr)
N = 1e7
dat = data.frame(V1 = rnorm(N), V2 = rbinom(N, 4, .2),
V3 = rbinom(N, 3, .1), V4 = rbinom(N, 5, .2))
st = proc.time()
out1 = dat %>% group_by(V2, V3, V4) %>% arrange(V1) %>% do(head(., n = 1))
proc.time() - st
# user system elapsed
# 20.06 0.11 20.17
st = proc.time()
out2 = ddply(dat, .(V2, V3, V4), function(x) x[which.min(x$V1),])
proc.time() - st
# user system elapsed
# 1.90 0.45 2.35
st = proc.time()
out3 = dat %>% group_by(V2, V3, V4) %>% filter(rank(V1) == 1)
proc.time() - st
# user system elapsed
# 3.30 0.08 3.39
all.equal(out1, out2 %>% arrange(V2, V3, V4)) # TRUE
all.equal(out1, out3 %>% arrange(V2, V3, V4)) # TRUE

作者: helixc (@_2;) 2015-11-17 23:06:00

要去研究purrr了嗎啊啊啊啊啊啊看來還是把*apply學起來比較實在…

繼續閱讀

[問題] 用*apply或dplyr::do批次跑ANOVAhelixc [問題] 時間序列資料求中位數與標準差developme223 Re: [問題] 關於switch選擇Wush978 [問題] csv如何轉置(transform)?tony255034 [問題] 關於switch選擇laputaca [問題] quantile, 如何將預設值全部改掉呢？Edster Re: [問題] 計算累積機率celestialgod [問題] 計算累積機率Udyr [問題] 投影尋蹤相關問題elegantnight [問題] 用solve計算線性方程錯誤loser113