※ 引述《helixc (@_2;)》之銘言:
: [問題敘述]:
: 手上有一筆資料,基本上要看在四個不同樣區(site)當中,物種種類(SpeciesType)
: 如何影響某個值(n),資料如:http://pastebin.com/qyLga5Za ,要跑ANOVA和TukeyHSD。
: 要用工人智慧自己寫一樣的程式碼四次目前是做得到的,但總想找到更聰明的方法。
: 理想上想要寫個程式一次把重要的統計欄位(如F-value, P-value...etc)整理出來。
: 看了各種資料,知道在R當中各種*apply是向量化處裡資料重要的指令,
: 我想做的工作理論上可以用*apply實現。
: 但目前只對基礎的apply比較熟悉,sapply/lapply今天摸一摸才比較懂,
: 而tapply/mapply還還沒有機會用過。
: 在股狗的過程當中也發現dplyr::do也可以做類似的工作,也查到了Wush978的簡略介紹,
: 但用一用還是有點卡住...是因為dplyr::do只能處裡data.frame的關係嗎?
: *apply或dplyr::do的參考資料都是這個網頁 http://goo.gl/WYJXtC
: [程式範例]:
目前我覺得這種最漂亮還是用map XD (PS: map其實就是lapply而已)
library(data.table)
library(magrittr)
library(purrr)
dat = fread('test.txt')
models = split(dat, dat$site) %>% map(~aov(n~SpeciesType, .))
AOVtables = models %>% map(~summary(.)) %>%
map(~na.omit(c(.[[1]][['F value']], .[[1]][['Pr(>F)']]))) %>%
do.call(rbind, .) %>% set_colnames(c("F", "p.value"))
TukeyHSDtables = models %>% map(~TukeyHSD(.)$SpeciesType)
: 3. 改用dplyr::do來寫,用aov,但怎麼寫都會吐錯誤訊息...
: data<-data %>% group_by(site)
: models <-data %>% do(mdls=aov(n~SpeciesType, data=.))
: models %>% rowwise %>% do(data.frame(summary(.$mdls)))
: 錯誤訊息:
: Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors =
: stringsAsFactors) : cannot coerce class "c("summary.aov", "listof")" to
: a data.frame
我個人不太愛用do,我的使用經驗上,do在很多時候會很慢
之前遇到的案例:
set.seed(100)
library(plyr)
library(dplyr)
N = 1e7
dat = data.frame(V1 = rnorm(N), V2 = rbinom(N, 4, .2),
V3 = rbinom(N, 3, .1), V4 = rbinom(N, 5, .2))
st = proc.time()
out1 = dat %>% group_by(V2, V3, V4) %>% arrange(V1) %>% do(head(., n = 1))
proc.time() - st
# user system elapsed
# 20.06 0.11 20.17
st = proc.time()
out2 = ddply(dat, .(V2, V3, V4), function(x) x[which.min(x$V1),])
proc.time() - st
# user system elapsed
# 1.90 0.45 2.35
st = proc.time()
out3 = dat %>% group_by(V2, V3, V4) %>% filter(rank(V1) == 1)
proc.time() - st
# user system elapsed
# 3.30 0.08 3.39
all.equal(out1, out2 %>% arrange(V2, V3, V4)) # TRUE
all.equal(out1, out3 %>% arrange(V2, V3, V4)) # TRUE