寫得很醜,但邏輯大概就是這樣。
裡面用了一些技巧,看懂之後歡迎學起來。
這都是內建的 funciton,應該直接用就可以了,但若是巨大資料就會很慢了。
dt <- data.frame(
series = c(1,2,3,4,5,6,1,1,2,2,2,2,2),
cate = c(2,3,4,2,2,5,1,2,2,3,4,4,4)
)
# 各 series 之下 cate 頻率最高的值之對應(若無最高者,之後會出警告)。
# 這一句如果看不懂,請想像成一個迴圈,每跑一次的對象是同一組series,
# 並找出頻率最高的 cate 是誰。
tab <- tapply(
dt$cate,
dt$series,
function(x){
rownames(table(x)[order(table(x), decreasing = T)])[1]
}
)
# 這句只是建一個新的 dt。
dt.new <- data.frame(
series = dt$series,
cake = rep(NA, nrow(dt))
)
# 利用 dimnames(tab)[[1]] 和 tab[[i]] 來重建 dt.new,總共填 6 次。
# 看不懂的話把 i 用 1 或 2 去代入,再細看每個小部份。
for (i in 1:dim(tab)) {
ans <- rep(
as.numeric(tab[[i]]),
length(dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake)
)
dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake <- ans
}
※ 引述《lambking (BB)》之銘言:
: [問題類型]:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: [軟體熟悉度]:
: 入門(寫過其他程式,只是對語法不熟悉)
: [問題敘述]:
: 想將資料中的某欄位指定為其最常見的group名稱
: 例如
: series cate
: [1,] 1 2
: [2,] 2 3
: [3,] 3 4
: [4,] 4 2
: [5,] 5 2
: [6,] 6 5
: [7,] 1 1
: [8,] 1 2
: [9,] 2 2
: [10,] 2 3
: [11,] 2 4
: [12,] 2 4
: [13,] 2 4
: 在series中1出現三次,其cate分別為2,2,1 頻率最高的為2
: 想將所有series為1的族群 其cate欄位接指定為4
: 又例如 series中為2的族群 其cate 分別為 3,2,3,4,4,4 頻率最高的4
: 想將所有series為2的族群 其cate欄位皆指定為4
: 請問除了用for loop外有其他方法嗎?