[問題] 選取重覆的資料

作者: criky (2501-2)   2016-04-13 17:22:08
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
有5年的報名資料,資料欄位如年度,姓名,身份證ID,科系
考生可能會隔年重考(不同年度)
也可能會同一年重覆報考不同科系
我想要找出同一年重覆報考不同科系的資料,
要怎麼做呢?謝謝~
example:
學年度 身分證字號 學生姓名 報考科系
1 100 A121297328 Andy 中文系
2 100 A121297328 Andy 歷史系
3 100 A121297329 Jo 中文系
4 100 A121297330 Ann 歷史系
5 100 A121297331 Jack 哲學系
6 101 A121297332 Julie 中文系
7 101 A121297333 Rose 中文系
8 101 A121297334 Tim 歷史系
9 101 A121297334 Tim 哲學系
10 101 A121297335 Renee 哲學系
11 101 A121297336 Joyce 歷史系
12 101 A121297328 Andy 中文系
我執行
sample.1<-which(duplicated(subset(sample,select=c("學年度","身分證字號"))))
會有Warning message:
In grepl("\n", lines, fixed = TRUE) :
input string 1 is invalid in this locale
sample.1
[1] 2,9
我想要的結果應該是[1] 1,2,8,9
要怎麼做呢?
[環境敘述]:
[關鍵字]:
重覆
作者: celestialgod (天)   2016-04-13 17:26:00
#1Lhw8b-s 第1.點,dplyr::distinct看錯了 應該用duplicated取特定column的資料 用duplicated就可以看了
作者: cywhale (cywhale)   2016-04-13 17:31:00
which(duplicated(subset(data,select=c("ID","year"))))
作者: criky (2501-2)   2016-04-13 20:54:00
原來是這個函數, 謝謝

Links booklink

Contact Us: admin [ a t ] ucptt.com