[問題] 找出欄位內，重覆次數最多的資料 lin10th PTT批踢踢實業坊

[問題] 找出欄位內，重覆次數最多的資料

作者: lin10th (John) 2019-12-16 10:53:33

[軟體程式類別]:
R
[程式問題]:
資料處理，找出重複次數最多
[軟體熟悉度]:
學習約兩個月
[問題敘述]:
讀取健保資料庫，共有40個欄位。其中第14個欄位看診科別與第20個疾病種類，我想要
查詢數量最多的前10名(總共有11萬筆看診資料)
資料庫讀出來的程式命名data1
除了直接用data1[,14]與data2[,20]取出兩個需求的欄位外
也有試著用data3[,c("FUNC_TYPE","ICD9CM_1")] #第14欄位名為FUNC_TYPE, 第20欄位名
ICD9CM_1。這個方式直接取出兩組需要計算的欄位。
有找到書籍跟網路上的資訊，是不是要用dplyr套件內的group_by跟summarise兩個函數
比較容易找出來看科別與疾病的錢前10名？

作者: Edster (Edster) 2019-12-16 12:20:00

table 這支函數就可以了。

作者: locka (locka) 2019-12-16 13:16:00

兩個欄位是各自獨立計算嗎？如果是的話用table就可以，如果需要計算兩個欄位出現最多的組合前10名，可用data %>% group_by(c1,c2) %>% tally()

作者: taya1991 (請叫我雞頭!) 2018-01-14 02:45:00

summary(as.factor(你的資料))，sort後列出前10名，但你有確定你資料乾淨嗎？

繼續閱讀

[問題] 如何使用sink輸出帶有ansi escape的檔案a78998042a [分享] PTT資料獲取工具-PTTmineRisolaXCC [問題] rvest爬取股票網頁資料j2225653 Re: [問題] 迴圈的計算(小複雜)empireisme Re: [問題] 生滿足條件的樣本個數andrew43 [問題] Twitch API 疑問(httr)Blackdawn [問題] 生滿足條件的樣本個數empireisme [問題] 迴圈的計算(小複雜)empireisme [問題] taskscheduleRjerkoffme [問題] 關於爬蟲-抓取資料日期hank830214