Re: [問題] text mining 長詞優先 celestialgod PTT批踢踢實業坊

Re: [問題] text mining 長詞優先

作者: celestialgod (å¤©) 2015-07-23 10:53:26

看一下是不是你想要的
long = grep("\\s", names(v))
short = setdiff(1:length(v), long)
for (i in long)
{
words = strsplit(names(v[i]), "\\s")[[1]]
for (j in 1:length(words))
v[short][names(v[short]) == words[j]] =
v[short][names(v[short]) == words[j]] - v[i]
}
第二個迴圈可以用match做，並且省略short這個變數，這個你可以自己嘗試
code可以這樣改
long = grep("\\s", names(v))
for (i in long)
{
words = strsplit(names(v[i]), "\\s")[[1]]
loc = na.omit(match(words, names(v)))
v[loc] = v[loc] - v[i]
}
不用迴圈的作法：
twoWords = do.call(rbind, strsplit(names(v[long]), "\\s"))
s = tapply(rep(v[long],2), twoWords, sum)
loc = match(names(s), names(v))
v[loc] = v[loc] - s
你可以自己查看 s 跟 v[loc] 總數是有出入的
所以麻煩你確認一下你的雙詞跟單詞次數是否有誤
我後來想到你這個問題是
你雙詞會擷取前後，所以會有兩倍的單詞在雙詞中計入
你可能要自己去考慮這問題的解決方式
※ 引述《john5601 (HTC ONE年不變)》之銘言：
: 目前在作英文的文字探勘，已經可以分別算出單詞和雙詞的結果
: 舉例 :
: "Information management" 在文章中出現3次
: "Information"在文章中出現5次
: "management"在文章中出現6次
: 但因為想要長詞優先，所以"management"和"Information"的次數要分別減3次
: http://imgur.com/jAjrZxK
: 以上為跑出的結果不知道該如何達成這樣的作法
: 懇請前輩大大指導
: [程式範例]:
: http://pastebin.com/27rXYuQp 程式碼

作者: john5601 (HTC粉) 2015-07-23 15:55:00

http://imgur.com/kCiaJzC 把c大的執行後結果還是不太懂第二個迴圈該怎麼做沒錯我應該要單詞跟雙詞分開後，先取雙詞的前幾趴的詞之後再跟單詞的結果作計算

繼續閱讀

[問題] R讀mongodbjklkj Re: [心得] 資料整理套件介紹-第二章 dplyr(上)Wush978 [問題] text mining 長詞優先john5601 [心得] 資料整理套件介紹-第三章 dplyr(下)celestialgod [心得] 資料整理套件介紹-第二章 dplyr(上)celestialgod [問題] 資料名稱變換lambking [心得] 資料整理套件介紹-第一章 data.tablecelestialgod [心得] 資料整理套件介紹-序章 magrittrcelestialgod Re: [問題] [shiny] 如何設計有階層的input？celestialgod Re: [問題] [shiny] 如何設計有階層的input？ardodo