PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
R_Language
[問題] 移除WordNet以外的字
作者:
nina8598
(Nina)
2017-12-13 22:43:20
[問題類型]:
我想用R 做某件事情,但是我不知道要怎麼用R 寫出來
[軟體熟悉度]:
新手
[問題敘述]:
小妹最近在做資料清理
但資料來源是社群網站的留言,所以有很多不同的語言和沒有意義的詞
我已經把非英文的字刪掉了,如下方程式碼 (files是指多個txt檔)
for (i in 1:length(files)) {
files[[i]] <- gsub('[^ -~]', '', files[[i]]) # remove non-English
}
wordcorpus <- Corpus(VectorSource(files)) #形成我的語料庫
但還是有詞是由英文字母組成的其他國家文字留著(例如德文Spielzeug、波蘭文Zabawki
…),或是留言者打錯字等無法意會的詞留著
因此我想用R的package “wordnet”
讓我的資料內容對應WordNet字典裡的詞,
只要不是屬於這字典裡面的詞就移除掉,
但我實在是不知道該怎麼做,想請問有高手可以解決嗎?
另外想請問如果要用這個方法要先把詞形還原嗎?如果需要又該如何做呢?
剩下的一般移除停止詞、數字、標點符號我都ok,
就剩這些問題需要解決,麻煩大家幫幫忙了謝謝~
作者: kial (夏澄)
2017-12-14 20:05:00
找個常用3000字或5000字做成索引,用grepl篩選出來?或是切完後算出現次數,對出現次數少的單字建索引篩掉?
作者:
cywhale
(cywhale)
2017-12-14 20:27:00
如果用hunspell package 把拼錯有疑問的字全部找出來?example
https://goo.gl/BwysJM
繼續閱讀
[問題] 在變數名稱前插入逗號
NBpoly
[分享] nrow, references and copies
cywhale
[問題] 想要把shiny的 sidebarPanel刪掉
asdfrtg
[問題] 年份前後做比較
rusimida
[問題] 怎麼只選兩個比較
rusimida
[問題] 時間序列資料篩選
circusbest
[問題] data.table setnames 奇怪的現象
BUQ
[問題] R studio 中的plots視窗沒作用
banduna
[問題] 哪裡的R才是對的路徑?
rn940111
[問題] 等深分箱法
a83912a
Links
booklink
Contact Us: admin [ a t ] ucptt.com