[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
請把以下不需要的部份刪除
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
請簡略描述你所要做的事情,或是這個程式的目的
[環境敘述]:
mac Rstudio, R3.2
corp = Corpus(DirSource("./text/combine/"))
head(corp)
corp = tm_map(corp, stripWhitespace)
corp = tm_map(corp, removePunctuation)
corp = tm_map(corp, removeNumbers)
corp = tm_map(corp, function(word){
gsub("[A-Za-z0-9]","",word)})
corp = tm_map(corp, PlainTextDocument)
corp = tm_map(corp, removeWords,stopwords("english"))
# 中文 stop words
stopss = stopwordsCN()
corp = tm_map(corp,removeWords, stopss)
# 中文斷詞
corp2 = tm_map(corp, content_transformer(segmentCN))
corp2 = tm_map(corp, content_transformer(segmentCN), returnType = 'tm')
corp2 <- tm_map(corp, content_transformer(segmentCN), nature = TRUE)
corp2 <- tm_map(corp, function(sentence) {
noun <- lapply(sentence, function(w) {
w[names(w) == "n"]
})
unlist(noun)
})
corp3 = Corpus(VectorSource(corp2))
跑到最後一行就出現錯誤訊息寫:
Error in UseMethod("meta", x) :
沒有適用的方法可將 'meta' 套用到 "character" 類別的物件
本來有想過是資料夾裡文件編碼的問題
但是文件有中有英文,中文小弟用程式轉成UTF8 ~~
另一個問題是不知道各位面對很多big5碼,有什麼方式比較快轉成utf8的?