[問題] 讀取中文檔案 sansea PTT批踢踢實業坊

[問題] 讀取中文檔案

作者: sansea (情弒月) 2015-03-05 16:14:47

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
想要抓PTT的資料來斷詞
目前已經可以抓到資料並存成中文檔案
可是利用 Corpus(DirSource("docs", encoding = 'UTF-8')) 讀取的時候
中文字全部變成 <U+ 開頭的字串
把查詢結果存到 TermDocumentMatrix
用 inspect 看結果應該是有斷成功
可是全部都變成奇怪的字了阿....
想請問怎麼把中文字找回來QQ
===已解決===
原本是在Win8.1上開發
換到Win7環境就沒問題了
[程式範例]:
程式碼可以看這邊 http://ideone.com/icNr73

作者: psinqoo (é›¶åº¦ç©ºé–“) 2015-03-05 19:31:00

R的版本?

作者: sansea (情弒月) 2015-03-05 22:40:00

3.1.2

我猜把R 版本下降就OK

繼續閱讀

[問題] install.package疑問LouisPion [問題] 請教指派運算(<-)和等號(=)有什麼不同？LouisPion [問題] data.table可以操作的資料量squallscer Re: [問題] 關於重複測量資料aaron77217 Fw: [程式] R: TRUE FALE 的問題celestialgod [分享] faster R in windowscelestialgod Re: [問題] 關於重複測量資料celestialgod [問題] 關於重複測量資料yummy7922 Re: [問題] 想利用data.table將Rawdata切割欄位celestialgod Re: [問題] 想利用data.table將Rawdata切割欄位sacidoO