Re: [問題] R中文編碼(MS950)問題

作者: celestialgod (天)   2015-12-30 14:25:26
※ 引述《AmuroRai (SIEG ZEON!!!!!!)》之銘言:
: [問題類型]:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: [軟體熟悉度]:
: 入門(寫過其他程式,只是對語法不熟悉)
: [問題敘述]:
: 最近開始在學用R寫爬蟲,而今天下午試著要爬證交所的股票代碼列表時發現他們似乎
: 是使用MS950編碼,但是這個編碼R卻無法認得。(參見程式碼部分)
: 後來還有試過用utf-8和big5硬推,也試著用tmcn去轉碼,但是中文部分還是只得到亂碼。
: 因此想請問是否有什麼方法可以繞過這個問題?
: (把原網頁資料抓下來存成csv轉碼後再丟給R不在考慮之列)
: [程式範例]:
: 只附上一開始用MS950的程式碼,big5和utf-8的結果大同小異。
: 另外最後res和ress的output不知道為什麼無法完整貼上,但總之遇到中文都是亂碼就是了
library(RCurl)
library(stringi)
urlToGet = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
htmlFile = getURLContent(urlToGet)
htmlFileEncodingUTF8 = stri_encode(html_file,
attr(html_file, "Content-Type")[2], "utf8")
Encoding(htmlFileEncodingUTF8)
# [1] "UTF-8"
作者: AmuroRai (SIEG ZEON!!!!!!)   2015-12-30 15:51:00
謝謝c大,晚點再來用curl試試

Links booklink

Contact Us: admin [ a t ] ucptt.com