[問題] 丟入htmlParse的東西 oldjojotenya PTT批踢踢實業坊

[問題] 丟入htmlParse的東西

作者: oldjojotenya (舊舅舅) 2015-01-30 21:39:06

[問題類型]:
程式諮詢
[軟體熟悉度]:
使用者
[問題敘述]:
最近在學習網路爬蟲，看到網路上餵給htmlParse的內容的寫法不太一樣，
本人對於HTTP的基礎薄弱，有點不得其門而入的感覺，
想請教以下寫法的異同與使用時機的差別，謝謝！
1.
url<-"http://xxx.html"
content<-htmlParse(url)
2.(有時候1.不順利的時候帶2.的式子就成功了不知道為何)
url<-getURL("http://xxx.html")
content<-htmlParse(url)
3.(個人猜測以下這種寫法只能存取本地file?)
url<-"http://xxx.html"
f<-file(url)
f_size<-file.info(url)$size
content<-readChar(f,f_size)
close(f)

作者: Wush978 (拒看低質媒體) 2015-01-30 22:24:00

我沒有特別研究過curl這類網路工具。如果你可以提供網址我可能比較容易了解。（目前我是猜可能和http 轉址有關）

作者: kenshin528 (成立奧凶帝國!!) 2015-01-31 02:04:00

沒用過第一種寫法@@

作者: gsuper (Logit(odds)) 2015-01-31 03:45:00

我都直接 strsplit(x,'<tr>') 硬幹

作者: carl090105 (Jing) 2015-01-31 12:58:00

雖然可能跟內文沒什麼關係；不過推薦一下rvest這個套件

作者: oldjojotenya (舊舅舅) 2015-01-31 13:48:00

謝謝各位大大！

繼續閱讀

[問題]不知從何處理起的BUGcoke228 Re: [問題] Rcpp 初學Wush978 Re: [問題] 用R 寫spss 的logistic regressionandrew43 Re: [問題] Rcpp 初學celestialgod [問題] Rcpp 初學gsuper [問題] 用R 寫spss 的logistic regressionlepin2001 [問題] 字串\的輸入方式lovesnow1990 [問題] 請問RSelenium套件問題mickey1231 Re: [問題] 關於R的速度Wush978 [問題] 如何比較兩串ID，計算其命中率btoco