[問題] 爬蟲相關問題

作者: GetRobin (Rrr)   2016-08-04 22:27:49
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
目前想抓取求職天眼通各公司的討論串,
不過碰到問題是進入個別討論串後,
(例如
https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/
),
使用rvest或RSelenium都抓不到討論內容,
不知該怎麼處理。
[程式範例]:
library(RSelenium)
remDr <- remoteDriver(remoteServerAddr = "localhost"
, port = 4444
, browserName ="firefox"
)
remDr$open()
remDr$navigate("https://disqus.com/home/discussion/clv-bakc-end/_1111_811556/"
)
page_source<-remDr$getPageSource()
page_source ##page_source沒討論內容,去抓html的nodes也就抓不到了
[關鍵字]:
爬蟲
作者: celestialgod (天)   2016-08-04 22:42:00
求職天眼通應該google 外掛的吧 不在原本的網頁上
作者: andrew43 (討厭有好心推文後刪文者)   2016-08-05 02:10:00
你要爬這個 iframe#dsq-app2;html裡可以找到它的src。這種動態地讀入iframe的情況,還是直接到該iframe的原始網頁裡爬資料會比較穩,只是經驗談。

Links booklink

Contact Us: admin [ a t ] ucptt.com