[問題] 網路爬蟲抓資料問題 jasonfghx PTT批踢踢實業坊

[問題] 網路爬蟲抓資料問題

作者: jasonfghx (工人) 2018-01-15 08:38:17

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm
我想抓"所屬產業" 這四個字
因為我用utf-8的網頁練習都沒問題
但這個big5 的執行出來都是空的
想請問是有什麼問題在裡面嗎
[程式範例]:
library(plyr)
library(dplyr)
library(data.table)
library(stringi)
base_url <- "http://jsjustweb.jihsun.com.tw"
url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_"
t_url <- paste0(url, i="4960.djhtm")
doc1 <- read_html(t_url, encoding = "big5")
xpath <- '//div[@id="SysJustIFRAMDIV"]/a'
title <- xml_text(xml_find_all(doc1, xpath))
[關鍵字]:
網路爬蟲
很感謝回復
※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:21:59
※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:22:20

作者: andrew43 (討厭有好心推文後刪文者) 2018-01-15 18:07:00

主要的原因是左上的目錄內容是javascript產生的。

作者: jasonfghx (工人) 2018-01-15 18:44:00

所以說遇到這種網站是撈不到資料?

作者: andrew43 (討厭有好心推文後刪文者) 2018-01-15 20:12:00

我不在行，但Google R fetch HTML generated by JavaScript 有看到不少解法。

作者: jasonfghx (工人) 2018-01-15 21:05:00

謝謝

繼續閱讀

[問題] shiny呼叫local端R檔adam100830 [問題] 回歸固定效果問題tony1331 [問題] 時間序列, 想在同一時間上呈現兩種數據jasonfghx [問題] quantmod chartSeries 繪圖問題gitsvn [分享] R shiny web app 一些經驗雜談cywhale [問題] 改趨勢圖中的legandparanoia5201 [問題] combinationslambking Re: [問題] 製作dummy variable矩陣效能問題celestialgod [問題] 有效率的字串比對方法sFKP [問題] 在R裡面的if then output寫法？paranoia5201