[問題] 網路爬蟲抓資料問題

作者: jasonfghx (工人)   2018-01-15 08:38:17
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm
我想抓"所屬產業" 這四個字
因為我用utf-8的網頁練習都沒問題
但這個big5 的 執行出來都是空的
想請問是有什麼問題在裡面嗎
[程式範例]:
library(plyr)
library(dplyr)
library(data.table)
library(stringi)
base_url <- "http://jsjustweb.jihsun.com.tw"
url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_"
t_url <- paste0(url, i="4960.djhtm")
doc1 <- read_html(t_url, encoding = "big5")
xpath <- '//div[@id="SysJustIFRAMDIV"]/a'
title <- xml_text(xml_find_all(doc1, xpath))
[關鍵字]:
網路爬蟲
很感謝回復
※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:21:59
※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:22:20
作者: andrew43 (討厭有好心推文後刪文者)   2018-01-15 18:07:00
主要的原因是左上的目錄內容是javascript產生的。
作者: jasonfghx (工人)   2018-01-15 18:44:00
所以說遇到這種網站是撈不到資料?
作者: andrew43 (討厭有好心推文後刪文者)   2018-01-15 20:12:00
我不在行,但Google R fetch HTML generated by JavaScript 有看到不少解法。
作者: jasonfghx (工人)   2018-01-15 21:05:00
謝謝

Links booklink

Contact Us: admin [ a t ] ucptt.com