[問題] 爬蟲新手問題 Tampa PTT批踢踢實業坊

[問題] 爬蟲新手問題

作者: Tampa (å…‰èŠ’) 2016-07-26 18:06:51

[問題類型]:
網頁爬蟲，已找出xpath，但無法製作成data.frame
[軟體熟悉度]:
中新手
[問題敘述]:
網頁爬蟲，想把wiki的球隊資訊爬下來
[程式範例]:
library(magrittr)
library(rvest)
URLteam <-
"https://zh.wikipedia.org/wiki/%E7%BE%8E%E5%9C%8B%E8%81%B7%E6%A5%AD%E6%A3%92%E7%90%83%E5%A4%A7%E8%81%AF%E7%9B%9F"
#網頁
xpathTeam <- "//table[@class='navbox wikitable']/tbody/tr/td[1]"#球隊隊名的
xpath
docTeam <- read_html(URLteam, encoding="UTF-8")#將網頁讀進R
rankTeam<- docTeam %>%
html_nodes(.,xpath = xpathTeam) %>%
html_text %>%
iconv(from = "UTF-8", to = "UTF-8")
stockTmp <- data.frame(team=docTeam)
以下是我噴錯的error
Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors =
stringsAsFactors) :
cannot coerce class "c("xml_document", "xml_node")" to a data.frame
問題1: 不知道怎麼了解自己xpath有沒有抓對
問題2:data.frame是不是有設定錯誤?

作者: andrew43 (討厭有好心推文後刪文者) 2016-07-27 01:35:00

把 tbody 拿掉在 docTeam 裡可以發現 tbody 不存在忘了檢查是否可以複製你的error。不是的話請再說一聲。但你的xpath應該沒錯。我也不知道為什麼tbody不見了...

繼續閱讀

[問題] 請問高手怎麼用R做溫度的預測統計分析 kindarex [問題] 字串怎麼變數字?... 做關聯性分析(cor)pockychu [問題] 句子分群jklkj [問題] fread讀資料 and 使用 snow 平行f496328mm Re: [分享] 更進一步使用RSelenium抓取PTT內容與通知wanson Re: [分享] 更進一步使用RSelenium抓取PTT內容與通知celestialgod [分享] quantstrat 套件分享naturalsmen [分享] 更進一步使用RSelenium抓取PTT內容與通知wanson [問題] SparkR rJava 安裝pk790127 [問題] Fourier Transform, noise and signaldreler1