[問題] html網路爬蟲，網頁無法跑出資料 lovedmagic PTT批踢踢實業坊

[問題] html網路爬蟲，網頁無法跑出資料

作者: lovedmagic (EricZou) 2016-12-03 16:39:07

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式，R 是我的第一次)
[問題敘述]:
我想將某個網頁的資料讀取後分析資料，但是一開始就卡關
[程式範例]:
library(XML)
library(RCurl)
ur1=getURL("https://www.kickstarter.com/discover/advanced?woe_id=23424900&sort=magic&seed=2467921&page=2")
ur1.1 = readHTMLTable(ur1)
test_doc = htmlParse(ur1,encoding="big5")
test = readHTMLTable(test_doc)
View(test)
我一開始是直接使用ur1="網址"，後來在板上發現有另外一個方法就是getURL("網址")
，之後用readHTMLTable(ur1)去做，但是我不瞭解htmlParse不知道有什麼作用，我在
板上也看到許多econding寫成"big5"和"UT-8"(←這是印象)，好像會發生編碼還是轉
碼上的問題導致之後R的操作中文部分都會變成亂碼，最後用View(test)去跑發生了
Error in View(test) : invalid 'x' argument 的問題
我想請問各位大大，關於kickstart我想取用裡面每一個project就是每一個分頁理面
的backers和pledge of MX$ goal還有days to go三項數字，但是我光是讀取頁面就已
經發生問題了，請問我在readHTMLTable這方面究竟出現什麼樣的問題呢？
[環境敘述]:
Windows 7
R 3.2.2
[關鍵字]:
網路爬蟲、html

作者: celestialgod (å¤©) 2016-12-04 18:42:00

你這個網址裡面看不出來有table阿用html_table抓不到東西就屬於正常了

作者: celestialgod (å¤©) 2016-12-03 16:59:00

請愛用rvest跟xml2

作者: lovedmagic (EricZou) 2016-12-03 17:03:00

cel大你好，因為我這次也是幫朋友代問，他說他跑之前那個html_table會出現亂碼，是因為沒有下載某個package嗎??

作者: celestialgod (å¤©) 2016-12-03 17:22:00

windows都要跑Sys.setlocale("LC_ALL", 'C')

作者: lovedmagic (EricZou) 2016-12-03 17:26:00

每個步驟都有跑還是會有錯誤

那可能要看網頁的encoding我不在電腦前可能不方便查，晚點幫看

作者: lovedmagic (EricZou) 2016-12-03 19:23:00

非常感謝

繼續閱讀

Re: [問題] 特定條件下的列與列時間運算celestialgod [問題] shiny sever 更新資料samex4x4 Re: [問題] 一筆資料轉多筆memphis [問題] 特定條件下的列與列時間運算joson4921 Re: [問題] 一筆資料轉多筆celestialgod Re: [問題] 一筆資料轉多筆cywhale Re: [問題] 一筆資料轉多筆HeroNoah Re: [問題] 一筆資料轉多筆celestialgod Re: [問題] which與if運用celestialgod [問題] which與if運用huangsam