PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
R_Language
[問題] 新手爬蟲post cookie問題
作者:
wheado
(principal component QQ)
2016-03-21 15:10:10
問題是這樣子,前陣子套件httr似乎有經過一些改變,
似乎採用了比較新的套件xml2裡面的函數,
因此,再爬取PTT八卦版文章出現了錯誤,
無法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply來抓取八卦板index跟裡面的文章內容。
所以想從RCurl套件中做一個Post的動作,
從網路上看高手用Python可以很輕鬆的就解決,
可是自己GOOGLE卻找不到用R解決的辦法QQ
不懂cookie這種東西是如何運作?
要如何用R讓他運作?
一些關鍵字: RCurl cookiefile cookiejar postForm
作者:
celestialgod
(天)
2016-03-21 15:30:00
我用GET + set_cookie一樣可以抓阿@@x是GET下來的物件,要文字就用content(x, "text")配xml2的話就用下面的指令xml_find_all(content(x),"//div[@id='main-content']")再%>% xml_text就可以抓整篇文章下來了windows再搭配stri_conv轉成big5
#1MwjtX4d (R_Language)
如果是要用XML就把content(x, "text")丟到htmlParse
作者:
wheado
(principal component QQ)
2016-03-21 16:11:00
太神啦 我等等來試試看!! 謝謝大大我弄這個弄到好幾天都睡不好 QQ
繼續閱讀
[問題] 如何看到它是怎麼分群的?
jackhzt
Re: [問題] 如何將資料分類
celestialgod
[問題] 中文字串不正常顯示(非亂碼)
hakiooi
[問題] 爬主計處資料的packages
bcs
[問題] 如何將資料分類
SleepyChink
[問題] data frame轉corpus前過濾非英文字詞
blackyu
[問題] facebook data
clansoda
Re: [問題] 去除重複值
celestialgod
[問題] 去除重複值
tHEiPHoNe
Re: [問題] parSapply問題
celestialgod
Links
booklink
Contact Us: admin [ a t ] ucptt.com