[問題] 爬蟲初試

作者: asdfrtg (asdfrtg)   2020-07-20 22:26:49
[問題類型]:
效能諮詢(我想讓R 跑更快
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
想試圖用XML裡的套件readHTMLTable()爬https://reurl.cc/arOM1D的表格
當作練習 卻沒反應
按照https://reurl.cc/Wd68Gx也沒辦法整理
所以小弟本人決定用硬a的方式....
想請問有什麼方法可以直接爬蟲下來並且整理好成表格的@@
[程式範例]:
setwd("D:\\")
d1<-read.csv("行政院環境保護署標案.csv",header=F)
a1<-data.frame(t(d1[1:6,]))
a2<-data.frame(t(d1[7:12,]))
a3<- data.frame(t(d1[13:18,]))
a4<- data.frame(t(d1[19:24,]))
a5<- data.frame(t(d1[25:30,]))
a6<- data.frame(t(d1[31:36,]))
a7<- data.frame(t(d1[37:42,]))
a8<- data.frame(t(d1[43:48,]))
a9<- data.frame(t(d1[49:54,]))
a10<- data.frame(t(d1[55:60,]))
a11<- data.frame(t(d1[61:66,]))
a12<- data.frame(t(d1[67:72,]))
.
.
.
.
.
result<-rbind(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,........)
[環境敘述]:
R4.02
[關鍵字]:
爬蟲、rvest、XML、XML2
作者: locka (locka)   2020-07-20 23:22:00
你的程式碼跟rvest沒關係啊…沒反應的話至少也貼上你的程式碼讓大家知道你卡在哪裡…有的時候爬不下來可能因為表格內容是動態產生的,如果對於html觀念不熟的話,或許可以使用rselenium套件試看看
作者: asdfrtg (asdfrtg)   2020-07-21 00:09:00
感謝l大提點不過是想讓這段程式碼可以變成爬蟲到表格一條龍能夠解決...所以才提出效能諮詢@@
作者: locka (locka)   2020-07-21 00:29:00
我剛剛試了一下你貼的網址,的確沒有那麼好爬,我再研究一下。是說你的d1長什麼樣子啊?看起來你現在是貼到csv然後再讀取,既然要這樣為什麼不貼上的時候就整理好?
作者: andrew43 (討厭有好心推文後刪文者)   2020-07-21 00:51:00
有點偷雞的方法:https://ideone.com/CO8og9其實只是抓每個cell再排到matrix裡而已
作者: locka (locka)   2020-07-21 13:20:00
其實爬蟲就是把網頁上你按右鍵查看原始碼的東西抓下來,所以read_html()會需要,然後重點是要會解析標籤,我個人常用xml_find_all()取出想要的內容,以上都是rvest/xml2套件看了一下,selecttogadget是幫助你解析網頁元素的xpath,這部分相同功能的東西chrome擴充應用程式商店很多,挑習慣的用就好。更正:SelectorGadget
作者: andrew43 (討厭有好心推文後刪文者)   2020-07-21 15:23:00
推locka,最常用就是rvest或xml2。

Links booklink

Contact Us: admin [ a t ] ucptt.com