PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Web_Design
[問題] 網頁爬蟲
作者:
aaa7513231
(渾沌與秩序)
2016-05-03 22:02:36
大家好,最近遇到一個很困擾的問題
一般爬蟲爬靜態網頁沒甚麼問題
某些動態網頁我也可以去觀察他的Post或是get去截他資料
但我現在遇到一種網頁是ajax data 綁進tab元件內
data部分有加密
他的tab內容需要點擊去動態產生內容
跟bootstrap的tap相同
http://www.w3schools.com/bootstrap/bootstrap_ref_js_tab.asp
像這樣的動態網頁有建議的爬蟲方法嘛
好煩惱阿@@....
看來看去就是找不到方法破解
謝謝大家
作者: bbgba1923 (Hardison)
2016-05-03 22:27:00
Watir
作者:
aaa7513231
(渾沌與秩序)
2016-05-03 22:39:00
我用python+scrapy寫的,watir看起來好像用不上@@
作者: lininu (聲音控:P)
2016-05-05 13:31:00
.ppt.cc/S6LY7 JPTT網址推不出去==
作者:
mmis1000
(秋月戀楓)
2016-05-05 18:01:00
因為ppt.cc早就被全站封鎖了,你為啥不改用其他好一點的轉址?像是 goo.gl 之類的就是 ma19.moe 都比 ppt.cc 好太多
作者:
aaa7513231
(渾沌與秩序)
2016-05-06 10:45:00
我後來放棄了,去研究他ajax的資料作破解
作者: lininu (聲音控:P)
2016-05-07 07:03:00
感謝mmis,我沒有注意到這件事~
作者: ayhaadam (跳電跳電跳電)
2016-05-15 23:29:00
可以研究看看 PhantomJS 之前用他來爬過 agoda,他們也有類似的保護機制
繼續閱讀
[請益] 關於網址的設定
ciao0958
[問題] HTML5畫布 IE無法儲存圖片
iorange610
[問題] javascript 取得變數?
mlev
[討論] hawkhost / hostgator 比較
imhaha
[請益] [apache] page.php/xx/yy/zz/... 一直爬
Siu
[問題] 關於相簿頁面多張圖片排版問題 CSS
herbacin
[問題]證券交易行動版網頁,為何不能下單?
stupid547547
[問題] sublime text html <font>標籤
b9876542002
[問題] 關於網頁音樂的問題
Hadamard
[問題] 一樣的網址回傳不同的結果
sinstar
Links
booklink
Contact Us: admin [ a t ] ucptt.com