PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
java
[問題] parse雅虎拍賣查詢結果parse不到
作者:
faithfay
(夢遺大師)
2014-08-18 10:26:05
請問
最近在練習網路爬蟲,在爬網站資訊
我是使用了一個jsoup library在爬
一般網頁都可以正常爬到htm內容
可是像雅虎拍賣這種為何都爬不到結果???
是因為ajax的關係嗎?
還請指導與指點一下
作者:
swpoker
(swpoker)
2014-08-18 11:31:00
javascript???
作者:
brianhsu
(墳墓)
2014-08-19 07:36:00
Y 拍有擋爬蟲,看一下你 parse 的東西如果是首頁,那就是被擋掉了,記得要偽裝
作者:
Killercat
(殺人貓™)
2014-08-19 11:28:00
沒UA或者UA太老實(?)你要記得塞UA下去不過普通來講 潛規則是如果他不願意被你爬 他就會放robots.txt或者check UA, 當然,這很好騙,只是這是一個共通的潛規則 儘量不要大量deploy破壞規則的crawler
作者:
swpoker
(swpoker)
2014-08-19 17:51:00
爬蟲跟DDOS沒甚麼兩樣~網站管理員很討厭的~
作者:
storypp
(隨風而逝的是一份真)
2014-08-20 00:00:00
新手小問..UA是什麼?GOOGLE關鍵字可以下什麼來學...
作者:
brianhsu
(墳墓)
2014-08-20 08:06:00
User-Agent,是 HTTP 的 Header,給網站判別連進來的是哪種 browser
作者:
ccas
(昆蟲ä¸ä¸€å®šæœƒé£›)
2014-08-20 13:01:00
我記得Y爬太快也會被擋~~要記得不要爬太快
作者:
Killercat
(殺人貓™)
2014-08-21 14:36:00
像是google的crawler的UA就很老實的說Googlebot XD也有的是會塞session到cookie的網頁 至種普通crawler也沒辦法爬太深 多半只能爬到地一層...我說土炮的bot很多open source的crawler會處理cookie-session不過這是技術問題, 道德問題還是要注意一下 :P另外一個比較有可能出包的的就是檢查referer這也是大多數crawler會幫你處理的技術問題就是
繼續閱讀
[問題] GOOGLE TALK SERVER是不是連不到了???
faithfay
[問題] JPA Create EntityManager
Flychop
[問題] spring data 問題
cyclone350
[J2SE] 多型疑問
icydream
Re: [J2EE] Spring MVC 實現搜尋文章功能 (Lucene..)
ek0424
[問題] springMVC取得所有mapping URL
cyclone350
Re: [工具] 大家寫JSP也是用Eclipse寫嗎?
linlin76
Re: [工具] Eclipse + Dropbox + Git
dharma
[問題] Netbeans 和 Eclipse快捷鍵
linlin76
[問題] define a constructor in interface?
michael0728n
Links
booklink
Contact Us: admin [ a t ] ucptt.com