作者:
xyz6206a (xyz6206a)
2016-06-30 11:58:45各位前輩大家好!
我日前使用selenium寫爬蟲時
遇到網頁偵測為機器人而跳出
需要寫認證碼阻擋,而我自己使用
time.sleep()去延遲下載時間
好像也沒法阻止機器人偵測
請問這個原因是?
請問一下有其他解決方法嗎?
下圖為我遇到的狀況
http://imgur.com/CyfWI5k
作者:
xyz6206a (xyz6206a)
2016-07-04 19:20:00r大是指要用辨識程式去辨別嗎?
作者:
Neisseria (Neisseria)
2016-06-30 12:07:00改 user agent 看看?我笨了,不好意思 = =...
作者:
yf9000555 (所以我說那個媽媽如何)
2016-06-30 12:38:00如果那個網站當初設計,是採用同Ip請求次數來阻擋的話,剛好你電腦為浮動IP的話,用系統命令斷線重連就可以避開了
作者:
xyz6206a (xyz6206a)
2016-06-30 12:44:00這個網站要求一定要用學校IP,所以不知道是否可以用斷線方式
作者:
cybelia (@@)
2016-06-30 13:03:00原po要爬的站跟你們學校的合約,確定是允許「使用軟體大量下載」的嗎?
作者:
IAMPF (PF)
2016-06-30 13:17:00你也可以去找大量的proxy或是用tor來避開這個問題
作者:
xyz6206a (xyz6206a)
2016-06-30 15:41:00其實我也不確定是否允許大量下載這是老師的計畫
作者:
tj386 (最愛歐陽三姊妹♥♥♥)
2016-06-30 18:43:00換個作業系統看看 少用win
看有沒有猜captcha次數限制,沒的話寫OCR來破解,這個captcha看起來不難解