作者:
loser113 (洨大魯蛇ㄍ)
2020-03-05 13:55:48在爬蟲抓網頁 執行某段 抓某頁的時候可能讀取很久
有沒有指令可以設定某一段指令若跑超過x秒 自動跳過
謝謝
作者:
Hsins (翔)
2020-03-05 14:28:00import timelimit_time = time.time() + TIMEOUTif time.time() > limit_time:這作法比較簡單,也可以用 theading 的 Timer不過等你爬蟲複雜起來再考慮吧
作者:
ddavid (謊言接線生)
2020-03-05 14:34:00卡某種I/O包括網路的話,感覺都是thread出去比較好,上面推文第一種方法用在很多小行為其實都跑很快但累積時間很久的情況,但如果單單某個讀取動作就卡很久就不是第一種方法能處理的了,這時就給他一個thread讓他自己去跑吧不過代價就是複雜性變高了,有必要才用
scrapy用DOWNLOAD_TIMEOUT 設定然後用scrapy的errback去exception
作者:
IAMPF (PF)
2020-03-05 16:18:00如果是用 requests 可以 requests.get(url,timeout=30)