[問題] 某段程式讀取太久自動跳過 loser113 PTT批踢踢實業坊

作者: loser113 (洨大魯蛇ㄍ) 2020-03-05 13:55:48

在爬蟲抓網頁執行某段抓某頁的時候可能讀取很久
有沒有指令可以設定某一段指令若跑超過x秒自動跳過
謝謝

作者: Hsins (翔) 2020-03-05 14:28:00

import timelimit_time = time.time() + TIMEOUTif time.time() > limit_time:這作法比較簡單，也可以用 theading 的 Timer不過等你爬蟲複雜起來再考慮吧

作者: ddavid (謊言接線生) 2020-03-05 14:34:00

卡某種I/O包括網路的話，感覺都是thread出去比較好，上面推文第一種方法用在很多小行為其實都跑很快但累積時間很久的情況，但如果單單某個讀取動作就卡很久就不是第一種方法能處理的了，這時就給他一個thread讓他自己去跑吧不過代價就是複雜性變高了，有必要才用

作者: alvinlin (林矜業) 2020-03-05 14:56:00

scrapy用DOWNLOAD_TIMEOUT 設定然後用scrapy的errback去exception

作者: IAMPF (PF) 2020-03-05 16:18:00

如果是用 requests 可以 requests.get(url,timeout=30)

繼續閱讀