[閒聊] 爬蟲背景執行就失敗

作者: B01201026 (星空螢火蟲)   2021-03-20 22:39:54
前情提要:因為工作需要,要下載數千份文檔,老闆指示土法煉鋼一個一個按,於是我發憤開始學python…
手動下載的步驟是:
1.key年份跟代號按搜尋
2.跳出另一 tab 為搜尋結果
3.點結果中的文件連結,跳出另一 tab 有下載鏈
4.點下載鏈接下載
於是乎,用requests 試寫一段下載單一文件,成功。殊不知而,換了另一個文件就失敗。原來是因為網頁沒開著。
於是找到 selenium ,用各種方法都定位不到搜尋結果畫面中的連結位置。
最後的方法是用網址+selenium開搜尋結果畫面,就找到連結位置了,然後再把連結丟到requests終於可以順利下載,在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。
昨晚臨走前我假會加了一句
opts.add_argument('
作者: NoneNaMey (NoneNamey)   2021-03-29 19:27:00
是抓甚麼方便私我看看嗎XD Selenium抓很慢就算是用headless也會吃很多資源

Links booklink

Contact Us: admin [ a t ] ucptt.com