PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[閒聊] 爬蟲背景執行就失敗
作者:
B01201026
(星空螢火蟲)
2021-03-20 22:39:54
前情提要:因為工作需要,要下載數千份文檔,老闆指示土法煉鋼一個一個按,於是我發憤開始學python…
手動下載的步驟是:
1.key年份跟代號按搜尋
2.跳出另一 tab 為搜尋結果
3.點結果中的文件連結,跳出另一 tab 有下載鏈
4.點下載鏈接下載
於是乎,用requests 試寫一段下載單一文件,成功。殊不知而,換了另一個文件就失敗。原來是因為網頁沒開著。
於是找到 selenium ,用各種方法都定位不到搜尋結果畫面中的連結位置。
最後的方法是用網址+selenium開搜尋結果畫面,就找到連結位置了,然後再把連結丟到requests終於可以順利下載,在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。
昨晚臨走前我假會加了一句
opts.add_argument('
作者: NoneNaMey (NoneNamey)
2021-03-29 19:27:00
是抓甚麼方便私我看看嗎XD Selenium抓很慢就算是用headless也會吃很多資源
繼續閱讀
[問題] 神經元學習的輸出不為分類問題
yeahhuman
如何抓高鐵登入後的token
code0093
Re: [問題] 在pandas series中找出數個相同排列
gene50814
[問題] 請教一個新手問題
Damnguy
[問題] 計算dict中每一key中的value次數
demon333
[問題] pytest多層呼叫時,missing 1 required p
Talent14
[問題] 在pandas series中找出數個相同排列
razer
[問題] pyinstaller找不到
catrush
[問題] Selenium 登入Google帳號問題
max0616
[資訊] BBS 程式碼上色器
pinefruit
Links
booklink
Contact Us: admin [ a t ] ucptt.com