前情提要:因為工作需要,要下載數千份文檔,老闆指示土法煉鋼一個一個按,於是我發憤開始學python…
手動下載的步驟是:
1.key年份跟代號按搜尋
2.跳出另一 tab 為搜尋結果
3.點結果中的文件連結,跳出另一 tab 有下載鏈
4.點下載鏈接下載
於是乎,用requests 試寫一段下載單一文件,成功。殊不知而,換了另一個文件就失敗。原來是因為網頁沒開著。
於是找到 selenium ,用各種方法都定位不到搜尋結果畫面中的連結位置。
最後的方法是用網址+selenium開搜尋結果畫面,就找到連結位置了,然後再把連結丟到requests終於可以順利下載,在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。
昨晚臨走前我假會加了一句
opts.add_argument('