[問題] 爬蟲程式如何判斷某些連結的檔名

作者: martinqqq321 (蓋棉被開冷氣)   2021-03-01 21:17:25
我寫的程式會先用googlesearch.search去找我想要下載的檔案,之後會用
r = request.get(url)
with open(name,’wb’) as f:
F.write(r.content)
的方式把檔案存下來
最麻煩的地方主要是name的部分,我目前是直接從網址去判斷存下的檔名和副檔名
但有時候google search會出現以下的結果:
Http://www......./index.php?Action=downloadfile&file=............
問題就在downloadfile&file後面都是無法辨識的亂碼,請問要如何去偵測這種網址的檔
名和檔案類型呢
如果直接從chrome去打開這些網址的話,會直接跳到下載檔案的畫面
作者: zerof (貓橘毛發呆雕像)   2021-03-02 02:01:00
https://mdn.io/Content-Dispositionor just search MDN for “Content-Disposition”
作者: cloudandfree   2021-03-05 16:33:00
Regular expression
作者: mychiux413 (小邱)   2021-03-17 01:29:00
你的r.headers裡有線索

Links booklink

Contact Us: admin [ a t ] ucptt.com