[問題] 爬蟲 url 空白 的問題

作者: ibgvdlbj (:))   2019-08-09 13:44:16
Hi 大家好
小妹新手上路
正在試用 python3 urllib.request 從一個網站裡下載多個pdf檔案
後來發現 400 錯誤
仔細研究後 發現 有些 pdf 的link 有空白,在正確的網址下空白則用%20代替
想請問大家該怎麼解決?
因為有些pdf link 沒有空白的問題
目前在猜想是不是可以這樣寫?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻煩各位大大了,謝謝!!
作者: CodingMan (程式俠)   2019-08-09 15:03:00
url encode?
作者: niceguy (niceguy)   2019-08-09 15:06:00
replace(' ','%20') ?
作者: ibgvdlbj (:))   2019-08-09 23:07:00
可以請1樓上大大 詳細一點說明嗎? 新手上路 @@2樓大大 我試著寫url = root_url + urlurl.replace(“ “, “%20”)getFile(url)還是不行、不知道哪邊寫錯@@
作者: CodingMan (程式俠)   2019-08-09 23:11:00
url = url.repalce()......
作者: ibgvdlbj (:))   2019-08-10 00:04:00
已跑出~ 謝謝C大!另外想請問,我寫raw_url 給定網址(第一頁)下載,但其實還有下5頁的pdf file (想下載100份 pdf files) 不知道在這部分要怎麼寫呢?
作者: jiyu520 (不要鯽魚我)   2019-08-10 09:17:00
學習google噢 爬蟲有許多資源和範例
作者: CodingMan (程式俠)   2019-08-10 09:25:00
網頁有連結就找出來 沒有就觀察規則
作者: ibgvdlbj (:))   2019-08-10 12:58:00
好的,我來試試,有問題再上來請教,謝謝各位 :)

Links booklink

Contact Us: admin [ a t ] ucptt.com