[問題] 爬蟲 url 空白的問題 ibgvdlbj PTT批踢踢實業坊

[問題] 爬蟲 url 空白的問題

作者: ibgvdlbj (:)) 2019-08-09 13:44:16

Hi 大家好
小妹新手上路
正在試用 python3 urllib.request 從一個網站裡下載多個pdf檔案
後來發現 400 錯誤
仔細研究後發現有些 pdf 的link 有空白，在正確的網址下空白則用%20代替
想請問大家該怎麼解決?
因為有些pdf link 沒有空白的問題
目前在猜想是不是可以這樣寫?
import urllib.parse
for url in url_list[:]
url =root_url + url
urllib.parse.quote(url)
getFile(url)
麻煩各位大大了，謝謝!!

作者: CodingMan (程式俠) 2019-08-09 15:03:00

url encode?

作者: niceguy (niceguy) 2019-08-09 15:06:00

replace(' ','%20') ?

作者: ibgvdlbj (:)) 2019-08-09 23:07:00

可以請1樓上大大詳細一點說明嗎？新手上路 @@2樓大大我試著寫url = root_url + urlurl.replace(“ “, “%20”)getFile(url)還是不行、不知道哪邊寫錯@@

作者: CodingMan (程式俠) 2019-08-09 23:11:00

url = url.repalce()......

作者: ibgvdlbj (:)) 2019-08-10 00:04:00

已跑出～謝謝C大！另外想請問，我寫raw_url 給定網址（第一頁）下載，但其實還有下5頁的pdf file （想下載100份 pdf files) 不知道在這部分要怎麼寫呢？

作者: jiyu520 (不要鯽魚我) 2019-08-10 09:17:00

學習google噢爬蟲有許多資源和範例

作者: CodingMan (程式俠) 2019-08-10 09:25:00

網頁有連結就找出來沒有就觀察規則

作者: ibgvdlbj (:)) 2019-08-10 12:58:00

好的，我來試試，有問題再上來請教，謝謝各位 :)

繼續閱讀

[問題] python networkx 距離pig98520 [問題] Python find 語法chetsai [問題] 字串的換行跳脫字元問題wargods8402 [問題] 如何連續輸入數字在介面上gakki520 [問題] pandas讀特定行數轉矩陣canon760d [問題] 排除os.walk中的「路徑」s4028600 [問題] 醫療人員想學程式推薦okokok0410 [問題] requests如何登入端傳媒?kevinjet [問題] python3中pip安裝，找無SSLspong [問題] python無法執行TUBJ

[問題] 爬蟲 url 空白 的問題

[問題] 爬蟲 url 空白的問題