[問題]初學者爬蟲截取超連結問題 idleryan PTT批踢踢實業坊

[問題]初學者爬蟲截取超連結問題

作者: idleryan (QQ) 2017-07-17 16:22:07

板上各位強者好
最近因為故宮開放所有收藏品的圖片下載
因此拿來當作第一次自學python程式寫一個簡易的爬蟲
目前想到比較不自動的方式 -
從第一頁爬到最後一頁或取所有下載的連結
再用其他下載軟體慢慢下載,但使用迴圈時,一直連不去下一頁
新手程式碼如下,還請大家指點迷津
import requests
from bs4 import BeautifulSoup
for _page in range(1,2,1):
res = requests.get("http://theme.npm.edu.tw/opendata/DigitImageSets.aspx?pageNo=%d"
% _page)
soup = BeautifulSoup(res.text, 'lxml')
a_target = soup.find_all('a','fancybo_xxxx fancybox.iframe')
for a in a_target:
print(a['href'],a.text)

作者: Yshuan (倚絃) 2017-07-17 16:40:00

range(1,2,1) 只有 list: [1] ...

作者: idleryan (QQ) 2017-07-17 16:43:00

range(1,2,1)不是指start at 1, end at 2, step = 1還是我打錯了??

作者: Nieto (HaoChuan) 2017-07-17 16:49:00

range(1,3,1)才是從1開始, 到2結束

作者: idleryan (QQ) 2017-07-17 16:49:00

我了解了...2結束,所以不會進loop ....

作者: coeric ( ) 2017-07-18 01:29:00

用while 然後照staus去決定迴圈的跳出即可不必管幾頁

繼續閱讀

[問題] 爬取google所有商家資料ariel18 [問題] ＭＡＣ默認使用python3gokratio [問題] 關於list的append方法LessonWang [問題] 資料結構：使用Python這本書的評價tcssh611503 [問題] 關於python版本設定owem0410 [問題]用python預測片段文字是哪種語言jacobcan118 [問題] ckip-client模組使用問題thomasflee [問題] 計算字串中某個字元出現的個數LessonWang [分享] 肥米輸入法shadowjohn [問題] print簡體編碼問題coolching