板上各位強者好
最近因為故宮開放所有收藏品的圖片下載
因此拿來當作第一次自學python程式寫一個簡易的爬蟲
目前想到比較不自動的方式 -
從第一頁爬到最後一頁或取所有下載的連結
再用其他下載軟體慢慢下載,但使用迴圈時,一直連不去下一頁
新手程式碼如下,還請大家指點迷津
import requests
from bs4 import BeautifulSoup
for _page in range(1,2,1):
res = requests.get("http://theme.npm.edu.tw/opendata/DigitImageSets.aspx?pageNo=%d"
% _page)
soup = BeautifulSoup(res.text, 'lxml')
a_target = soup.find_all('a','fancybo_xxxx fancybox.iframe')
for a in a_target:
print(a['href'],a.text)