作者:
oz5566 (阿康)
2018-12-27 14:38:28※ 引述《oz5566 (夏洛克。福爾摩斯)》之銘言:
: import requests
: from bs4 import BeautifulSoup
: url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: res = requests.get(url)
: res.encoding = 'big5'
: soup = BeautifulSoup(res.text,'html.parser')
: articles = soup.select(tag_name)
: for n in range(1, 20):
: next_url =
: 'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9='
: + str(n)
: url = next_url
: for art in articles:
: print(url)
: 東西會變成這樣
: 重複輸出
: http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=2
: 20變 才換數字
: 但把這段砍掉 又正常了
: for art in articles:
: 這是為啥 衝突?
我抓取第一頁是這樣
import requests
from bs4 import BeautifulSoup
url =
'http://www.tmica.org.tw/go/3796?time=16:42:28&q1=tolv&q65=2038999&qctrl=2038999&q106=3796&q9=1'
res = requests.get(url)
res.encoding = 'big5'
soup = BeautifulSoup(res.text,'html.parser')
tag_name = 'td a'
articles = soup.select(tag_name)
for art in articles:
print(art.text,art['href'])
輸出的東西沒問題
全部顯示
/go/3796?time=14:35:45&q1=tolv&qctrl=2038999&q65=2038999&q65=2038999&q106=3796
日生堂企業股有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109095521
醫鎧股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181109100011
厚都企業有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119145645
明惠貿易股份有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150113
宇岦健康事業有限公司
/go/3796?time=14:35:45&qctrl=2038999&q65=2038999&q106=3796&q1=viw&q100=20181119150955
然後我想說照著教學抓下一頁
就爆炸了
所以我也不知道ART 是啥