[問題] 爬蟲爬不到資料(BLOOMBERG)

作者: snakei14702 (sun)   2019-05-03 17:30:17
我寫了一小段程式碼如下, 分別想抓兩個財金網站的資料:
from bs4 import BeautifulSoup
from urllib.request import urlopen
html11=urlopen('https://www.bloomberg.com/quote/INDU:IND')
soup=BeautifulSoup(html11,'html.parser')
print(soup.find_all('div'))
html22=urlopen('https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl')
soup=BeautifulSoup(html22,'html.parser')
print(soup.find_all('div'))
htm111 是bloomberg的報價網站,很怪的事我在chrome裡面看原始碼明明就有很多'div'
的標籤, 但是實作跑完只有如下:
[<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>]
html22是cnbc的報價網站, 就沒有這個問題, 稍微過濾一下就找到我要的資料了.
想要向各位前輩請教解決這個小問題....
非常感謝!
作者: tlaceruse   2019-05-03 18:03:00
Bloomberg 很早開始就擋爬蟲了。Header request 要多試幾個參數

Links booklink

Contact Us: admin [ a t ] ucptt.com