[問題] 電影排行爬蟲 lhsilyvm PTT批踢踢實業坊

[問題] 電影排行爬蟲

作者: lhsilyvm (此一時也彼一時) 2022-05-10 23:47:40

目前正在學習使用requests模組爬蟲，
以奇摩電影的排行榜當作練習，
網址如下:
https://movies.yahoo.com.tw/chart.html?cate=year
網頁右邊有一側邊欄台北票房、全美票房、預告片的排行榜，
擷取網頁內排行資訊的部分語法如下:
<div class="num">2</div>
<span>媽的多重宇宙</span>
</li>
不管是哪種排行榜都是這種結構，
但是以下列的函數去操作時，
都只找到台北票房的部分，
跑完十個項目就結束了，
想請教有沒有漏掉什麼地方，
謝謝
以下是爬蟲的函數:
def get_webpage(self, url):
html = requests.get(url=url,headers=self.headers).content.decode('utf-8')
# 利用正規表示法搜尋
pattern = '<div class="num">(.*?)</div>.*?<span>(.*?)</span>.*?</li>'
regex = re.compile(pattern, re.S)
movie_list = regex.findall(html)
self.save_webpage(movie_list)
def save_webpage(self, movie_list):
movie_dict = {}
for movie in movie_list:
movie_dict['rank'] = movie[0].strip()
movie_dict['name'] = movie[1].strip()
print(movie_dict)
time.sleep(random.uniform(0, 2))

作者: TakiDog (多奇狗) 2022-05-11 00:05:00

用正則太累了吧預告片/全美都是點擊才動態載入，你要爬的url不對

作者: alansyue (alansyue) 2022-05-16 11:34:00

解析 HTML 用 BeautifulSoup 比較方便

繼續閱讀

[問題] 金融數據處理 - 數字轉時間barusu [問題] 台灣車牌的正規輸入yahahah [問題] 資料未找到的錯誤Yeeee2018 [問題] 推薦有詳細講解matplotlib的書peter308 [問題] 請問外面的find email原理是?jackjenny [資訊] AIGO徵求隊員有降噪或物件識別經驗佳seiching [問題] import pandas 程式執行速度問題Dmix [問題] google地圖資訊列表可以爬蟲嗎?jackjenny [問題] ncclient的問題VivianAnn [問題] Pandas Series 條件-篩選-取代請益god1230321