最近在練習寫爬蟲,決定把全台灣影城的電影時刻表當作爬蟲的練習對象。
第一次爬了威秀影城,比較簡單,搞定了。
第二次爬了環球影城,雖然似乎只能爬到當日的時刻表,但也沒什麼問題。
第三次挑戰秀泰影城,發現他的時刻表資訊沒有秀在前端HTML上?
https://www.showtimes.com.tw/events?corpId=8
仔細觀察,他在載入網頁時,會轉一個「請稍候」然後才顯示內容。
於是我使用Chrome的右鍵「檢查」工具。
發現兩個問題:
1.為什麼在網頁上點右鍵顯示原始碼,出現的是隱藏資訊的原始碼,然後在「檢查」工具
中的 Elements 欄位會顯示比較詳細的原始碼呢?
但偏偏,我使用BeautifulSoup抓上面那個連結時,他抓的是「顯示網頁上右鍵原始碼版
本」的。
所以我怎麼印都印不出來我想要的那個「電影時刻」。
2.更進一步,我在「檢查」工具中的Network欄位中觀察,選擇XHR,看看有沒有相關的AP
I,果然被我找到了!
示意圖 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用線上JSON工具檢查後,發現資訊不是我要的。
示意圖 https://i.imgur.com/tH12ulr.png
有大大找過秀泰影城的時刻資訊嗎?
#他隱藏得太深,我找得好苦。
#覺得秀泰在躲我。