PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[討論] 秀泰影城爬蟲
作者:
students
(無敵風火輪)
2017-12-20 11:53:16
最近在練習寫爬蟲,決定把全台灣影城的電影時刻表當作爬蟲的練習對象。
第一次爬了威秀影城,比較簡單,搞定了。
第二次爬了環球影城,雖然似乎只能爬到當日的時刻表,但也沒什麼問題。
第三次挑戰秀泰影城,發現他的時刻表資訊沒有秀在前端HTML上?
https://www.showtimes.com.tw/events?corpId=8
仔細觀察,他在載入網頁時,會轉一個「請稍候」然後才顯示內容。
於是我使用Chrome的右鍵「檢查」工具。
發現兩個問題:
1.為什麼在網頁上點右鍵顯示原始碼,出現的是隱藏資訊的原始碼,然後在「檢查」工具
中的 Elements 欄位會顯示比較詳細的原始碼呢?
但偏偏,我使用BeautifulSoup抓上面那個連結時,他抓的是「顯示網頁上右鍵原始碼版
本」的。
所以我怎麼印都印不出來我想要的那個「電影時刻」。
2.更進一步,我在「檢查」工具中的Network欄位中觀察,選擇XHR,看看有沒有相關的AP
I,果然被我找到了!
示意圖 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用線上JSON工具檢查後,發現資訊不是我要的。
示意圖 https://i.imgur.com/tH12ulr.png
有大大找過秀泰影城的時刻資訊嗎?
#他隱藏得太深,我找得好苦。
#覺得秀泰在躲我。
作者: tedwu2001
2017-12-20 12:14:00
events裡面的startedAt就是時刻,只是要自己換成GMT+8底下programs對應影片,venues對應廳號就想辦法mapping
作者:
dododavid006
(朔雪)
2017-12-20 12:18:00
關於 1 原始碼那個是直接抓 html 下來 但是 Element那頁會包含 js 執行完的結果 所以會比較多東西應該說 Element 那頁會反應目前網頁的狀態
作者:
students
(無敵風火輪)
2017-12-20 12:26:00
原來如此,謝謝兩位大大
繼續閱讀
[問題] Tk 按一個鈕 換一張圖的方法?
caesar0929
[問題] thinter視窗顯示問題
iuz
[問題] python 遞迴上限
m87dd05
新手請益
tjw0314
[問題] 公開資訊觀測站抓月營收問題
kakar0to
[問題] python 2.7可以但是3.6錯誤(solved)
znmkhxrw
[問題] 字串版陣列如何轉成真正浮點陣列
st1009
[問題] 有人了解python連結tibero嗎
naestnecniv
[問題] 期交所爬蟲POST回傳問題
walker088
[贈出] python for data analysis
ccfux
Links
booklink
Contact Us: admin [ a t ] ucptt.com