[問題] 爬蟲無法讀完全部的資料

作者: pfii1997119 (阿寬)   2023-04-04 02:58:02
最近正在學習爬蟲 requests & beautifulsoup4
看了影片的tutorial 想要自己嘗試用這個網站進行爬蟲
https://monitor.buyerguide.info/pre-selection/cp-eye
檢查之後發現這個table在tbody這個標籤裡面
但是當我print(tbody.contents)之後
發現他只有讀到GW2480Plus這筆資料 後面都遺失了
想請問應該要怎麼做才能正確地讀到最後一筆資料G322CQP呢?
我的code在下方 可以直接複製
https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4
謝謝python板的大神
作者: virgil246 (virgil585)   2023-04-04 21:49:00
可以用瀏覽器Devtools 把Javascript Disable看一下剩下的資料會跟你爬的到的資料一樣 這個是前端的動態渲染至於要怎麼爬 要去定位出哪一個js function讓瀏覽器再拿了一次資料然後把資料補到畫面上 通常都混淆過很難看懂 我也不會好像也不叫混淆 前端通常會用webpack打包js 這時候會把js作壓縮 所以變數的可讀性下降很多
作者: tzouandy2818 (Naked Bear)   2023-04-05 16:16:00
用 requests-html 來跑 JS 跑完再爬內容

Links booklink

Contact Us: admin [ a t ] ucptt.com