[問題] 爬蟲無法讀完全部的資料 pfii1997119 PTT批踢踢實業坊

[問題] 爬蟲無法讀完全部的資料

作者: pfii1997119 (阿寬) 2023-04-04 02:58:02

最近正在學習爬蟲 requests & beautifulsoup4
看了影片的tutorial 想要自己嘗試用這個網站進行爬蟲
https://monitor.buyerguide.info/pre-selection/cp-eye
檢查之後發現這個table在tbody這個標籤裡面
但是當我print(tbody.contents)之後
發現他只有讀到GW2480Plus這筆資料後面都遺失了
想請問應該要怎麼做才能正確地讀到最後一筆資料G322CQP呢?
我的code在下方可以直接複製
https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4
謝謝python板的大神

作者: virgil246 (virgil585) 2023-04-04 21:49:00

可以用瀏覽器Devtools 把Javascript Disable看一下剩下的資料會跟你爬的到的資料一樣這個是前端的動態渲染至於要怎麼爬要去定位出哪一個js function讓瀏覽器再拿了一次資料然後把資料補到畫面上通常都混淆過很難看懂我也不會好像也不叫混淆前端通常會用webpack打包js 這時候會把js作壓縮所以變數的可讀性下降很多

作者: tzouandy2818 (Naked Bear) 2023-04-05 16:16:00

用 requests-html 來跑 JS 跑完再爬內容

繼續閱讀

[問題] 有沒有法子找出程式為何無法中止？HuangJC Re: 字串變數跳脱字元問題HuangJC Re: 字串變數跳脱字元問題zerof 字串變數跳脱字元問題holmes3 欄位加密(使用VBA、Python、VB.NET) southknight [問題] .api.merge()無法使用oscarku [問題] 如何正確的 mock requests 回傳的 iter_contentchan15 [問題] Jupyter notebook 能不能刪除成對括號？llrabel [閒聊]分享 line捐血機器人asiagodfater [問題] 該如何寫入google試算表的指定位置呢？kiwigo1000