如題目
用原始碼會是一片這樣
logged_user = false;
var static_id_cdn = 2;
var html5player = new HTML5Player('html5video', '25522515');
if (html5player) {
html5player.setVideoTitle(');
html5player.setSponsors([{}]);
html5player.setVideoUrlLoW...........
其實還滿整齊的
我所要的網址都擺在了html5player.setVideoUrlLow裡面
使用bs4是好選擇嗎?該如何操作?
bs4不能解析js,如果re能抓出來就re吧,下策就selenium
嗯。通常是去看js完後它把資料丟哪去了。然後去抓那個結果建議可以po個網址來看看省時間
請問碰到html會先用xpath還是bs4?兩個不太會選
bs4有css也有xpath.如果用parsel(scrapy)只有xpath.所以bs4有個參數有html.parser/lxml/html5lib但只是速度不同或你也可以用html.parser模組的HTMLParser類自己刻一個或用html2text模組不parse自己去找內容所以bs4和xpath不是對比的選擇.而是xpath是bs4的選項之1bs4不能解析js是因為js需要瀏覽器才能跑(除非是node.js)
作者:
OrzOGC (洞八達人.拖哨天王)
2020-07-01 15:01:00我都爬出來找,xpath直接放棄...XD
^^如果還是說明不清楚可以說通常是css和xpath混用吧看哪一個可以達到目標