請教大家有關爬蟲問題
我有爬蟲各航空公司的貨物運單狀態
甲去大陸購物 可從業者提供的報關單、主提單、副提單 查到包裹狀態
例如:飛機起飛與否等資訊、清關狀態
這是華航的CARGO 貨況查詢 網站
https://reurl.cc/5qKZzq
因為有JS所以利用selenium+BeautifulSoup 可以輕鬆爬到任何html資料
我不是用path下去定位而是抓取id找想要的到資料
但有些id長這樣:
ContentPlaceHolder1_rpFlightEvent_lblWgt_0
ContentPlaceHolder1_rpFlightEvent_lblPcs_0
ContentPlaceHolder1_rpFlightEvent_lblArrTime_0
ContentPlaceHolder1_rpFlightEvent_lblOff_0
Q1.id尾數都是無意義的亂碼字母與數字組成
我這次可以輕鬆爬到資料,下次該怎防範尾數產生新的亂碼id了?
Q2.如Q1. 網站這樣做 算是反爬蟲手段之一嗎?
謝謝