[問題] 萊爾富門市爬蟲 踢到鐵板

作者: somehog (低進)   2020-05-09 17:58:24
各位大大好,遇到一個鐵板,
可能跟程式語言比較沒關係,
專案需要定期抓萊爾富的全部所有門市,
找到其官網門市查詢所在位置,
https://www.hilife.com.tw/storeInquiry_street.aspx
大約看一下網頁原碼,
應該是ASP.Net & WebForm無誤,
GET跟POST都是這一支,
所以邏輯思路如下:
方法1:
先用GET不帶參數發出Request,
取得回傳網頁後,剖析取出
__VIEWSTATEGENERATOR
__EVENTVALIDATION
__VIEWSTATE
__EVENTTARGET
__EVENTARGUMENT
__LASTFOCUS
等等數值,
然後塞入POST內,
再填入自訂的縣市CITY與鄉區AREA後,
發出Request,
台北市全區沒問題,
都可以取得門市資料,
但詭異的是:
其他縣市與鄉區卻直接拒絕連結.....!!??
試用方法2
先用GET取得__VIEWSTATE值之後,
再發出台北市中山區的POST,
得到正常回傳結果後再取一次全部__VIEWSTATE值,
然後再塞入,填上新北市林口區再發出POST,
.....一樣失敗,拒絕連結!
試用方法3
把GET取得__VIEWSTATE值,
手工寫入靜態HTML網頁內的FORM input內,
指定雲林縣虎尾鎮
然後按submit post出去,
.........成功正常回傳
感覺有點崩潰,沒頭緒....
猜想因為台北市是default頁,
所以沒有設檢查,
不瞭解ASP.Net的後端作法,
有大大可以提供解法建議嗎?
感恩~
作者: mirror0227 (鏡子)   2020-05-09 18:19:00
這時候應該要看你打成功的跟打失敗的差別吧
作者: aidansky0989 (alta)   2020-05-09 18:21:00
我昨天爬ubereats是用cookie,裡面有QLoc之類的cookies,ˊ真的沒想法從網址下手也可不過爬蟲本來就要花時間摸網頁結構,直接開selenium萬解也可
作者: goldflower (金色小黃花)   2020-05-09 20:16:00
想研究倒店與位置的關聯性嗎
作者: s860134 (s860134)   2020-05-09 21:40:00
有寫過網頁了解前後端架構對爬蟲也會有幫助
作者: TakiDog (多奇狗)   2020-05-09 23:34:00
我很討厭這種架構 不用Selenium也能解我是把這種網頁當用後端渲染前端XDDD你要注意到 要跳縣市 __EVENTTARGET 是要是 CITY每一個request 都要接著上個request中的hidden form只要有一個環節錯 就炸掉了我寫一個看看
作者: somehog (低進)   2020-05-09 23:51:00
期待T大抓到真兇
作者: TakiDog (多奇狗)   2020-05-10 00:08:00
回你了在板上,之前做過類似的,而且還是一個請假系統...每請一節課要1個封包XD
作者: vi000246 (Vi)   2020-05-10 10:41:00
我先不看回覆猜一下 每次選擇縣市dropdown都會重新刷新網頁,所以viewState等參數,也要重新取得需要分析各縣市 對於html隱藏參數的影響我選擇縣市dropdown 不會有新的cookie 應該跟cookie無關看起來__VIEWSTATE跟__EVENTVALIDATION都會隨著更換縣市而跟著更換,所以要研究一下如何取得新的隱藏欄位值
作者: TakiDog (多奇狗)   2020-05-10 12:22:00
hidden我沒看萊爾富這的,之前做過的是XML然後是沒辦法靠自己生產出來的,如果能自己生產出來就能跳頁爬了

Links booklink

Contact Us: admin [ a t ] ucptt.com