[問題] 爬蟲資料返回虛假資料

作者: aidansky0989 (alta)   2020-04-29 22:02:41
最近練習爬資料時,
在爬蝦皮發現返回的資料量很少且
爬到100筆左右數據以後會返回虛假
資料。
嘗試過消除瀏覽器cookie:
1.模擬常人訪問時間
import time
import random
time. sleep(random.randint(1,9))
2.固定狀態更新cookies, 用requests. cookies. get_dict(),觀察發現更新後的cookie
跟我定義的cookie字典不同,在想是否有session Id留在蝦皮伺服器記錄session
import requests
session=requests.session()
params={}
cookie_dict={}
headers={}
session. cookies. update(cookie_dict)
session. get(url,cookies=cookie_dict,
params=params,headers=headers)
3.proxies={"http":"代理ip","https":"代理ip"}
請求頭加入proxies=proxies
1,2試過無效,3每次用都404斷線,想請問版上高手的建議,謝謝!
作者: vi000246 (Vi)   2020-04-29 22:48:00
什麼叫虛假資料? 感覺是有限制ip請求上限
作者: aidansky0989 (alta)   2020-04-29 23:30:00
遇到的問題是1.預計爬20頁資料,實際只爬出2-3頁的資料量2.約第100筆以後的資料是投毒返回,價格返回亂數,店家地址只返回第一個字,圖片網址亂碼。前100筆搜尋驗證過資料數值都正確過一段時間再爬又可以爬出約100筆正確資料,推測可能是cookies時效已過被清除。電腦試過改用代理IP,換過多個代理IP都無法連線
作者: wsybu (%小步步%)   2020-04-30 14:05:00
有試過設定User-Agent?
作者: aidansky0989 (alta)   2020-04-30 17:44:00
user-agent有設,放在headers
作者: pandajohn (貓熊醬)   2020-04-30 22:13:00
幫推一個 我也好奇後續解法
作者: s860134 (s860134)   2020-05-01 11:58:00
可以給個網址範例讓大家試試?cookie 會一直變很正常的,因為 response 有 set-cookierequests 模擬瀏覽器行為當然會把 cookie 進行更新如果你是爬搜尋頁面,他要求 header "referer" 正確
作者: salmon12706 (Ellen)   2020-06-29 16:18:00
工研院人工智慧課程推薦https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com