[問題] 某電商購物網站爬蟲請益 rodyforeter PTT批踢踢實業坊

[問題] 某電商購物網站爬蟲請益

作者: rodyforeter (rodyforeter) 2019-01-03 05:16:21

各位大大安
最近在練習爬電商網站的商品資訊
目標網站是yahoo, pchome, momo
現在我已經可以爬yahoo跟pchome
最近在爬momo 發現momo好像有做反爬
試了好幾天一直爬不下來
說明我試過的方法
____________________________________________
從network那裡試著找有沒有api可以發request
→ 發現是用 post 的方式，帶params跟form_data
params有兩個
n 跟 t
n = 2002、2018 等等，先假設這個值固定
t 是utc+8 int 時間戳記 (ex:1546461729893)
之後encode utf-8 再貼在 url + "?" + 後面
form_data 直接照著發
然後 header的部分也有加 user-agent
試過用 requests.post 跟urllib.request.urlopen(request, data=form_data)
可是抓回來的都是一堆空白跟換行沒辦法抓到json資料
不知是我有遺漏的地方還是momo自己有做一些反爬機制讓bot抓不到資料
____________________
於是嘗試第二種方式 webDriver
因為我是在雲端linux ubuntu 16.04上面跑爬蟲
所以環境設定的部分其實不太會用
盡力使用了selenium + firefox + geckodriver
卻發現當我把目標網址丟進某個list裡面foreach去跑driver.get(url)
迴圈跑個兩三次就停住了
不斷修改測試後仍然失敗
現在連要發request去抓準備丟進list裡面的url都直接Message: connection refused
程式碼大概像這樣::
options = Options()
options.headless = True
options.set_capability("marionette", False)
driver = webdriver.Firefox(options=options,
executable_path='/home/ubuntu/geckodriver')
driver.set_page_load_timeout(20)
driver.set_script_timeout(20)
i = 1
for url in web_drive_urls:
str = "https://www.momoshop.com.tw" + url
print(str)
driver.get(str)
#time.sleep(5)
print(i)
i+=1
不知是否有好方法能成功爬取momo的商品資料?
理想上我希望可以用第一種方式直接得到json
不然就只好暫時放棄爬momo
謝謝大大們指點
補上我想抓的商品頁範例:
https://www.momoshop.com.tw/category/DgrpCategory.jsp?d_code=1106700047

作者: HenryLiKing (HenryLiKing) 2019-01-03 07:30:00

你是不是接了某個 Case XD

作者: jasonfghx (工人) 2019-01-03 08:18:00

WOW

作者: HenryLiKing (HenryLiKing) 2019-01-03 15:30:00

你是不是接了某個 Case XD

作者: jasonfghx (工人) 2019-01-03 16:18:00

WOW

作者: rodyforeter (rodyforeter) 2019-01-03 20:42:00

我這一看就超新手啊 1F太看得起我了XD

作者: jasonfghx (工人) 2019-01-03 22:25:00

你要做什麼功能要不要說說看我試試我的

作者: vi000246 (Vi) 2019-01-04 00:16:00

用fiddler看看他傳出去的封包跟你發送的有沒有差別

作者: rodyforeter (rodyforeter) 2019-01-04 18:28:00

抓一些商品資訊fiddler抓https好像要另外設定但我後來發現在robots.txt 裡面disallow對內部api的爬取所以現在應該會改為用web driver 雖然很慢又不穩..謝謝提供使用fiddler的方式抓封包

繼續閱讀

[問題] 神經網路 3 input 2 hidden 1 outputfishworm [問題] U-net問題請教jasonfghx [問題] matplotlib notebooksssh [閒聊] Anaconda要怎麼一行一行run+看變數值?LonelyDream [問題] pyserial b' prefixDNSKHY [問題] PyCharm如何叫出beautifulSoup補全yavis [問題] 爬蟲 XHR也找不到目標資料rodyforeter [問題] python與C# socket連結owem0410 [問題] 請問這個錯誤該如何處理OCEANSAE [問題] python3.6.6執行Wfuzz問題iso302721