[問題] 是網站改版?還是刻意防爬蟲? mejichoco PTT批踢踢實業坊

[問題] 是網站改版?還是刻意防爬蟲?

作者: mejichoco (UoU) 2021-08-16 15:52:23

因為工作的原因，還有暫時資料的擷取
需要到書店的網頁擷取資料
但是在爬了3個月之後，網站突然網址不一樣
然後request的內容跟開發者工具的HTML不一樣
但是因為image網站不穩定，那我直接到巴哈求助的內容
直接貼上來
https://forum.gamer.com.tw/Co.php?bsn=60292&sn=16212
這是爬蟲爬到的 requests
https://gist.github.com/cj044/f28bdb5372d8d9692bf07fa7d0fbc729
完全沒有，我所需要如下的價錢，以及裝訂(peprback)
這是開發者的 HTML
https://gist.github.com/cj044/9a889246299bb3562841e647706b438f
如果真的不行，我直接換網站好了
我只是要裡面的資料，不是要攻擊網站
還是用AMAZON 或是 ebay的API 直接代替爬蟲
但是Amazon 網路上沒有相關擷取書籍資料至EXCEL的python實作資料，實在很困擾

作者: x94fujo6 2021-08-16 18:40:00

https://i.imgur.com/PRL07xa.png

作者: Hsins (翔) 2021-08-16 23:20:00

老實說, 是你基礎不好, 天瓏沒這麼難爬- 對方網站沒有太多的方式判斷你是不是要攻擊他, 對他來說就是網路請求, 但這個請求如果太多太快, 對他來說可以用這個特徵認為你是要攻擊。實際上，售票網站那種搶票狀況對網站來說可以算是攻擊呀！因為會讓我伺服器無法正常處理。你用自動化的方式去拿資料，沒有銷售行為，對他來說也是種攻擊。- robots.txt 並不會影響你送請求跟返回的訊息，他是給一　些遵守規範的人／程式看的，有些自動化爬蟲程式看到不允就不會去爬他，當然你的爬蟲也可以忽略他的聲明繼續爬，順帶一提，如果對方 robots.txt 言明不想被爬但你還用自化手段獲取資料，在某些國家是違法行為會吃官司的。- 一樓的推文被你編輯文章刪掉了，我想他要說的是你想要的資料，都可以在請求後所拿到的 HTML 原始文件中取得，而這些資料被放在 <header> 元素中

作者: Kitten1156 (Frank_kitten) 2021-08-17 00:43:00

知道有robot.txt知道有robot.txt但是從來沒去認真看他哈

作者: poototo (poototo) 2021-08-17 08:31:00

降低爬速，加proxy

作者: mantour (朱子) 2021-08-18 22:55:00

我爬出來都很正常耶, 你是怎麼爬得要不要說一下

繼續閱讀

[問題] 公開資訊觀測站股東會爬蟲ccherry225 Re: [問題] 無法在MacOS上安裝tesseractHsins [問題] 無法在MacOS上安裝tesseractwuweihsun [問題] python有動態遮罩的語法嗎？poocherd [問題] dataframe指定index_col取值問題Talent14 Re: [問題] 多個function的變數需互通的運用ddavid Re: [問題] 多個function的變數需互通的運用piligo [問題] 多個function的變數需互通的運用piligo [問題] 開發網頁用Python好嗎？kinjk01 [資訊] 104人力銀行 Python 網路爬蟲實例g919233