[問題] 爬蟲 Google search

作者: yoz4ni (yoooooz)   2020-06-09 11:25:13
請問一下
再拿到 response 後用 tag 去找資料會失敗
為什麼我執行的時候很容易失敗
https://i.imgur.com/xs0Hu1x.jpg
偶爾會成功
https://i.imgur.com/LF6VOjR.jpg
我 header 放
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
請問有人有遇到過這樣的問題嗎?
我後來把 cookie 也全部加進去也沒效 QQ
作者: pmove (金疾檸檬)   2020-06-09 12:22:00
失敗時,回傳的資料是?
作者: mychiux413 (小邱)   2020-06-09 12:30:00
找看看有沒有'recaptcha'的id,有的話就是機器人在擋爬google的所有動作最好是每5秒動一次比較安全如果recaptcha跳出來,可以休息10分鐘後再來
作者: yoz4ni (yoooooz)   2020-06-09 14:55:00
回傳的資料如果是找 tag 的話是沒資料的(空的)請問是 recaptcha 的話要在哪裡才能看的到呢?
作者: alvinlin (林矜業)   2020-06-09 15:54:00
https://opendata.cwb.gov.tw/indexhttps://i.imgur.com/FlRV1Na.jpg另Google Custom Search API 也參考有API用API吧。爬東西很累人的
作者: mychiux413 (小邱)   2020-06-09 16:05:00
會有一個element的id叫做'recaptcha', 可以用bs4找
作者: alvinlin (林矜業)   2020-06-09 16:22:00
找到recaptcha也沒用。破解不了的
作者: OrzOGC (洞八達人.拖哨天王)   2020-06-09 18:00:00
一個人硬幹是贏不過google那些工程師的
作者: yoz4ni (yoooooz)   2020-06-10 02:24:00
因為我是在練習,所以想說不去用 API 來抓資料看看還是說這樣的練習其實是不需要的OAO我晚點去把回傳資料找看看有沒有 id 是 recaptcha 的
作者: alvinlin (林矜業)   2020-06-10 03:13:00
也不是這樣說。因為看你已經正確抓到資料了,所以你的程式沒問題。但你如果是要去對付reCaptcha這我試過沒找到方法。所以你只能繞道。剛好這個有API那應該試著用其他方法取得資料,而不是和它硬幹。https://i.imgur.com/PxU7cb6.jpg
作者: vi000246 (Vi)   2020-06-10 09:07:00
通常google有api的東西就不要自己爬了 贏不了google工程師的
作者: shadowjohn (轉角遇到愛)   2020-06-10 09:26:00
爬的內容你連續多抓幾個分頁頻率一高就被檔了
作者: femlro (母豬教謀神異端審問官1.5)   2020-06-10 16:26:00
我有時候手動搜尋快一點都被擋了 何況爬蟲
作者: aidansky0989 (alta)   2020-06-10 16:35:00
只有更新cookies還不夠,IP時間等等都要調
作者: salmon12706 (Ellen)   2020-06-29 16:15:00
工研院人工智慧課程推薦https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com