Re: [問題] python 爬蟲得到加密的資料

作者: Hsins (翔)   2022-11-04 16:37:31
※ 引述《a199111222 (oyeh)》之銘言:
: 先附上想爬的網頁
: https://marketchameleon.com/Overview/AAPL/Similar/
: 想要爬取表格的全部資料
: 以前用post 抓下來的格式是json
: 現在是一串亂碼
: 請問這樣還有辦法爬嗎?
要爬是能爬,但就看你要花多少時間跟成
本去處理他而已。
: 我用selenium去開這個網址,連表格內資料也不顯示......
: 有大大能提供解決的方向嗎?謝謝
透過開發者工具可以發現,這些資料是打
POST 請求到對方的 IIS 伺服器拿到編碼
過後的資料,這個我想你應該已經取得。
如果你嘗試去檢查他拿到這份資料在幹嘛
,會發現這個 AJAX 操作在成功取得資料
後會呼叫以下這個函數:
https://i.imgur.com/04uNmaA.png
作者: Hsins (翔)   2022-11-04 16:57:00
不過看起來 xcr_json_inner() 就能解碼成原來的 JSON 了
作者: lycantrope (阿寬)   2022-11-04 17:08:00
佛心來著w
作者: surimodo (好吃棉花糖)   2022-11-04 17:49:00
1也不是不行 但研究要解碼那串真的太麻煩了 他包了好幾層很難解最後實際解好像是 enc_dcr_xor 這個函式
作者: a199111222 (oyeh)   2022-11-04 17:57:00
作者: cuteSquirrel (松鼠)   2022-11-04 18:04:00
專業推
作者: Hsins (翔)   2022-11-04 18:29:00
大概是連文都懶得看ㄅ
作者: cloki (夜雲天)   2022-11-04 19:42:00
專業推
作者: yiche (你若安好,便是晴天)   2022-11-04 19:54:00
哈哈哈哈哈 還幫trace 太好心啦
作者: cuteSquirrel (松鼠)   2022-11-04 20:17:00
樓主今天超佛
作者: smartree (阿路)   2022-11-05 00:44:00
感謝
作者: chang1248w (彩棠)   2022-11-05 02:22:00
作者: TakiDog (多奇狗)   2022-11-05 06:53:00
哈哈 佛心給推
作者: a199111222 (oyeh)   2022-11-05 09:44:00
謝謝版主專業的回覆,讓我有方向,雖然我還沒成功...對新手來說有點太難,需要一點時間消化,再次感謝隱藏selenium的webdriver就成功了,感謝版主
作者: aidansky0989 (alta)   2022-11-05 17:30:00
爬蟲就是要動點腦破解
作者: KINGWAP (阿姆斯撞)   2022-11-05 23:38:00
完全看嘸 只能無腦推
作者: cmsisgod (單寧酸)   2022-11-06 07:24:00
版上一堆高手@@
作者: hackmoney   2022-11-08 14:28:00
佛心 推一個

Links booklink

Contact Us: admin [ a t ] ucptt.com