[問題]Content-Encoding:gzip 爬蟲如何解壓縮 processior PTT批踢踢實業坊

[問題]Content-Encoding:gzip 爬蟲如何解壓縮

作者: processior (korman) 2016-10-14 23:47:33

最近在寫一隻爬蟲程式
遇到有些網站是採用gzip壓縮後再傳送資料
如果用python3 開啟
cj = Http_Cok.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
res = urllib.request.Request(html,headers = Header_data())
data = opener.open(res).read()
print(data)
都是十六進制的編碼，到網路上google 好像是要先解壓縮
否則beautifulsoup也無法解讀，畢竟不是utf-8 格式
網路上的解法試了也沒用大部分都是介紹pyton2的解法
不知道有人知道python3要如何解嗎??

作者: kenduest (小州) 2016-10-15 02:35:00

用 requests 比較省事

作者: laputaflutin (很恐怖，不要問) 2016-10-15 08:08:00

requests+1, 看這種等級的python api doc根本享受

作者: eight0 (æ¬¸XD) 2016-10-15 12:29:00

data = gzip.decompress(data)用 requests 比較方便+1

作者: kenduest (小州) 2016-10-15 16:16:00

發問者之前那篇就有人給他建議了，看起來應該是沒換以前個人用 python 一開始還不知道 requests 也是用 urllib, 真是搞死人，python 2,3 還稍微得改程式碼用 requests 之後就一切輕鬆，且要 keep-alive 也簡單

繼續閱讀

[問題] 初階程式碼dinoptt1993 Re: [問題] 高維矩陣內積newmilktea [問題] 高維矩陣內積ice80712 Re: [問題] 隱藏類別中的屬性uranusjr [問題] 隱藏類別中的屬性icetofux Re: [問題] DataFrame挑選特定值後的處理IMPOSSIBLEr [問題] DataFrame挑選特定值後的處理jimmy15923 [問題] django的csrf_tokenvanchy [問題]已解決尋找文章匹配的字出現次數Dyewiz [問題] jupyter 出現in[*]不能執行hesitate82