PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] 爬蟲 jsp網頁 亂碼
作者:
aaa7513231
(渾沌與秩序)
2016-03-14 21:03:26
大家好
這幾天再爬一個jsp的網頁
但爬到的內容中文部分都是亂碼
不管我怎樣編譯都沒辦法辨識(轉utf-8)
我在想是不是jsp的編碼比較特別?
大概長這樣
ªZc ÷ºXÄ¥c ±
我爬了一堆文,想破頭也對python的編碼快搞混了
想請大家幫忙想想,不知道問題是出在哪一段上
如果是用瀏覽器看網頁是正常中文的
作者:
hsnusonic
(sonic)
2016-03-14 21:17:00
要看那個網頁用什麼encoding
作者:
aaa7513231
(渾沌與秩序)
2016-03-14 21:31:00
Accept-Encoding:gzip, deflate 應該是這個吧?我有嘗試編譯gzip 但一樣亂碼....
作者:
kenduest
(小州)
2016-03-15 13:06:00
可能交代一下抓取的方式,要不然很難猜你的問題另外要確認一下你所在的環境是在 windows or linux 上windows cmd 上一般預設編碼都是 big5, 而 linux 上目前環境一般都 utf8, 終端機的編碼也直接是 utf8若你抓取要顯示的文字編碼與工作顯示環境編碼不同會亂碼至於1,2 說那個是壓縮,我想應該是要問 charset 編碼
作者:
aaa7513231
(渾沌與秩序)
2016-03-17 00:42:00
感謝K大!!! 我是使用windows環境的 所以是big5之前一直被utf-8給誤導,以為都是使用他去編碼的
繼續閱讀
[問題] matplotlib在數據下積分
sam122094
Re: [問題] 模組路徑
Neisseria
[問題] 模組路徑
lihsianglin
[問題] 排序多個 dict 的集合
zha0
Re: [問題] 有關於寫檔及取代問題
justfor0223
Re: [問題] 有關於寫檔及取代問題
Neisseria
[問題] 有關於寫檔及取代問題
justfor0223
Re: [問題] 比較並取代字串的文字
iyaicharles
[問題] 比較並取代字串的文字
eric2853
Re: [問題] 正規表達式 有好方法表達 非數字的字母嗎
Neisseria
Links
booklink
Contact Us: admin [ a t ] ucptt.com