[問題] 網頁爬蟲 UTF-8無法解析

作者: KeyBoardKill (✩鍵✩盤✩戮✩)   2018-05-04 14:36:43
各位好
想請教一下各位,目前我正在爬一個Big5的網頁,爬回來後使用
.encode('big5', 'ignore').decode('utf-8', 'ignore') 將其轉碼
但是中文字的部分,全部顯示為亂數了,例如正常的名稱是
Dell E2216H 21.5吋 Monitor(3年到府保)
但轉換後變 Dell E2216H 21.5T Monitor(3~O) 這不知道甚麼東西.....
若是單純使用 .encode('utf-8', 'ignore')的話則會全部轉為字串值,但並不會解析成
中文字....
這會是我哪裡做錯了呢?懇請指點
https://i.imgur.com/yegep71.png
https://i.imgur.com/qPmMiyK.png
作者: ckc1ark (偽物)   2018-05-04 14:51:00
不處理就已經是字串了 你是要寫檔還是?環境是? 看起來他把big5的每個byte都encode成utf8 str
作者: uranusjr (←這人是超級笨蛋)   2018-05-04 15:25:00
你需要重想一下 encode decode 的意思, 如果有搞懂的話那行程式用看的就知道一定不對 (極端狀況除外)
作者: ckc1ark (偽物)   2018-05-04 15:29:00
在WebSite = ... 後加一行WebSite.encoding = 'big5'試試看起來是一開始抓到的資料就encode錯了
作者: cutekid (可愛小孩子)   2018-05-04 17:41:00
推 ck 大(Y)
作者: coeric ( )   2018-05-06 07:17:00

Links booklink

Contact Us: admin [ a t ] ucptt.com