[問題] 網頁編碼問題 (unicode轉字串) imYu1234 PTT批踢踢實業坊

[問題] 網頁編碼問題 (unicode轉字串)

作者: imYu1234 (:)) 2018-08-09 01:53:16

各位好, 小弟在爬網頁時遇到unicode的字符卻無法轉成正常文字, 想了解如何處理
(我是用python3)
這邊是從網頁中取得的部分字串:
\u003Cspan>\u003Ci class=\"_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b\">\u003C\/i>\u003C\/span>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003C\/div>\u003Cdiv
class=\"_5pbx userContent _3576\"
我自己透過線上unicode decoder解出來合理結果應該會變成:
<span><i class="_1lbg img sp_Y1V9mWwfjKn_1_5x
sx_487a1b"></i></span></div></div></div></div></div></div></div></div></div><div
class="_5pbx userContent _3576"
我看了網路上教得寫法是用下列方式decode
text.encode(encoding='utf-8',errors='replace').decode('utf-8')
不過結果還是一樣沒解成功...
然後我又發現一個盲點, 就是同樣的字串我存在txt檔後讀出來解碼會解失敗
f = open('test.txt','r', encoding='utf-8')
text = f.readline()
text = text.encode(encoding='utf-8',errors='replace').decode('utf-8')
但我直接把unicode的字串存進一個變數他在編譯時自動就解碼了(我是用pycharm)
如:
text = '最上面提供的unicode字串'
想請教一下到底該怎麼寫才能成功轉出來呢?

作者: stucode 2018-08-09 19:56:00

text.encode('UTF-8').decode('unicode-escape')

作者: imYu1234 (:)) 2018-08-10 10:43:00

可以了! 感謝樓上

繼續閱讀

[問題] 網頁爬蟲問題senso [問題] import失敗honoYang [問題] Django admin widget問題kalapon [問題] 新手Python 一些問題rxs80087 [問題] ImportErrorcallmejohn [問題] python 學習的方向ching4562 [問題] spyder沒有out跑出來@@?silverair [問題] 直方圖重疊不疊加pig98520 [問題] 資料合併問題unknown [問題] Google登入aa12twtwaa