[問題] Beautifulsoup的get_text()問題 peace9527 PTT批踢踢實業坊

[問題] Beautifulsoup的get_text()問題

作者: peace9527 (謝謝你9527) 2016-01-30 10:45:15

昨天用BeautifulSoup(BS)的get_text()成功抓取網頁資料
但是問題出現了
我抓的網站是簡體字網站
但是用get_text()抓出來的是像這樣的資料：
b'/x56/x34/x49/x04'
我查看了一下他的資料型態是bytes
網頁的編碼是UTF-8 我電腦的預設編碼也是UTF-8
我想把這個資料轉成用原本的簡體字顯示請問有辦法嗎？
感謝各位大神的幫忙！

作者: ocean5566 (ç…™å¤§å±Œç†Ÿç”·) 2016-01-30 17:47:00

decode

作者: peace9527 (謝謝你9527) 2016-01-30 21:42:00

不過他內容前面有個b 需要把他變成u再decode嗎？

作者: ccwang002 (亮) 2016-01-31 02:12:00

b'...' 表示是 bytes，就直接 decode 不用什麼 u

繼續閱讀

[問題] 從網頁抓取資料bbsx [問題] Scipy 極大化限制式寫法求解horby Re: [問題] 關於字典以及序列的排序問題MOONY135 [問題] 關於字典以及序列的排序問題allan5411 [資訊] Django學習過程直播stupidgod08 Re: [問題] urllib.quote處理中文，結果與瀏覽器不同ResolaQQ [問題] urllib.quote處理中文，結果與瀏覽器不同Serenity9078 Re: [問題] 爬取彈出視窗內容jeijei [問題] python進階書籍推薦amigcamel [問題] 爬取彈出視窗內容jeijei