[問題] 請問擷取原始碼中文問題

作者: Czero (悠閒)   2015-07-03 23:25:54
擷取的頁面:http://isin.twse.com.tw/isin/C_public.jsp?strMode=2
我是用python3 , sublime執行
但印出的中文會顯示如\xa1@\xa5x\xaad這樣字眼
使用python console >>> b'\xa1@\xa5x\xaad'.decode('utf-8')解不出來
請教各位這該如何解,編碼實在很惱人...
作者: yan12125 (姥姥)   2015-07-03 23:48:00
這個網頁是Big5
作者: Thisisnotptt (這不是PTT)   2015-07-04 00:10:00
我很懶,我都用django的smart_string來處理這種事,編碼什麼的幾乎都能搞定,超方便的啦
作者: Czero (悠閒)   2015-07-04 00:22:00
@@原來是big5..哈!因為初學所以先玩一下再去用Django
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 00:31:00
請愛用 chardet
作者: Czero (悠閒)   2015-07-04 00:35:00
感謝各位!另外請問...在console打>>>b'\xa5x\xaad'.decode('big5')但在程式打print(b'\xa5x\xaad'.decode('big5'))似乎不行?
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 01:38:00
Windows 請再加一段 .encode('cp950')
作者: Czero (悠閒)   2015-07-04 01:49:00
我是希望sublime可以也印出中文'台泥'的字眼
作者: uranusjr (←這人是超級笨蛋)   2015-07-04 16:27:00
不要用 Sublime Text console 謝謝

Links booklink

Contact Us: admin [ a t ] ucptt.com