[問題] 新手請教簡體中文編碼問題 youngberry PTT批踢踢實業坊

[問題] 新手請教簡體中文編碼問題

作者: youngberry (Asheqetam) 2013-12-31 03:16:59

各位好，
目前在windows英文介面中使用python2.7 IDLE欲處理大陸的文本分類語料庫時
遇到了中文編碼的問題。主要是想利用該語料庫找搭配詞和文本類別之間的關連
首先，我利用NLTK工具包裡的CategorizedPlaintextCorpusReader
讓python將文本及其所屬的類別對應起來。
用chardet測出文件使用的是gb2312編碼。
當我試著印出某一篇文章（中英夾雜）時
print reader.raw('C11-Space/C11-Space0001.txt').decode('gb2312',
errors='ignore').encode('cp950', errors='ignore')
雖然大部分的中文字可以印出來。但是許多重要的字卻呈現?，這樣可能會影響結果
不知道各先進有沒有比較好的處理方式呢？
另外，在網路上看到有人推薦結巴分詞對中文進行分詞，
還是說能不能用nltk裡的分詞工具對中文進行分詞？
最後想請教該如何清除中文的停止詞呢？nltk包裡的停止詞語料庫似乎不包含中文。
感謝回答先

作者: mail6543210 (mail6543210) 2012-01-01 00:13:00

可能是big5編碼沒有簡字，轉成utf8或直接用unicode處理?或是套繁簡轉換成正體?

作者: youngberry (Asheqetam) 2012-01-01 18:45:00

感謝回覆，昨晚對編碼找到了解決辦法先在第一行宣告# -*- coding: utf-8 -*-程式碼encode的部分相對改成.encode('utf-8') 即可

繼續閱讀

[問題] 請問順時針旋轉座標，出現亂碼jeeyi345 Re: [問題] fslove 傳遞變數KSJ Re: [問題] google trend APINeisseria [問題] fslove 傳遞變數diesnow Re: [問題] class str繼承問題ya790206 [問題] google trend APIb92299 [問題] class str繼承問題tumc [問題] variable的定義popjuice [問題] 怎麼讓這段程式跑更快？Neisseria Re: [問題] 請問怎麼宣告輸入為不同型態？MAGICXX