[問題] 請問python3.0怎麼去除半型全型標點符號

作者: ptero (ptero)   2015-04-05 20:46:44
由於中文資料中會有全形半型標點混雜使用,而且也太多種難以列舉。
想問有沒有比較聰明的方法解決。
作者: Francophone (aiuto)   2015-04-05 21:44:00
ASCII code?
作者: BelkanWar (哼哼)   2015-04-05 21:53:00
用replace,把全形通通轉成半形
作者: ptero (ptero)   2015-04-05 22:00:00
utf-8。 replace 有能一次把全部全型轉半行型的方法?
作者: ccwang002 (亮)   2015-04-05 23:23:00
http://codex.wiki/post/183789-524/去算 codepoint 蠻容易炸的,用 dict 列舉比較保險上面那個 code 要再調整,吃到 ',' 和 '「」' 都有問題https://gist.github.com/b225921b98ca864d0dd6可以搭配 unicodedata.east_asian_width 去判算字寬
作者: uranusjr (←這人是超級笨蛋)   2015-04-05 23:33:00
0x3000 是 ideographic space, 真正的全型空白其實確實有和其他字元連在一起, 是 0xff00; 這種轉換其實除了上面的全半形對應外真的沒有特別好的方法, 不如列舉沒事別亂捅 Unicode 這螞蜂窩, 不然怎麼死的都不知道
作者: ptero (ptero)   2015-04-06 12:14:00
感謝

Links booklink

Contact Us: admin [ a t ] ucptt.com