Re: [請益] 字編碼問題

作者: LPH66 (-6.2598534e+18f)   2014-06-30 20:58:35
※ 引述《m7m123d ( )》之銘言:
: 在程式裡用pdftotext的方式將PDF檔轉成UTF-8的txt文字檔
: 接著抓出txt裡面的一段文字
: $_str = '生日:066年11月28日';
: $_str = str_replace("生日:", '', $_str);
: $_str = str_replace("年" , '', $_str);
: $_str = str_replace("月" , '', $_str);
: $_str = str_replace("日" , '', $_str);
: echo $_str;
: Output:066年1128
: 我手動複製沒被替換過去的「年」做替換,發現可行,
: google到是字元代碼不相同的問題,這個狀況第一次遇到,
: 想問一下版上大家有哪些經驗,想伸個關鍵字,謝謝。
有這種狀況的字其實不多
Unicode 有一區專門存放這種字: CJK Compatibility Ideographs U+F900~U+FAFF
http://unicode-table.com/en/sections/cjk-compatibility-ideographs/
http://www.unicode.org/charts/PDF/UF900.pdf
它是用來存放在 Unicode 所參照的來源編碼裡, 一個字被重覆編碼的狀況
這時其中一個會對應到正常的字 (U+4E00~U+9FFF 裡的)
另一個就會對應到這邊來
狀況中的"年"字是 U+F98E, UTF-8 編碼是 EF A6 8E, PHP 可用 "\xEF\xA6\x8E" 表示
(記得用雙引號, 否則 \x 會看不懂;
當然如果有這種字可複製也可以用複製的, 不過就要寫個註解)
不過由於字不多加上會出現這種字只有很有限的狀況, 碰到了再解就好...
(絕大多數情形下所輸入的字都會先對映到正常的範圍裡
加上這區裡的字有七成來自韓文編碼
可以說除非文件曾經經過韓文編碼不然幾乎不會有這種字)
作者: m7m123d ( )   2014-07-01 00:10:00
感謝你的分享,我來專研一下

Links booklink

Contact Us: admin [ a t ] ucptt.com