※ 引述《reppoc (稍會)》之銘言:
: 我知道是因為繁體的後=簡體的后字
: 繁體的麵=簡體的面字,
: 簡體轉繁體時,
: 明明只要把所有有關字詞取代成正確的就好,
: 也沒多少個特例,
: 繁簡轉換程式就是做不到,
: 常常看YT影片字幕都會看到面麵不分、
: 后後不分,強迫症發作實在讓人很不舒服。
: 為什麼都沒有要改?
: 卦?
因為書寫的中文不像書寫的英文,有用空格分開成一個個的token,
書時使用的人造符號比較少,以致後面要用電腦處理時困難較大,
具體來說,就是中文的tokenization會比英文的tokenization更可能造成不理想的效果
例如:
后面>後面(O)
皇后面對質問>皇後面對質問(X)
結論是,不能隨便拿份對照表來匹配,很危險
如果書寫中文有人造符號事先切割成「皇后 面對 質問」
那用簡轉繁工具可以用最簡單的對照表、依匹配原則先長後短的方式處理
所以簡體版的「皇后」優先配對到,對應成正體版的「皇后」
(當然如果pattern長度一致時該先匹配誰又是另一個問題)
整體來說,書寫英文的人造符號比中文多,所以不只簡繁互換,
在很多事情上,書寫英文要處理起來相對問題比較少,
例如英文句首必然是大寫,但中文沒有大寫,
句首必為大寫,可以是一個很好用的規則,
例如一篇文章中,.?!"'等符號,後面接的1或2個空格後,理應出現大寫(當然有例外)
書寫中文當然也有人造符號,標點符號就是一個,
早期中文書籍是沒有標點符號的,至少沒有統一的標點符號
反過來說,書寫英文多了空格,在電腦處理上比書寫中文方便許多,
但也是有人主張應該反璞歸真,
取消書寫體中的人造符號,例如空格及標點符號,讓書寫更接近口語,
也就是讓「文」更接近「語」,不過幸好這種言論太邊緣了沒人理
但由於書寫中文在第一時間使用的人造符號比較少,後續要彌補已經很難,
除非用AI處理tokenization有極高準確率,
然後文章要先經過AI的tokenization後再去簡繁轉換,
不然后後不符、面麵不分不可能解決