Re: [問卦] 繁簡轉換程式為何面麵、后後不分？ liquidbox PTT批踢踢實業坊

Re: [問卦] 繁簡轉換程式為何面麵、后後不分？

作者: liquidbox (æ¨¹æžæ“ºæ“º) 2023-10-09 20:45:32

※ 引述《reppoc (稍會)》之銘言：
: 我知道是因為繁體的後=簡體的后字
: 繁體的麵=簡體的面字，
: 簡體轉繁體時，
: 明明只要把所有有關字詞取代成正確的就好，
: 也沒多少個特例，
: 繁簡轉換程式就是做不到，
: 常常看YT影片字幕都會看到面麵不分、
: 后後不分，強迫症發作實在讓人很不舒服。
: 為什麼都沒有要改？
: 卦？
因為書寫的中文不像書寫的英文，有用空格分開成一個個的token，
書時使用的人造符號比較少，以致後面要用電腦處理時困難較大，
具體來說，就是中文的tokenization會比英文的tokenization更可能造成不理想的效果
例如：
后面>後面(O)
皇后面對質問>皇後面對質問(X)
結論是，不能隨便拿份對照表來匹配，很危險
如果書寫中文有人造符號事先切割成「皇后面對質問」
那用簡轉繁工具可以用最簡單的對照表、依匹配原則先長後短的方式處理
所以簡體版的「皇后」優先配對到，對應成正體版的「皇后」
（當然如果pattern長度一致時該先匹配誰又是另一個問題）
整體來說，書寫英文的人造符號比中文多，所以不只簡繁互換，
在很多事情上，書寫英文要處理起來相對問題比較少，
例如英文句首必然是大寫，但中文沒有大寫，
句首必為大寫，可以是一個很好用的規則，
例如一篇文章中，.?!"'等符號，後面接的1或2個空格後，理應出現大寫（當然有例外）
書寫中文當然也有人造符號，標點符號就是一個，
早期中文書籍是沒有標點符號的，至少沒有統一的標點符號
反過來說，書寫英文多了空格，在電腦處理上比書寫中文方便許多，
但也是有人主張應該反璞歸真，
取消書寫體中的人造符號，例如空格及標點符號，讓書寫更接近口語，
也就是讓「文」更接近「語」，不過幸好這種言論太邊緣了沒人理
但由於書寫中文在第一時間使用的人造符號比較少，後續要彌補已經很難，
除非用AI處理tokenization有極高準確率，
然後文章要先經過AI的tokenization後再去簡繁轉換，
不然后後不符、面麵不分不可能解決

繼續閱讀

[問卦] 七年級流行的DADA怎麼消失了ntupeap [問卦] 為何這次美國沒先撤僑啊？micky83802 [問卦] 你各位目前看過比超派更貴的雞排嗎???pprino [問卦] 火箭是怎麼判斷上下的？QQBB [新聞] 國內「謠言非常嚴重」　基層醫師：有幼教keel90135 [問卦] 有人黑咖啡加牛奶嗎？adsl15888 [問卦] 超派的超哥他本業是什麼？black1x2y3z [問卦] 以色列有400～500顆核彈沒人在乎嗎？palindromes Re: [問卦] 連以色列鐵穹防空系統被打穿台灣怎辦?Uber [問卦] 我是不是準備裝假牙了？zxcv7892341