作者:
Proviay (白鷺鷥)
2019-05-08 12:15:09先前在板上討論到簡繁轉換的詞彙問題
有網友提到
奔馳<->賓士 (昨天還真的看到:在草原上賓士)
高達<->鋼彈
真的,除了導入人工智慧辨識上下文語意,不然還真的沒有最好解
上面那個轉換也不是,不轉換也不是
有興趣想知道目前的詞彙轉換,所以就稍微研究一下Calibre最常用的插件
Chinese text conversion plugin 作者 hopkins
這是有公開原始碼在Github
(不縮網址因為認為這樣比較好)
https://github.com/Hopkins1/TradSimpChinese
好奇查了一下目前所用的詞彙
以下link過長,請copy paste到網址列,直接點擊會失去部分網址
https://github.com/Hopkins1/TradSimpChinese/tree/master/resources/opencc_python/dictionary
或由
https://github.com/Hopkins1/TradSimpChinese
點擊進入
->resources
->opencc_python
->dictionary
裡面有好幾個詞彙檔案,有關臺灣用語的詞彙,有興趣的看看,還蠻豐富的
TWPhrases.txt
範例
主板 主機板
二極管 二極體
互聯網 網際網路
交互 互動
交互式 互動式
人工智能 人工智慧
TWPhrasesIT.txt
範例
信號 訊號 信號
信道 通道
傳感 感測
像素 畫素
僞代碼 虛擬碼
光標 游標
光盤 光碟
光驅 光碟機
免提 擴音
內存 記憶體
內核 核心
內置 內建
TWPhrasesName.txt
範例
圭亞那 蓋亞那
坦桑尼亞 坦尚尼亞
埃塞俄比亞 衣索比亞
基里巴斯 吉里巴斯
塔吉克斯坦 塔吉克
塞拉利昂 獅子山
TWPhrasesOther.txt
範例
元音 母音
出租車 計程車
咖喱 咖哩
奔馳 賓士
奶酪 乳酪
方便麵 速食麵
涼菜 冷盤
砹 砈
硅 矽
TWPhrasesRev.txt
看完原始碼,真的對這些詞彙轉換資料庫感到十分佩服
應該是吸收前人心血結晶的成果
大概可以說簡轉繁有99%的正確率,剩下的1%,大概只能期望日後有人工智慧補強了
如果覺得字詞庫不順眼,其實也可以自己修改
插件Chinese Text Conversion.zip位置在(以Windows為例)
C:\Users\YourUsername\AppData\Roaming\calibre\plugins\
我替換了ZIP檔內三個檔案(可以按照你的喜好修改)(修改時記得把Calibre關閉)
Chinese Text Conversion.zip\resources\opencc_python\dictionary\
TWPhrases.txt
TWPhrasesName.txt
TWPhrasesOther.txt
把奔馳->賓士拿掉(可接受看到奔馳汽車,也不能忍受在草原上賓士)
還有政治上吃臺灣豆腐的字眼給加入替換行列
下次再度開啟Calibre就生效啦,噹噹