※ 引述《deltazone (洋蔥)》之銘言:
: : 之前可能是我的誤解
: : 那這邊我用我的話解釋,你看看我有沒有理解錯誤 O_O
: : 先簡化問題,單純就漢字來說
: : 「大字庫」是一個納入了所有漢字正規編碼、簡碼與容錯編碼的編碼表
: : 這邊的容錯包含了同語言的異體字以及不同語言的同源字
: : 而「同源」是指像「龍、竜、龙」或是「體、体」這樣的字群
: : 所以打 LUL、LQL 或 AXF,龍、竜、龙都會同時出現在選字區
: : 這邊再輔以「語言模式」的功能,來決定第一順位的排序
: : 比方說,就算我打的是 LQL = 竜,我在簡中模式底下的第一順位也還是「龙」
: : 就算我拆的是 YJFK = 壊,我在繁中也還是以「壞」為第一順位
: : 是這樣嗎?
: 我用字也不夠精確,
: 另外大致沒錯!!!
: 擔心誤會再補一個說明,目前蝦米所包含的中文字
: 以現有的嘸蝦米字碼不變為準,不增加編碼,不減少編碼
: 其實編碼都沒變,只是把日 簡 繁 同樣的編碼(如lul)都統整在選字列中!
: 現行的簡體中文模式下:打lul會出現"龙",但在繁體中文模式中,
: 打lul卻無法出現"龙",改變成可以在字的選單中都出現"龙"
OK 我懂了,現在我們想的是一樣的東西了…XDDD
那我想這大字庫至少需要定義幾項東西
首先是一個文字的拆碼
有點像廢話,不過這是實際的問題 XD
而為了達成前述跨語言整合的效果,需要有人去整理我所說的同源字有哪些
現行的編碼表應該已經有相當程度的整理了
否則做不到打繁出簡或日文模式的漢字輸出
所以重點就是缺口有哪些了
再來是該文字在各種模式下的優先序
更精確來說,應該是考慮該文字的某種特定拆法的優先序
這會關係到切模式時或是撞碼時排序的問題
像是「圍、葉、啐、囲、叶」通通拆 OJJ
哪些屬於繁中,哪些屬於簡中,哪些是日文?
如果不屬於該語言就可以不定義優先序,通通塞到最後面就好了
若是該語言中有這些字,但拆法來自不同語言
則可用該語言的拆法為優先,其他語言為後
若是這些字同屬於該語言,那最後就是走現行的編碼順序
所以打 OJJ
繁中模式可能會排成「圍、葉、啐、囲、叶」
日文模式可能會排成「囲、葉、叶、圍、啐」(其中「啐」在現行日文模式打不出來)
簡中…我懶得切輸入法了,同理推論 Orz
: ===========================================================================
: 我覺得是不是誤會,以為我說要在中文模式下也要打日文很有效率!(不是這樣)
: 這不是我的初衷,在每個模式(日簡繁)時,是定義在此模式下,打此語言最有效率!
:
: "大字庫"的用意是每個模式(日簡繁)下,都可以用選字的方式,打出不同語言的文字!
: 雖然打不同語言文字時速度比較慢,因為要選字,但至少能打出來!
: 且此方式,不影響此模式下,該語言文字輸入的速度!
:
: 然後不要說這會拖慢輸入法的速度了XD
: 使用繁體中文模式!繁體中文還是一樣快!
: 但可以在繁中模式下,打出簡體字和日本漢字如此而已!!
: ============================================================================
是誤會,我並沒有「在中文模式下有效率地輸入日文」這樣的意思
可能是我表達的問題吧 Orz
: 至於怎樣才合格,你用的高興就算合格XD (開玩笑的別介意)
: 只是不知道怎麼回答了!
:
: 中文模式下,就照原本的方式輸入日文,
: 如打sa,等
: 但如打sa也出現さ和サ 在字的選單中,只是絕對不是在第一順位
: (這點可以討論,詳細日文你比我熟! 你來提建議如何 修改好了XD)
既然合不合格是自由心證,那我的想法是:不要改
或者說,不要打掉原來的編碼,我較傾向的是修正和補完
嘸蝦米的一些編碼其實就等於是把選字的動作內化了,我想善用這點
剛剛研究了一下現在的日文模式假名編碼,至少有以下規則:
(我是用官方提供的 gcin 日文模式表格試的)
* 以羅馬拼音為基礎,以「,」結尾輸入平假名,以「.」為結尾輸入片假名
- 含有一定程度的容錯能力,如 TSU, TU, 都能出「つ」, LA, RA, 都能出「ら」
* 以羅馬拼音後接 V 輸入小型的假名,如 TUV, = っ
* 以 L 或 X 為開頭也能輸入小型的假名,如 LTU, = っ
* 拗音如きゅ可以一次輸出兩字,以此例為 KYU,
* 特殊規則,如 っ 尚有 SS, TT, 等拆法,ー(長音符號)拆成 EE, 或 EE.
日文模式的漢字就不贅述了,對擅長字形的華語人士來說不成問題
裡面確實可以找到幾個問題
首先是假名的規則不透明
上面這些不是我無聊試出來的,就是剛剛去官網查碼交叉比對來的
官網給的規則只寫了這些:http://boshiamy.com/feature_basic_4_1.html
但有其他字如 VA. = ヷ、ヴァ 沒寫出來
而本身也有撞碼而與一般羅馬拼音選字序不同的地方
像 LA, 我期待出的字是「ぁ」,但第一候選字是「ら」
像 VA. 第一候選字是「ヷ」,可我期待的是「ヴァ」
再來是標點符號
我們的逗號是「,」,但日文中作為同樣用途的是「、」,也就是我們的頓號
「,」反而比較少用
雖然這可能影響不大,但和英文輸入的習慣不一樣的話,還是會卡卡的
要改進有幾個方向
* 仿照拗音的出字方式,加速促音的輸入
- 如打 KKU, 可以輸入「っく」兩字,會比分開打 TT, KU, 來得快且直覺
* 增加「、」拆碼「,」,在日文模式下比「,」優先輸出
- 理由同上,「、」比「,」雖然功能一樣但更常用
* L* 的假名編碼改以小字優先,再來才是ら行容錯
- 「ら」多數人會選擇打 RA, 而非 LA,
* V* 的假名編碼以「ヴ」的複合發音為優先,再來才是ヷ行字
- 前者較後者常用…至少我自己是很少看到後者
* 規則透明化,官網真的寫得太簡略了
- 「々」(漢字疊字)也算是常用符號,但我還得分開特別查才知道能怎麼打…
以上是日文程度 N95 的小弟一點見解 XD
: 補充說明:
: 優化日文,加入韓文,在如繁體中文模式下,大多打韓文和日文還是都會偏慢!
: 因為要選字!
: 只是因為大字庫的關係,在繁體中文模式下,也可以打得出來日文和韓文!
: 同理韓文模式下,打繁體中文也會變慢!但也可以打出繁體中文來!
這個我現在理解你想做的是什麼了
: 想反問,各位大大,那有什麼其他的改變可以幫助嘸蝦米走出台灣呢?
這個我還真的不知道…(倒
不過就你前面對我提出的客群的回應,你最大的重點就是「走出台灣」
而手段之一是「讓嘸蝦米不只是中文輸入法」
這也沒有絕對的對或錯,就只是個方法
我的看法是,嘸蝦米現在本身的環境是封閉的
在不了解法律的狀況下
我怕對它的編碼表做什麼事,或是基於它衍生新的編碼表,並且公開
會不會有法律上的問題
於是只能龜在這裡打打嘴砲提建議,官方接不接受又是另一回事
至於沒內建、授權問題這些前人也提過很多次了
要是能走出這個封閉的環境,應該會比較好推廣
: : 簡碼能加速是因為我們大量的常用字被配了簡碼,進而大幅減少輸入的字碼數
: : 如果日文的常用字和我們差太多,可能會發生冷門字反而在嘸蝦米有簡碼的狀況
: : 或是反過來,常用字反而得用正規拆碼
: : 我指的是這件事 XD
: 應該是我上面所說的問題?
: 我是用模式(日簡中)去區分!
我指的是像下面的狀況
比方說「對」這個字,在中文它很明顯非常常用,被指派了簡碼 A
但日文中「対」就沒有像中文那樣這麼常用
那這個簡碼在日文加速的效果就不明顯了
我明白你所說的切換語言模式不影響原本輸入速度的原因
但我的問題不在這裡
: → deltazone: 還有做變形字根表,但一踏入才知漢字之大XD 06/29 17:08
: → deltazone: 可是屬於一頭熱型! 目前變形和簡體字表難產中XD 06/29 17:09
多少可以體會劉先生當初發明嘸蝦米的辛苦了吧 XD
這部分如果有辦法讓多人共同作業的話,可能會輕鬆一點