Re: [討論] 嘸蝦米規則和中文日文韓文大一統 Frozenmouse PTT批踢踢實業坊

Re: [討論] 嘸蝦米規則和中文日文韓文大一統

作者: Frozenmouse (ï¼Šå†°ä¹‹é¼ ï¼Š) 2015-06-29 22:26:51

※ 引述《deltazone (洋蔥)》之銘言：
: : 之前可能是我的誤解
: : 那這邊我用我的話解釋，你看看我有沒有理解錯誤 O_O
: : 先簡化問題，單純就漢字來說
: : 「大字庫」是一個納入了所有漢字正規編碼、簡碼與容錯編碼的編碼表
: : 這邊的容錯包含了同語言的異體字以及不同語言的同源字
: : 而「同源」是指像「龍、竜、龙」或是「體、体」這樣的字群
: : 所以打 LUL、LQL 或 AXF，龍、竜、龙都會同時出現在選字區
: : 這邊再輔以「語言模式」的功能，來決定第一順位的排序
: : 比方說，就算我打的是 LQL = 竜，我在簡中模式底下的第一順位也還是「龙」
: : 就算我拆的是 YJFK = 壊，我在繁中也還是以「壞」為第一順位
: : 是這樣嗎？
: 我用字也不夠精確，
: 另外大致沒錯!!!
: 擔心誤會再補一個說明，目前蝦米所包含的中文字
: 以現有的嘸蝦米字碼不變為準，不增加編碼，不減少編碼
: 其實編碼都沒變，只是把日簡繁同樣的編碼(如lul)都統整在選字列中!
: 現行的簡體中文模式下:打lul會出現"龙"，但在繁體中文模式中，
: 打lul卻無法出現"龙"，改變成可以在字的選單中都出現"龙"
OK 我懂了，現在我們想的是一樣的東西了…XDDD
那我想這大字庫至少需要定義幾項東西
首先是一個文字的拆碼
有點像廢話，不過這是實際的問題 XD
而為了達成前述跨語言整合的效果，需要有人去整理我所說的同源字有哪些
現行的編碼表應該已經有相當程度的整理了
否則做不到打繁出簡或日文模式的漢字輸出
所以重點就是缺口有哪些了
再來是該文字在各種模式下的優先序
更精確來說，應該是考慮該文字的某種特定拆法的優先序
這會關係到切模式時或是撞碼時排序的問題
像是「圍、葉、啐、囲、叶」通通拆 OJJ
哪些屬於繁中，哪些屬於簡中，哪些是日文？
如果不屬於該語言就可以不定義優先序，通通塞到最後面就好了
若是該語言中有這些字，但拆法來自不同語言
則可用該語言的拆法為優先，其他語言為後
若是這些字同屬於該語言，那最後就是走現行的編碼順序
所以打 OJJ
繁中模式可能會排成「圍、葉、啐、囲、叶」
日文模式可能會排成「囲、葉、叶、圍、啐」（其中「啐」在現行日文模式打不出來）
簡中…我懶得切輸入法了，同理推論 Orz
: ===========================================================================
: 我覺得是不是誤會，以為我說要在中文模式下也要打日文很有效率!(不是這樣)
: 這不是我的初衷，在每個模式(日簡繁)時，是定義在此模式下，打此語言最有效率!
:
: "大字庫"的用意是每個模式(日簡繁)下，都可以用選字的方式，打出不同語言的文字!
: 雖然打不同語言文字時速度比較慢，因為要選字，但至少能打出來!
: 且此方式，不影響此模式下，該語言文字輸入的速度!
:
: 然後不要說這會拖慢輸入法的速度了XD
: 使用繁體中文模式!繁體中文還是一樣快!
: 但可以在繁中模式下，打出簡體字和日本漢字如此而已!!
: ============================================================================
是誤會，我並沒有「在中文模式下有效率地輸入日文」這樣的意思
可能是我表達的問題吧 Orz
: 至於怎樣才合格，你用的高興就算合格XD (開玩笑的別介意)
: 只是不知道怎麼回答了!
:
: 中文模式下，就照原本的方式輸入日文，
: 如打sa,等
: 但如打sa也出現さ和サ在字的選單中，只是絕對不是在第一順位
: (這點可以討論，詳細日文你比我熟! 你來提建議如何修改好了XD)
既然合不合格是自由心證，那我的想法是：不要改
或者說，不要打掉原來的編碼，我較傾向的是修正和補完
嘸蝦米的一些編碼其實就等於是把選字的動作內化了，我想善用這點
剛剛研究了一下現在的日文模式假名編碼，至少有以下規則：
（我是用官方提供的 gcin 日文模式表格試的）
* 以羅馬拼音為基礎，以「,」結尾輸入平假名，以「.」為結尾輸入片假名
- 含有一定程度的容錯能力，如 TSU, TU, 都能出「つ」， LA, RA, 都能出「ら」
* 以羅馬拼音後接 V 輸入小型的假名，如 TUV, = っ
* 以 L 或 X 為開頭也能輸入小型的假名，如 LTU, = っ
* 拗音如きゅ可以一次輸出兩字，以此例為 KYU,
* 特殊規則，如っ尚有 SS, TT, 等拆法，ー（長音符號）拆成 EE, 或 EE.
日文模式的漢字就不贅述了，對擅長字形的華語人士來說不成問題
裡面確實可以找到幾個問題
首先是假名的規則不透明
上面這些不是我無聊試出來的，就是剛剛去官網查碼交叉比對來的
官網給的規則只寫了這些：http://boshiamy.com/feature_basic_4_1.html
但有其他字如 VA. = ヷ、ヴァ沒寫出來
而本身也有撞碼而與一般羅馬拼音選字序不同的地方
像 LA, 我期待出的字是「ぁ」，但第一候選字是「ら」
像 VA. 第一候選字是「ヷ」，可我期待的是「ヴァ」
再來是標點符號
我們的逗號是「，」，但日文中作為同樣用途的是「、」，也就是我們的頓號
「，」反而比較少用
雖然這可能影響不大，但和英文輸入的習慣不一樣的話，還是會卡卡的
要改進有幾個方向
* 仿照拗音的出字方式，加速促音的輸入
- 如打 KKU, 可以輸入「っく」兩字，會比分開打 TT, KU, 來得快且直覺
* 增加「、」拆碼「,」，在日文模式下比「，」優先輸出
- 理由同上，「、」比「，」雖然功能一樣但更常用
* L* 的假名編碼改以小字優先，再來才是ら行容錯
- 「ら」多數人會選擇打 RA, 而非 LA,
* V* 的假名編碼以「ヴ」的複合發音為優先，再來才是ヷ行字
- 前者較後者常用…至少我自己是很少看到後者
* 規則透明化，官網真的寫得太簡略了
- 「々」（漢字疊字）也算是常用符號，但我還得分開特別查才知道能怎麼打…
以上是日文程度 N95 的小弟一點見解 XD
: 補充說明:
: 優化日文，加入韓文，在如繁體中文模式下，大多打韓文和日文還是都會偏慢!
: 因為要選字!
: 只是因為大字庫的關係，在繁體中文模式下，也可以打得出來日文和韓文!
: 同理韓文模式下，打繁體中文也會變慢!但也可以打出繁體中文來!
這個我現在理解你想做的是什麼了
: 想反問，各位大大，那有什麼其他的改變可以幫助嘸蝦米走出台灣呢?
這個我還真的不知道…（倒
不過就你前面對我提出的客群的回應，你最大的重點就是「走出台灣」
而手段之一是「讓嘸蝦米不只是中文輸入法」
這也沒有絕對的對或錯，就只是個方法
我的看法是，嘸蝦米現在本身的環境是封閉的
在不了解法律的狀況下
我怕對它的編碼表做什麼事，或是基於它衍生新的編碼表，並且公開
會不會有法律上的問題
於是只能龜在這裡打打嘴砲提建議，官方接不接受又是另一回事
至於沒內建、授權問題這些前人也提過很多次了
要是能走出這個封閉的環境，應該會比較好推廣
: : 簡碼能加速是因為我們大量的常用字被配了簡碼，進而大幅減少輸入的字碼數
: : 如果日文的常用字和我們差太多，可能會發生冷門字反而在嘸蝦米有簡碼的狀況
: : 或是反過來，常用字反而得用正規拆碼
: : 我指的是這件事 XD
: 應該是我上面所說的問題?
: 我是用模式(日簡中)去區分!
我指的是像下面的狀況
比方說「對」這個字，在中文它很明顯非常常用，被指派了簡碼 A
但日文中「対」就沒有像中文那樣這麼常用
那這個簡碼在日文加速的效果就不明顯了
我明白你所說的切換語言模式不影響原本輸入速度的原因
但我的問題不在這裡
: → deltazone: 還有做變形字根表，但一踏入才知漢字之大XD 06/29 17:08
: → deltazone: 可是屬於一頭熱型! 目前變形和簡體字表難產中XD 06/29 17:09
多少可以體會劉先生當初發明嘸蝦米的辛苦了吧 XD
這部分如果有辦法讓多人共同作業的話，可能會輕鬆一點

作者: xxvi (與我懷抱相同的異教信仰) 2015-06-30 09:17:00

如果大字庫指的是把同源（編碼相同？）的字甚至符號全部列出，那麼感覺會比現有的候選字串長很多？這大概就需要留給嘸蝦米公司評估實用性跟推出後能不能吸引新使用者了，我個人是偏好它打字時幾乎可以不看候選字串這一點就是XD另外自製編碼表作為建議應該是沒有問題的，但是「對現有編碼表做什麼」這邊我不太懂，如果是要自己建一套測試版的新蝦米輸入並發布可能有疑慮，不過提出修正想法公開討論或提給公司的話應該沒有太大問題啦:~

作者: Frozenmouse (ï¼Šå†°ä¹‹é¼ ï¼Š) 2015-06-30 11:36:00

沒有錯，假設今天我有時間整理了一個基於嘸蝦米的改進表格，自行發佈給人試用，那可能就會有問題…所以不是用其他方式規避就是只能交給官方決定了我那句主要指的是這個XD至於大字庫的候選字，以他的論點來說，應該是在不破壞繁中現有編碼的前提下做這件事，若排序得好的話打起來手感應該是和現在一樣的同源指的是跨語言判定屬同義的字，不知有無正式名稱

作者: deltazone (洋蔥) 2015-06-30 23:51:00

同源應該是指中日韓統一表意文字!?unicode編碼連結打不上自行維基百科 "中日韓統一表意文字"

作者: Frozenmouse (ï¼Šå†°ä¹‹é¼ ï¼Š) 2015-07-01 01:28:00

很接近，但我不確定有無因為異體字而被編成兩個碼的另外像叶(cn)和葉(tw&jp)是被我歸在同源的CJK統一表意文字則著重在字形https://goo.gl/J0zIiP 這是中文維基條目可能要找其他名稱，同源會和統一漢字的來源混淆XD

作者: deltazone (洋蔥) 2015-07-01 04:49:00

把現有嘸蝦米繁簡日模式中所有字所有編碼統整就可以初步解決 "鱇" 在繁中模式找不到狀況!也是我所說的大字庫的雛型了沒那麼複雜現行的簡體模式打 rst可以打出"叶"現行的繁體模式打 ojj也可以打出葉(只是要選字)異體字的部分之前整理變形字根有遇過!如:"奐""換"有些字體下面是兩點如八看著字打打不出中日韓統一表意文字的確和你說的不太一樣! XD目前可以聯想到的是大陸官方發行的簡化字對照表另外編碼表要補缺口我覺得看要(能)做到什麼程度!?不補缺口其實也可只是做的比較粗淺，像andriod手機使用lime-hd打嘸蝦米那樣!另外"對"簡碼的問題，提個方案，日文模式下，簡碼重訂但打a 也可以找到 "對"XD 只是在後面的順序!有點大膽，但本著各個模式其實是獨立的輸入法看待!

繼續閱讀

Re: [討論] 嘸蝦米規則和中文日文韓文大一統deltazone Re: [討論] 嘸蝦米規則和中文日文韓文大一統Frozenmouse Re: [討論] 嘸蝦米規則和中文日文韓文大一統deltazone Re: [討論] 嘸蝦米規則和中文日文韓文大一統Frozenmouse Re: [討論] 嘸蝦米規則和中文日文韓文大一統deltazone [問題]請問關於嘸蝦米x1 for macmrlollipop Re: [討論] 嘸蝦米規則和中文日文韓文大一統Frozenmouse Re: [討論] 嘸蝦米規則和中文日文韓文大一統Frozenmouse [打屁] 關於嘸蝦米輸入法的選擇banqhsia Re: [討論] 關於Android上嘸蝦米的一點想法cerebellum