: 推 ishuen: 但是apple說輸入法沒用到網路 這些資料都在手機裡嗎? 09/29 01:00
: → KANO1931: 需要龐大資源的部分是在計算階段 應用的部分是結果 不一 09/29 01:05
: → KANO1931: 定佔很大空間 但如果要動態更新常用詞就需要了 09/29 01:09
: 推 pm2001: 沒用到網路我覺得不可能 這資料量非常大 09/29 01:18
小弟非專業發言,大家看看就好
個人覺得像這種切進時事的聯想字,應該都是需要網路的
如同KANO大所說,需要大量運算資源的是計算階段,實作階段所需資源並不大
我舉一個我最近為蝦米鍵盤實作簡易聯想詞的方法為例
蝦米鍵盤的聯想詞功能目前實作流程如下
1. 下載Google ngrams dataset簡中版本(因為沒有繁中...)
上文所述需要大量運算資源的就是這部份,如何產生ngrams
而google已經幫我們作好了(佛心
Google ngrams dataset資料格式看起來像這樣
<中文詞> <某西元年> <該西元年中發現此詞彙數量> <該西元年中在多少著作中發現該詞>
我下載下來的dataset總共大小約1.3gb(只取2 gram)
2. 使用程式語言parse下載下來的dataset,輸出成frequency list, 格式如下
<中文詞> <總發生數量>
存成純文字檔,目前我跑出來的這個檔大小為500kb左右,40000左右中文詞
像這第二步,需要讀入1.3gb的原始資料,在手機上會耗時良久
但讀入500kb的資料,目前蝦米鍵盤的速度還算可以(iPhone 5)
3. 在鍵盤初始化時parse第二步產生的frequency list存進記憶體。
這部份的資料結構可採用簡單的hash map或是高級一點(比較難實作)的trie
不過如果詞的長度不是很長,例如我的第二步出來的檔,裡面最長的詞只有4字
那使用hash map應該整體來說效能會好一點,當然這是個人感覺
基本上有了這個backend data structure,再寫一個function,輸入為字串,
然後到這個data structure中查詢,輸出為一個字串陣列,然後就可以輸出到
鍵盤畫面上給使用者選擇。
由上可知,如果想要動態產生聯想詞例如結合時事,或是使用最近的報章blog文章
當作ngrams的corpus,那麼網路是必須的。
不專業分享,請勿筆戰~~