Re: [閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識

作者: medama ( )   2022-07-14 22:07:30
※ 引述《LABOYS (洛城浪子)》之銘言:
: https://twitter.com/KenAkamatsu/status/1547567317894463488
: https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
: 拜訪了(株)モルフォAIソリューションズ株式會社
: 我曾經闡述我的夢想是
: 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」
: 沒想到負責該技術的就是這間公司。
: 舊書籍的圖像→文本轉化,以現在的技術已經非常高水準,
: 以後期待能朝著利用人工智慧的領域,
: 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。
: 如果這個夢想成真,那麼其益處將是無法計量的。
他這裡的古文書指的是古代日本的手寫草書字體,
不是單純舊書籍的意思
以前都要人工辨認,非常費時,
現在技術已經可以用電腦辨認,
今後的目標是用電腦靠前後文來提升字體辨認率
例:
https://i.imgur.com/WURzdkp.png
https://i.imgur.com/gIfD3n9.png
一般人沒學過日文草書
大概只能辨識出20%漢字和假名
以往是靠專家學者辨認再轉寫
不過目前電腦的辨識率已經到能80%以上
作者: kaj1983   2022-07-14 22:12:00
第二張和我家附近的診所醫師在寫病歷時一樣筆跡耶XD
作者: D2Diyus (想買的書太多了)   2022-07-14 22:12:00
古日本很多大名親筆書信真的潦草到日本人也認不出來(
作者: hinajian (☆小雛☆)   2022-07-14 22:25:00
以後人機驗證變成 認得出來的是AI 認不出來的是人類了(X
作者: yung80111 (洛沁)   2022-07-14 22:29:00
古代人看得懂這在寫啥?
作者: daidaidai02 (不推理的名偵探)   2022-07-14 22:30:00
哇靠偉業
作者: inte629l   2022-07-14 22:31:00
這些古文書主要用意是在哪啊? 契約之類的?
作者: medama ( )   2022-07-14 22:34:00
用在任何地方啊 這是古代的書寫體
作者: chewie (北極熊)   2022-07-14 22:40:00
https://bit.ly/3RrFl6S這篇可以看書寫體-古文-現代文體的翻譯 第一步的書寫體辨識若能用AI辨識協助會快很多
作者: w11918 (歪)   2022-07-14 22:52:00
一樓那個叫醫學速寫
作者: mn435 (nick)   2022-07-14 23:04:00
搞不懂寫這麼樣 收信人就算會草書也讀得很吃力吧
作者: winglight   2022-07-14 23:16:00
虎鯨文也能辨識嗎?
作者: bluejark (藍夾克)   2022-07-14 23:19:00
以現在的深度學習來說是可以做到的
作者: medama ( )   2022-07-14 23:20:00
不會很吃力啊 草書是另一套字體 不是胡亂寫的
作者: bluejark (藍夾克)   2022-07-14 23:21:00
就是先把一些對照表做出來再讓AI去辨識
作者: nilr   2022-07-15 07:49:00

Links booklink

Contact Us: admin [ a t ] ucptt.com