[閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識

作者: LABOYS (洛城浪子)   2022-07-14 21:57:45
https://twitter.com/KenAkamatsu/status/1547567317894463488
https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜訪了(株)モルフォAIソリューションズ株式會社
我曾經闡述我的夢想是
「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」
沒想到負責該技術的就是這間公司。
古文書的圖像→文本轉化,以現在的技術已經非常高水準,
以後期待能朝著利用人工智慧的領域,
利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。
如果這個夢想成真,那麼其益處將是無法計量的。
作者: spfy (spfy)   2022-07-14 21:58:00
GOOGLE:為什麼要花錢?
作者: gox1117 (月影秋楓)   2022-07-14 21:58:00
錢哪來
作者: mattc123456c (Matt Zhuang)   2022-07-14 21:59:00
掃描還要去比對吧?
作者: medama ( )   2022-07-14 21:59:00
他這裡的古文書指的是古代日本的手寫草書字體,以前都要人工辨認,非常費時,現在技術已經可以用電腦辨認,
作者: LLSGG (西西西瓜)   2022-07-14 21:59:00
大圖書館計畫,
作者: medama ( )   2022-07-14 22:00:00
今後的目標是用電腦靠前後文來提升字體辨認率不是單純舊書籍的意思
作者: LLSGG (西西西瓜)   2022-07-14 22:00:00
抓一下古文抄襲
作者: majohnman (麻醬麵)   2022-07-14 22:02:00
先不論這件事的必要程度,畢竟將書本電子化的確可以以防萬一未來發生什麼事,但是全書的數字很龐大吧,要去哪生錢來搞這種事,政府也不會輕易撥款在這種事上吧
作者: bestteam (wombat是胖胖熊)   2022-07-14 22:02:00
GOOGLE能做到判別古文書????
作者: mattc123456c (Matt Zhuang)   2022-07-14 22:03:00
對於1樓,免費OCR服務不夠理想
作者: a71085 (iii)   2022-07-14 22:03:00
中文有一個老外發起的網站叫做中國哲學書電子化計劃
作者: cat05joy (CATHER520)   2022-07-14 22:07:00
OCR只是合標準的字體 字體一歪很容易辨識不到
作者: spfy (spfy)   2022-07-14 22:08:00
GOOGLE以前是用reCAPTCHA叫大家幫他辨識 不是指用免費OCR免費OCR連標準英文字體都會認錯
作者: Bugquan (靠近邊緣)   2022-07-14 22:10:00
不會掃描後,做成驗證碼
作者: qazxswptt (...)   2022-07-14 22:17:00
有點跑太多的感覺 不如先數位化 辨識以後再說
作者: bladesinger   2022-07-14 22:22:00
google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶來進行人肉訓練AI
作者: hinajian (☆小雛☆)   2022-07-14 22:22:00
免費的最貴
作者: Bugquan (靠近邊緣)   2022-07-14 22:24:00
不過最大的問題還是錢
作者: reccalin (DJ)   2022-07-14 22:27:00
這個真的成功會很棒 一堆古早論文都只有圖檔
作者: inte629l   2022-07-14 22:32:00
之後會有古文書的圖片來辨別50音嗎XD
作者: discoveryray (chih)   2022-07-14 22:34:00
研究生福音
作者: michaelfat19   2022-07-14 22:47:00
選上議員就是要爭取用政府的錢做這件事啊==
作者: jasonchangki (阿特拉斯聳聳肩)   2022-07-14 23:07:00
這種就是整理期超苦但一旦成型超方便
作者: nalthax (書蟲一枚)   2022-07-14 23:13:00
作者: newasus (我是蘿莉控我自豪)   2022-07-14 23:51:00
OCR技術需求太高先不論 單純掃描的話不會花到非常多錢吧應該幾千萬台幣內能搞定?
作者: TsaiPC (Never say never.)   2022-07-15 00:18:00
日本國會圖書館目前一直有在做絕版書數位化,只是目前要看電子檔還是要到國會圖書館才行
作者: nilr   2022-07-15 07:47:00
作者: abucat (阿布貓)   2022-07-15 09:01:00
這個推

Links booklink

Contact Us: admin [ a t ] ucptt.com