大家好,書版第一次發文請多指教。
最近剛入坑自炊電子書,成功用 Microtek DI 2125C 搭 Imagemagick 弄了一套自炊流程
出來。我搜「Imagemagick 自炊」好像中文資料不多都是日文資料,就把自己的流程拿來
分享了。文章改自自己網誌沒有盜文。
我買 Microtek DI 2125C 的理由:
- 夠便宜(我買 2490 NTD)
- 功能夠(有 ADF、彩色雙面掃描)
用到的軟體:
- Imagemagick:後處理基本靠它
- ABBYY FineReader Sprint:掃描器附的,用來把圖檔批次 OCR 然後轉 PDF
- k2pdfopt:幫 PDF 加目錄
- Powershell:Windows 10 內建,用來批次改檔名或檔案屬性
- PDF-Xchange editor(免費版):對目錄做細微編修
大約流程
找影印店裁書,掃描存圖檔
圖檔要檢視有沒有跳頁或是嚴重扭曲,有的話重掃並且設定好檔名,使檔名
lexicological order 和紙本頁面順序一致。
重排檔名,和依照檔名順序重設修改時間
避免檔名或修改時間的順序紊亂,導致匯入其他 App 後順序順序錯亂,以下
powershell 腳本「-whatif」要拿掉才會真正改檔名,否則只是預覽。
依原本檔名順序批次重新命名
(Dir *.jpg) | sort name | ForEach { $count=1 } {
$scount=([string]$count).PadLeft(4,'0')
rename-item $_ -NewName ngimg-$scount.jpg -whatif; $count++
}
依檔名重排修改時間
$dirs = (Dir *.jpg) | sort name
ForEach($d in $dirs) {
$file = Get-Item $d
$file.LastWriteTime=(Get-Date)
}
圖檔轉檔為 PNG
不用 jpg 是怕反覆修改存檔越來越失真。後面的步驟每次使用 mogrify 前都建議複製圖
檔目錄做備份,因為 mogrify 會原本修改原本圖檔造成不可逆變化。
magick mogrify -format png *.jpg
去背景
magick mogrify *.png -transparent white -fuzz 50%
fuzz 網路教學設 90%,我保險一點設 50%
Imagemagick 切黑邊,傾斜校正(deskew)然後再切黑邊
切除黑邊
magick mogrify -fuzz 30% -define trim:percent-background=10% -background
black -trim +repage *.png
個人測試的結果,percent-background 不設成 0 可避免去黑邊的時候吃掉太多正常內容
,切完後周圍會有很細微黑邊但個人可接受。書中有大量黑底的,可把
percent-background 拉高或把 fuzz 壓低,try and error 根據最終效果做調整
傾斜校正(deskew)
magick mogrify -deskew 80% *.png
個人使用體驗,deskew 設 80% 會比網路上普遍的 40% 好些,至少對我的掃描器是如此
。如果先做傾斜校正,圖檔四周可能多出不同色,和原本黑邊混雜,造成後續去黑邊困難
。所以先去黑邊再傾斜校正,再去一次黑邊去除掉傾斜校正造成的額外黑邊。
影像銳化
magick mogrify *.png -sharpen 0x1.5 -modulate 100,130,100
modulate 三個參數分別代表亮度、對比和 hue。100 代表原值。個人選擇調高對比。
sharpen 0x1.5 是網路建議,測試後肉眼可接受。
圖片檔案批次匯入,做 OCR,存成 pdf
我用掃描器附的 Finereader 解決
建立 PDF 目錄(table of content)
k2pdfopt -mode copy -n -toclist 目錄檔.txt 輸入pdf.pdf -o 輸出pdf.pdf
其中目錄檔的格式如下,前面的數字代表對應 pdf 的頁數,+ 號代表縮排
20 Chapter 1 大章節
+21 1.1 小章節1
+26 1.2 小章節2
弄好後可用免費的 PDF-Xchange editor 把目錄中不小心插入的空白項目等移掉,
PDF-Xchange editor 若只是刪除現有目錄中的項目是不會加浮水印的。
https://tinyurl.com/9w5swu33
自炊的電腦叢書抓圖。PDF 有目錄,文字沒有歪斜且清楚。旁邊很醜的字是個人閱讀用鉛
筆做的筆記,300dpi 下(我自己)還是能看懂寫什麼。
我也試了不少其他 App,包含中國製 Camscanner 掃描全能王,Adobe scan、Microsoft
Lens 等但各有各的問題。
Camscanner 最好用,但有浮水印,電腦版還要你把資料傳上雲端,之前好像還爆發過資
安疑慮,MS Lens 發現 Android App 不能一次匯入大於一百張就放棄了。
花了一兩天,發現其實以裁書後用掃描器掃描的圖片品質,用 Imagemagick 搭
pipeline 做後處理就很夠用了。影像來源才是決定電子書品質的關鍵,影像來源太差,
例如用手機搭自拍支架拍照片,照片還有手指,不管後續用什麼軟體,得到的結果都是歪
七扭八又模糊。
當然買好點的機器也是解法,例如網路推薦的自炊神器富士通 Scansnap ix1500 除了掃
描速度更快,機器軟硬體好像還附贈更好的校正功能,說不定就不用自己土炮後處理
pipeline 了?但那台機器對只想「試試看」自炊的我太貴了,後來就算了。