大家好~
前陣子期中考完很閒,就花了約一週的時間用CNN實作了台鐵驗證碼辨識(搭配Keras)
在版上有看到一些前輩實作時遇到的一些問題(如相黏的數字無法辨識)應該都有解決
但我想可能主要是因為我不是以切割圖片的方式去一個一個字辨識吧
驗證集是手動標記的約1000張,訓練集部分則是用自行模仿產生的約50000張
用自行產生的訓練集 訓練後的模型對驗證集辨識效果很好
單碼辨識率大約有98.84%
整體一次辨識成功率也有91%左右(有些字像6和9旋轉後容易誤判)
繼續訓練下去精準度會更高,不過我想這樣應該夠用了
不過現在還只能辨識固定6碼的驗證碼
5碼+6碼的部分目前有想法(可能加入RNN去做,或是加入空白字元讓CNN辨識)
等之後有空再去實作看看~
下面附上Github連結,今天寫了很詳盡的README放上去
有興趣的版友們可以看看或一起討論如何改進 :)
https://github.com/JasonLiTW/simple-railway-captcha-solver