PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] 請教這驗證碼如何解析
作者:
HenryLiKing
(HenryLiKing)
2017-09-05 21:16:07
大家好
我最近剛開始在研究爬蟲
在登入的時候,看到這樣的驗證碼圖片
http://imgur.com/a/vO5GX
我嘗試過把他轉成 numpy array 後
切掉旁邊的邊邊
然後用 pytesseract 去讀圖片
但是辨識率超級低
不知道要如何著手解析這樣驗證碼的文字
想請教一下各位前輩這種類型的要如何分析
謝謝!!
補:
剛剛沒說到
其實我有做過一點點處理
大致上是這樣 https://goo.gl/zFPBDg
但是辨識成功率大概是 10~40%左右
超級低QQ
作者:
shadowjohn
(轉角遇到愛)
2017-09-05 21:17:00
去雜點,去邊框,文字跟四週留些空白,轉成黑白白底黑字,然後tesseract定白名單,應該差不多了
作者:
bluecadence
(Maxwell's demon)
2017-09-05 22:15:00
這種用 tensorflow 寫個三層 CNN 訓練一下就解決了要作到辨識成功率到99%不難
作者:
jack123218
(jack123218)
2017-09-06 10:42:00
如果字跟雜點都是固定顏色直接用色碼把雜點濾掉就好了
作者:
f496328mm
(為什麼會流淚)
2017-09-06 10:59:00
我也想問 一樓說的方法 image 要事前做好多處理阿@@
作者:
vi000246
(Vi)
2017-09-06 11:47:00
我之前做的筆記
http://docdro.id/4cVgmsJ
作者:
f496328mm
(為什麼會流淚)
2017-09-06 13:09:00
感謝 另外tensorflos實戰的網址 404
作者:
vi000246
(Vi)
2017-09-06 13:45:00
網址掛掉就直接google標題吧剛google一下好像找不到了
作者:
bbkingck
(Twister)
2017-09-06 16:06:00
學習圖片的前處理的話,推薦PyImageSearch,也可撿到現成
作者:
f496328mm
(為什麼會流淚)
2017-09-06 17:26:00
太感謝這裡的大大了,給做image的一個方向,不然根本不知要從何做起,只好一直調vgg
作者:
aa12twtwaa
(Tohka)
2017-09-06 20:04:00
不想前置處理的話可以參考這個
https://goo.gl/2k74V2
pip安裝captcha庫然後把扭曲線的那個砍掉字型替換成相近的字體
作者:
vi000246
(Vi)
2017-09-07 00:51:00
我試過自已做訓練集 用肉眼辨識5000份就累了樓上那方法要自已產驗證碼自已辨識才行
作者:
TitanEric
(泰坦)
2017-09-08 00:31:00
學弟安安
作者: luce
2017-09-08 02:48:00
可以先去看論文,有很多相關的研究。
作者:
TakiDog
(多奇狗)
2017-09-08 21:16:00
我做過這種 幾乎一模一樣的驗證碼 直接二值化 去雜點不知道為什麼圖片size會影響 我就把它放大在平滑然後差不多就能有個8成成功率了
作者:
f496328mm
(為什麼會流淚)
2017-09-08 21:24:00
想請教怎麼放大啊? 例如 DATA 給 64*64不想太多變數就取樣成 32*32不知道怎麼放大 或是放大的概念
作者:
TakiDog
(多奇狗)
2017-09-08 22:22:00
圖片存下來我是在把它做拉大的動作 還有四周加上空白
繼續閱讀
[問題] iperf3 for python在windows上的使用
jack622
[問題] CNN辨識特定物件
gs8613789
Re: [問題] pandas read_csv(網址)
coeric
[問題] pandas read_csv(網址)
uncle925
[問題] 文件隔行讀取
dinoptt1993
[問題] 爬蟲相關問題(BeautifulSoup)
TZULIU
Fw: [徵才] Dell - Data Science Analyst
maplesida
[問題] 爬蟲出網站中所有的內文
tosakashiron
[問題] 辨識圖片物體,上tag
blue14753
[問題] 問一下python的正規式
ptt0720
Links
booklink
Contact Us: admin [ a t ] ucptt.com