[問題] 爬買賣日報表CAPTCHA問題

作者: SONGya168 (威威)   2018-02-28 09:40:01
Hi 各位好,
最近開始學習python進行爬蟲,參考網路上的大數軟體教學,
先進行半自動化的爬取, 取得驗證碼圖片後再手動輸入驗證碼,
以上部份都沒有問題, 但由於在進行證交所買賣日報表的爬取時,
因為買賣日報表是aspx, 所以一開始遇到__VIEWSTATE及__EVENTVALIDATION
變數會變動問題,所幸在本版有爬文知道如何解決此問題 (先利用GET爬取
此兩變數,再利用POST送出實際的請求)
但最後送出POST後會發現爬取回來的網頁內容會是 "驗證碼錯誤"
買賣日報表有兩個FRAME: Menu及Content,
Menu會出現驗證碼錯誤;Content則為空白
想請問各位大神, 是否可提供小弟一個方向呢?
ps. 在正式送出POST前,只會選一個證券代號, 再選擇後, 我查看Chrome 開發者工具
應該並沒有額外的POST請求,所以我所爬取的__VIEWSTATE應該是沒問題的
請參考我寫的code (jupyter notebook):
https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb
作者: s860134 (s860134)   2018-02-28 18:50:00
你買賣日報進去的時候不用填驗證碼嗎?
作者: SONGya168 (威威)   2018-02-28 21:58:00
需要,我是先取得驗證碼圖片後,formdata手動填,有利用session目前還沒有做到自動的手動填完驗證碼後送post出去
作者: ok963963ok (冷月無痕)   2018-03-01 10:19:00
若有需要識別驗證碼,可站內
作者: SONGya168 (威威)   2018-03-01 18:11:00
目前我是卡在送post出去驗證碼不過,驗證碼為手填
作者: a830307119 (天生我材必有用)   2018-03-03 06:57:00
作者: ar54971   2018-03-06 03:38:00
作者: galeondx   2018-03-06 04:16:00

Links booklink

Contact Us: admin [ a t ] ucptt.com