Hi 各位好,
最近開始學習python進行爬蟲,參考網路上的大數軟體教學,
先進行半自動化的爬取, 取得驗證碼圖片後再手動輸入驗證碼,
以上部份都沒有問題, 但由於在進行證交所買賣日報表的爬取時,
因為買賣日報表是aspx, 所以一開始遇到__VIEWSTATE及__EVENTVALIDATION
變數會變動問題,所幸在本版有爬文知道如何解決此問題 (先利用GET爬取
此兩變數,再利用POST送出實際的請求)
但最後送出POST後會發現爬取回來的網頁內容會是 "驗證碼錯誤"
買賣日報表有兩個FRAME: Menu及Content,
Menu會出現驗證碼錯誤;Content則為空白
想請問各位大神, 是否可提供小弟一個方向呢?
ps. 在正式送出POST前,只會選一個證券代號, 再選擇後, 我查看Chrome 開發者工具
應該並沒有額外的POST請求,所以我所爬取的__VIEWSTATE應該是沒問題的
請參考我寫的code (jupyter notebook):
https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb