PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[閒聊] 想跟 Web Scraping 高手請益自動化技術~
作者:
adwx1973
(adwx1973)
2018-09-21 11:31:35
As title,
之前網路上看了些 Python 爬蟲基本教學,
正試著從證交所爬蟲建立 財報/股價 資料庫。
但沒多久就發現幾個問題:
1. 每天爬取公司股價,經常性斷線,
加上 Header; time.sleep(); 之類的都用上了,
想請益更有效率,穩定自動斷點續傳的技術。
2. 財報 PDF 想要自動化下載,
因為隱藏網址似乎是 jsoncallback 產生的,
並且網址當中一部分是隨機數 or 現在時刻(時分秒),
這方面沒辦法突破。
也有試過 selenium + firefox webdriver,
不過也是卡在多個頁面切換的操作無法 Loop。
想請益版上這方面的高手,這些部分怎麼用 code 實現,
如果人在高雄有時間也可以約出來,我可以請你吃飯~
非常感謝!!
作者:
f496328mm
(為什麼會流淚)
2018-09-21 12:58:00
crontab 排程自動化
作者:
supisces
(被~~~切~~~八~~~段)
2018-09-21 15:54:00
反爬蟲?
作者:
areyo
(沒有名字的怪物)
2018-09-23 23:28:00
推同在高雄
作者:
totte
(totte)
2018-09-25 04:56:00
1證交所股價下載還蠻穩的丫 我幾乎沒出過問題 你是下載json?2財報為何要下載pdf? 印象中有csv之類的原始資料可下 也史容易分析
作者:
adwx1973
(adwx1973)
2018-09-25 10:59:00
http://www.twse.com.tw/zh/page/trading/exchange/STOC
是在個股日成交資訊那邊抓,持續一段時間後會斷公開資訊觀測站有IFRS的財報XBRL,可是有些會計科目的細項不在那裏面,必須要去原始的PDF檔裡面找
繼續閱讀
Re: [問題] 爬蟲自動更新程式
Hsins
[問題] 爬蟲自動更新程式
WENroger
[問題] 樞紐分析+排序
buyoption
[問題] 在MAC 上用pycharm執行Django
abcd012345
[問題] 無法成功取字串前4碼
neil24
[問題] 請問http digest 認證
wisdoms0817
[問題] youtube記錄觀看人數
tinasfishs
[範例] tensorflow問題在那?
g318
[閒聊] 台北 贈送python教學書
alfven
[問題] python tensorflow spyder啟動問題
dinosaur8484
Links
booklink
Contact Us: admin [ a t ] ucptt.com