[問題] 如何有效率地學習爬蟲(台灣股市資訊網)?

作者: bunby (Bunby)   2020-11-01 08:38:38
目的:
抓取台灣股市資訊網的資料,不用手動輸入代號,然後選擇個股市況/每月營收/基本資料
/法人買賣超/每月營收/股利/財務報表(單季/年度),然後再複製/貼上到excel上。
註記0:goodinfo預設帶入的月營收,時間排序是從下到上,我想要從上到下。
註記1:goodinfo預設帶入的損益表是「累季」的,我想要選擇「單季」還有「年度」。
註記2:goodinfo預設帶入的格式,時間排序是從右到左,我想要從左到右。
範例檔說明檔下載:
https://wsi.li/dl/stNaX7Dqu6JdvhPqK/
想使用的工具:python或者excel(vba)
使用Python:
優點:套件多,網路資源也多,功能也強大。
缺點:不知道抓取資料後,能不能像excel這樣排好一個個sheet?
使用Excel:
優點:抓取資料後可以直接在上面整理。
缺點:沒有套件,處理網頁資訊可能會讓code變的很複雜。
小弟背景:
會hello world,看的懂簡單的宣告、迴圈、判斷式。
目前遇到的困難:
0. 網路上的資源感覺太過零碎,想請問各位有沒有推薦比較詳細、比較適合初學者,
然後有系統的書?
1. 感覺爬蟲最困難的部分是在處理網頁,請問爬蟲之前要先搞懂一部分的html的架構
嗎?
目前有看到適合的書:
Python:
0. Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來
1. Python:網路爬蟲與資料分析入門實戰
VBA:
0. 文科生也學得會的網路爬蟲:Excel VBA + Web Scraper
1. Excel VBA實戰技巧|金融數據x網路爬蟲
註記:
0. 不想花幾千塊買課程,但是可以買幾本書,還是說買課程最快最有效率?
1. 小弟不在乎幾秒的執行效率,只求抓的資訊來源正確無誤。
2. 爬股市資訊可能只是第一步,或許之後可以再往其他的方向邁進。
謝謝各位花時間看這篇文章。
作者: MOONY135 (談無慾)   2020-11-01 08:44:00
只是要做這種事情根本還不需要買書 網路上資訊拼一拼就好而且看起來你根本就還只是停在想 而沒有開始做。google一下就找到有人做過了Goodinfo的東西看起來可以寫code再整理一下格式...開始動手吧不然永遠學不會
作者: OrzOGC (洞八達人.拖哨天王)   2020-11-01 09:33:00
女生我不知道 對男生來說最有效率的方法就是去爬prontube
作者: aidansky0989 (alta)   2020-11-01 10:04:00
先會寫腳本爬ptt西斯送到mysql,學會了再爬dcard西斯或104送mysql,都會了學scrapy爬ubereats或京東,不會的google或看requests文檔,爬一週再考慮找書或課程
作者: TakiDog (多奇狗)   2020-11-01 13:50:00
爬O片網站,解析到真實影片位置(可直連的) 會學到很多反爬跟拆別人API流程的知識
作者: ToastBen (吐司邊)   2020-11-01 17:06:00
推一樓
作者: andy19960407 (258698)   2020-11-03 21:29:00
一樓誠實
作者: miku3920 (初音ミク)   2020-11-04 01:22:00
花錢
作者: rs6000 (正義的胖虎)   2020-11-04 07:10:00
先動手做做看再說...

Links booklink

Contact Us: admin [ a t ] ucptt.com