作者:
be00148 (ThirtyCentimeter)
2020-07-01 22:40:59各位高手大大晚安
我想抓取下圖的資料檔
https://i.imgur.com/tmpyyZy.jpg
已經知道圖表的資料是從這個網址匯入
https://i.imgur.com/znv2SKe.jpg
但是我直接把這段網址貼到瀏覽器會說找不到網頁
https://i.imgur.com/PRKcbtJ.jpg
不曉得是哪裡有放過濾機制
因為如果後面參數不要放那麼多
是可以抓到股價資料
但是主力,券商買賣家數怎麼試就是沒辦法
不曉得有沒有經驗的大大指點一下
卡了2天了QQ
https://histock.tw/stock/main.aspx?no=2330
GET裡面的header要設定user-agent和referer所要的資訊可以在原本截圖Response Headers裡面找到
作者:
be00148 (ThirtyCentimeter)
2020-07-01 23:23:00@cuteSquirrel 之前我只有加 user-agent原來還要加referer 不過要如何判斷header應該加哪些資料?@cuteSquirrel 真的謝謝了 受小弟一拜<O>
就從常見的幾個開始試吧 爬蟲滿常遇到這些情況不客氣~
其實沒有一定。通常都是用上述方法後一個個刪減到最少。這都是爬多了就會知道了。懶得刪也ok。
作者:
be00148 (ThirtyCentimeter)
2020-07-01 23:33:00A大 謝謝 試到最後 只留referer就好XD
^^great!我的理解是這完全取決於伺服器端怎麼做的。
作者:
be00148 (ThirtyCentimeter)
2020-07-01 23:39:00我可以再問一個問題嗎 抓下來的資料看起來像json 讀取後資料的部分變成字串 有什麼方式可以快速轉換為list嗎
可以用response.json()拿到python dict用dev tool看到的key去抓字串,再用re去擷取
作者:
be00148 (ThirtyCentimeter)
2020-07-02 00:03:00針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就可以轉成list 謝謝了
^^。順便也可以去參考skcom 0.9.4嗯..最近好像到0.96了。