[問題] 爬蟲請益

作者: boboye (me)   2020-05-14 23:44:46
各位好:
想請教我在爬台大醫院網頁
我想從依醫事人員姓名掛號頁面中的掛號連結在爬到網路預約掛號的頁面
圖一是我已經爬完得到的結果
終極目標希望可以完成辨識直接掛號
因為要圖像辨識這部分我還不會
想請問:
是否可以從圖二的結果爬完的結果
(我的作法是直接用request硬解,如圖五)
得知圖三的掛號連結
目前看到的資訊:
我想圖三的地方需要用到圖二的cookie應該還有醫生姓名診別資訊
但這部分我猜需要用到回傳的那些ID但不知道要怎麼兜
剛初學對這類動態的產生的網頁不太會看,又不知道是不是要用webdriver
而selenium又是我不太熟的部分orz..再請各位指導,感謝
https://imgur.com/a/2sgGp0e
作者: k010506k (k010506k)   2020-05-15 01:46:00
你好像只有一張圖耶
作者: chia0712 (掐子)   2020-05-15 01:57:00
Selenium 會不會比較合用?到時候掛號送出一個超長formdata,request就爆了
作者: TakiDog (多奇狗)   2020-05-15 04:11:00
我覺得Selenium是不太優的爬蟲解法,對沒有複雜js或複雜的反爬,requests很萬用先確定好需要request哪些資料,哪些資料又是由哪個網頁產生的
作者: boboye (me)   2020-05-15 07:53:00
我把一些截圖全部放同一張,有間隔分開,由上到下有五張手機看有點小,下次還是分開貼,不好意思
作者: TakiDog (多奇狗)   2020-05-15 07:56:00
你用session 你的cookie就會往下帶了我可能看不懂你的問題,你在圖二找到帶有你圖三的資料的封包,丟過去後看要不要parse
作者: boboye (me)   2020-05-15 08:11:00
t 大你好,我的問題簡單說如何從圖二掛號連結再轉到圖三,謝謝
作者: TakiDog (多奇狗)   2020-05-15 08:14:00
你只是需要同一份cookie ,可以看看requests session
作者: boboye (me)   2020-05-15 08:16:00
好的,我再來試試,謝謝
作者: vi000246 (Vi)   2020-05-15 18:23:00
我也不喜歡selenium 都用request硬解
作者: salmon12706 (Ellen)   2020-06-29 16:17:00
工研院人工智慧課程推薦https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com