[問題] python爬蟲,設定driver很慢

作者: bckkt (bckkt)   2018-02-22 16:39:35
原本使用requests.get抓網頁原始碼,但是抓不完整
後來使用PhantomJS花了7~8秒抓到了完整的原始碼
不過彈出
Selenium support for PhantomJS has been deprecated, please use headless
所以最後用chrome並使用headless模式
1 from selenium import webdriver
2 from selenium.webdriver.chrome.options import Options
3 chrome_options = Options()
4 chrome_options.add_argument('
作者: s860134 (s860134)   2018-02-23 18:59:00
自己發 ajax 不合你的需要嗎
作者: bckkt (bckkt)   2018-02-23 19:25:00
後來發現用第一個方法 速度上就是硬傷研究才發現一直彈出的頁面是Ajax請求所以想說從這條切入研究,但也沒那麼簡單,還在研究中就是了
作者: s860134 (s860134)   2018-02-24 18:22:00
但是你都知道是要多個時間參數,你自己生當錢時間就好了?
作者: Kazimir (Kazimir)   2018-02-24 18:34:00
你用 time.time()的那個毫秒數拿去post可以嗎?
作者: bckkt (bckkt)   2018-02-24 21:41:00
謝謝回應,我沒試過但覺得不行,我生的時間跟他生的時間應該是不一樣的時間form data還有個變數gidGroup,這變數也是變動很大的今天改用按鍵精靈去抓json,想說丟到某處之後,再分解json分解好的資料,再看是要丟到EXCEL,還是怎樣呈現的,再看看
作者: Kazimir (Kazimir)   2018-02-24 21:59:00
不是 我有去試JS那個func 是1970到現在的毫秒數所以python這個產出來應該是一樣的東西才對
作者: bckkt (bckkt)   2018-02-24 22:02:00
我試試加上header來請求,網頁是空白我來研究一下form data的gidGroup是怎麼產生的好了下次連form data一起丟直接複製最近一個gidGroup,連著其他data一起丟,出現了!!但不知道gidGroup怎麼產生的,等這個變數搞懂,就可以爬了我發現不用丟gidGroup,json也會出現耶,太神奇了謝謝你們提醒我試試直接取得時間直接post
作者: galeondx   2018-03-06 04:40:00

Links booklink

Contact Us: admin [ a t ] ucptt.com