[問題] python爬蟲，設定driver很慢 bckkt PTT批踢踢實業坊

[問題] python爬蟲，設定driver很慢

作者: bckkt (bckkt) 2018-02-22 16:39:35

原本使用requests.get抓網頁原始碼，但是抓不完整
後來使用PhantomJS花了7~8秒抓到了完整的原始碼
不過彈出
Selenium support for PhantomJS has been deprecated, please use headless
所以最後用chrome並使用headless模式
1 from selenium import webdriver
2 from selenium.webdriver.chrome.options import Options
3 chrome_options = Options()
4 chrome_options.add_argument('

作者: s860134 (s860134) 2018-02-23 18:59:00

自己發 ajax 不合你的需要嗎

作者: bckkt (bckkt) 2018-02-23 19:25:00

後來發現用第一個方法速度上就是硬傷研究才發現一直彈出的頁面是Ajax請求所以想說從這條切入研究,但也沒那麼簡單,還在研究中就是了

作者: s860134 (s860134) 2018-02-24 18:22:00

但是你都知道是要多個時間參數，你自己生當錢時間就好了?

作者: Kazimir (Kazimir) 2018-02-24 18:34:00

你用 time.time()的那個毫秒數拿去post可以嗎？

作者: bckkt (bckkt) 2018-02-24 21:41:00

謝謝回應，我沒試過但覺得不行，我生的時間跟他生的時間應該是不一樣的時間form data還有個變數gidGroup，這變數也是變動很大的今天改用按鍵精靈去抓json，想說丟到某處之後，再分解json分解好的資料，再看是要丟到EXCEL，還是怎樣呈現的，再看看

作者: Kazimir (Kazimir) 2018-02-24 21:59:00

不是我有去試JS那個func 是1970到現在的毫秒數所以python這個產出來應該是一樣的東西才對

作者: bckkt (bckkt) 2018-02-24 22:02:00

我試試加上header來請求，網頁是空白我來研究一下form data的gidGroup是怎麼產生的好了下次連form data一起丟直接複製最近一個gidGroup，連著其他data一起丟，出現了!!但不知道gidGroup怎麼產生的,等這個變數搞懂,就可以爬了我發現不用丟gidGroup，json也會出現耶，太神奇了謝謝你們提醒我試試直接取得時間直接post

作者: galeondx 2018-03-06 04:40:00

https://tinyurl.com/yadsk3lo

繼續閱讀

[問題] pandas爬蟲被擋下來pig98520 [問題] firebase 的 error handlearchon [問題] pandas塊狀(?)的運算goldflower [問題] readline() 資料中遇到"\n"FamilyMart [問題] 處理Lotus Notes mail archives (*.nsf)ctr1 Re: [問題] sorting cmp_to_keysuhang [教學] 分享自己的 github 以及 youtube 教學TWTRubiks Re: [問題] sorting cmp_to_keyuranusjr [問題] sorting cmp_to_keysuhang [問題] 如何在jupyter中跑大型專案?wallrose