[問題] selenium爬蟲新手問題

作者: xyz6206a (xyz6206a)   2016-05-05 09:30:38
各位前輩好,
小弟為python爬蟲新手,因為對python有點興趣
接下了系上老師的研究助理撰寫網路爬蟲
目前在學校想幫老師爬Factiva資料庫
但必須利用學校ip再利用學校圖書館連結進去
不過在跳轉過程中會不小心蹦出新的頁面
而且跳出後網址好像跳了好幾次
新手面對這狀況讓我非常困惑,不知道該如何是好
http://imgur.com/KUECSly
http://imgur.com/42OdNRD
附圖為我目前遇到的狀況
不知道板上前輩們有沒有什麼好方法解決?
作者: ripple0129 (perry tsai)   2016-05-05 10:21:00
標題好像跟內容無關,先說好我沒寫過selenium,不過你要先確定手動連線是正常的嗎,感覺上似乎跟自動化無關啊,單純連線上就有問題吧XD
作者: Kadai (龜)   2016-05-05 13:50:00
直接用request設proxy連進去呢?
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)   2016-05-05 22:05:00
用 requests
作者: xyz6206a (xyz6206a)   2016-05-06 00:31:00
各位前輩因為我沒用過REQUEST是否有推薦的書籍呢?
作者: s860134 (s860134)   2016-05-06 01:38:00
先不談 request ,你怎不直接到 Factiva 的頁面?為何要特意從圖書館的連結進去@@http://i.imgur.com/4uUzdhO.png 複製這個網址把它直接放在你 driver.get('連結網址')我記得 selenium 會直接把轉跳完的頁面當作你請求的頁面
作者: octantis (@.@)   2016-05-06 11:45:00
requests網路上有官方的教學文件
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)   2016-05-06 16:50:00
作者: xyz6206a (xyz6206a)   2016-05-10 01:20:00
回S大因為FACTIVA是學校資源,我沒法直接從他頁面登入@
作者: s860134 (s860134)   2016-05-10 05:43:00
了解 但是圖書館連結到 CGI 讓你登入阿,只要是台大IP他CGI應該是以 reader 帳號登入,用 IP 做驗證只要你連著台大 VPN 或是直接用學校電腦應該可以直接登

Links booklink

Contact Us: admin [ a t ] ucptt.com