PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] selenium爬蟲新手問題
作者:
xyz6206a
(xyz6206a)
2016-05-05 09:30:38
各位前輩好,
小弟為python爬蟲新手,因為對python有點興趣
接下了系上老師的研究助理撰寫網路爬蟲
目前在學校想幫老師爬Factiva資料庫
但必須利用學校ip再利用學校圖書館連結進去
不過在跳轉過程中會不小心蹦出新的頁面
而且跳出後網址好像跳了好幾次
新手面對這狀況讓我非常困惑,不知道該如何是好
http://imgur.com/KUECSly
http://imgur.com/42OdNRD
附圖為我目前遇到的狀況
不知道板上前輩們有沒有什麼好方法解決?
作者:
ripple0129
(perry tsai)
2016-05-05 10:21:00
標題好像跟內容無關,先說好我沒寫過selenium,不過你要先確定手動連線是正常的嗎,感覺上似乎跟自動化無關啊,單純連線上就有問題吧XD
作者: Kadai (龜)
2016-05-05 13:50:00
直接用request設proxy連進去呢?
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)
2016-05-05 22:05:00
用 requests
作者:
xyz6206a
(xyz6206a)
2016-05-06 00:31:00
各位前輩因為我沒用過REQUEST是否有推薦的書籍呢?
作者:
s860134
(s860134)
2016-05-06 01:38:00
先不談 request ,你怎不直接到 Factiva 的頁面?為何要特意從圖書館的連結進去@@
http://i.imgur.com/4uUzdhO.png
複製這個網址把它直接放在你 driver.get('連結網址')我記得 selenium 會直接把轉跳完的頁面當作你請求的頁面
作者:
octantis
(@.@)
2016-05-06 11:45:00
requests網路上有官方的教學文件
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)
2016-05-06 16:50:00
直接看 doc
http://docs.python-requests.org/en/master
作者:
xyz6206a
(xyz6206a)
2016-05-10 01:20:00
回S大因為FACTIVA是學校資源,我沒法直接從他頁面登入@
作者:
s860134
(s860134)
2016-05-10 05:43:00
了解 但是圖書館連結到 CGI 讓你登入阿,只要是台大IP他CGI應該是以 reader 帳號登入,用 IP 做驗證只要你連著台大 VPN 或是直接用學校電腦應該可以直接登
繼續閱讀
[問題] 矩陣數值寫成bin檔
enjoyloli
[問題] request 如何實現多重代理
yf9000555
Re: [問題] os.sep
uranusjr
[閒聊] multiprocessing的thread數量
shemale
[問題] os.sep
shemale
Re: [問題] 用file open抓TXT開的問題
uranusjr
[問題] 重新index一個去除重複列的DataFrame
jimmy15923
Re: [問題] 用file open抓TXT開的問題
doomleika
[問題] 用file open抓TXT開的問題
QooEX
[問題] 關於unicode to csv請教
areyo
Links
booklink
Contact Us: admin [ a t ] ucptt.com