PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題]scrapy有沒有辦法在抓資料時做比對?
作者:
allen511081
(藍)
2015-03-17 12:10:04
如題,當我的爬蟲程式在抓網頁資料時有沒有辦法做比對的動作?
例如:我的每個網頁資料有日期、時間、地點、紀錄人,附上連結
http://webdata.bird.org.tw/contents.php?key=1
在我觀察後面的網頁時,發現同日期、時間、地點、記錄人的紀錄會有好幾筆,
這樣會造成我的資料的不正確性,我想請教各位高手,
有沒有辦法在爬蟲爬資料時,對於這些日期、時間...等資料先做比對,
有重複則不抓取這頁資料,沒有重複,再經由item回傳輸出城CSV檔?
作者:
ug945
(ug945)
2015-03-17 16:50:00
寫另外程式讀CSV比對重複資料會比較好
作者:
allen511081
(藍)
2015-03-17 22:03:00
另外寫程式判讀的話,我該用那些方法呢?例如:我第一頁的資料要跟第二頁比對,第二頁要跟第三頁比對,以此類推,麻煩高手指點一下,謝謝
繼續閱讀
[問題] 新手請教網站爬蟲用urllib會跑出亂碼
starbygod
Re: [問題] 代碼的問題
SocketAM2
[問題] 代碼的問題
Dong0129
[問題]PyTrilinos windows安裝
MACD
[問題]pandas轉換問題
allen511081
[問題] 可以幫忙把這隻程式便可以執行嗎?
daveninbbs
[問題] 請教一個問題,能否遠端
Dong0129
[問題] 讀取檔案內容的問題
Dong0129
[問題] 用python看linux使用者登入狀況
fen78553
[問題]關於scrapy 和pandas 的問題
allen511081
Links
booklink
Contact Us: admin [ a t ] ucptt.com