PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] 如何確保opendata抓到最新資料
作者:
fghdfh
(fghdfh)
2020-06-30 23:49:34
各位大大好,新手在此一問
若我寫個python檔想去抓某個網站的opendata資料,
雖然opendata資料有更新頻率(比如說一小時更新一次)
但萬一該網站更新頻率不是很穩定的話,比如說有時是12:05分資料才更新,
有時是12:10才更新,有時會提早 11:58就更新了。
若用排程定時去抓,比如說我設定每個小時的第五分鐘(12:05分)抓取
但這樣就有可能會抓到上一筆還沒更新過的資料,請問大家實務上是如何解決?
感謝各路高手!
作者:
james732
(好人超)
2020-07-01 00:41:00
把你這次抓的時間記下來,下次再抓的時候做比對
作者:
max36067
(圍巾喵)
2020-07-01 01:27:00
直接對照前一筆資料就好啦
作者:
TitanEric
(泰坦)
2020-07-01 09:32:00
cache上一筆的時間
作者:
mychiux413
(小邱)
2020-07-01 09:41:00
資料如果有必不重複的資訊如id就存sql,插入時重複的id忽略掉有可能新一筆跟舊一筆好死不死長一樣嗎?
作者:
alvinlin
(林矜業)
2020-07-01 13:20:00
p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()用md5把hash存起來然後比較頁面的md5 hash有沒有變更
作者:
fghdfh
(fghdfh)
2020-07-01 23:54:00
謝謝以上各位
繼續閱讀
[問題] 輸出成pdf 結果打的東西變不一樣了
mack
[問題] 條件扣減金額及消訂單
rounders
[問題] 特徵選取使用Relief 問題
ariel777
[問題] 請問爬蟲 bs4的擷取方法?
neiltsang
[問題] 兩個表格合併
MAGICXX
Re: [問題] 影像辨識追蹤
MasterChang
[問題] 爬蟲新手 座標圖抓資料(解決)
joeyen0546
[問題] 爬蟲下載影片 愈到權限問題
neiltsang
[問題] dataframe使用replace的疑問
jasonhsu14
[問題] 有小數點的數字關鍵字
ayaniji
Links
booklink
Contact Us: admin [ a t ] ucptt.com