[問題] 如何確保opendata抓到最新資料

作者: fghdfh (fghdfh)   2020-06-30 23:49:34
各位大大好,新手在此一問
若我寫個python檔想去抓某個網站的opendata資料,
雖然opendata資料有更新頻率(比如說一小時更新一次)
但萬一該網站更新頻率不是很穩定的話,比如說有時是12:05分資料才更新,
有時是12:10才更新,有時會提早 11:58就更新了。
若用排程定時去抓,比如說我設定每個小時的第五分鐘(12:05分)抓取
但這樣就有可能會抓到上一筆還沒更新過的資料,請問大家實務上是如何解決?
感謝各路高手!
作者: james732 (好人超)   2020-07-01 00:41:00
把你這次抓的時間記下來,下次再抓的時候做比對
作者: max36067 (圍巾喵)   2020-07-01 01:27:00
直接對照前一筆資料就好啦
作者: TitanEric (泰坦)   2020-07-01 09:32:00
cache上一筆的時間
作者: mychiux413 (小邱)   2020-07-01 09:41:00
資料如果有必不重複的資訊如id就存sql,插入時重複的id忽略掉有可能新一筆跟舊一筆好死不死長一樣嗎?
作者: alvinlin (林矜業)   2020-07-01 13:20:00
p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()用md5把hash存起來然後比較頁面的md5 hash有沒有變更
作者: fghdfh (fghdfh)   2020-07-01 23:54:00
謝謝以上各位

Links booklink

Contact Us: admin [ a t ] ucptt.com