[問題] 在不同csv檔管理重複資料的方法

作者: leog123456 (N/A)   2022-06-18 08:31:05
Hi 大家好 想問一個觀念題
我有一個其他程式每天會固定輸出一個固定格式的csv到固定的資料夾
我目前已經實現用dataframe把當日新的csv內重複的資料刪除並保留最新的 並將每天處
理過的csv
另存到其他資料夾並自動上傳到雲端
ex:
人名,穿著,時間
小明,黃色衣服,17:50 6/18
小明,紅色衣服,18:50 6/18
根據同樣的人名小明 只保留最新時間的資料的小明紅色衣服資料 刪除舊的小明黃色衣服
的資料
但我現在遇到的問題是如果有跨csv的重複人名資料 ex小明可能會出現在前天6/16的跟今
天6/18的csv 我要刪除舊的重複資料就會有難度 請問有沒有比較好的方法來去做管理?
for loop把所有csv read到同一個df感覺沒有有點不切實際?因為我有非常多csv檔
謝謝
作者: celestialgod (天)   2022-06-18 08:39:00
https://tinyurl.com/2p82xp72最好的方式是用資料庫存資料
作者: lycantrope (阿寬)   2022-06-18 09:33:00
df.groupby("人名").sort_values(by="時間").last(1)記錯groupby沒有sort_valuessort跟groupby對調就可以了
作者: celestialgod (天)   2022-06-18 16:13:00
建議直接把csv全部存進去sqlite 處理就好 這樣比較簡單
作者: longlongint (華哥爾)   2022-06-19 03:07:00
建索引啊 key 出現在哪些檔案然後你會發現「存多個csv」這個性質你要思考一下建議資料庫啦 但你又下了一個有矛盾的強大限制
作者: bills1987 (土ㄅ)   2022-06-20 11:04:00
DB建Pk by 日期&其他欄位

Links booklink

Contact Us: admin [ a t ] ucptt.com