[問題] 想請問有更有效率的寫法嗎? sariel0322 PTT批踢踢實業坊

[問題] 想請問有更有效率的寫法嗎?

作者: sariel0322 (sariel) 2014-08-24 14:05:40

我想把一個列數相當多的csv檔案
把裡面重複的列數給刪除掉
我只能想到這種寫法:
import csv
rows = []
a = 0
o = open("output.csv","w")
f = open("input.csv","r")
for row in csv.reader(f):
rows.append(row[0]+","+row[1]+","+row[2]+","+row[3]+","+row[4]+","+row[5]+","+row[6]+","+row[7]+","+row[8]+","+row[9]+","+row[10])
for i in set(rows):
o.write(i+"\n")
f.close()
o.close()
但由於行數非常多，資料量也大(csv檔案約400mb)
因此全部跑完可能需要五天(有寫個計數器來大約計算過，為了節省空間沒列出來)
想請問有沒有更有效率的寫法

作者: LiloHuang (十年一刻) 2014-08-24 17:02:00

如果重複的資料很多，應該可以不用先把資料放到list內提供一個做法也許不見得會變快 XDimport csvuniqueSet = set()o = open("output.csv","w")f = open("input.csv","r")for row in csv.reader(f):line = ",".join(row)if line not in uniqueSet:o.write(line + "\n")uniqueSet.add(line)f.close()o.close()有時候性能瓶頸是在硬碟本身，可以看看 CPU 是否有吃滿畢竟 400mb 的 CSV 要跑到五天真的有點久了些...避免先放到 list 再轉，至少可以省掉一次 O(n) 的浪費

作者: yjc1 (.來而色月踏我.) 2014-08-24 20:41:00

不考慮用shell的sort -n < input.csv | uniq > output.csv ?

作者: LiloHuang (十年一刻) 2014-08-24 21:10:00

推 yjcl 的做法，雖然會動到資料先後順序，但非常優雅!

繼續閱讀

Re: [問題] PyQt5寫的.pyw不能跑Neisseria [問題] PyQt5寫的.pyw不能跑annisat [問題] 停止正在執行 3rd party lib 的 thread carylorrk [問題] 請問發行套件以及下載套件觀念問題maxjoiny [問題] 檔案讀取與資料使用問題wsqa [問題] 反斜線\在python的處理hsushipei Re: [問題] 用Python 寫 shellgargoyle005 [問題] docs.scipy.orgfischcheng [問題] 用Python 寫 shellkamihane Fw: [廣告] 關於小孩學習程式語言的資訊Breadhouse