[問題] 在python中關於讀取csv資料後進行運算 processior PTT批踢踢實業坊

[問題] 在python中關於讀取csv資料後進行運算

作者: processior (korman) 2018-05-08 23:16:49

先舉例假如有一 a.csv(內容)如下:
index 職位　　薪資　　index　職位　　薪資
0 經理　　６萬　　１　　經理　　５.５萬
2　　經理　　７萬　　　３　　協理　　１０萬
　 4 協理　　８萬　　　５　　總經理　　２０萬
　 5 課長　　４萬
csv檔內容如上，我的想法是將所有職位相同的薪資加起來除
於平均數，例如經理三位（6萬＋5.5萬+7萬）/3 =6.166萬
　然後從新編排csv檔為
　index 職位　　薪資
　 0 經理　　6.166萬
講白一點就是把相同職位的資料整還在一起，然後薪資就求他的平均值
一開始的寫法如下：
　fx = open(path,'r')
fxr = csv.reader(fx)
for row in fxr:
開始主程式對資料內容進行判讀
　這種寫法很直觀也很笨，隨著檔案越來越大　執行的速度也不夠快
我想請問是否有沒有哪些python的模組是可以做csv檔案的重新彙整
而且可以對內容值作相互運算（加減乘除之類的）
　我之前有看pandas　的dataframe　好像不錯用　但是他好像沒有對單一列行
的某個值可以做加減乘除用算的功能，不知有沒有版友知道有沒有更棒的
的模組又或者pandas就可以做得到我想要的功能。
　　　　　

作者: justoncetime (台北叢林好冷~) 2018-05-08 23:35:00

如果CSV很大,逐列是省記憶體吧(空間換時間)?不知道Pandas遇到很大CSV記憶體會不會爆?

作者: processior (korman) 2018-05-08 23:37:00

是希望運算時間可以快一點

作者: kenduest (小州) 2018-05-08 23:45:00

就 pandas 來處理，語法可以很乾淨達成需求df = pandas.read_csv('file.csv')df.groupby(['title'])['salary'].agg(['mean'])大概這樣的概念??

作者: ThxThx (洗洗睡) 2018-05-09 05:14:00

這樣的想法很直觀可是沒有很笨Simple is better than complex你有用profiler 確定慢是慢在哪裡?但如果想要簡潔一些 pandas的確可以用在你的問題上

作者: bestchiao (呼拉拉) 2018-05-09 11:04:00

k大的方式可以解決你的問題但不知你的資料量有多少?

作者: kenduest (小州) 2018-05-09 12:21:00

若是太多就進資料庫，用 sql groupby 處理也很快

繼續閱讀

[問題] 超級新手python的疑問ReadSnow [問題] 關於使用opencv拍照的畫面st40182 [問題] matplotlib繪圖像素問題gundan [問題] 關於sklearn importYamamoto5 [問題] 如何繞過強制以瀏覽器打開另存新檔視窗?kogrant [問題] subplot title與xlabel重疊Paudse [問題] 網頁爬蟲 UTF-8無法解析KeyBoardKill [問題] 獲取.py檔路徑的方法差異(1000p)znmkhxrw [問題] 關於python中，句點符號的意思？firstlovesky [問題] decision tree畫圖mikeliang