[問題] groupby 效能改進

作者: f496328mm (為什麼會流淚)   2018-03-25 19:02:10
想問要怎麼改進以下的 code , 讓速度變快
我以前是寫 R 的, 正將 code 轉換為 Python, 照理說 Python 應該要比較快
可是我不太熟悉 Python, 所以來請教版上的大大
我擷取一部分 data, 可以由這下載 :
https://drive.google.com/open?id=1mneTEgrK22mKK7a4fquyMaW3pchIc-kh
Python code
#====================================================
import os,sys
import pandas as pd
import numpy as np
import datetime
os.chdir('/home/linsam/project/Kaggle/Grupo Bimbo Inventory Demand')
data = pd.read_csv('train2.csv')
#
作者: celestialgod (天)   2018-03-25 19:42:00
https://goo.gl/1gYJghhttps://goo.gl/Mv5nTX groupby字串的看起來還可以Test 4by int或是numeric 就滿悲劇的XDD所以你說Python一定比較快 恩... 應該還是不一定而且data.table的測試指出pandas記憶體用太多在dplyr, data.table沒爆的情況下,pandas爆了
作者: abc2090614 (casperxdd)   2018-03-25 22:14:00
pandas記憶體效率比data.table差很多Wes McKinney自己有說pandas是吃記憶體怪獸...
作者: celestialgod (天)   2018-03-25 22:18:00
trace了一下issue,2E9列,pandas會爆掉那個已經fix
作者: Luluemiko (露露)   2018-03-26 00:42:00
Pandas on Ray 不知道這個有沒有幫助
作者: aaaba (小強)   2018-03-26 12:25:00
pySpark 表示:

Links booklink

Contact Us: admin [ a t ] ucptt.com