大家好,小弟目前在處理大量資料時遇到了一些問題
我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前
的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向
量化的方式去進行向量化運算
而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加
,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花
費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多
想請問各位有沒有什麼比較好的處理方法,感謝不盡!