[取暖] 超大的csv檔

作者: durantjosh (肚爛特‧喬許)   2018-07-12 15:53:39
總資料快200G,單檔案最大2.5G
原本以為每個row都有照著時間順序排
結果有幾筆位置錯了,所以要調整其中幾筆資料的位置
要怎樣在大量的資料中插入row、刪除row比較有效率啊
原本是用python的pandas,但....==
作者: FlowerNight (Flowering night)   2018-07-12 15:55:00
pandas已經比原生快惹 應該有點難?
作者: saturday5566 (星期六56)   2018-07-12 15:56:00
白痴才學python
作者: FlowerNight (Flowering night)   2018-07-12 15:56:00
不然就multithread
作者: Apache (阿帕契)   2018-07-12 15:56:00
抽出來放在新的檔案會不會快一點多線程我覺得只會卡在硬碟速度上
作者: ILoveElsa (S級18位 梓喵醬油瓶)   2018-07-12 15:59:00
我知道 我這學期有修巨量資料沒有欸 我們用pyspark :(
作者: FlowerNight (Flowering night)   2018-07-12 16:08:00
切chunk吧 我查到很多人都這樣
作者: Apache (阿帕契)   2018-07-12 16:10:00
愛紗教我spark
作者: Benbenyale (想讓貝魯君更爽♥)   2018-07-12 16:14:00
老婆躺著玩

Links booklink

Contact Us: admin [ a t ] ucptt.com