[問題] pandas read_sql(mysql) 資料大時很慢

作者: atoo333 (天氣真好)   2018-07-29 16:13:56
如題
同一段語法,查詢結果約數百萬筆,有三個欄位varchar ,datetime ,float
情況
一.使用mysql workbench 測試sql語法,duration 7.551s,fetch 20.654s
二.使用pandas read_sql 未使用chunksize,跑超過半小時跑不出來,ram沒有動
使用chunksize 也沒有改善 (pymysql + sqlalchemy)
連到db server 看mysql workbench的dash board,
在Outgoing Network Traffic 部分,情況一的流量比情況二明顯多很多,
而且情況二的流量不太連續。
在InnoDB Disk Reads的狀況也是一樣。
不知道pandas 這邊還有什麼調校手法可以使用,再麻煩先進指點一下!
謝謝!
作者: atoo333 (天氣真好)   2018-07-29 16:56:00
看到一些分析說pymysql 很慢,換成mysqldb 2分鐘可跑出來
作者: TuCH (謬客)   2018-07-29 23:30:00
試試看先讀少量的data 看記憶體消耗的程度

Links booklink

Contact Us: admin [ a t ] ucptt.com