[問題] pandas read_sql(mysql) 資料大時很慢 atoo333 PTT批踢踢實業坊

[問題] pandas read_sql(mysql) 資料大時很慢

作者: atoo333 (天氣真好) 2018-07-29 16:13:56

如題
同一段語法，查詢結果約數百萬筆，有三個欄位varchar ,datetime ,float
情況
一.使用mysql workbench 測試sql語法，duration 7.551s，fetch 20.654s
二.使用pandas read_sql 未使用chunksize，跑超過半小時跑不出來，ram沒有動
使用chunksize 也沒有改善 (pymysql + sqlalchemy)
連到db server 看mysql workbench的dash board，
在Outgoing Network Traffic 部分，情況一的流量比情況二明顯多很多，
而且情況二的流量不太連續。
在InnoDB Disk Reads的狀況也是一樣。
不知道pandas 這邊還有什麼調校手法可以使用，再麻煩先進指點一下!
謝謝!

作者: atoo333 (天氣真好) 2018-07-29 16:56:00

看到一些分析說pymysql 很慢，換成mysqldb 2分鐘可跑出來

作者: TuCH (謬客) 2018-07-29 23:30:00

試試看先讀少量的data 看記憶體消耗的程度

繼續閱讀

[問題] (已解決)爬蟲圖片遇到編碼問題(日文)laiDark Re: [問題] 網頁爬蟲liquidbox [翻譯] Twisted Introductioncryinrain [問題] 大量圖片批次二值化的方法st40182 [問題] 網頁爬蟲TimJack [問題] 多條件去撈DB資料自動更換條件instar7 [問題] leetcode 658 sean72 [徵書] 徵求歐萊禮-精通機器學習|使用Pythonroger5455858 [問題] (新手)迴圈計算問題ChangYuuuuuu [問題] 欄位名稱修改jasonfghx