[心得] Java perf profiling 分享

作者: alihue (wanda wanda)   2021-11-10 22:40:20
原本要想講心得,但想一想每個系同異質性太高 又難有 SOP,
因此先以可以用的工具以及分析面相下手
當 SRE 回報了問題:
Case 1. 今天開始 latency 變高,但 QPS 沒比較多,也沒 Deploy 新版
Case 2. CPU 用不到 50% 開始 timeout
Case 3. 壓測沒問題,但系統跑一週後 latency 開始變高
Case 4. 新版本的記憶體使用量開始變高,但這個新版包含了三個月分的 commit
這些問題乍看之下是很難猜出原因,或是隨便說 qps 變高能唬(?)過去的
假設你的系統很肥大,同時有個 10 以上在開發,
且程式早就肥到你無法輕易猜出可能問題
此時也比較難去逐個 commit 比對哪裡開始出問題
因此一些 profiling 的技巧可以幫助你快速找到 root cause
1. 記憶體 - JVM heap GC
啟用方法就是你在執行 java 時帶上參數 -XX:+PrintGCDetails (詳細請見文件)
在執行的時候就會順便寫 gc log,這個通常建議預設開啟,
往後 debug prod issue 可以直接用就方便很多
首先你要知道你的 JVM 用了哪個 GC 演算法,最常見的大概是 CMS or G1,
演算法細節先不討論
gc log 可以用這套軟體幫助圖形化 https://it.gcplot.com/
圖形化後大概可以看 GC 的頻率與耗時、eden/tenured spaces 在 gc 前後的狀況等
在這個階段可以判斷出該往 memory leak 或調整JVM記憶體配置的方向
1-2 記憶體 - Memory profiling
在這個階段需要去 dump memory heap 來做分析看是否有無 memory leak
方法很簡單,直接執行下列指令,這個指令是 JDK 內建的
jmap -dump:format=b,file=/tmp/heapdump.bin [pid]
不過注意這個指令會停住整個 JVM 幾秒 (根據記憶體大小與效能),
如果在 PROD 執行建議先把流量切到 0
然後你就取得一個很大的檔案 (file size ~= JVM heap size)
然後一樣去用軟體分析,這裡我推薦 https://www.eclipse.org/mat/
當用軟體分析完後大概可以看到那些物件佔了最多記憶體與它的 stack trace
但同時你也需要具備該系統知識 這樣才能判斷記憶體占用是否符合預期
如果有 memory leak 此時看 stack trace 也可以輕易知道是哪段扣出問題
2. CPU profiling
這部分可以透過第三方軟體做 profiling,我推薦
https://github.com/jvm-profiling-tools/async-profiler
你可以簡單下載它的 release 檔案,並複製到要 profiling 的 JVM 底下,
範例指令 ./profiler.sh -e itimer -d [SECONDS] -o flat [PID] > cpu.log
這個指令是輕量的,所以是可以在 PROD 執行的,
但避免你被 SRE 暗殺建議還是要溝通好
執行完後會取得類似如下的 log
作者: peter98 (新兵)   2021-11-10 22:52:00
推 這個上班有用過
作者: wangshichen (阿璽..(單純))   2021-11-10 23:27:00
這個必推
作者: qrtt1 (有些事,有時候。。。)   2021-11-10 23:47:00
求網頁好讀版。有沒有考慮轉 FB 相關社團討論?
作者: itoni (每天都過得很混)   2021-11-11 04:34:00
推 JFR也不錯
作者: saitoh (Perhaps Love)   2021-11-11 09:10:00
遇到十秒就把Heap全吃爆進Full GC的外包PG就只能靠通靈了
作者: ayayay2288 (李馬克)   2021-11-11 10:02:00
推 最近也遇到類似問題
作者: viper9709 (阿達)   2021-11-11 17:43:00
推分享
作者: lokstory (瞎說五唬將)   2021-11-14 22:06:00
剛好遇到記憶體問題,推

Links booklink

Contact Us: admin [ a t ] ucptt.com