先講結論:
GDDR6X很燙,燙了就很不穩定
打遊戲沒事,但跑Deep learning訓練會壞掉
Deep learning這種應用建議直上帝版,甚至水冷版
以下是debug經驗分享:
之前從EVGA官網買到了一張便宜的3080
本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉
這個問題總是100%復現,有時早點掛,有時晚點掛
一開始以為是卡壞了,但拿去打APEX又都沒事
(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)
研究了一下這代卡的技術,通病就是GDDR6X很燙
所以我開始懷疑是顯存問題
所以我我用了一個簡單的訓練腳本來觀察卡的各項參數
(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
訓練剛開始,顯存頻率會直接拉滿到9200MHz上下
然後開始爆熱,接著就掛掉。
於是我用Afterburner將頻率下修200MHz,就不會掛了
但是跑大約10分鐘後 他就會自動降頻到5000MHz...
此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3
有夠虧
Afterburner設定如圖:
https://imgur.com/aTHIPs4
降頻示意圖
https://imgur.com/yvawLe3
現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧
或是有沒有帝版的同學可以跑看看我這份code
看是不是丐版散熱太爛的問題
PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)