懂深度學習的請進

作者: sustainer123 (caster)   2024-12-16 17:36:56
一樣分散式訓練的問題
我拿fashion MNIST當實驗品
然後十次疊代
超參數隨便調
單卡跟DP的Batch設64
4卡設16
跑出來的時間分別是
單卡:49秒
DDP:84秒
DP:107秒
我無法理解為啥DDP會低成這樣
而且我用4張A100 沒道理輸一張A100吧
作者: sustainer123 (caster)   2024-12-16 17:37:00
模型就DNN 隨便搓的

Links booklink

Contact Us: admin [ a t ] ucptt.com