Re: AI大師請進 surimodo PTT批踢踢實業坊

Re: AI大師請進

作者: surimodo (好吃棉花糖) 2025-01-22 18:12:39

從你描述的情況來看，可能有幾個因素影響了你的訓練時間，並且你目前的模型大小和訓練
時間的觀察並不完全符合預期。
訓練集規模過小：你提到使用的是Fashion MNIST，它的資料集規模相對較小（只有60,000
張訓練圖片）。這樣的資料集可能會導致資料加載成為瓶頸，尤其是如果你使用的是硬盤來
讀取資料，或者如果IO操作的效率不高，這會影響到訓練的總時間。在訓練過程中，模型的
計算時間相對較短，而IO時間（資料加載和預處理）可能佔據了相當大的一部分。
訓練過程中的計算瓶頸：雖然ResNet34比ResNet18的參數量多，但其運算複雜度和每個epo
ch的計算時間可能並不完全線性地隨著參數數量的增加而增加。ResNet34雖然參數更多，但
在某些情況下，可能由於層數增多和網絡架構的不同，計算效率會有所不同，特別是如果使
用了不同類型的操作（例如，ResNet的skip connections等）。如果訓練過程中存在瓶頸，
可能會在不同架構上造成時間差異。
MNASNet的設計：你提到MNASNet系列的訓練時間較長。MNASNet是為移動設備優化的架構，
通常會有較少的參數和較低的計算量，但它會利用一些特殊的策略（例如深度可分離卷積等
）來達到較好的效率。在這些架構中，某些操作的計算和GPU的利用可能會和ResNet不同，
進而影響實際的訓練時間。
GPU效能利用：你的訓練使用的是單張A100，理論上A100的計算效能應該很高，但如果模型
的運算不夠密集，或者計算圖中存在一些瓶頸，這可能會導致GPU無法充分發揮其性能，從
而導致時間表現不如預期。特別是像MNASNet這類專為效率設計的架構，其運行效率可能不
如專為高性能計算設計的架構（如ResNet系列）。
批次大小（Batch Size）：批次大小對訓練時間有很大的影響。較小的批次大小可能導致G
PU資源的利用率較低，進而影響訓練時間。如果你在使用這些不同模型時沒有調整批次大小
，這也可能會造成時間上的差異。
總結建議：
檢查資料加載速度：確保資料加載和預處理不會成為瓶頸，特別是在資料集較小的情況下，
I/O操作可能會佔據大部分時間。
觀察GPU效能：確保A100的利用率達到預期，可以使用工具如nvidia-smi來監控GPU的使用情
況。
調整批次大小：適當調整批次大小，根據你的硬體配置來獲得最佳訓練效率。
進一步分析運算瓶頸：使用如nvprof、TensorBoard等工具來分析具體的運算瓶頸，是否存
在某些層或操作佔用過多時間。
如果資料集和硬體配置較小，且計算複雜度相對較低，那麼可能會有更多時間花費在I/O或G
PU資源未能完全利用上。

繼續閱讀

[瓦特] 露西婭生日祭壇kevinlee2001 [BGD ] 雖然很多人說買狗和母雞是八點檔劇情shao47147 Re: [閒聊] 空軍被吸的那個ChrisDavis [閒聊] 老鼠增加了zoulephant [閒聊] 味覺akari7695 [閒聊] lckBenson765421 [瓦特] cwt在日本了嗎kevinlee2001 Re: [閒聊] 突然好想吃橘子jensheng09 [閒聊] 最近都沒有吃宵夜yangjam [閒聊] 你齁海賊王liubruce502