pytorch在處理多GPU運算有data parallel跟distributed data parallel
我理解的前者是用multithread來解這問題 後者是multiprocess
在Python中 multithread要應對GIL 大量運算問題使用multithread其實不如單線程
所以data parallel實質單線程?
另外我昨天搞了個distributed data parallel
但accuracy比data parallel低超多 這為啥
超參數都一樣
pytorch好難 哇哇嗚嗚嗚