環境
NVIDIA GeForce GTX TITAN X
win10 + tensorflow 1.4 + CUDA 8.0 + cuDNN 6.0
目前要測試多個參數組合(kernel數等)哪個正確率高
遂寫了一個內含迴圈的batch檔,
會依序開新的cmd跑設定好的py code
batch如以下
start /wait python model_001.py
start /wait python model_002.py
...
問題來了
丟下去跑常常遇到跑了幾個model後
訓練到某個step就不動了(model數跟step數都不一定)
開'工作管理員'看GPU整個就是在休息狀態(?)
要手動在cmd按任意鍵他才會回神繼續跑下面的step
但沒幾個model又睡著了要再敲醒它
確認過
1. 電腦沒休眠
2. GPU記憶體沒滿(看工作管理員)
3. 訓練完py結束前有下sess.close()
感覺很像GPU偷懶打瞌睡要叫醒一樣
不知道有沒有人遇過並知道怎麼解決的??
感激不盡