[問題] tensorflow 訓練中不明暫停

作者: ches728ter (Chester)   2018-07-17 15:44:24
環境
NVIDIA GeForce GTX TITAN X
win10 + tensorflow 1.4 + CUDA 8.0 + cuDNN 6.0
目前要測試多個參數組合(kernel數等)哪個正確率高
遂寫了一個內含迴圈的batch檔,
會依序開新的cmd跑設定好的py code
batch如以下
start /wait python model_001.py
start /wait python model_002.py
...
問題來了
丟下去跑常常遇到跑了幾個model後
訓練到某個step就不動了(model數跟step數都不一定)
開'工作管理員'看GPU整個就是在休息狀態(?)
要手動在cmd按任意鍵他才會回神繼續跑下面的step
但沒幾個model又睡著了要再敲醒它
確認過
1. 電腦沒休眠
2. GPU記憶體沒滿(看工作管理員)
3. 訓練完py結束前有下sess.close()
感覺很像GPU偷懶打瞌睡要叫醒一樣
不知道有沒有人遇過並知道怎麼解決的??
感激不盡
作者: sma1033 (死馬)   2018-07-17 16:27:00
win10特有的cmd怪問題我跑其他程式時有時也會忽然停住換成ubuntu從此就沒發生過Ler
作者: ches728ter (Chester)   2018-07-18 02:36:00
原來是win10的問題嗎感謝 我再查查看有沒有解

Links booklink

Contact Us: admin [ a t ] ucptt.com