在Fermi架構下跑出來的值會超高是因為兩個原因
1.編譯時編成m32的版本,沒辦法吃到4G以上記憶體
2.編譯時編成限定kepler以上架構,導致在fermi上不能跑
所以程式會因為出錯立刻結束,讓執行時間超級短
以至於算出來的頻寬會爆高!!
基本上我是認為程式沒有問題
我幫大家編譯了可以在fermi以後世代的卡上跑的程式
http://goo.gl/v7Ogq6
http://goo.gl/fKGHcp
那個因為不能上傳執行檔,下載後把尾巴的_去掉即可
編譯環境是CUDA 7.0RC,所以需要第二個連結的dll檔案一起下載下來
有漏掉什麼dll的話我在補上來