[測試] I家E core在Ansys Fluent中的效能表現 xiaotee PTT批踢踢實業坊

[測試] I家E core在Ansys Fluent中的效能表現

作者: xiaotee (曉薙) 2024-06-21 22:39:19

懶人包：沒有用
部落格好讀版：
https://soulattic.blogspot.com/2024/06/intel-13th-cpuansys-fluent.html
1. 前言
由於工作上時常需要使用CFD(計算流體力學)軟體來模擬，加上對電腦硬體有些認識，成了
成了本次做這一些小測試的契機。
念研究所的時候12代剛上，當時有時間可以進行測試，實驗室的設備費卻已經乾了，因此一
直沒能買有大小核設計的CPU來進行一些CFD運算的測試。我看到的大多說法都說大小核
設計有助於計算密集型的生產力應用，例如渲染、剪片轉檔等等，也確實在Cinebench之類
的跑分軟體中有十分強悍的表現。
網路上國內外的評測都鮮少提到CFD軟體的測試成績，只有少數評測網站會測試開源的CFD軟
體OpenFOAM，但測出來的結果卻差異甚大。
在AnandTech的測試中intel 13/14th 全面領先Ryzen 7000系
在Phoronix的測試中7950x3d卻反將一軍
目前工作上使用的軟體是ANSYS Fluent，因此本文將會以這個軟體做為測試主軸。但合法的
ANSYS軟體一套要價數百萬，只好跟公司借用借用，嘿嘿。
利用了下班時間跑了ANSYS Fluent的Benchmark Case做了一些測試，留個紀錄想要拋磚引玉
2. 測試環境
A. 軟體版本: ANSYS Fluent 23R2
B. Benchmark Case: ANSYS Fluent, External Flow Over an Aircraft Wing
(aircraft_2m)
C. 網格數量: 2m(200萬)
D. 網格類型: Hexa(六面體)
E. 紊流模型: realizable k-eps turbulence
F. 求解器類型: Pressure based coupled solver, Green Gauss Node based, steady
G. 電腦配備:
CPU: Intel i7 13700 nonK
Cooler: Thermalright BA120
MB: ASUS B760-A WiFi D4
RAM: Kingston Fury DDR4-3200 32GBx2 @3466
SSD: ADATA S70 pro 2TB
Case: CM TD500 MESH V2
H. 環境溫度24度C，觀測HWinfo軟體全測試無出現撞溫度牆的狀況。
I. 電源計畫: 高效能
合法的ANSYS Fluent一次最多只能使用4核心運算，想另外加核心數上去就必須購買HPC(Hig
h Performance Computing)。
而這個HPC也是動輒百來萬的東西，因此在這邊只使用1個軟體本體+1個HPC的License，總共
總共12核心下去做運算，我想在有限的核心數量下找出最佳的組合也比較符合預算有限的且
只能使用合法軟體的單位。
3. 測試結果
必須要先做說明，我有找到原廠的電腦設定建議，裏頭是建議關掉超執行緒(Hyper-Thread,
因此剛開始測試都是關閉HT的狀況，後來才想說要把HT打開測試看看。
以下是測試結果，橘框是P core：
A. 6P6E (no HT)
Simulation wall-clock time for 1800 iterations 4085 sec
6P6E是將HT關掉後，在Windows 11下的自動核心調度結果
進工作管理員看是有指定CPU親和性在每個運作的核心上的
https://i.imgur.com/GadJ4lb.png
B. 8P4E (no HT)
Simulation wall-clock time for 1800 iterations 3920 sec
8P4E是我在工作管理員中手動將CPU親和性調度到8個P核上的結果
https://i.imgur.com/3XH3Yia.png
C. 全預設 (自由調度)
Simulation wall-clock time for 1800 iterations 3630 sec
全預設狀況下把HT重新打開，這時進工作管理員查看會發現CPU親和性沒有被指定
但從工作管理員上可以推斷出應該是跑在12個P核的執行緒上
https://i.imgur.com/uVanIiv.png
D. 8P0E (no HT)
SSimulation wall-clock time for 1800 iterations 3683 sec
把小核跟HT都關了，軟體設定8核心運算，只用8C8T下去跑，這個就沒有特別截圖了
E. 8P0E(有開HT，用12個執行緒在跑)
Simulation wall-clock time for 1800 iterations 3578 sec
關小核但開HT，看工作管理員，也有指定CPU親和性在前12個執行緒上
https://i.imgur.com/65t7BYt.png
4. 總結
基本上可以將結果分為兩群:
i. 有E核參加運算(A、B)
ii. 無E核參加運算(C、D、E)
https://i.imgur.com/5eo1FTG.png
其中i群內8P4E相較於6P6E快了4.2%，好像有些差別
ii群內8P0E無HT比預設慢了1.4%，8P0E有HT比預設快了1.5%，這應該可以被認為是誤差
i群平均(4002.5s)相較於ii群平均(3630.3s)慢了10.3%
甚至可以從B跟D的比較中發現8P4E比8P0E還慢！！
我認為這可以歸因於CFD的特性，CFD是一種吃重記憶體頻寬的應用。
在消費級平台上只有雙通道的記憶體頻寬被P核和E核共享，結果就是沒有讓速度較快的P核
發揮全部的算力，進而導致整體計算時間拉長。
因為還沒測試過AMD平台，所以不能說全大核的AMD平台就比較好。但可以得到的結論是：
算CFD完全沒有買13900/K的必要，因為P核數量並沒有增加。
以上結果供各位參考，如有關於購買CFD模擬用硬體設備也歡迎留下建議。

繼續閱讀

[菜單] 25k繪圖文書機YY05 [菜單] 25K極輕度遊戲機aimgel [菜單] 30k 看盤與輕度影音娛樂kinaco [請益] 華碩1660S風扇壞掉請益horizon01 [情報] Fractal Design台灣代理更換為樂維科技E7lijah [開箱] 小卡4輸出，技嘉 GeForce RTX3050 LP 6Gvostro [開箱] COUGAR MX600 RGB WHITEwolflsi [請益] 桌機沒有Type-C孔解決推薦aall2468 [菜單] 50k D4遊戲機含螢幕prairiefire [菜單] 42k 遊戲影音機VeryGoood