[心得] GN 13、14代問題影片重點整理

作者: mrme945   2024-07-21 14:20:52
https://youtu.be/gTeubeCIwRw
在此之前Intel 13、14代CPU問題總結:
-Raptor Lake家族CPU故障災情目前持續傳出,時間至少從
六個月前開始,最早在2023年3月就出現可能屬於此問題的
案例
-這些故障的CPU會產生各式不同的錯誤,其中幾個已辨識出
來的問題包含但不限於:程式/遊戲錯誤使用過多的VRAM造
成崩潰、CPU的錯誤造成AntiCheat誤ban、系統重複BSOD、
解壓縮錯誤,過多不同的問題造成難以debug找出問題根源
-這次的故障不代表CPU完全死去、無法開機,而是代表著這
些CPU無法再運行時達到規格上的表現或是運行時會產生各
種錯誤
-根據Level 1 Techs的Wendell,他接觸的伺服器廠商,約
有50%的CPU會產生不穩定,但他認為其中的一半是有機會
恢復的,所以推估故障率約為25%
-目前Intel的作為只有推出微碼(Microcode)更新,但根據
Hardware Unboxed的測試,此更新會造成10%~25%的效能
損失,並且也並非根絕問題的辦法
本次影片的新資訊:
-現階段GN不推薦Intel所有CPU,除非Intel作為第一方把整
件事情解釋清楚並且承諾後續處理事宜,或是第三方辨識
出問題,並且清楚界定受影響的範圍
-如果你擁有13、14代CPU,無論是否有出問題,請協助GN調
查,問卷需填入CPU上的編號,以幫助GN鎖定是否有特定範
圍內的CPU受影響,Google問卷網址:
https://geni.us/INTELFAIL
https://iili.io/dnOkwtn.png
-GN得到內線消息(此內線為Intel前幾大的客戶,應為OEM廠
商),光他們的企業中就有超過800萬顆CPU可能受到此次事
件影響,其中有超過610萬顆*CPU的型號集中於
i5-13600K、13600KF
i7-13700、13700T、13700K、13700KF
i9-13900、13900F、13900T、13900K、13900KF
此企業當中不同團體的故障率估計為10%~25%,沒有給出實
際故障的數量,但簡單計算後數字應落在60萬到200萬之間
*我前篇推文是錯的,我寫成600萬顆故障,但這個數字只是
此企業認為可能受影響的範圍,實際數字應為60萬~200萬
以下為Intel內部流出的資訊:
-目前對於問題根源最有力的推測**,是抗氧化塗層在生產過
程(fabrication)中出錯了,造成CPU當中不同層之間的連結
(via)氧化
-Intel目前正持續更新微碼,此微碼會進一步降低CPU頻率,
應能緩解問題發生,但仍無法根絕問題
-有一個Intel的大客戶目前發現將CPU降低到5.3GHz以下,能
夠緩解問題
-目前有複數的大客戶正在因為此事件清理庫存,並從他們的
企業客戶回收CPU
-Intel可能會把官方支援記憶體頻率1DPC最高從DDR5-5600降
到DDR5-4800(非XMP)
-此次事件影響到的大客戶包含許多Intel的資金來源及投資團
體,而這些團體是能夠顯著地對Intel施加財務上的壓力,其
中一個團體為Citadel
**注意,這目前只是推論,實際如何要等到GN送專業實驗室做
檢驗(Failure Analysis)的結果出來之後才知道可能的原因
以下為前述大客戶內線流出關於此故障事件的敘述:
-這次事件的根源,是作為抗氧化的隔離塗層氮化鉭(TaN)在原
子層沉積(Atomic Layer Deposition, ALD)的過程中出錯了,
造成CPU當中via裡的純銅氧化,使得電阻提升,並造成後續故
障***
-之前PL限制的事件並非造成此次問題的原因,這是晶片生產的
問題,因為PL問題能夠透過微碼解決,目前還不確定Meteor
Lake是否受到影響
-在CPU腐蝕/汙染太嚴重之前,關掉Turbo Boost能夠讓CPU保持
暫時的穩定
***這點結合了GN聯繫的實驗室對此事件推測的解釋,礙於我不
是專業,詳細解釋請看影片
關於故障率:
-Intel告知客戶的故障率約為0.035%
-GN聯繫的OEM廠商估計約為10%~25%
-Wendell聯繫的伺服器商推估故障率約為25%
-GN聯繫的系統整合商在進貨時統計約有12%的CPU無法通過QA
(並且這已經是降低標準後的結果)
最後GN給出的提醒:
-目前還不知道真正造成故障的原因
-目前還不確定是否有多重因素造成此次事件
-目前流傳的解決辦法,或許可以解決部分問題,但都無法解決
所有問題
-GN目前還沒證實關於生產瑕疵的推論
-調整Boosting可以短暫解決問題(或至少讓CPU活得更久)
-Intel可能會更改官方規格表上CPU的最高頻率,但或許不會像
OEM或SI廠商那麼激進(降到5.3GHz~5.5GHz)
-Wendell:1.目前有數據顯示約有50%的13900KS確認不受影響。
2.受影響的CPU平均壽命約為16個月。

Links booklink

Contact Us: admin [ a t ] ucptt.com