[閒聊] 進階數據RAPM簡介(末): RAPM

作者: f820203 (frankkao)   2021-10-14 21:50:20
Regularized Adjusted Plus-Minus (RAPM)
由於APM只用誤差最小平方法進行估算
若有球員表現呈高度相關性
則會出現多重共線性的問題
導致不同球員估算的正負值有劇烈的浮動
有的絕對值十分巨大 有的則趨近於0
此時可以在誤差最小平方合的矩陣外
額外加入λx正負值反矩陣x正負值矩陣
(可以想像成λx正負值平方和)
利用懲罰項λ讓正負值不會出現絕對值異常大的情況
這種作法稱為嶺回歸(ridge regression)
這也是RAPM以及許多新的籃球數據模型的基本方式
除了ridge regression之外
還可以加入幸運值的影響(luck-adjusted RAPM)
舉例來說隊友和對手罰球命中率不會受個別球員能力影響
但不同的命中率會影響球員的正負值
這個也能透過luck-adjust調整
小結
自從PER問世以來 進階數據已隨著資料科學的進步蓬勃發展。
除了引用基本數據做為公式之外
新的進階數據更像是透過新數據不斷修正的模型
有的主打動態數據 有的加入幸運值 有的則是能預測未來發展
甚至還有利用機器學習建立的模型
今天介紹的RAPM是很多先進模型會引用的
其實進階數據背後有很多數學以及原理
若能稍加研究
就能推斷出各個數據的優缺點以及適用範圍
個人覺得比起純粹比數字大小有趣多了XD
延伸閱讀
RAPM介紹
https://reurl.cc/Mk4Qyp
Ridge Regression (youtube 影片)
https://reurl.cc/V5NxNy
Luck-adjusted ratings
https://reurl.cc/OkGNGy
作者: blackdevil (過了︿︿)   2021-10-15 07:41:00
推~
作者: pescado (平均每天傻笑三十一分鐘)   2021-10-15 11:06:00
推,雖然門外漢只能模糊看懂個大概
作者: vfgce (小兵)   2021-10-15 12:35:00
嚴格來說線性迴歸的迴歸係數才幾個,根本不是overfitting.會有很大預測誤差是因為共線性下符合最小平方的解不止一組沒有新的資料測試前根本不知道哪個預測效果較好。ridge ression的重要是盡可能選出小的迴歸係數。避免掉太大的迴歸係數造成過大的預測誤差。
作者: f820203 (frankkao)   2021-10-15 12:46:00
樓上專業線性迴歸的確是想辦法讓MSE壓到最小而不是把所有值硬fit出來Ridge則是收斂用的我再修正一下文章感謝V大提醒~
作者: fated ( )   2021-10-15 12:55:00
感謝f大一直以來的用心分享諸多好文章
作者: cowbay5566 (靠北5566)   2021-10-15 22:23:00
push
作者: AriesC (Caspar)   2021-10-16 00:33:00
感謝分享
作者: mindd (Snail Slow)   2021-10-16 05:42:00
push
作者: softstar0125 (軟星星)   2021-10-16 10:39:00
好文推
作者: ThisIsNotKFC (Time to Change)   2021-10-16 15:47:00

Links booklink

Contact Us: admin [ a t ] ucptt.com