[閒聊] 進階數據RAPM簡介(一): PER

作者: f820203 (frankkao)   2021-10-14 19:10:12
常常看到球迷引用進階數據分析球員
但往往都是直接拿數字來比大小
較少人會針對背後的數學公式/模型進行討論
因此想來介紹個在進階數據中鼎鼎大名的RAPM
要介紹進階數據之前要談一下進階數據老祖宗Player Efficiency Rating (PER)
基本上就是把box score一大串數據透過公式變成uPER(unadjusted PER)
再透過pacing調整(adjusted PER, aPER)避免打得快的球隊洗數據
最後把聯盟平均設在15來調整並計算出最後的PER
詳細計算過程
https://reurl.cc/Mk4x4X
PER會有其歷史定位有兩個原因
第一個是方便且一目了然,可以用一個數字代表球員的表現
另一個原因則在於發明者John Hollinger很懂推廣手法
透過調整公式讓
球星PER落在30左右
普通球員大概15附近
比較差的球員則是個位數
這個數字大小跟場均得分很像,因此大家看到數字比較容易有連結感
不過PER雖然有其歷史意義,但在數據分析的角度是一蹋糊塗
接下來就來簡單說明PER的缺陷
1. 只看box score鼓勵刷數據,無法反應對球隊的影響。
球員戰術執行 卡位 防守輪轉這種影響比賽結果的細節都不會反映在PER
2. 只有固定公式,無法隨不同時代球風變化調整
3. 過度重視長人。
由於發明的時代長人比較吃香
因此PER重視的數據如籃板和低失誤率都是對長人有利對後衛不利
4. 未針對對手強度優化。
球員去打二陣或三陣虐菜數據就是比打一陣漂亮
最明顯的例子就是Boban Marjanovic每年都繳出LBJ等級的鬼神PER
5. 未針對角色定位優化。
一個中鋒整場投進1顆三分還行。但球隊專職射手一場1顆三分不ok
6. 過度重攻輕守,且對於防守評價有很大問題,只看火鍋和抄截。
專職防守者洗不到數據,因此PER普遍低落
另外預先卡死傳球線,黏死對手不讓對手運球無法顯現在PER
反之愛賭博性防守會亂站位亂抄球對球亂揮
反而比較容易洗到數據(ex. Isaiah Jackson)。
這些其實對公式修正一下就好
最嚴重的是John Hollinger沒有數據分析背景,因此研究方法有明顯的問題
正確的作法:
Step 1 找出一個想要解釋的現象 (ex 怎樣的球員會讓球隊贏球機率增加)
Step 2 試圖創造一個假說/模型解釋這個現象
Step 3 套入數據到驗證資料,透過誤差平方和大小求出模型效度以及信度
Step 4 根據觀察到的現象修正模型
John Hollinger的作法:
Step 1 我想知道誰比較強
Step 2 把box score混一混做成撒尿丸公式
Step 3 沒了
事實上PER是進階數據中信度和效度最差的,且雜訊相當強沒啥統計意義
業界已經沒人在用了,大概只剩球迷拿來論戰。
既然PER無法反映出特定球員對於球隊獲勝機率的影響,就有人提出正負值相關的作法。
這部分就下回待續了。
延伸閱讀
https://reurl.cc/XlqYZ3
https://reurl.cc/emL4Gb
作者: kaneggyy (負けないで!)   2021-10-14 19:19:00
作者: leoc554 (emanuel)   2021-10-14 19:24:00
作者: dogville (犬村)   2021-10-14 19:25:00
PER本來就問題多多 但也沒有到沒人用與其說是沒人用 不如說現在各家都想推自己的數據
作者: f820203 (frankkao)   2021-10-14 19:29:00
前陣子有人訪問NBA業內29位總管/數據分析主管沒有人視PER為有效指標現在業界主流是建立模型而非固定公式並透過ridge regression 優化模型結果
作者: hydeless (海德)   2021-10-14 19:32:00
PER多半只用在跟自己比現在只剩下
作者: cowbay5566 (靠北5566)   2021-10-14 23:35:00
PTT還是很愛用這個
作者: monkey0135 (HappyThompson)   2021-10-15 00:52:00
作者: henry52617 (彭)   2021-10-15 08:28:00
作者: spursgdppop   2021-10-17 11:57:00

Links booklink

Contact Us: admin [ a t ] ucptt.com