前言
因為不少朋友反應想了解更多關於數據介紹,因此這篇將主要介紹常見棒球統計
數據名詞(中職能算的)、公式或概念。本篇將分成以下架構介紹:
(1) 如何解讀數據、常見數據概念。
(2) 個別介紹每一項數據,並盡可能附上算法和概念。
如何解讀數據
傳統數據多多少少存在一些盲點,例如主觀因素過重、比重不均、分析層面過於
粗略。為了解決這些問題出現了不少進階數據,大致上解讀數據可分以下幾個想法:
(1) 累積型數據和平均型數據有所不同。累積型數據是指球員上場時間愈多成績愈有
利,例如張正偉在2015年擊出140隻安打,這當然得有足夠上場時間才能達成;
而平均型數據是指將累績數據做進一步處理,例如張正偉2015年打擊率0.335,經
過處理後的數據在樣本數足夠下才能一起比較,例如2015年張正偉打擊率0.335,
王勝偉0.291。
(2) 樣本數是否足夠。當樣本數過小時,數據容易失真或變動性過大,因此大多數數
據均要求一定量的樣本數,對於樣本要求各方標準不一,常見的是打者要求平均
每場3.1個打數,投手要求每場一局。若樣本數不足時,建議看基礎數據表現即可
或另取合理門檻。
(3) 進階數據大多是經過迴歸分析而得到公式,其資料來源多數是以MLB過去資料為母
樣本做分析,雖然不一定完全適用在中職上,但多數數據具有一定參考性。
(4) 進階數據重視組距大於數字大小。這是解讀進階數據時大多數人的迷思,例如A球
員XR/27是6.12,B球員是6.37,解謮上會認為A和B球員是同一個等級,而不會說B
球員比A球員好,原因如同(3)所述,公式係數多數是經由迴歸得到的數字,只要
稍微改變一下變因就可能改變係數,因此以數字大小決定強弱是沒有意義。
(5) 部份進階數據是跟聯盟平均或底層球員做比較,例如WAR、WS等等。
(6) 多數進階數據數字愈高等級愈好,但也有少數數據是數字愈少愈好,通常以+號
表示前項,以-號表示後項。
(7) 貢獻值和能力值並不相同。貢獻值是指實際上球員提供多少成績給球隊,偏向結
論性質,通常上場時間愈多球員愈有機會提供更多貢獻值;能力值較具預測性,
偏向理論性質,實務上可能因受傷、被其他球員卡位等因素而無足夠時間和空間
,導致具高能力值選手卻無法提供高貢獻值。
(8) 雖然大多數進階數據會盡可能去除(降低)主觀因素,但仍然有可能會有缺陷,
評斷球員前建議多觀察幾項數據。