※ 引述《demintree (Mirabelli's back in tow)》之銘言:
: ※ 引述《jacky77437 (遺憾~)》之銘言:
: : 一棒 上壘率>速度>長打率
: : 中心打者 長打率>上壘率>速度
: http://www.beyondtheboxscore.com/story/2006/2/12/133645/296
: A point of OBP is worth about .003 runs per game from the leadoff man (a .021
: increase in the leadoff OBP would be about .063 runs more per game or 10 for
: a whole season, which usually means about 1 win)
: 由上面的圖表歸納可以猜測
: 對於第一棒來說OBP比SLG重要三倍
: 而對於中心打者的話
: #3 2.141/0.933
: #4 1.670/1.504
: #5 2.254/1.146
這篇文章的論調有很大的問題。
首先,SLG 的範圍是 0 ~ 4,OBP 是 0 ~ 1,也就是說,如果用 pure 的數字
去做 regression model fitting 的話,你怎麼算 OBP 的重要性都會大過 SLG。
講明白點,各位覺得 OBP 增加 0.1 和 SLG 增加 0.1,何者較為簡單?答案
應該很明顯。
如果 OBP 與 SLG 加一個相同的量的難度是不同的話,那麼用這兩個數值去 fit
一個 model,然後用 model 的 coefficients (or say, slopes) 去評估所
謂的 "重要性",這會不會有一點可笑?
第二點,這個作者用 retrosheet 的資料外加 18 個變數 (9 個 OBP + 9 個 SLG)
去跑一個 regression model,然後做出了那個表格當做結論,請問這是統計嗎?
為什麼這麼問?因為這個 regression model 的資料 base on 多年的各隊 lineup
資料,看起來這並沒有什麼 sample size 的問題,但我們必須思考的是:比方說
這裡頭做出的結論告訴你第一棒的 OBP 比較重要,第四棒的 SLG 比較重要,於
是你照著他的方法去安排你的棒次會得到什麼結果?
很簡單:新的棒次排列方式根本就不在原先這個 regression model 的規範之
內,這就像是我們統計東方人的身高與體重的關係,fit 出一個 regression
model,然後找一個西方人的身高代入這個 regression model 去求這個西方人
的體重,各位覺得這合理嗎?
統計學不是這樣的!這位先生的結論犯了一個很大的錯誤,他的 model 所做出
的結論應該只有這樣:
1988 年到 2002 年的 ML "曾經做過的棒次安排" 顯示一棒的 OBP 較重要、四棒
的 SLG 較重要....and so on。
以上翻譯成白話文就是:那篇文章的 model 沒有預測能力,只是一項 "普查" 結
果,所以這不僅不是一個好的 model,更不能說是一個正確的結論!
提到棒次,我們第一個該想到的是:每一個打者的上場打擊都在所難免的和前一位
打者的結果多少有一點關係 (say, context...) 。那麼我所想到的 approach 不
是 regression,而是一個 n-state 的 Markov Chain!至於 n 要訂多少?這我
就不曉得了。
前一陣子那本叫 "The Book" 的書也有提到棒次的安排,他也是用 Markov Chain,
只是他們所用的方法是 9 個完全相同的打者在 Markov Chain 的 simulation 下
分別求出 outs、single、double、GIDP、HR....etc 等等打擊結果的 Expected
Runs 然後看看這些 Expected Runs 在各個 batting order 下的表現,而
"The Book" 最後的結論是你的 1、2、4 棒要放上最好的打者;3、5 棒要放次好的
打者、剩下的依水準將較好的打者擺在較前面的位置...etc。
基於 "The Book" 的結果是用 9 個相同的打者去做打擊結果的 Expected Runs 來
當做安排棒次的依據,這本書聲稱 Bill James 所謂的棒次不重要論是對的,但
在最佳化的結果下最多可以擠出 50 分來,你相信嗎?
事實上,"The Book" 仍然犯了同樣錯誤的結論,這是因為如果我們照著他的建議
去安排棒次的話,那就已經改變了整個 lineup 的 context,這時候,這些打擊結
果的 expected runs 還會像他們書上寫的那樣嗎?我不認為會。
我認為正確的做法是:如果我們找得到一個合理的 n-state Markov Chain,然後我
們再利用 18 個不同的變數 (9 個 OBP 與 9 個 SLG) 去找出 9! = 362880 種的
棒次安排方式下究竟何種在 "合理的" simulation 下會得到最多的分數,這才
會是我們討論棒次安排問題應有的 approach,BP 的 James Click 所用的方法就比
較類似是這樣,他的結論我提過了:OBP descending order 比 OBP ascending order
一季也不過多出 20 分,然後我們又得到一個無頭公案:以 VORP 的結論,這 20 分
代表兩勝;以 Win Expectancy 的結論來看,這 20 分搞不好有可能代表 20 勝。
Sabermetric 的研究裡搞笑的文章是很多的,必須提醒的是:數字不會騙人,騙人的
是拿對自己有利或錯誤的數字做出結論的人;被騙的則是不懂數字的人。
然而,BP 的 Dayn Perry 在他的 Winners 一書中提到,利用 1871 到 2003 年各隊
的 AVG、OBP、SLG 與 IsoP 去計算與球隊總得分的 CR (相關係數),得到的結論是
AVG:.828
OBP:.866
SLG:.890
ISO:.762
而 Clay Davenport 在他的 Create EqA 過程中也提到與 Perry 相同的結果,甚
至,Davenport 在他的 raw EqA (OPS 的修正量) 式子裡隱藏了一個訊息:raw EqA
的分子其實是一種 "wild runs" 的估計,而 Hit、BB 與 Extra base 的價值相比
則是 2 : 1.5 : 1。
Billy Beane 不斷的強調 OBP 的重要性是絕對沒錯的,但他的 moneyball team
在失去 Giambi 與 Tejada 兩位較顯著的 sluggers 之後,他們的 2nd-half rally
的效果似乎一年比一年降低,這如果只說是巧合,恐怕站不住腳吧?
總之:當壘上無人的時候,BB 與 Hit 的價值是相同的,但壘上有人時,一支 Hit
的效果是每一個角度都比 BB 要好的,這應該是直觀到不能再直觀的事實。
瞭解統計學家們的想法是好事,但相信這些作者的結論,則必須要有選擇性。