※ 引述《gto1814 ()》之銘言:
: 其實就投手來講,真的有所謂「本身的」東西嗎?
: 很少吧!投手不是一個人獨自在投球阿
: 投手本身的成績是各種因素彙整出來的結果吧
: 這種「Neutralize」的情況實際上存在嗎?
: 不可否認,這種統計計算方式能算出一定的東西,但它是否過於假設一些理想
: 或是不存在的狀況?
我分兩個部分來說我的感想好了。
首先,Neutralize的情況實際上存在嗎?是否過於假設一些理想或是不存在的狀況?
我想,如果你花一點時間到Baseball Reference的網站去看一下他的說明,就可以明
白這個問題的答案。網址:
http://www.baseball-reference.com/about/equiv_stats.shtml
裡面就有提到,他們所做的調整包括了:調整為中性球場數據、調整為 162場比賽的
數據、投手自責分調整為失分的 90%、每隊得分調整為 750分。看完這些調整,你就
知道這些在現實生活中不可能發生。你的疑問正是他們的目的,他們就是要假設一些
理想的情況。你應該問的是,為什麼要這樣做?
老實說,因為我這個人數學能力很差,以前雖然學過一點點初級的統計、微積分什麼
的,但通通還給老師了,所以我沒有辦法去說評論說他們那樣做對還是錯,計算過程
還是公式有什麼問題,所以我只是提出我看到他們說明的之後的看法,大家可以來討
論看看。
假設這些理想甚至不存在的狀況的原因很簡單:想辦法讓所有人站在同一個基礎上面
。之所以要這些數據,就是要提供一個比較的基礎,如果每個人都只是說「我覺得」
的話,是比較不出什麼結果的,當然,身為一個球迷,有時候只是一種熱情,即使自
己欣賞的選手實力不是頂尖,也還是一樣熱情的支持。但是有很多情況之下不能只是
憑著這種熱情,舉例來說,經營一支球隊就是這樣。
假設今天我的球隊二壘有個洞要補,我能隨便從 Robinson Cano或Dustin Pedroia
裡面選一個嗎?這時候數據的功能就在於提供一個比較的平台,幫助球隊經營者做出
最有效益的決策。(這裡我們就先跳過數據派跟球探的爭論,從單純數據的觀點出發
吧 = =)
我們先不要管實際的公式是否有用,只討論他為什麼要做這些假設,大家都說 Todd
Helton的成績可能因為他過去幾年都在一個極端的打者球場出賽而有灌水的嫌疑,調
整為中性球場之後的數據,就可以讓他跟其他打者站在同一個基礎上面做比較。大家
都說王建民有洋基打現在他後面幫他撐腰,好,那現在就把他跟其他要比較的人都通
通丟到一支162場比賽打750分的球隊去,這樣就可以看看在支援分一樣多的情況下,
誰的預估勝場數多,這樣不管說王建民靠打線還是靠自己的人都沒得說嘴,只要大家
同意預設的前提跟計算方式,就可以站在同一個平台上討論。事實上,BR的說明網頁
就列了一個投手計算的範例,有興趣的可以參考一下。
上面是回答,「Neutralize的情況實際上存在嗎?是否過於假設一些理想或是不存在
的狀況?」這個問題,我的看法是,就是要做這樣的假設才有對話的空間。
好,如果你是一個對數據沒什麼興趣,甚至可能看到數據就反感的人,卻還是看我屁
到這邊的話,希望你繼續看我屁下去,有可能會改變你的看法。
就我所知道,大部分的「數據派專家」們不會告訴你他們是萬能的,他們做出來的東
西就一定是對的,事實上,很多數據頭都會承認自己的極限。
1900年,一個德國數學家 David Hilbert提出了23個當時數學界難解的題目,其中有
許多對後來的數學發展有重大的影響,這二十三個問題人稱Hilbert's Problems。而
在2000年的時候,數據派重鎮之一 Baseball Prospectus發表了棒球界、或者說棒球
數據界的Hilbert Problems。我舉幾個例子:如何將投球與守備分離、如何估計隊友
之間防守的影響、如何計算捕手在防止失分上的作用、如何評估轉換守備位置的影響
、如何評估小聯盟投手的發展......等等。我們可以看到這裡有一個重點,數據派正
試圖將守備與投球分開。
你提到:
: 其實就投手來講,真的有所謂「本身的」東西嗎?
: 很少吧!投手不是一個人獨自在投球阿
: 投手本身的成績是各種因素彙整出來的結果吧
舉例來說,DIPS(獨立於防守之外的投手數據)這個理論試圖做的就是將投球跟守備
的數據分離,希望能讓所有投手站在同一條線(不考慮守備好壞)上來做比較。這個
理論假設被全壘打、三振、保送、觸身球是屬於投手能力,這些數據與守備無關,而
被打進球場中的球是否形成安打則和守備相關,而投手對其影響相當的小或者根本沒
有,所以在這個理論中將相關數據排除。
但是這個假設不是沒有被檢討過,至少就我所知,有一派說法是,你需要長時間的大
量數據(至少七個球季以上)才有辦法驗證該投手對於打進球場中的球是否會成為安
打有無影響力。我並不清楚驗證的方法,也不到所謂的影響力到底是怎麼樣的影響,
提出這個只是要說,當你丟出一個理論出來,也就是提供其他人驗證這個理論的機會
,會有更多聰明的頭腦去考慮各種可能的方向。我沒有看過哪個真正的數據派專家說
自己丟出來的東西一定是對的,一定可以解決所有的問題,我看到的是許多理論一再
被驗證、被改良。真正的數據派在使用數據時是非常小心的,在使用數據前,會設法
讓他的對象跟他站在同一平台上,提供必要的資訊,在解讀數據時,有幾分證據才說
幾分話,立論嚴謹不誇大。
我一直提到「真正的數據派」,就代表了有假的數據派,所謂假的數據派就是,抓了
一個數據,就斬釘截鐵的告訴你一定是怎樣,或者是出於有意或無意的錯誤解讀數據
,甚至可能對於他們提出來作為立論基礎的數據一知半解。
舉一個最簡單的例子,一個幾年前默默無聞,現在好像家喻戶曉的數據:OPS
OPS = OBP + SLG (下面為了計算方便,假設觸身球跟高飛犧牲打為0)
= (安打+保送)/(打數+保送) + 壘打數/打數
= ((安打+保送)*打數 + 壘打數*(打數+保送))/(打數*(打數+保送))
好,誰告訴我((安打+保送)*打數 + 壘打數*(打數+保送))/(打數*(打數+保送))代表
什麼意義?當你拿這個數據出來比的時候,你是在比什麼東西?如果你回答不出來,
是不是應該回頭想想,你使用、解讀這些數據的方式是否錯誤了?
其實我想說的只是,看球有很多方式,你可以單純享受棒球比賽本身的魅力、看投捕
手跟打者之間的對決、看野手完成一次又一次的精彩守備,沒有人說非看數據不可。
只是,如果你花一點時間去瞭解數據,也可能會有不同的感受。
至於常常拿數據出來的人,應該要好好想想,自己這樣丟一個數據出來代表什麼意義
?當你丟數據出來的時候,你的目的是討論或者只是想證明自己是對的?你是否抱著
正確的態度與方法去解讀與使用數據?你是不是瞭解各種數據可能存在的限制?當你
面對一個對你提出來的數據毫無所知的人,而他提出疑問時,你能夠好好說明嗎?當
你想說服別人之前,能先說服自己嗎?
真正的數據派,因為瞭解到目前數據的許多限制,表現出來的應該是謙遜而非傲慢。
這是我的觀念,如果有什麼錯誤的地方,歡迎指正。