※ 引述《tzaumin (.......)》之銘言:
: 我不懂的是,A對C與B對C是一個相對性的比較是沒錯
: 但是拿A對C與B對C比較的結果再做比較
: 卻是一個絕對性的比較了,不是嗎?
: 換一個說法好了,若有錯請指正
: A演算法對C問題,得到了80%的增益
: B演算法對C問題,則得到了75%的增益
: 所以我們應該可以說在C問題上
: A演算法"100%"比B演算法好,不是嗎?
: 請各位賜教
Ichiro 是一個統計上的 outlier,這一點 Nate Silver 在 04 年他破
Sisler 的單季安打紀錄時層經提過。
當時 Silver 計算了 04 年的 PA% resulting in BIP 與 BABIP 的
Leaders 與 Trailers,基本上 ML 打者的趨勢是 PA% resulting in BIP
如果為領先者,BABIP 就很可能是車尾者;反之,PA% resuling in BIP
若為車尾者,BABIP 則傾向領先者。
04 的 Ichiro 則是一個巨大的 outlier,他在 PA% resulting in BIP 是
Top 10,BABIP 也是 Top 10。換句話說,像 Ichiro 這種選手用 Nate 的
PECOTA 去 Figure 的話就不適用。
Nate 承認他懷疑 Ichiro 在 04 年的確是有點 lucky,但他表示他會利用
冬天來修改 PECOTA 的 approach 以 "對付" 像 Ichiro 這種人。這才是
統計學家應有的態度,而不是把 BABIP 完全推給運氣,而做出類似 "等到
BABIP 的 regression mean 出現,Ichiro 就會爛掉" 的奇怪結論。
話說回來,Ichiro 究竟有多好?如果你考慮他用掉的出局數加上他的 VORP,
他的確沒那麼 decent;如果考慮 Davenport 的 EQA (有點像 OPS 的修正量
再加以 scale),去掉 Ichiro "幸運" 的 04 年,他仍然維持在 .280 以上
的水準,甚至比 Johny Damon 更好,與 Derek Jeter 相近;如果再加上守
備的因素考慮 WARP,那麼從 Ichiro debut 的 01 年起算,別說 Damon 和
Jeter 贏不了他,Manny Ramirez 和 Gary Sheffield 反而都沒他那麼好,
當然,A-Rod 是比他好,而這時候,我們已經用到全聯盟最好、最高薪的球
員的名字來 beat Ichiro 了。
Ichiro 是不是個好的第一棒?Bill James 告訴大家:棒次的安排沒有這麼
重要,重要的是你有沒有 "用對人" 而已;James Click 告訴大家,用 OBP
descending order 排棒次可以得到最高的得分,而用 ascending 得的分數
雖然最低,但兩者相差只有 20 分,然後你可以繼續用 Expected Runs
或 Runs Created 與 Win Expectancy 去做 clutch 方面的 argue,最後發
現毫無結論,因為這兩種東西不是同一個 base 下的產物。
統計學錯了嗎?當然不是這樣的,數字不是 zero-sum game,它不會騙人,
會騙人的是拿對自己有利的部份來証明自己的推論的人。不同的 base 做出來
的結論就是很可能產生平行線。
至於拿數字來說明誰該入選 ALL-Star,我認為這是不必要的行為。Dodgers 的
SS Izturis 在 05 年就有入選,他的 jersey 在 Dodger Stadium 還賣得不
錯,也是 LA 的 beloved player 之一,但身為 DePodesta 的擁護者,我
曉得 Izzy is MF suck!So what?Fans 想看到 Izzy 進 All-Star,而他
們也辦到了,事情就這麼簡單!All-Star 如果都只是選擇真正表現好的球員
,又何必開放 Fans 去投票呢?
也因此,我同意在 Fans 不能參與的部份、像是 MVP、Cy Young Award、HOF
等等應該由 sabermetric 介入,但是如果連 Fans 介入的 All-Star vote 都
要用 sabermetric 來衡量,那實在不很有意義。
Ichiro 究竟有多好?或者究竟有多爛?那些 Old School 的 manager 的 comments
或許不值得一提,但如果看數字,這問題就端看你用 "哪一種角度去檢視了"。
記住一點:數字不會騙人,騙人的是只找自己有利的部份去做推論的人;被騙的
則是不懂數字的人。