[討論] 用簡單的統計模型來看得分

作者: ddtddt (得)   2011-07-18 15:17:25
LM模型: Runs ~ Hits + HR + BB + SO + SB + LOB + GIDP
Summary
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.57802 0.56442 -2.796 0.010534 *
Hits 0.83505 0.07197 11.603 7.57e-11 ***
HR 0.45883 0.15011 3.057 0.005781 **
BB 0.67218 0.08538 7.873 7.70e-08 ***
SO -0.01054 0.03427 -0.308 0.761327
SB 0.08393 0.10157 0.826 0.417501
LOB -0.47437 0.10059 -4.716 0.000105 ***
GIDP -0.67690 0.15199 -4.453 0.000199 ***
Multiple R-squared: 0.9718, Adjusted R-squared: 0.9628
首先,這結果告訴我們,用以上這些參數來估計所得分數可以估的相當的準確。
這些各樣打擊數據,幾乎可以解釋97%會得多少分的影響。
安打,HR,獲得保送,如常識所知的會提高得分。
盜壘多會增加多一點點的得分,三振多則會使得分少一點點,不過影響都不明顯。
安打、HR、保送對分數的重要性,我配了另外一個模型為了避免共線性
安打 : HR : 保送 對分數影響的比重為 1 : 2.4 : 0.7
殘壘多的球隊會使得分減少,雙殺更是明顯的影響著得分,
大約每次雙殺會使得得分少得0.6分。
最後則是來看看各隊的期望得分與實際得分。
RS/G 期望RS/G 分數差 名次差
BOS 5.355 5.324 0.030
NYY 5.152 4.981 0.171
TEX 4.938 4.869 0.069
TOR 4.708 4.826 -0.118
CIN 4.705 4.712 -0.007 +1
STL 4.663 4.747 -0.084 -1
ARI 4.495 4.619 -0.124
NYM 4.436 4.500 -0.064
COL 4.432 4.418 0.014 +1
DET 4.411 4.458 -0.048 -1
CLE 4.387 4.281 0.107 +4
MIL 4.375 4.405 -0.030
KC 4.358 4.401 -0.043
PHI 4.266 4.188 0.078 +2
TB 4.237 4.405 -0.168 -4
BAL 4.109 4.290 -0.182 -2
ATL 4.074 4.133 -0.059
CHC 4.042 4.014 0.028 +1
CWS 4.021 4.077 -0.056 -1
FLA 3.989 3.961 0.028
PIT 3.968 3.886 0.081 +1
MIN 3.914 3.874 0.040 +1
HOU 3.884 3.787 0.097 +2
WAS 3.853 3.665 0.188 +3
ANA 3.813 3.918 -0.106 -4
LA 3.674 3.806 -0.132 -2
SF 3.656 3.713 -0.057 -1
OAK 3.490 3.346 0.143 +1
SD 3.344 3.370 -0.026 -1
SEA 3.189 3.225 -0.036
作者: Edison1174 (Edison)   2011-07-18 15:19:00
祭死屍打線
作者: ckevint (Can't live w/o music)   2011-07-18 15:21:00
推一個 剛剛有看到:P
作者: jarr2610 (噓累累)   2011-07-18 15:22:00
藍鳥第四名 分區也第四名QQ
作者: Gwendaline (米)   2011-07-18 15:29:00
倒數6名全部集中在西區 國美西區火力到底有多弱啊...
作者: jacky1990b   2011-07-18 15:39:00
水兵硬是落後倒數第二快0.16分左右..幹得好orz
作者: searoar (暗坑大豆)   2011-07-18 15:41:00
第一面看不懂
作者: Yukirin (いい天気!)   2011-07-18 15:44:00
這模型幾個問題: 1.截距項的負數怎麼解釋? 這跟Y為1 0的機率模型一樣,我們無法理解Y小於0是什麼樣的情況。
作者: Yukirin (いい天気!)   2011-07-18 15:46:00
2. 怕共線性的話,把H拆成1B 2B 3B HR丟進去更好,還可以
作者: Yukirin (いい天気!)   2011-07-18 15:47:00
解決HR的係數比Hits還小的不直觀結果(要理解HR的得分期望是Hits+HR也是挺麻煩的)
作者: ddtddt (得)   2011-07-18 15:49:00
只是簡單的模型,就像把分數當常態,但不會有負和超過一百
作者: Yukirin (いい天気!)   2011-07-18 15:49:00
3.LOB放進去的意涵是什麼?前面的東西都可以解釋成因果關
作者: Yukirin (いい天気!)   2011-07-18 15:50:00
係,但得分跟LOB是同時發生的"結果"。Sorry 我認真了
作者: ddtddt (得)   2011-07-18 15:51:00
第一個模型純粹用來估計一個隊伍的平均得分用。:)一些簡單的短評有另設模型,LOB並不在其中:)
作者: ddtddt (得)   2011-07-18 15:52:00
謝謝你的comments :)
作者: dickyman (屌面人)   2011-07-18 16:00:00
天氣姐姐的統計蠻牛的( ̄ー ̄;)
作者: AWEDS (騎帥不騎快)   2011-07-18 16:01:00
喜歡這種文章~
作者: jojo2147 (d(_._)b)   2011-07-18 16:05:00
推,那請問分數差代表意義是打出期望的分數?
作者: ddtddt (得)   2011-07-18 16:08:00
分數差 = 實際RS - 期望RS 可想成運氣or隱藏的因素所造成
作者: ddtddt (得)   2011-07-18 16:10:00
隱藏因素也許包含:分區守備強度,打者心理素質,觀念等眾多
作者: jojo2147 (d(_._)b)   2011-07-18 16:10:00
感謝回答,就是想問那些隱藏因素。
作者: ddtddt (得)   2011-07-18 16:16:00
補充:分數差也一定有包含著因假設線性模型所造成的錯誤
作者: ddtddt (得)   2011-07-18 16:17:00
謝謝jojo發問,謝謝aweds的賞臉
作者: Mrlegend (137'5 G0 M375~)   2011-07-18 16:38:00
ㄗㄠˋ
作者: Mrlegend (137'5 G0 M375~)   2011-07-18 16:41:00
跟跑壘技巧也有關
作者: njnw (Say your prayers )   2011-07-18 17:03:00
模型適性分析...這純粹只是把想要的變數丟進去而已...
作者: njnw (Say your prayers )   2011-07-18 17:05:00
只要變數多 R square 就會高...這並不能解釋任何事情
作者: njnw (Say your prayers )   2011-07-18 17:07:00
3個基本假設 常態 共變異數 殘差 有檢驗過嗎?
作者: njnw (Say your prayers )   2011-07-18 17:08:00
另外 如果把H拆成1B 2B 3B HR 會發現通常只有HR會顯著
作者: njnw (Say your prayers )   2011-07-18 17:10:00
3B 太小就不用說了 (上面應該還有1B可能會顯著)也會增加解釋模型的難度
作者: danny789 (這其中一定有什麼誤會)   2011-07-18 17:38:00
請問你分析的樣本數夠大嗎?是否呈常態分配?
作者: ust (應經遊俠魂)   2011-07-18 18:01:00
樣本分配長怎樣?? 有共線性的問題嗎??
作者: AWEDS (騎帥不騎快)   2011-07-18 18:05:00
啤酒說啥我都看不懂
作者: uranusjr (←這人是超級笨蛋)   2011-07-18 18:21:00
@njnw 人家是用 adjusted R-square 不是嗎...
作者: glthe1 (源千華流)   2011-07-18 18:31:00
水手表示:用哪種算法我的名次都一樣
作者: ddtddt (得)   2011-07-18 19:11:00
我沒說這是正確的方式,只說用最簡單的方法來看
作者: ddtddt (得)   2011-07-18 19:12:00
認為要更嚴謹的人就麻煩您來幫忙改正了。
作者: ddtddt (得)   2011-07-18 19:13:00
沒有把2B 3B分出來也只是因為我手邊的資料沒有,所以沒分
作者: ddtddt (得)   2011-07-18 19:16:00
資料是目前2011年的比賽,如果看平均得分的畫理論上是常態
作者: ddtddt (得)   2011-07-18 19:17:00
說有共線是因為LOB明顯會和H BB HR有相關,所以我有改模型
作者: ddtddt (得)   2011-07-18 19:19:00
我對njnw有點意見...就是你有檢驗過不是了嗎?為什麼要批評
作者: Webb17 (Webb)   2011-07-18 19:25:00
如果只想看結果 不用檢定的話 共線性應該沒甚差吧
作者: ddtddt (得)   2011-07-18 19:26:00
估記得分的部分沒差,要看H HR BB的比重就有差
作者: globekiller (世界越快 心則慢)   2011-07-18 21:09:00
史詩般的美西
作者: globekiller (世界越快 心則慢)   2011-07-18 21:10:00
國西也是Orz....
作者: MingXDD (一流雜碎)   2011-07-18 21:40:00
就說盜壘是很無聊的事情(攤
作者: MingXDD (一流雜碎)   2011-07-18 21:42:00
而且這還沒記算CS的影響吧
作者: r112   2011-07-18 22:27:00
之前做報告老師說R 有0.3就不錯了耶
作者: njnw (Say your prayers )   2011-07-19 01:05:00
@uranusjr ARS不是更沒有統計意義可言...
作者: njnw (Say your prayers )   2011-07-19 01:06:00
@ddtddt 抱歉 其實不是批評 因為兩年前我做過類似的事
作者: njnw (Say your prayers )   2011-07-19 01:07:00
然後做完發現自己缺少以及不符合理論只是硬解釋的成分居多
作者: njnw (Say your prayers )   2011-07-19 01:10:00
然後看到這篇 真的離過得去的模型有點距離至少殘叉分析要做吧...如果你有興趣我可以把我的資料寄給你看
作者: njnw (Say your prayers )   2011-07-19 01:11:00
但那並不是什麼能登大雅之堂的東西...後來想過修改
作者: njnw (Say your prayers )   2011-07-19 01:12:00
@至於共線性 妳變數選擇方式是用什麼? 自定嗎?@r112 要看資料類型 像這種存在高度相關變數間 的R^2
作者: njnw (Say your prayers )   2011-07-19 01:13:00
妳變數越丟越多 就會一直上升 要0.99也很容易
作者: njnw (Say your prayers )   2011-07-19 01:14:00
其實真要建模 會比較建議使用主成分分析的方式來進行
作者: njnw (Say your prayers )   2011-07-19 01:21:00
另外就算你說用最簡單的方法來看 誤用統計工具可能會導致錯誤的結論,你也說了"可能"不是正確的方式
作者: njnw (Say your prayers )   2011-07-19 01:23:00
(更正 妳沒說可能,是我說的) 那有人提出問題 也是無可厚非吧
作者: ddtddt (得)   2011-07-19 09:26:00
你說的我都懂,好歹我統計唸了很多年,但我不是在寫論文
作者: ddtddt (得)   2011-07-19 09:27:00
你可以試試看拿掉一些變數,R^2是否依舊高。
作者: ddtddt (得)   2011-07-19 09:29:00
回應r112,看是哪方面的數據,描述人的行為的話的確0.3就高
作者: ddtddt (得)   2011-07-19 09:35:00
我只是恰巧看到一數據,手邊沒工作就手賤跑個最簡單的,跑出來的結果我覺得很make sense,於是分享。
作者: ddtddt (得)   2011-07-19 09:41:00
還是感謝分享,如果您做出任何否定我的模型的結論,
作者: ddtddt (得)   2011-07-19 09:42:00
我願意自D這篇:) normality or residual or equal var都行
作者: ust (應經遊俠魂)   2011-07-19 16:09:00
其實你只要殘差有乾淨... 這個模型還是會有他的解釋力aweds弱了齁XD

Links booklink

Contact Us: admin [ a t ] ucptt.com