[專欄] 預估進攻價值統計,CP3聯盟第一

作者: super1315566 (台灣中國,一邊一國)   2014-07-21 16:24:28
老實說,這篇文張頗有深度,也因此不是很好理解,但是運動科學的崛起,除了能夠檢驗
NBA明星的真正「價值」也絕對是台灣籃球需要更加重視的一環,至少這也是樸園隊迅速崛
起的因素之一。
補上原文連結: http://ppt.cc/ISI8
文/ KIRK GOLDSBERRY
譯/kewell
2013年2月14日,馬刺對陣騎士,比賽意外地膠著。第四節還剩9.5秒的時候,新秀Dion
Waiters投進了堪稱他職業生涯最重要的一球,讓騎士取得2分領先。嗅到了爆冷味道的騎
士主場球迷陷入癲狂。
馬刺叫了暫停,決定拿出他們最常用的一套戰術:中場變線發球,Matt Bonner把球傳給
Tony Parker——Parker此時距離籃框有30英尺遠,他很快從左路開始攻擊,Tim Duncan
給他做了擋拆,逼迫Tyler Zeller輪轉對陣Parker。時間還剩6.7秒,Parker衝向籃框,
似乎是要突破上籃,但電光石火之間,他改變了想法——
Kawhi Leonard正站在無球側而且無人看防。Parker在切入後吸引了Leonard的防守者
Waiters,Leonard面前空空蕩蕩。當Parker察覺到這一點後,他完美地將球傳給Leonard
,接下來就是走程式了:Leonard需要做的就是投進自己最擅長的三分,而馬刺最終也以1
分優勢獲勝。
但當你檢視賽後的技術統計,很難察覺Leonard的功勞。他1投1中,只得到3分。Duncan的
擋拆沒有計算在內,Parker的判斷只被記為1次助攻。
Parker回顧了最後一攻:“我以為我會上籃,但我看到Kawhi處在空位。我打球的目的不
光是贏球,更是為隊友組織進攻,所以我希望選擇正確的打法。”
* * * *
2012年麻省理工學院斯隆體育資料峰會結束後不久,我接到了布萊恩-考普的電話。考普
專職處理NBA球員資料,也是NBA攝影追蹤分析系統(SportVU)的負責人。當時我在哈佛
大學工作,考普說願意和籃球資料分析家們分享這個難以置信的資料系統。他問我願不願
意“玩玩視覺資料”,我不願錯過這個機會,但也完全不知道那是什麼東西。
幾周後,我第一次看到這個被稱為將改變籃球分析的原始追蹤系統資料,那真是個“OMG
”的時刻。當時我面對的是一個27寸的蘋果電腦,但我點開第一個追蹤資料資料夾,密密
麻麻的數字立刻布滿了大螢幕。我能看到的只有海洋一般的小數點,亂七八糟的XML標籤
。顯然,這是我見過的最“大”的資料,我還記得當時我有多驚訝,這麼多數字竟然只代
表一位球員在一場比賽某一節的幾秒鐘所做的動作。而我電腦裡有幾千個這樣的檔案。我
需要幫助。
我找到盧克-布朗,一位研究空間統計(spatial statistics)的年輕教授,把自己的困
境告訴了他。盧克建議我們組建一個分析小組,尋找合適的畢業生建立一個分析這些資料
的程式。很快我找到了四位研究資料分析和電腦工程的博士生,2013年初,每位博士生都
分配到了不同的任務,而這個小組則被命名為“XY籃球”。
丹-塞爾翁和阿歷克斯-丹阿穆爾是初創成員,他們倆都27歲,在哈佛資料分析部讀了四年
博士。他們熱愛體育,更喜歡分析資料和解碼。當他們接觸到追蹤系統資料後,立刻開始
了腦力激盪,並寫出了一個計劃方案,十分具有獨創性,但也同樣難以實現。
* * * *
為了找到最完美的分析工具,我們需要認識到的第一點就是世界上沒有最完美的分析工具
。就像沒有資料能衡量人生一樣,沒有任何一個資料能正確地衡量籃球比賽。資料是把球
員表現和分析結合在一起的簡化中介,體育分析就是個巨大的編碼器,而其基礎則是資料
能代表比賽的認知前提。
而2014年的現實是Adam Silver的NBA已經在球館中放置了攝影鏡頭,追蹤每個球員的每一
個動作。這些天花板上的“無人機”把具有潛在重要意義的位元組傳回到每支球隊的監控
室裡。鑑於就在幾年前獲得高質量資料還是件難事,現在資料分析的重擔就落在了可能沒
有把位元組轉換為有益情報的高階工具的那些分析團隊身上。現在資料分析的瓶頸不是沒
有資料,而是沒有能夠分析資料的人。那些整天加班的分析師往往沒有合適的硬體和軟體
,也沒有恰當的訓練,最重要的是沒有時間。
而在有天賦有硬體的資料分析家手中,追蹤系統的資料自然是能為人們瞭解聯盟做出巨大
貢獻的。按考普的話來說,“我們只是在隔靴搔癢而已,能真正開始高階資料分析還需要
更多努力。”NBA的大資料時代才剛剛開始,大家還都在為一個扣籃喝彩,因為它對球員
、球隊、媒體,以及最重要的球迷都有好處。但這是不夠的,就像Parker所說,我們必須
保證球員“打出正確的戰術。”
* * * *
Parker是世界上最好的組織者之一。這十幾年間,他一直是馬刺的進攻泉源。但雖然已經
贏得3個總冠軍,1個總決賽MVP,Parker卻從未被看作是真正的超級巨星。今年他再次成
為了明星賽替補,被排在那些成功比他少,人氣比他高的球星之後。也許因為Parker是外
國人,又或者是因為Parker的主隊地處德州的一個小球市。
但也許這也是因為我們的資料統計無法展示一位球員在細枝末節處發揮的重要作用,過於
看重其他一些更容易量化的資料,比如籃板和命中數。
我們稱讚Leonard的絕殺三分,畢竟他是投進這一球的人,但這一稱讚的涵義和誇獎喬治
克隆尼在《地心引力》裡演得不錯差不了多少。(譯者注:雖然是男主角,但克隆尼在《
地心引力》裡只能算是“高級配角”。)
“我們練習了1000次這個戰術,所以我知道大家一定能執行出來。”馬刺主帥Popovich賽
後說。
把這句話應用到圍棋上,應該就是說,致命一招之前的每一招都不容忽視,但我們實在過
於看重那最後一步。圍棋一般不是靠某一步獲勝的,籃球也是一樣,結果並非靠最終一步
確定,所以像Parker或者Chris Paul這樣的球員就總能有辦法幫助自己的球隊獲勝。
在大資料時代,現在的資料系統——即統計表,簡直就是個過時的打字機。雖然它的資料
仍然可靠,但卻是為了印刷便利而生,並不能真正秀出現場上10位球員的價值。統計表曾
經發揮了巨大的作用,從Bill Russell的時代到Michael Jordan的時代再到LeBron James
的時代,而從它身上也衍生出了眾多“高階資料”和籃球資料分析的前身。
在過去幾十年裡,肯-波默羅伊、迪恩-奧利弗和約翰-霍林格都成功扮演了開拓者的角色
,他們研究資料單,創造出新的、電腦時代的資料統計模式。我們會在他們的研究基礎上
前進,一切都在飛速發展。
* * * *
2013年的春季學期,塞爾翁和丹阿穆爾提出了一個新設想來評估NBA球員的價值。他們的
想法很簡單,但所需要的電腦運算卻很複雜。他們的思想核心是:
一個籃球進攻回合的每個“狀態(state)”都是有其價值的,其價值的基礎在與對進球
可能性的影響,以及這個回合進攻的可能得分(expected points)。普通的一個回合得
分大約在1分左右,每回合的可能得分是不斷浮動的,浮動的結果則是由場上的每個“狀
態”決定的。
他們同時也相信,利用追蹤資料系統,我們能第一次計算出NBA一整個賽季裡每一秒鐘的
比賽價值。他們提議,如果我們建立模型,運算幾個關鍵法則——比如球員的位置、個人
得分能力、持球者是誰、他的持球習慣、他在場上的位置等等,我們能夠用新的資料統計
顛覆現有的價值評估系統。
換句話說,想象你在比賽中的任何時候按下了暫停鍵的情況。塞爾翁和丹阿穆爾的核心理
論就是,無論你在任何時候按下暫停鍵,我們有都資料能夠算出當時的“預估進攻價值”
,簡稱EPV(expected possession value)。
比如說,LeBron在籃下持球而無人防守的情況吧,我們預估他能得到兩分,而這時候他的
EPV就是接近2。又假如Dwight Howard在距離籃框40英尺處持球,他面前有3個防守者,而
進攻時間僅剩1秒,那麼他得分的可能性就非常小,這時的EPV就接近為0。當然,大多數
時候,比賽不會出現這麼極端的情況,但EPV的框架和運行原理就是這樣。
這是理想的目標,而這一目標則催生了不少有價值的觀點。
假如我們能計算任何比賽任何時刻的EPV,那麼我們就有機會更加準確的量化球員表現,
可以第一次把引導傳球、運球突破、包夾這些籃球術語資料化。我們可以更加準確地計算
對某些球隊和球員怎樣的擋拆防守最有效。對這些比賽基本動作的分析和提煉,我們可以
判斷戰術有用與否,球員執行戰術的水平又有多高。
EPV最適合評估球員的進攻效率,它可以計算球員在一場比賽,一個客場旅行,甚至整個
賽季的所有進攻動作。我們可以用EPV分析成千上萬的動作,並把它們歸納為一個數字,
評判出該球員的真正價值。這一數字就是比起另外的人選,該球員在場上能多貢獻多少分
,這一統計可以被稱為“EPV差值”或“分差(points-added)”。
讓我們用EPV的視角重新研究Parker和Leonard配合的這一球。這一刻從騎士領先2分,比
賽還剩9秒開始,Parker啟動進攻,這時的EPV為0.97。
在Duncan擋拆解放Parker後,Parker突破到中路時的EPV反而減小(因為有Zeller換防)
,但當他離籃框越來越近,EPV逐漸上升到了1.36。Parker的運球突破已經提升了本回合
的得分,但還沒有結束。當他把球傳給Leonard的時候,EPV才達到了1.75的峰值。當
Dion Waiters瘋狂向外撲救,EPV降到了1.58,但他終歸遲了一步。
分配延續不斷的EPV(時間在不斷流逝導致EPV為一條曲線)有多種方法。最簡單的就是根
據形勢變化分配,比如Parker最終的EPV得分為+0.78,因為他啟動進攻時的EPV為0.97,
而傳給Leonard時為1.75,0.78正是兩個數字的差值。
假設一個沒有傳統資料統計的平行宇宙,只有EPV,那麼Parker顯然應該得到更多稱讚。
但在現實的得分-助攻-籃板架構裡,Leonard是被“印刷”出來的人。Youtube上關於這個
絕殺球的影片名稱為“Kawhi Leonard的三分絕殺!”
* * * *
塞爾翁和丹阿穆爾從去年開始就著手建立EPV統計模型,他們借鑑了競爭風險模型(
competing risk model)的原理,這一模型常被用於生存分析(survival analysis),
評估死亡風險和這一風險隨著時間的改變。塞爾翁認為這一模型也適用於籃球,把人類生
命的長度換成籃球進攻回合,造成死亡的各種原因也可以則導致每個回合不同的結果。
他們在2014年斯隆體育分析高峰會上把這一視角闡述成了一篇論文。“我們把‘死亡風險
’換成了球場上每個動作可能產生的不同結果。”塞爾翁解釋道,“就像在論文中所說的
,這一模型評估了每場比賽每個瞬間的兩個關鍵價值:
在定義上,現時EPV是此刻動作對於未來不同結果影響的評估。計算EPV需要一個能夠給持
球者未來可能動作下定義的模型,把球員放進空間統計裡,讓我們瞭解此刻狀態對未來結
果的影響。我們把這個模型叫做‘情境模型(possession model)’,運用馬爾可夫假設
理論(Markovian assumption),這個模型可以讓我們計算a、在某一情境球員做出某一
決定的可能;b、球員做出決定後該情境的EPV值。綜合起來,我們可以得到任何回合裡任
何情境的價值,也能對製造出這一價值的進攻體系進行評估。”
再拿上賽季馬刺對雷霆的一場比賽進行說明(圖)。Leonard在靠近弧頂處持球,模型預
估出接下來他的動作和EPV的變化。
假如你問這一模型最難的是什麼,他很快會提到電腦運算。但他的觀點對於進入大資料時
代的體育分析有極大的啟發性。2012-13賽季,追蹤資料系統一共記錄了80,0000,0000次
球員位置移動。記住,這只是14支球隊的資料,而本賽季所有球員都開始使用這一系統。
而追蹤資料系統的資料庫很快達到了930億位元組。
把這些位元組全都塞進一個模型,塞爾翁和丹阿穆爾尋求了哈佛大學集群計算服務(
cluster computing service)器,即“奧德賽(譯者注:Odyssey,以《荷馬史詩》中的
人物命名)”的幫助。它竟然佔用了500個增強功率型並行處理器2太位元組(terabyte)
的內存。
想想我們過去使用的簡單基本的資料統計,這樣的新型資料令人思維顛覆,不管是對人腦
還是電腦。有多少NBA球隊的員工理解什麼叫“競爭風險模型”?更別說去建立和運用它
了。就算這個數字不是0,也會比較靠近0而不是30。
* * * *
2012-13賽季,全聯盟EPV差值最高的球員為Chris Paul,場均數值為3.48。這是較為合理
的,大部分人都會把Paul看作是如今聯盟的第一控衛。Parker的排名也很前面,EPV差值
為1.5,在所有327位達到統計資格的球員中排第20位。Ricky Rubio的-3.33是最低的。
“Paul的EPV差值為3.48的意義是,他的球隊因為他在場每場能多得3.48分,就因為拿球
做決定的人是Paul,不是其他什麼球員。”丹阿穆爾說。
“總體來說,那些善於運用自己的長處,比如得分,或者善於運用隊友長處的人,得分會
非常高。”丹阿穆爾說,“假如一個球員某一出手比任何人的命中率都高(比如Nowitzki
的中投),或者能發揮出隊友不尋常的天賦(能經常傳球給Ray Allen投三分),那麼他
的得分就容易是正值。但假如一般球員選擇傳球,而這位球員總要艱難出手,或者某個隊
友的投籃命中率出奇的低的話,那麼這位球員就可能得到負值(比如Rubio在Love手腕受
傷時的EPV差值)。”
但影響Rubio數值的主要原因還是他的投籃技術,在任何位置出手他都十分低效。他任何
出手的EPV都要比其他球員低,也處於這個原因,雖然Rubio其他方面能做出貢獻,但EPV
模型貶低了他。
* * * *
EPV模型的主要貢獻還有待觀察,它的統計之路才剛剛開始,根本不可能對籃球統計起到
顛覆性的影響。但也許在未來,它會帶給NBA一些新的應用價值。而現在,比起評估一個
球員的真正價值,EPV模型起碼能帶給人們新的視角去思索和計算NBA比賽,推動NBA和籃
球運動的進步。
多年來,我們都在討論“高階資料”,但那都不過是高階一點的數學。別誤會我,像“每
回合平均得分”,或者“PER值”這樣的統計是有極大的價值和進步意義的,但我們要做
的還有很多。我們已經手握龐大的追蹤系統,現在差的就是分析這些資料的技術。
不幸的是,計算需求加大,最好的資料分析系統越來越難以獲得,留給我們實驗的時間恐
怕不多了。
附:2012-13賽季EPV差值TOP10
Chris Paul:3.48
Dirk Nowitzki:2.60
Deron Williams:2.52
Stephen Curry:2.50
Jamal Crawford:2.50
Greivis Vasquez:2.46
LaMarcus Aldridge:2.40
Steve Nash:2.09
Wesley Matthews:2.06
Damian Lillard:1.95
2012-13賽季EPV差值倒數TOP10
Ricky Rubio:-3.33
Kevin Love:-2.38
Russell Westbrook:-2.07
Evan Turner:-1.90
Austin Rivers:-1.84
Rudy Gay:-1.75
Jrue Holiday:-1.51
Paul George:-1.49
Chris Singleton:-1.48
Roy Hibbert:-1.44
(注:由於2012-13賽季追蹤系統未完全應用,只有Paul和LeBron James的客場資料被統
計進去。LeBron的總排名為23。)
作者: RodrigueZ810 (裝小維)   2014-07-21 16:29:00
籃球這種動態比賽用這種數據比較能充分詮釋
作者: encorej77107   2014-07-21 16:36:00
一球迷呢
作者: ghostforever (呃)   2014-07-21 17:10:00
這好屌 讚
作者: OCEANBOY7329 (海洋之夢)   2014-07-21 21:00:00
倒數一二名都在灰狼..難怪怎麼打都進不了季後賽

Links booklink

Contact Us: admin [ a t ] ucptt.com