大家好,最近我在自學,利用R分析資料。偶然間看到一篇文章(
https://tinyurl.com/mveu8m4z)利用R進行主成分分析(Principle Component
Analysis,PCA),了解哪些NBA球員的打法較為相近。於是便效仿這篇文章,在ChatGPT的
幫助下撰寫R指令,利用ggplot2套件畫出PLG第三季的球員PCA散點圖。
資料來源為PLG官網的第三季球員數據(https://pleagueofficial.com/stat-player),並
參考另一篇文章(https://tinyurl.com/324wxf9x)另外計算各球員的GmSc(Game
Score)。
接著解釋一下PCA原理。PCA能將好幾個變數(得分、籃板、失誤……),透過加權、篩選後
,濃縮成幾個較重要的「主成分」(PC)。而我再根據「凱莎原則」,留下特徵值大於1的
主成分。至於選取的主成分裡包含哪原始變數和加權大小,我還沒有深入研究如何分析,因
此不得而知。
在進行PCA分析後,我選擇得到的PC1和PC2,繪製成二維散點圖。以下是圖的看法:
1.每個球員圓點根據隊伍上色(隊伍按照例行賽戰績編號1-6)。
2.GmSc值越大,球員的圓點就越大,代表球員的效率越高。
3.球員在圖上位置越相近,代表:在傳統數據上,這些球員的打法越相似。
https://i.imgur.com/C8sn4Ys.png
可以發現,大部分的本土球員,聚集於左下角,這裡比較看不出球員的特性。
主打禁區得分、護框的球員分布於右上角。大部分是大洋將,例如吉爾貝克。
中間偏上方的部分則是能投外線的延伸四、五號球員,例如強森、穆倫斯。
左邊中間為球權較多、需要擔任play maker的本土球員,像是楊敬敏、高國豪、盧峻翔。
右下角則是本土苦力球員,例如孫思堯。
最後是左上角,數據較全面的球員,通常是能得分又能助攻隊友的球員,代表為林書豪。
接著是兩個有趣發現。
首先,鈦強獨樹一格,來到圖表的中間上方,四周沒有球員,可以說是打法非常獨特。可能
跟鋼鐵人當時的狀況、出賽幾場就遭3Q有關。
其次,辛特力、曼尼高打法和林書豪相似,都是能幫助團隊、自己也能得分的球員。最意外
的是,班尼特竟然也占據相同位置!或許能開玩笑的說,KBL的Sono Skygunners就是看上這
點,才簽下班尼特吧!儘管數據呈分布上,兩人確實高度相似,但從球賽內容來看,班尼特
並無法發揮如林書豪的影響力,幫助攻城獅取勝。這告訴我們,評價一名球員時,質(球賽
內容)與量(數據呈現)皆要參考。
最後要提醒,這張圖表只能代表:
以傳統數據上來看,各球員打法的相似程度,以及依照圓點大小判斷該球員的效率高低。並
無法比較相同類型球員對隊伍的貢獻,班尼特和林書豪便是一例。
由於我也是最近才開始學習此領域相關的知識,文章可能會有錯誤,希望大家不吝嗇給予指
教!