Re: [外絮] 用機器學習模型預測MVP得主 y800122155 PTT批踢踢實業坊

Re: [外絮] 用機器學習模型預測MVP得主

作者: y800122155 (@__@) 2021-04-30 13:33:16

大略看了一下原文
提供我的一點淺見
首先
使用機器學習處理問題
是假設實際存在一個真實的模型
接著透過資料訓練出一個模型盡可能接近真實的模型
然後我們就可以拿訓練出來的模型對新的資料做預測
但是在這個問題上面
MVP票選並不是一個固定的模型
投票的人不一樣投票的思維也不一樣
即便是同一批人重新投一次票結果可能也不會一樣
因此
在這種問題上使用機器學習
甚至是各種資料科學的方法都可能存在不小的問題
資料的選取也很奇怪
作者的目的是建構一個預測MVP得主的模型
但實際上
他建構的是預測MVP得票排序的模型
作者為了讓訓練資料更多
把資料做了一個特別的調整
將原本的單一年度單一球員的資料(features)+是否為MVP(label)
調整成整個MVP票選結果排序中任意兩兩一組+誰的票多
具體詳細做法也沒有揭露
這樣的做法存在非常大的問題
因為同類型的球員會有分票效應
你不會知道把第一名的球員抽出之後
原本投給他的票會如何地分配給後面的球員
整個MVP票選結果並沒有告訴我們兩兩一組的票選結果
但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料
然後最重要的是模型訓練方式跟模型評估
除了揭示使用了 XGBoost與LambdaMART 外
其他所有重要資訊都沒有揭露
我們無法得知所有的38年之中
哪些年份被拿來做為訓練資料
或是每個年份中哪些兩兩成對的組合是訓練資料
當然更不會知道訓練出來的模型評估結果好或壞
也不無可能作者把訓練資料跟測試資料反覆做各種分切
最後選取一種最滿意的切法做最後的建模
這樣做就會造成 data leakage 的問題
大概先這樣

作者: jonathan8907 (Skrillaxs) 2021-04-30 13:57:00

你放心鄉民看不懂還是會繼續吵繼續酸

作者: SwissMiniGun (瑞士迷你槍) 2021-04-30 14:14:00

有做有話題

作者: yowhatsupsli (賣火柴的小女孩) 2021-04-30 14:19:00

恩恩跟我想的一樣

作者: JoeChang5566 (揪嗆欸56) 2021-04-30 15:09:00

雖然我看不是很懂,這篇我也推

作者: buster520798 (Nick520) 2021-04-30 17:40:00

此文該推，分析透徹

作者: taipeifinest 2021-04-30 23:04:00

卡搞哩來

繼續閱讀

Re: [外絮] 用機器學習模型預估MVP得主lulululula Re: [討論] 原來當初Nash的MVP算是偷的？ZeZo Re: [討論] 原來當初Nash的MVP算是偷的？Nash4208 [情報] Nash:我只需要安排KD上場,然後好事就會發sezna [討論] 原來當初Nash的MVP算是偷的？sk050607 [新聞] 威廉森關鍵出手遭擋裁判報告證實約柯奇XperiaZ6C [討論] Kevin Porter Jr. (史上最年輕50分10助)j891004 [花邊] 網友稱詹姆斯會多拿7個籃板，KD回應：我KyrieIrving1 [情報] 球員單月三分球命中數排名 (70球以上)MrSatan [外絮] 用機器學習模型預測MVP得主timmyen