Re: [外絮] 用機器學習模型預測MVP得主

作者: y800122155 (@__@)   2021-04-30 13:33:16
大略看了一下原文
提供我的一點淺見
首先
使用機器學習處理問題
是假設實際存在一個真實的模型
接著透過資料訓練出一個模型盡可能接近真實的模型
然後我們就可以拿訓練出來的模型對新的資料做預測
但是在這個問題上面
MVP票選並不是一個固定的模型
投票的人不一樣 投票的思維也不一樣
即便是同一批人 重新投一次票結果可能也不會一樣
因此
在這種問題上使用機器學習
甚至是各種資料科學的方法都可能存在不小的問題
資料的選取也很奇怪
作者的目的是建構一個預測MVP得主的模型
但實際上
他建構的是預測MVP得票排序的模型
作者為了讓訓練資料更多
把資料做了一個特別的調整
將原本的單一年度單一球員的資料(features)+是否為MVP(label)
調整成整個MVP票選結果排序中任意兩兩一組+誰的票多
具體詳細做法也沒有揭露
這樣的做法存在非常大的問題
因為同類型的球員會有分票效應
你不會知道把第一名的球員抽出之後
原本投給他的票會如何地分配給後面的球員
整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果
但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料
然後最重要的是模型訓練方式跟模型評估
除了揭示使用了 XGBoost與LambdaMART 外
其他所有重要資訊都沒有揭露
我們無法得知所有的38年之中
哪些年份被拿來做為訓練資料
或是每個年份中哪些兩兩成對的組合是訓練資料
當然更不會知道訓練出來的模型評估結果好或壞
也不無可能作者把訓練資料跟測試資料反覆做各種分切
最後選取一種最滿意的切法做最後的建模
這樣做就會造成 data leakage 的問題
大概先這樣
作者: jonathan8907 (Skrillaxs)   2021-04-30 13:57:00
你放心 鄉民看不懂還是會繼續吵繼續酸
作者: SwissMiniGun (瑞士迷你槍)   2021-04-30 14:14:00
有做有話題
作者: yowhatsupsli (賣火柴的小女孩)   2021-04-30 14:19:00
恩恩 跟我想的一樣
作者: JoeChang5566 (揪嗆欸56)   2021-04-30 15:09:00
雖然我看不是很懂,這篇我也推
作者: buster520798 (Nick520)   2021-04-30 17:40:00
此文該推,分析透徹
作者: taipeifinest   2021-04-30 23:04:00
卡搞哩來

Links booklink

Contact Us: admin [ a t ] ucptt.com