[問題]各位大大想請問data anaylsis的一些問題

作者: lance5487 ( )   2018-03-11 09:59:48
各位大大好: 小的最近參加一個比賽,但目前結果卡住中,不知道該怎麼進行下去,
同時也有一些疑問在心中,希望各位大大能幫我解惑QQ
ex1:怎麼確認overfitting的回合數?
附上做完cross validation兩張圖的結果,第一張圖為AUC的結果,第二張圖為標準差
(藍色為training-set,綠色為validation-set的結果)
第一張圖:https://imgur.com/9HRjStj
第二張圖: https://imgur.com/a/O5jrA
另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了,為什麼validation
set的分數還在持續上升中?我是用xgboost的cv套件,跟這個會有關係嗎?
ex2:feature selection該怎麼做?
另外一件事是我training的資料量大約五萬多筆,目前使用的feature數目是一千多個
看起來會有維度詛咒的問題,但我若把維度下降至一百多維後再重新Training,
但結果似乎並不會比較好?如果我的維度下降得更多,結果似乎會變得稍差@@
想請問這樣是我的feature selection沒有做好嗎?
ex3:stacking的結果沒有比較好
我把 extraTree 、RandomForest、xgboost做stacking後,但結果似乎沒有比較好?
不知道原因是什麼?另外,想請問一件事,我stacking之前使用的所有演算法的參數應該
要先tune完嗎?如果把所有參數tune完後,再做Stacking,結果真的會比之前還好嗎?
感覺我現在做的結果應該有盲點,但小弟弱弱的,不知道忽略了什麼?
請各位大大指點迷津,感謝。
作者: f496328mm (為什麼會流淚)   2018-03-11 11:46:00
feature selection 有一堆方法重點那些只是"方法" 並不代表select 之後 效果會好背後的假設都不同train and validation 夠靠近 比較好靠近代表的意義是 你的 model 準確度並不會因為 data 而有所改變 這是我們期望的參數是最後在做的事你應該先專注在 feature engineering看起來你並沒有對原始變數做延伸舉例來說 y=log(x)+epsilon 但是你得到的只是 xfeature engineer 就是把這些關係找出來特徵工程基本上都是 case by case想做的好 必須對該領域有足夠的了解
作者: Jeffrey11061 (Jeff)   2018-03-12 15:41:00
ex1 原po 是不是想問如何決定而非確定,當training跟 cv開始分開,就代表overfitting開始發生所以要避免train出training & cv分太開的model

Links booklink

Contact Us: admin [ a t ] ucptt.com