各位大大好: 小的最近參加一個比賽,但目前結果卡住中,不知道該怎麼進行下去,
同時也有一些疑問在心中,希望各位大大能幫我解惑QQ
ex1:怎麼確認overfitting的回合數?
附上做完cross validation兩張圖的結果,第一張圖為AUC的結果,第二張圖為標準差
(藍色為training-set,綠色為validation-set的結果)
第一張圖:https://imgur.com/9HRjStj
第二張圖: https://imgur.com/a/O5jrA
另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了,為什麼validation
set的分數還在持續上升中?我是用xgboost的cv套件,跟這個會有關係嗎?
ex2:feature selection該怎麼做?
另外一件事是我training的資料量大約五萬多筆,目前使用的feature數目是一千多個
看起來會有維度詛咒的問題,但我若把維度下降至一百多維後再重新Training,
但結果似乎並不會比較好?如果我的維度下降得更多,結果似乎會變得稍差@@
想請問這樣是我的feature selection沒有做好嗎?
ex3:stacking的結果沒有比較好
我把 extraTree 、RandomForest、xgboost做stacking後,但結果似乎沒有比較好?
不知道原因是什麼?另外,想請問一件事,我stacking之前使用的所有演算法的參數應該
要先tune完嗎?如果把所有參數tune完後,再做Stacking,結果真的會比之前還好嗎?
感覺我現在做的結果應該有盲點,但小弟弱弱的,不知道忽略了什麼?
請各位大大指點迷津,感謝。