[問題]各位大大想請問data anaylsis的一些問題 lance5487 PTT批踢踢實業坊

[問題]各位大大想請問data anaylsis的一些問題

作者: lance5487 ( ) 2018-03-11 09:59:48

各位大大好：小的最近參加一個比賽，但目前結果卡住中，不知道該怎麼進行下去，
同時也有一些疑問在心中，希望各位大大能幫我解惑QQ
ex1:怎麼確認overfitting的回合數?
附上做完cross validation兩張圖的結果，第一張圖為AUC的結果，第二張圖為標準差
(藍色為training-set，綠色為validation-set的結果)
第一張圖：

第二張圖:

另外我覺得也有一點蠻奇怪的:照理說training-set的error已經1.0了，為什麼validation
set的分數還在持續上升中?我是用xgboost的cv套件，跟這個會有關係嗎?
ex2:feature selection該怎麼做?
另外一件事是我training的資料量大約五萬多筆，目前使用的feature數目是一千多個
看起來會有維度詛咒的問題，但我若把維度下降至一百多維後再重新Training，
但結果似乎並不會比較好?如果我的維度下降得更多，結果似乎會變得稍差@@
想請問這樣是我的feature selection沒有做好嗎?
ex3:stacking的結果沒有比較好
我把 extraTree 、RandomForest、xgboost做stacking後，但結果似乎沒有比較好?
不知道原因是什麼?另外，想請問一件事，我stacking之前使用的所有演算法的參數應該
要先tune完嗎?如果把所有參數tune完後，再做Stacking，結果真的會比之前還好嗎?
感覺我現在做的結果應該有盲點，但小弟弱弱的，不知道忽略了什麼?
請各位大大指點迷津，感謝。

作者: f496328mm (為什麼會流淚) 2018-03-11 11:46:00

feature selection 有一堆方法重點那些只是"方法" 並不代表select 之後效果會好背後的假設都不同train and validation 夠靠近比較好靠近代表的意義是你的 model 準確度並不會因為 data 而有所改變這是我們期望的參數是最後在做的事你應該先專注在 feature engineering看起來你並沒有對原始變數做延伸舉例來說 y=log(x)+epsilon 但是你得到的只是 xfeature engineer 就是把這些關係找出來特徵工程基本上都是 case by case想做的好必須對該領域有足夠的了解

作者: Jeffrey11061 (Jeff) 2018-03-12 15:41:00

ex1 原po 是不是想問如何決定而非確定，當training跟 cv開始分開，就代表overfitting開始發生所以要避免train出training & cv分太開的model

繼續閱讀

Re: 如何呼叫另一檔案裡def裡的參數flarehunter Re: 如何呼叫另一檔案裡def裡的參數Paudse [問題] 將for迴圈中所出現的值儲存成矩陣RX480 [問題] 以jupyter教學python的書籍請益Mochahaha 如何呼叫另一檔案裡def裡的參數Paudse [問題] 自動分析log產生report定時寄mail的功能VAIOBIOS [問題] 關於HOG特徵的視覺化neil987 [問題] No module named 'fake_useragent'levenspiel [問題] tkinter標籤資料重複讀取檔時並不會覆蓋suwolanjio [問題] python response 問題fordpines