[問題] python sklearn DT/RF feature important s82237823 PTT批踢踢實業坊

[問題] python sklearn DT/RF feature important

作者: s82237823 2021-04-08 11:54:51

大家好
我最近正在練習使用sklearn library
主要是在用decision tree/random forest這兩個演算法
我想請問一下這兩個的feature importance
(同一個dataset 以及使用sklearn的importance_ ）
我每一個feature importance的值都落在0.1-0.2之間
請問這個值本身有什麼意義嗎？
另外這個是只限於這個演算法裡面使用還是可以比較？
比如說我同一個dataset
DT 的 importance 是10-20之間
然後 RF得到的是0.1-0.2之間
這兩個演算法拿到的feature importance是有可比性的嗎？
謝謝

作者: aassdd926 (打東東) 2021-04-09 10:50:00

Random forest 本身就是多個DT，他的 feature importance 是所有樹加權平均過的。而這個數值主要依據樹以此特徵分裂下，數據impurity的下降程度（樣本比例權重下）。用途上feature importance可以用來選取特徵，例如重覆刪除後面10位不重要的特徵，以找出讓模型表現最好的特徵subset，但也要小心過擬合的特徵feature improtance 也會很高，容易受到誤導如果要比較的話，我應該會把它轉換成 rank

繼續閱讀

[問題] 有關chrome driver的路徑betcy [問題] 如何以txt檔案格式開啟其他檔案類型？imhandmore [問題] 使用「補字」後排版無法對齊mintzki [問題] PyQt5 designer 帶入範例程式uimoxangxang [心得] 數據分析的心得ThePttUser 如何獲取網頁的session storage的keycode0093 [問題] NLP TF-IDFVirness [問題] selenium以css_selector定位問題thruxton [問題] dataframe appl能否返回數個dfjasonhsu14 [問題] tkinter搭配timer按下alt鍵會被暫停flow142857