[問題] python sklearn DT/RF feature important

作者: s82237823   2021-04-08 11:54:51
大家好
我最近正在練習使用sklearn library
主要是在用decision tree/random forest這兩個演算法
我想請問一下這兩個的feature importance
(同一個dataset 以及使用sklearn的importance_ )
我每一個feature importance的值都落在0.1-0.2之間
請問這個值本身有什麼意義嗎?
另外這個是只限於這個演算法裡面使用還是可以比較?
比如說我同一個dataset
DT 的 importance 是10-20之間
然後 RF得到的是0.1-0.2之間
這兩個演算法拿到的feature importance是有可比性的嗎?
謝謝
作者: aassdd926 (打東東)   2021-04-09 10:50:00
Random forest 本身就是多個DT,他的 feature importance 是所有樹加權平均過的。而這個數值主要依據樹以此特徵分裂下,數據impurity的下降程度(樣本比例權重下)。用途上feature importance可以用來選取特徵,例如重覆刪除後面10位不重要的特徵,以找出讓模型表現最好的特徵subset,但也要小心過擬合的特徵feature improtance 也會很高,容易受到誤導如果要比較的話,我應該會把它轉換成 rank

Links booklink

Contact Us: admin [ a t ] ucptt.com