作者: aassdd926 (打東東) 2021-04-09 10:50:00
Random forest 本身就是多個DT,他的 feature importance 是所有樹加權平均過的。而這個數值主要依據樹以此特徵分裂下,數據impurity的下降程度(樣本比例權重下)。用途上feature importance可以用來選取特徵,例如重覆刪除後面10位不重要的特徵,以找出讓模型表現最好的特徵subset,但也要小心過擬合的特徵feature improtance 也會很高,容易受到誤導如果要比較的話,我應該會把它轉換成 rank