作者:
wavek (狗貓貓 m(OvO)m)
2019-02-19 18:02:03大家好~
最近在學習sklearn的過程中遇到了一點小問題
來這邊請教各位大神們
1.問題一
最近有一個問題是監督式分類問題
譬如鐵達尼號乘客生存率好了
給的train data 裡面就一堆特徵
然後目標值y是0跟1 (1表示生存) 這樣
這樣我訓練的模型 丟進test的特徵predict後
出來的結果也會是0跟1
可是要上傳的評分結果 是要0~1之間 也就是生存的機率
這樣的情況... 我應該要怎麼做才正確?
目前是用sklearn的隨機森林模型
我目前是有用predict_proba達到目的
但不確定predict_proba這樣用法是否正確
還是有其它更正確模型或方法
2. 問題二
train的資料 有y值
test的資料 沒有y值
想問問大家是怎麼同時處理這兩個的特徵值
我在做特徵處理的時候
是train的特徵處理完
像是填補缺失值 標準化等等...
接著
test的特徵值
我是把前面處理train特徵的code
複製一遍, 然後改成對test做處理
這樣感覺有點怪
還是先把特徵值合併,然後全部一起處理會比較好?