[閒聊] 菜鳥上Kaggle: 房價預測

作者: OnePiecePR (OPPR)   2018-02-13 22:30:24
這裡有人玩 Kaggle 嗎?
其實我還沒認真坐坐下來學Python,也沒其他程式經驗。
只是朋友說Kaggle 很好玩,可以當作學 Python 的目標,建議每兩週作一題,我就挑戰
看看。
我做的是很久的題目,1460 筆房價資料,每筆資料79個特性。
訓練後,要估另外1459筆資料回傳讓網站系統估算成績。
我先花了四五天,整理資料(我以前 Excel 還可以),然後朋友丟一個 Lasso Regressi
on給我,我馬上套用,算一個結果就上傳... 以為這樣就算完成一題。
結果被打搶,Error message 我沒看清楚。
那一版真的很差,預估值誤差 rmse 將近35000。
再花了一週時間,重新再整一次資料,邊研究別人的方法,大致加了兩招:XGB 跟 K fol
d 誤差降低到15000 左右。我想大概是我的極限了。
過程中一直用的 bumpy,pandas,一下子 array, 一下子 dataframe, 花了不少時間處理
,應該乖乖坐下來搞懂才是。
作者: hl4 (Zec)   2018-02-14 00:27:00
你這 metric 是不是忘了取 log
作者: penolove (醜獸的女朋友)   2018-02-14 00:37:00
b 跟 n 很近
作者: EGsux (天龍人)   2018-02-14 08:38:00
呃 這樣玩會學有點久 加油xd你留意一下其他人怎做 feature engineering
作者: CaptPlanet (ep)   2018-02-14 09:56:00
可以多看別人的kernel 進步會比較快
作者: OnePiecePR (OPPR)   2018-02-14 09:58:00
感謝大家,我就讓b 留著,紀錄 b n 不遠。也會去多看別人怎麼作,還有樓上建議的 feature engineering對了,一樓說的我沒作,在研究看看,感恩
作者: jackwang01 (艾斯比那)   2018-02-14 11:40:00
多跑幾個random seed再把結果綜合起來平均之類的,通常會有明顯的進步
作者: galeondx   2018-03-06 04:44:00

Links booklink

Contact Us: admin [ a t ] ucptt.com