[問題] SVM分類器預測結果 zhichenyang1 PTT批踢踢實業坊

[問題] SVM分類器預測結果

作者: zhichenyang1 (zhi) 2020-07-31 19:26:06

想請問一個問題，盼各位高手解惑
我要把處理過後的資料，分成訓練集跟預測集，丟到一個SVM分類器，訓練集去讓分類器
學習，訓練後再把預測集丟到機器讓他預測，結果是好的，但是如果把新進的資料丟到機
器分類結果超怪
假設我有300筆資料，然後把他隨機分割成兩個，一個是訓練，一個是預測的，準確率很
好
把三百筆資料完全當訓練的，新的有30筆，結果卻很差
請問中間是出了什麼差錯？

作者: roccqqck (ccqq) 2020-07-31 19:37:00

這種事不是常常發生嗎

作者: LP9527 (ㄊㄇ抽菸都去) 2020-07-31 20:49:00

偷偷跟你說，我鄰居的小孩寫了300題理化，期中考30分

作者: rfvcxswed 2020-07-31 21:14:00

你datasets的size不一樣的話, 沒辦法比你得到的test error只是對於真正test error的估計,test data size越大, test error的估計會越準確.

作者: moodoa3583 (é‡‘ç‰Œå°ç£å•¤é…’) 2020-08-01 01:07:00

overfitting?你acc.的變化是如何?

作者: TitanEric (泰坦) 2020-08-01 12:07:00

stratified sampling嗎你有做上面的事嗎

作者: germun (ger) 2020-08-01 14:02:00

表示你取的資料特徵不夠好

作者: NikolaTesla (只睡兩小時的男人) 2020-08-01 17:23:00

應該因爲你新資料的特徵分佈跟訓練資料不同。一個是擴大訓練資料的分佈範圍。另一個是更好的特徵擷取。

作者: yuasa (XD) 2020-08-01 20:59:00

所以你要做cross validation、調參數，甚至試試其他algorithm阿。也有可能sample不夠或沒有代表性。高度fit trainingdataset不代表就能精準預測training dataset以外的數據

作者: Starcraft2 (來自星海的你) 2020-08-03 10:40:00

overfitting 重新作train_test_split 也可以稍微看一下你的那300個和30個資料是不是長得不太一樣另外看看能不能增加資料量到1000以上的量級幾百頗少

作者: aassdd926 (打東東) 2020-08-04 00:04:00

這就是要開始做EDA的節奏

作者: a78998042a (Benjimine) 2020-08-04 13:14:00

簡單的說，你訓練集長的樣子，跟測試集差很多，就是兩個資料集分佈差異大。要嘛就是你樣本沒抽好，要嘛就是資料是有時間性的。

作者: aidansky0989 (alta) 2020-08-04 15:18:00

你的處理是怎樣處理，下採樣或過採樣的話，你有99.99%機率是過擬合

作者: erre (erre) 2020-09-02 11:10:00

掰陳都是一直調參數調出來，你參數調的不夠多

繼續閱讀

[問題] bs4裡面沒有beautifulsoup4ladie4 [問題] tensorflow書籍推薦Kuba4ma [問題] pyinstaller 做成exe後打開緩慢問題skateshare [徵求] 自然語言處理專家arsl400 Fw: [情報] 今年最後一檔-AI技術應用工程師培訓oepan [問題] dataframe篩選後建立新的dataframeaocaoef [問題] socketyoz4ni [問題] dataframe重複的row計數penguinZZK [問題] 關於雜湊hashnicha115 [問題] Aspect based sentiment analysisnchunerdy120