PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] SVM分類器預測結果
作者:
zhichenyang1
(zhi)
2020-07-31 19:26:06
想請問一個問題,盼各位高手解惑
我要把處理過後的資料,分成訓練集跟預測集,丟到一個SVM分類器,訓練集去讓分類器
學習,訓練後再把預測集丟到機器讓他預測,結果是好的,但是如果把新進的資料丟到機
器分類結果超怪
假設我有300筆資料,然後把他隨機分割成兩個,一個是訓練,一個是預測的,準確率很
好
把三百筆資料完全當訓練的,新的有30筆,結果卻很差
請問中間是出了什麼差錯?
作者: roccqqck (ccqq)
2020-07-31 19:37:00
這種事不是常常發生嗎
作者:
LP9527
(ㄊㄇ抽菸都去)
2020-07-31 20:49:00
偷偷跟你說,我鄰居的小孩寫了300題理化,期中考30分
作者: rfvcxswed
2020-07-31 21:14:00
你datasets的size不一樣的話, 沒辦法比你得到的test error只是對於真正test error的估計,test data size越大, test error的估計會越準確.
作者:
moodoa3583
(金牌å°ç£å•¤é…’)
2020-08-01 01:07:00
overfitting?你acc.的變化是如何?
作者:
TitanEric
(泰坦)
2020-08-01 12:07:00
stratified sampling嗎你有做上面的事嗎
作者:
germun
(ger)
2020-08-01 14:02:00
表示你取的資料特徵不夠好
作者:
NikolaTesla
(只睡兩小時的男人)
2020-08-01 17:23:00
應該因爲你新資料的特徵分佈跟訓練資料不同。一個是擴大訓練資料的分佈範圍。另一個是更好的特徵擷取。
作者:
yuasa
(XD)
2020-08-01 20:59:00
所以你要做cross validation、調參數,甚至試試其他algorithm阿。也有可能sample不夠或沒有代表性。高度fit trainingdataset不代表就能精準預測training dataset以外的數據
作者:
Starcraft2
(來自星海的你)
2020-08-03 10:40:00
overfitting 重新作train_test_split 也可以稍微看一下你的那300個和30個資料是不是長得不太一樣另外看看能不能增加資料量到1000以上的量級 幾百頗少
作者: aassdd926 (打東東)
2020-08-04 00:04:00
這就是要開始做EDA的節奏
作者:
a78998042a
(Benjimine)
2020-08-04 13:14:00
簡單的說,你訓練集長的樣子,跟測試集差很多,就是兩個資料集分佈差異大。要嘛就是你樣本沒抽好,要嘛就是資料是有時間性的。
作者:
aidansky0989
(alta)
2020-08-04 15:18:00
你的處理是怎樣處理,下採樣或過採樣的話,你有99.99%機率是過擬合
作者: erre (erre)
2020-09-02 11:10:00
掰陳都是一直調參數調出來,你參數調的不夠多
繼續閱讀
[問題] bs4裡面沒有beautifulsoup4
ladie4
[問題] tensorflow書籍推薦
Kuba4ma
[問題] pyinstaller 做成exe後 打開緩慢問題
skateshare
[徵求] 自然語言處理專家
arsl400
Fw: [情報] 今年最後一檔-AI技術應用工程師培訓
oepan
[問題] dataframe篩選後建立新的dataframe
aocaoef
[問題] socket
yoz4ni
[問題] dataframe重複的row計數
penguinZZK
[問題] 關於雜湊hash
nicha115
[問題] Aspect based sentiment analysis
nchunerdy120
Links
booklink
Contact Us: admin [ a t ] ucptt.com