路過看到這篇 自己剛好有參與過幾篇ML相關PAPER 來隨手回一下
想到啥就打啥可能有點亂 另外有錯也麻煩推文講一下我再修改
以下只講正規作法 先不討論一些偷雞做法
首先 實驗的目的就是為了證明自己的架構/做法比別人更好
那實驗重點就是要用嚴謹的方式來證明這一點
以下先把資料來源分成三種
1. 公開Dataset
2. 自己產生Dataset (假資料)
3. 自己收集的Dataset (真實資料)
然後看文中似乎沒有很熟所以這邊稍微講一次
Training Dataset : 丟下去訓練的Dataset
Validation Dataset : 訓練"時"驗證的Dataset
Testing Dataset : 訓練"完"驗證Model成效的Dataset
其中Train Val選擇上都比較自由
而Testing則是要固定 才能在不同Model間有統一比較標準
再來"通常"來說 Train Val Testing 應該彼此獨立
不該有重疊資料
但某些做法Train Val可以在特殊情況下重疊 例如要觀察某個Data是否無法學習之類的
而Test則是完全不該重疊
Test有重疊基本上就等於作弊了