Re: [問卦] 機器學習的準確率突然爆衝有多爽?

作者: Hatred (╮(⊙_⊙∥)╭)   2015-05-30 03:28:04
※ 引述《lturtsamuel (港都都教授)》之銘言:
: 如題
: 機器學習是一個實驗大於理論的領域
: 可能精準度一直卡在30%
: 結果調個參數忽然就衝破天花板惹~~~
: 所以一直有 the death of theory的說法
: 啾竟 在半夜三點deadline之前準確率突然暴衝一倍
: 有 多 爽 ㄋ ?
: 灑花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
: 灑花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
: 灑花 (* ̄▽ ̄)/ ‧☆*"`'*-.,_,.-
各位pavone、30cm、E cup、小妹、高富帥、勝利組、真強者、溫拿,
大家好!打給後!胎嘎後!AV8D!
本魯的強者朋友說,這不排除有overfitting的問題。他這樣解釋:
假設某課程為了測試本魯的英文好不好,特地安排了兩種考試,一種是練習考,從某個
1000題的題庫隨機抽取20題,可以讓本魯考任意多次,考到爽,另外一種是正式的考試,
其題庫與練習考的題庫完全無關。
那麼本魯雖然英文很爛,但可以一直考練習考,每次考完後,就把答案背起來,這樣經
過很多次後,再怎麼考練習考,本魯都可以考100分了,因為全背好了。
可是本魯的實力並沒有顯著提升,只要拿那1000題題庫以外的題目再考考看,就露出馬
腳了,所以正式考還是GG了。這就是overfitting。
在一堆資料裡面,慢慢調參數,調到對這堆資料進行預測都很準(比方說看了資料的某幾
個欄位,就可以準確預測其他欄位云云),就好像慢慢把1000題練習考的題目摸熟一樣,
可以達到看似超強的效果,這就叫做overfitting,是一種看似超強的假像。
比較神秘的overfitting如下:
一些機器學習比賽有所謂的領先群記分板,這種比賽會先用一堆資料排一個初步的名次,
每支參賽隊伍在這些資料上的預測精準度就是該隊伍在記分板的分數,每當參賽隊伍更新
其參賽程式,就會用同樣一堆資料重測新程式的準確度,然後更新記分板上的分數與排名

但記分板只是娛樂之用,最後的真正排名是在另外一堆資料上之測試結果,與用來產生記
分板排名的資料無關。
最近就有人想出惡搞記分板的方法,注意每次你更新參賽程式後,記分板上的分數都重新
用「同一堆」資料測試,所以你可以先上傳一支純猜答案的參賽程式,看看得多少分,再
據此調整出下一支參賽程式,再看看得多少分,再調整出下一支參賽程式... 有人發現,
到最後竟然可以在不做任何真實learning的情況下,在記分板上得到超高排名,可以炫耀
,只是最後真正的排名因為是用另外一堆資料測試的,就會GG了。講得有點fuzzy,請見
http://blog.mrtz.org/2015/03/09/competition.html
http://arxiv.org/pdf/1502.04585v1.pdf
作者: gino0717 (gino0717)   2014-05-30 03:28:00
快樂表
作者: cy4750 (CY)   2015-05-30 03:29:00
0分
作者: CryMasK (超黑心小天使)   2015-05-30 03:30:00
寫這麼多才172 u點可憐
作者: artmis200x (喵仔)   2015-05-30 03:31:00
模糊理論 草
作者: bravo233295 (Dr. Tsai)   2015-05-30 03:31:00
看懂了
作者: gj942l41l4 (米食主義者)   2015-05-30 03:33:00
不懂 不就打nntool調調參數就好了ㄎ
作者: tank44444 (tank)   2015-05-30 03:33:00
反過來也可以故意低分裝弱
作者: oblivionion (obliv)   2015-05-30 03:33:00
推第一學府元智
作者: DarkIllusion (′・ω・‵)   2015-05-30 03:35:00
避免overfitting,用k-fold交叉驗證啊
作者: a2768387 (how che)   2015-05-30 03:40:00
最近修類神經網路概論 看得懂一點點 ㄎㄎ

Links booklink

Contact Us: admin [ a t ] ucptt.com