[心得] 數據分析的心得

作者: ThePttUser (YhePttUser)   2021-04-01 19:59:04
近來作了一些跟以前不一樣的分析,以前做的是大數據分析,我幾乎有100%的把握
訓練不會做得太爛。
但現在正在做材料分析,材料光一種成分組成,就需要一個製備過程,這製備過程
也影響到最終材料性質如何。不過非常幸運的是同事做的剛好就是在一個樣本上濺
鍍各種元素,所以可以一口氣得到非常多數據,製備條件基本上可以視為一樣,
這對做數據分析來說真的是一件好事,不過說數據非常多,其實大概也就400個數據。
我試了四種方法 做7 inputs => 5 outputs的訓練,沒有一個訓練可以很準確預測
真實值,大概是y = 1.2*x的程度,因此最近也正在研究怎麼使用小數據訓練出好的
模型,目前最好的是單純用NN,努力了好幾天還是找不出怎麼分析這種數據少的資
料。老實話真的不太容易,要請同事幫我做到一千個點的數據,他花的時間跟精力
大概是4倍。
所以這篇雖然我標註的是心得,不過是否有人知道對於這種小數據有沒有比較好的
分析方式?
作者: yiche (你若安好,便是晴天)   2021-04-01 20:50:00
傳統機器學習方法:SVM、Tree structure嘗試過了嗎?也許要考慮統計方法了
作者: ToastBen (吐司邊)   2021-04-02 15:59:00
小樣本,推樓上
作者: ddavid (謊言接線生)   2021-04-03 04:00:00
我覺得可能還需要考慮一點是,這個問題(元素配比如何影響結合後的性質)是否真的是這些學習方式的模型能表達的我對該領域不熟,雖然稍微Google了一點但也不能確定所以舉例而言,如果只有很狹窄範圍的某種配比才能凸顯出特定性質,一離開這範圍就會造成這種性質快速減弱。如果這種情況很常見的話,這會導致模型要嘛很難學習準確,要嘛很容易overfitting
作者: ThePttUser (YhePttUser)   2021-04-03 09:52:00
樓上沒錯,材料分析就是有這問題,不過目前國外的確有一批人在做元素成分的比例跟之後的材料性質目前我看到的是在大約三種元素的調配下有不錯訓練尤其是還要考慮到製備過程都可能讓長晶方式有差異所以我目前只是先玩玩看,主要還是看能不能另闢蹊徑另外回一樓tree我也做過了,訓練結果是第二好的我再試試svm
作者: ddavid (謊言接線生)   2021-04-03 20:25:00
考量製備過程真的就很複雜了,會不會有可能是與其去學習那個不容易甚至根本學不了的模型,想辦法做出模擬系統反而直接?XD雖然模擬系統應該成本遠高且細節必須完全清楚XD
作者: razer (還是一個人)   2021-04-03 20:57:00
看完這段我只能說這個世代的數據分析已經跟我想的完全不同了你不覺得用物理模型去抓一些參數用在模型裡,或是設定資料上下界,會比你完全放數字自由移動更好一點嗎?
作者: Starcraft2 (來自星海的你)   2021-04-04 01:10:00
除了model外, data部分可以參考oversampling像是SMOTE可以參考這篇Kaggle文章kaggle.com/rafjaa/dealing-with-very-small-datasets如果是在深度學習的影像處理等領域關鍵字Data Augmentation可以去看看
作者: Virness   2021-04-04 01:13:00
樣本數太少了 可以找簡單的模型試試看Logistic Regression 決策樹
作者: Starcraft2 (來自星海的你)   2021-04-04 01:26:00
400個不能說真的很少, 但不推薦用NN 先從前面大家提到的幾個比較基本的模型試試吧
作者: heavyking02 (皮諾丘)   2021-04-05 11:49:00
可以試試看GAN 雖說訓練時間真的比較久 但是對於某些類別成效是還不錯
作者: yiche (你若安好,便是晴天)   2021-04-05 12:35:00
請問樓上意指要用GAN 生成data嗎?
作者: a78998042a (Benjimine)   2021-04-07 08:00:00
推22樓,小樣本分析要搭配domain資訊,而基本上400在統計分析的領域也不算小了,搭配統計檢定來了解模型殘差,賦予模型解釋能力。樣本不夠、資訊不夠就是加資訊進去、更精細的了解模型。
作者: mewtwo (mewtwo)   2021-04-07 19:27:00
我看到這個樣本數跟問題,第一個想到的不是NN。是multinomial logistic regression

Links booklink

Contact Us: admin [ a t ] ucptt.com