我只接觸過一點的淺見
首先當然是數學的部分,但現在基本上都能用電腦算
最難的應該是要學一大堆不同模型
常用的就已經十幾個,不同領域或者同領域但樣本不同等等
要能夠在沒有教授指導的情況下馬上針對不同實務拿出應對模型需要訓練
最後就是要知道怎麼取樣
所謂的大數據丟到你臉上,你要知道哪些和哪些可能有點關聯、關聯性多強
很多東西你覺得有關然後丟進模型計算卻發現根本毫無關聯
或者有些東西你丟進去計算看似有東西跑出來就以為有關聯
結果犯了程式上所謂「垃圾進垃圾出」的錯誤
之前工作時就聽說高醫大一堆拿健保資料投的論文被期刊撤銷
我當時的老闆就抱怨說高醫大有老鼠屎用健保資料大量產出沒參考價值的論文
導致期刊還規定以後這種用台灣健保數據的類似論文直接不用
現在不知道改了沒