Re: [問卦] AI大數據分析是不是過譽了?

作者: sxy67230 (charlesgg)   2021-10-13 09:53:57
※ 引述《lpbrother (LP哥(LP = Love & Peace))》之銘言:
: 之前很多學校就喊說大數據分析怎樣的
: 但事實上目前唯一能夠應用的只有
: google 的搜尋分析
: google 就是分析大家搜尋的關鍵字推送最需要的網頁
: 但除此之外,
: 統計學家長期以來都得承認,
: 最困難的是如何證明兩組不同數據之間取得關聯性,
: 要不然就會鬧出類似
: 男人比出OK的手勢的圓圈大小等於他的睪丸大小
: 這種笑話
: 但是這種笑話一樣的數據分析論文到處都是,
: 根本沒有做到所謂的大數據分析的效果,
: AI大數據分析是不是過譽了?
: 有沒有八卦?
所以任何當前的機器學習模型都需要Data scientist來做前置性分析的啦。明星級的DS多
半是數學、統計、計算機科學交叉領域的專家,一個好的模型訓練集跟測試集必然存在獨
立同分佈,獨立同分佈是為了確保樣本足夠分散各類均勻又能代表真實分佈,因為分散均
勻若模型只看了其中8成比例數據必然能泛化剩下的兩成(這邊必然有數學上的驗證,由於
有大量數學引理就不贅述,可以從林軒田老師的基石課去找資源,關鍵字VC generalized
bound,進一步去找近年DL的學習性研究PAC-Bayes Bound,還有一個私心推薦寫得很好
的Paper: Deep Neural Network Approximation Theory,從Information theory角度切
入問題的,可以學到很多。)
剩下就是樣本是否代表真實數據的問題,所以DS必然需要了解客戶所謂的真實數據到底是
指什麼,再透過敘述性統計跟假設還有EDA確認學習的範圍。
最後一點針對不同分佈(domain)的學習也是近幾年各學者想攻破的,包含主動學習、元學
習、表示學習(是否我們還能再把數據透過自監督抽象化給不同領域的問題)、持續學習,
這些都是目前正在研究的方向,也是來期望的讓機器有辦法真正舉一反三、看少量的數據
就可以學習、持續性學習而不遺忘。另外,還有一門領域是透過對生物腦的理解試圖建構
可以運作的仿生物腦模型,這一些都是近年學術的成果啦。
AI落地的路未來會很長,這是持續一兩個世紀的科學革命,現在只是革命前夕而已,我不
後悔作為科學家為人類演化的這一里路貢獻我的人生在研究上啦。我是不相信柏拉圖主義
那套哲學思路的,因為科學適時更偏向於靈魂可能與心智大腦是同一種表述的,透過基因
即可建構任一的心智生物,那靈魂論就是多餘的了。

Links booklink

Contact Us: admin [ a t ] ucptt.com