Re: [最強] 多多軍號角響起!!!

作者: bleedwolf (123)   2016-05-03 09:40:02
※ 引述《GuitarOcean (有為而無所求)》之銘言:
: 上個月超忙的根本沒時間看房版,
: 趁今天工工節來跑一下程式,結果不ey,ㄎ
: 多多指數=>
: 2015/ 7月: 204分
: 2015/ 8月: 180分
: 2015/ 9月: 166分
: 2015/10月: 150分
: 2015/11月: 176分
: 2015/12月: 173分
: 2016/ 1月: 183分
: 2016/ 2月: 327分
: 2016/ 3月: 277分
: 2016/ 4月: 354分
: ps: 等我餘屋陸續售完就公開程式在github,供大家回測驗證。
: ※ 引述《GuitarOcean (有為而無所求)》之銘言:
: : update 2016/ 3月: 277分
: : 但我以另一種指標來跑,3月是可以到4xx分,不過還是算了,避免空空崩潰,
: : 現實的風向已經出來了...
: : 最近好忙,看房子的人真的變潮多der...
不好意思,小弟剛好是作數理統計分析相關的
雖然不是正統的資料工程師,但是基本的數學模型和應用還算了解
也有用預測模型並發表在國際期刊,看到大家不斷濫用大數據實在有點吐血
大概就是像生科的聽到負離子衣和材料的聽到奈米雞排一樣吧
在這邊澄清一些觀點 (有些中文可能翻譯有誤,因為我只學過英文)
有缺少的部份麻煩專業人士補充了
1. 大數據分析不是萬能的
如果大數據分析是萬能的,今天大家就不會去關注巴菲特或是索羅斯了
Google絕大部分的投資將是在股票和房地產
誰管Android系統那點蠅頭小利?
大數據分析錯誤最有名就是Google預測流行感冒的模型(Google flu treads)
從2008年登上Nature期刊後都有很精準的預測
直到2013年發生140%的嚴重誤差,失敗的結果也登上Science期刊
普遍被稱為大數據的傲慢 (Big data hubris)
2. 深度學習(Deep learning)並不是越深越好
機器學習上有一個重點是過度適應 (Overfitting)
概念就是當你過度趨近訓練資料(training set)時
可能會讓原本正確的判斷失誤
假設原本識別人臉的模型只看眼睛鼻子嘴巴耳朵
當模型過分深度學習後,可能會連毛細孔或鼻毛都算進去了
那今天我拿一張美肌後的圖可能就會被認為不是人臉
3. 演算法重要性遠不如資料量,資料清理(data cleaning),和特徵選取
(Feature selection)
已經有很多期刊比較過不同演算法的預測敏感度和專一性
結論都是演算法的差距遠比不上更多的資料量的差距
或是排除嚴重偏差值(outliers)及數值最佳化的方法
基本上從上面幾點來看,你的預測本身準確度就不是太好
外加有很多疑團
一般建一個模型需要訓練組,測試組和驗證組
你只列了不到一年的數據是指樣本數只有11嘛?
再好的統計法在這麼小樣本都不可能有好的結論
另外你有多少特徵(Features)用來建模?
像是看屋量,成交量,gdp,股票指數之類的
如果只有10-100個,那總共也只不過是100x11(樣本數)的計算量
我用過每個模型建幾萬個樣本都不用半小時
跑過夜你是寫了無窮迴圈嘛?
如果你有上千個特徵而樣本數比較小
那就一定會有過度適應的錯誤產生
當然你可以用降維的方法(PCA et.al )去修正
但是不管怎樣都不至於跑預測這麼久
另外那個數字到底是代表什麼意思?
你用什麼去測試和修正數字的準確度
模型預測沒有這麼莫名其妙的丟一個數字出來
應該會被一群教授電到飛天吧
就像前面好幾個網友提過的
你的程式碼根本不重要
把你的資料來源,輸入資料和輸出值的參考來源貼給我們就好
作者: HarryHTC (Harry)   2016-05-03 09:43:00
你的簽名檔好笑~~透露了原來你爸也是PTT鄉民嗎?
作者: achilles3875 (滿潮 永澄)   2016-05-03 09:44:00
用PSO GA選feature呢?大材小用?
作者: bbdirty5566 (尊爵不凡藍鳥40)   2016-05-03 09:46:00
人家又不是在寫期刊論文..在悲憤什麼啊
作者: C13H16ClNO (3955 老地方見)   2016-05-03 09:49:00
挖礦挖礦~
作者: bleedwolf (123)   2016-05-03 09:50:00
果然到處有大神 PSO我還真的不知道
作者: este1a (曾幾何時臭機八)   2016-05-03 10:12:00
為什麼要和沒路用的認真呢?
作者: GoldenWasabi (黃金哇沙比)   2016-05-03 10:44:00
用量能當指標 量大縮價也沒大跌 量增卻覺得價要增不就是只聽只看自己想要的東西而已
作者: tonyd (天生平凡)   2016-05-03 10:57:00
這篇在講的可以在研究方法課程學到 但說模型差異不如資料量差異 這個結論是有前提的 建議附上出處比較實在
作者: exuberant (HI BABY)   2016-05-03 11:03:00
結果才重要 其他通通不重要
作者: Mrmo (哞...)   2016-05-03 11:04:00
某些文章當他不存在就好,沒人理久了就會消失
作者: bleedwolf (123)   2016-05-03 11:17:00
怕有人誤信啊,我爸看了賴宇凡的影片一直跟我吵不要吃降膽固醇藥,說什麼膽固醇是對人體有益的,都是醫師和藥廠在騙人吃藥,我怎麼說和拿醫學期刊給他都不聽,搞到我都要比他先中風了,網路和長輩line群好容易害人
作者: dreamnook (亞龍)   2016-05-03 11:28:00
人們都不太願意去確認資訊的真實性
作者: GuitarOcean (有為而無所求)   2016-05-03 12:25:00
釣出真正的高手惹
作者: yvonstaf (問妳自己為什麼不肯改變)   2016-05-03 13:15:00
你真的認真了,推你的簽名檔
作者: shonbn   2016-05-03 14:06:00
嗨 認真的人 賴XX真的很煩...
作者: Dix123 (小蔡)   2016-05-03 14:21:00
挖礦挖到寶惹
作者: divergience (難得喝到 Cherry Coke)   2016-05-03 18:33:00
實在是太棒了,不得不推啊~
作者: IAvAI (><我不想取暱稱><)   2016-05-03 19:40:00
推推推 講得很棒~!!
作者: q135q135 (打工仔)   2016-05-03 23:03:00
推~
作者: appoo (熊吉吉)   2016-05-03 23:36:00
真高手
作者: t932125 (用深情與你相約)   2016-05-04 07:20:00
專業
作者: CK888 (CK007)   2016-05-04 20:45:00
臉打的很響,,讚!
作者: wowo55 (55cat)   2016-05-05 02:55:00
好文,本版太多空酸跟偽多在放屁害人,實踐勝於鍵盤!

Links booklink

Contact Us: admin [ a t ] ucptt.com