Re: [問卦] Big data跟統計有什麼差?

作者: JayReed (平心靜氣在網路上學習)   2015-09-06 11:24:57
感覺都太從資訊面來講
data mining -> 控制預測分析結構化資料
big data -> 控制預測分析非結構化資料
至於統計
是數學的一個分支
統計的方法, 大部分都必須先整理成資訊, 尤其是整理成數字
而 data mining 或 big data
有時候可以拿一些統計方法來應用
有時候根本不可能,
尤其是big data, 可能甚至只是很多錄音檔而已
所以就需要找其他適合的演算法, 但很常跟統計無關
層次來說
數學 -> 理論基礎, 是理論層,
如同在研究刀子怎麼做成的
統計 -> 抽出理論中的方法, 還在方法論, 但是可以不用知道理論,
有各式各樣的刀子, 好像在研究哪把刀子好
big data 或 data mining -> 再從統計100個方法中挑自己有用的方法,
其實統計方法很廣
IT 有用到的比率也很低,
拿去實用, 是實用層,
就是真的拿刀子去切菜了
同樣道理, 統計也可以應用所有其他各種不同領域,
譬如 small data, 醫學, 工業, 商業, 藝術
※ 引述《neo5277 (I am an agent of chaos)》之銘言:
: 主要還是在資料分類上
: 跟怎麼存
: 一般來說 儲存方式有分為 較為規格化的你要去定義資料如何存放的
: SQL儲存方式,你要找出資料"特色"好比他是字串,整數,倍精準
: 其實就是正規劃,但是就如同前文所提。 query 的時候光跑就會很花時間
: 如果沒有索引,但是太多又會耗空間。
: 那麼還有一種就是nosql 這並非只是一個特有方式,比較像是組合所有其他的SLN。
: 幾乎都是把檔案轉成純文字丟進資料庫,像是谷歌的Bigtable~FB的卡珊卓拉(秘術師
: 師傅?) 有時候你連FB重整網頁的時候啊會突然看到一大串亂碼,有一些就是他把檔案
: 格式轉成xml這些東西。 實際上實作還是要看一下相關文件,但是應該也是利用
: hashtable 下去指定一個key 跟value 給他。
: 好處就是 搜尋的演算法你可以自己定義所以有無限可能。
: 再來就是,有數據很簡單。 找出模式,跟如何去設想一個問題比較難。
: 好比你如何命題跟證明因果(利用ML或是統計相關數據)
: 達到實際上的應用,要說基本的簡單應用其實不會很難。
: 左岸跟歐美很多人用簡單爬蟲跟MSSQL就玩出很多有意思的東西。
: 知乎,36g上有好多應用。 這個會很普及,比的是 Domain KNOW HOW 的內函了
: 跨領域會比較吃香,其他就只是技法而已。 當然你也可以深耕在更有效率的演算法
: 或是其他儲存方式。但是可能要一值鑽木板,台灣目前大數據真的有在做的
: 聽過只有幾間公司,最有市場跟有名的應該是亞洲資採吧。
: 再來比較大間的是精誠底下的,其他應該還有。
: 他有沒有商機? 有
: 成為專業人才難不難 ?
: 看面向
: 需要點的技能
: 統計
: 程式 最好是能包前後端整合的
: 資料庫,資結。
: 最高應該就是演算法 再來就是很吃"天分"啊
: 國外有13歲就在玩自己的系統,資料學家還可以發文章。
: 我自己是覺得,基本底子打好。技巧型的東西會越來越純熟
: 可是觀念錯了就是錯了。
: 大概就這樣吧
作者: belleaya (台中李奧納多皮卡堺雅人)   2015-09-06 11:33:00
謝謝~

Links booklink

Contact Us: admin [ a t ] ucptt.com