Re: [問卦] 大數據分析與統計分析的差別?

作者: abc2090614 (casperxdd)   2017-10-18 10:58:10
沒什麼不同
唯一的差異在數據量大小
平常都是用spark在跑
前幾天跟同事想試用scikit learn跑個東西
他把json抓下來20G一塞進去python read_json
直接電腦黑屏給他看
兩周量而且已經篩過的的資料
正常一天大概有200~400G左右的data
光是要一個月的資料縮到能用統計方法來作就要花一番心力
然後處理時要跑多久又是另一個問題
只能在伺服器上跑
大數據其實光大這個字沒意義
難的是把雜亂無章的大數據整理成有用的小數據
接下來再用統計或ML還是啥其實方法都差不多
清data這塊大家方法差異比較大
作者: ghmsxtwo (YI)   2017-10-18 11:00:00
Json晚上打球
作者: AAQQUUAA   2017-10-18 11:00:00
那個賣場用大數據比當事人早知道懷孕的都市傳說成真了嗎
作者: iiscon (となりのぶたく)   2017-10-18 11:01:00
把尿布跟啤酒放在一起增加銷售量
作者: ldeathkiller (之之)   2017-10-18 11:04:00
Preprcess是最痛苦的部分
作者: ChungLi5566 (中壢56哥)   2017-10-18 11:04:00
尿布啤酒那是Data Mining 不是大數據
作者: rosenzulu (玫瑰祖魯)   2017-10-18 11:11:00
那為什麼大家都推學python呢? 跑不動還用 沒道理啊
作者: toy9986619 (幻飄)   2017-10-18 11:51:00
因為python的工具蠻多的,學起來很快吧spark也可以用python寫

Links booklink

Contact Us: admin [ a t ] ucptt.com