大數據與否,重點絕非在大小
或是說,不是絕對在大小
重點是,你無法用傳統的方法處理的數據,就叫大數據
譬如說健保資料庫
會使用的 ML 方法其實很好想像
最基本是線性回歸,再來是 D-tree or Random Forest or SVM
或者你可能會用 Clustering 等等
以上這些較傳統的 ML 演算法
如果你使用 Python ,個人單機電腦大概處理數十 GB 的資料可能就是極限了
但是如果資料是圖片
你使用的是 Python Tensorflow
因為 Google 自己本身做了一大堆的優化
包含資料輸入的形式、Tensorflow 本身的圖運算
以及拜 SGD , BackPropagation 這類演算法所賜
在 ILSVRC2017 的 155 GB 之下
我們還是有可能在個人單機下訓練 Mobilenet , Inception 甚至 VGG 模型
所以是不是大數據,應取決於你的資料集、演算法
如果無法使用傳統的運算方法處理,包括你必須要引入分散式架構
使用 NoSQL 或 Cloud 等等
就能夠被稱為大數據了
※ 引述《omc (魯蛇第一名)》之銘言:
: 早安各位Monday blue的魯宅們~
: 不知道曾幾何時出現大數據這個名詞後,
: 三不五時都會聽到這數據出現
: 在科技、醫療、農業、等等各類產業中
: 例如行之有年的長期紀錄正常人跟癌症病患的
: 某些特定的基因,來交叉比對是否特定癌症跟
: 特定的基因有相關聯...
: 可是勒,類似這種建立資料庫長期追蹤的實驗或分析
: 行之有年阿....最近卻都被冠上大數據分析
: 那本魯就有疑問了阿,阿到底多大的資料才能稱作大數據
: 還是從現在開始,所有資料都是大數據?
: 本魯D槽也是大數據,長期追蹤車子油耗也是大數據?
: 有這方面的八卦嗎?