我是CIH,很高興有人問3000萬FB帳號怎麼取樣?
以下是數據分析教學。
我們在做數據,一個最重要的是,分母的取樣。
分母的取樣,必須絕對完全平均分佈。
若是從某粉絲頁、某部份、你想的任何組合去取樣,絕對完全失真。
因為全世界沒人知道真正的分佈。
我的擷取方式,亂數產生FB用戶ID,
用爬蟲跟FB Server抓取全世界3000萬個亂數用戶帳號(分散到全世界不同國家)。
接下來,判斷用戶真實IP是台灣,再判別是否是活躍用戶。
從此台灣數據分析,會以這個當母體。
根據實際抓取,目前全世界FB註冊帳號ID分佈如下:
4 ~ 1899999999
100000000000000 ~ 100039999999999
從臉書的文件顯示,目前FB帳號ID最大可以到100099999989999,
現在FB新帳號ID實際已經用到10003XXXXXXXXXX(我系統抓取實際顯示數據)。
有人可能會好奇,臉書ID從4號開始,4號是誰?
可以看一下我臉書之前的貼文:
https://www.facebook.com/2691681504190564
最後,最近我重新抓取全世界臉書帳號,原因是,有些帳號會被砍,有些新帳號會出現。
需要重新讓母體取樣分佈正確,定期需要重新抓。
另外,我之前在幫客戶做『電子商務』用戶長相分析與喜愛,發現幾個條件組合下,
所剩的母體取樣不足,因此我必須『加大』分母取樣數。
今天已經抓到全世界6690萬的用戶帳號,再過一段時間,破1億個FB帳號,就停止取樣。
這些資料可以知道全世界用戶社群關係,用來解析人類行為。
※ 引述《cih4tw (CIH)》之銘言:
: 數據分析:CIH 陳盈豪
: 專長:暴力型逆向工程破解、暴力型臉書爬蟲
: 用爬蟲掃全世界3,000萬筆臉書用戶帳號,抓出其中IP來自台灣、中國的帳號