我是CIH,讓我們繼續思考與解讀數據。
先談談數據分析的威力,再談偵測臉書上網來自『中國』,這數據為何可以相信?
以下是去年我臉書的數據分析:
裡面文章我盡量不解讀數據,我習慣讓大家學習去思考。
1. FB韓粉,他們的長相如何(最有關連、關注強度)?
https://www.facebook.com/2864879590204087
2. 葛特曼跟吳祥輝的關係其實有中間人,葛特曼後來態度轉變是有原因。
https://www.facebook.com/2748857775139603
https://www.facebook.com/2749275435097837
3. 陳其邁『被按讚』的巴西機器人,其實也集體按其他粉絲頁讚。
https://www.facebook.com/2775446002480780
https://www.facebook.com/2776198495738864
關於偵測臉書上網來源,這可能嗎?
去年臉書嚴重漏洞,檢視角度(view as),離譜到可以直接取得臉書用戶access token。
這個世界,什麼事情都有可能發生!
當時,
我需要驗證為何偵測FB用戶上網來源國家,是可被信賴的數據。
所以我拿俄羅斯來驗證。
上網來源是俄羅斯,裡面locale是ru_RU(FB用戶語言設定是俄語)佔91%。
至於中國,這是很特殊的國家,中國人需要翻牆(VPN)才能上臉書。
全世界FB帳號,真實IP來自台灣0.66%,真實IP來自中國0.38%。
簡體不代表住在中國的中國人,可能是住在美國、馬來西亞的華裔、中國人。
擷取之前我在PTT的貼文,
<全世界『簡體』用戶IP來源國家分佈>
中國: 79%
美國: 4.41%
台灣: 2.34%
馬來西亞: 1.38%
日本: 1.38%
澳洲: 1.17%
新加坡: 0.94%
加拿大: 0.79%
香港: 0.77%
<以下省略>
我看到79%這個數字,我就確定,偵測方法是得到真實的上網來源。
也就是用戶透過VPN,我還是可以抓到真實IP來源國家。
驗證數據一定要再找其他方法,再次驗證。
<帝吧出征>
2016年中國網民「出征」Facebook事件
大量中國網民在蔡英文臉書留言,
https://www.facebook.com/10153130814816065
共有19,606個用戶留言,其中用戶語言設定:
zh_CN 簡體 13,866 71%
zh_TW 繁體 3,192 16%
上網來自中國IP的用戶數,佔所有用戶數62%。
上網來自中國IP而且簡體的用戶數,佔所有用戶數55%。
從上面就可以發現,偵測的上網來源,果真是真實IP來源國家。
同時也可以發現,那次行動結合一堆海外中國華僑、住在外國的中國人一起參與。
這幾年其實我人生最大的成就感是:
<2012年 徒步環島 55天 走了1200公里>
https://www.google.com/maps/d/viewer?mid=zJaG38udlOP4.kK23qYPjRN-k
環島我經過『阿朗壹古道』,
台東到高雄,我不走南迴,也不走線道,
而是『硬幹』走像野柳那種砂岩,沿著海岸線到佳樂水。
九棚村南仁路->出風鼻->佳樂水涼亭
https://tinyurl.com/y8czqhrl
https://tinyurl.com/yacbfvhy
我熱愛台灣這個國家、我熱愛台灣這塊土地。
※ 引述《cih4tw (CIH)》之銘言:
: 數據分析:CIH 陳盈豪
: 專長:暴力型逆向工程破解、暴力型臉書爬蟲
: 用爬蟲掃全世界3,000萬筆臉書用戶帳號,抓出其中IP來自台灣、中國的帳號
: <IP來自台灣,Top 10臉書用戶locale>
: zh_TW 繁體中文(台灣) 72.9%
: en_US 英語(美國) 8.6%
: zh_CN 簡體中文 4.6%
: id_ID 印尼 3.5%
: vi_VN 越南 2.6%
: ko_KR 韓國 1.7%
: ar_AR 阿拉伯 1.1%
: en_GB 英語(英國) 0.87%
: th_TH 泰國 0.81%
: es_LA 西班牙 0.75%
: <IP來自中國(不包括香港、澳門),Top 10臉書用戶locale>
: zh_CN 簡體中文 45.5%
: en_US 英語(美國) 19.3%
: th_TH 泰國 5.9%
: id_ID 印尼 5.6%
: en_GB 英語(英國) 3.8%
: vi_VN 越南 3.1%
: zh_TW 繁體中文(台灣) 2.7%
: ar_AR 阿拉伯 2.0%
: fr_FR 法國 1.8%
: es_LA 西班牙 1.4%