※ [本文轉錄自 Gossiping 看板 #1RuSUvES ]
作者: clothg34569 (提拉米蘇冰淇淋) 看板: Gossiping
標題: [爆卦] 異常爆文分析器V1.2_新增推文ID統計
時間: Wed Nov 7 00:56:23 2018
一樣,東西放在GIT
https://github.com/Daniel34569/PTTCrawler
然後使用方式和介紹前面兩篇有了就不贅述:
https://www.ptt.cc/bbs/Gossiping/M.1541499806.A.EB8.html
https://www.ptt.cc/bbs/Gossiping/M.1541510766.A.2BE.html
首先這次改版主要是新增了ID統計功能
簡單來說,異常爆文中(定義看前篇),N推內的ID會被記錄起來,N為自定義參數
再跑完目標範圍(可以為指定篇數,EX:770000~780000;或者特定ID發的文)之後
會統計出每個ID的出現頻率
如果要找網軍的話,我是建議可以搭配之前那個i'Analyseur使用效果更好XD
另外也建議要翻一下那篇文章中特定ID發了甚麼言再比對
不過共通盲點應該是找不出政治廢人和網軍的差別
接下來會以Soyud12和Kingkingcold的發文當作範圍來作為範例
使用這兩個的原因是,剛好兩個不同立場,而且都有大量爆文可以作為分析使用
不得不說,八卦版真的是練習資料分析的好地方,八十萬筆公開資料可以使用
格式又很整齊漂亮
首先是Soyud12
參數與運行結果(因為只有11篇所就全貼了)
這次參數門檻為,第25篇推文與發文間隔<10分鐘...
雖然Soyud的就算用5分鐘也只會少一篇
https://i.imgur.com/XApSb4B.png
符合設定門檻的10篇的前25則推文,總共250則推文
其中的每個ID推文次數
https://i.imgur.com/CRayU9A.png
前50則推文,共500則
每個ID推文次數
https://i.imgur.com/lZfHNLK.png
再來是KKC
參數同Soyud12
https://i.imgur.com/8vTkNB2.png
擷取前25則推文
只有一張的原因是因為KKC兩百多篇,跑兩次好累= =
結論:
其實單從這個結果來看,我會認為KKC的文章似乎比較少受到網軍影響
而且他過門檻的比例也低很多(191篇中81篇過)
然後重複ID推文數也少很多
而Soyud12,我覺得已經可以接近網軍分析的範本了
雖然Vner那個更誇張,但是Vner發文量太少所以就分析Soyud12的
14篇文章中,11篇文為爆文(剩下三篇非政治),其中10篇過門檻
甚至有9篇過5分鐘的門檻
然後重複ID推文比例,10篇中可以和KKC 81篇相比
就我自己而言,我覺得這是意外的機率有點低啦
應該可以合理推測,這是網軍的機率還蠻高的
PS:rorobus我不知道是政治狂熱還是網軍