※ [本文轉錄自 Gossiping 看板 #1RuMkUwu ]
作者: clothg34569 (提拉米蘇冰淇淋) 看板: Gossiping
標題: [爆卦] 異常爆文分析器V1.0
時間: Tue Nov 6 18:23:22 2018
大家安安,八卦板首PO,如果有違反板規麻煩告知一下,我再修改
0.前言:
就,最近想說拿八卦版來玩玩爬蟲,又看到一堆人說八卦有異常爆文的情形
所以就寫了個異常爆文分析器來當練習
1.介紹:
先上GIT,Code和Readme都放在這了
https://github.com/Daniel34569/PTTCrawler
首先我們先定義一下異常爆文
我先定義為:在短時間內有不合常理大量推文的就算
至於時間多短,大量是多大量就因人而異,因此都當作輸入的參數
2.使用套件:
我是使用Python以及PTTLibrary為主來進行爬蟲
如果要使用的話需要安裝Python及使用的套件(git上有列出)
沒有製作成EXE檔是因為我這版本Python製作EXE剛好會報錯,我又懶得解決
而且我也懶得找免空來存
3.執行過程:
在settings中輸入好參數之後
會開始列出範圍中符合自定義的異常爆文的標題、編號
以及第25/50/75則推文與發文時間之間的差距
...其實應該要把結果存起來或者是把檔案存起來省時間啦
如果有需求我在改版好了:)
4.執行結果:
這是試著跑八卦版第770000到780000這一萬則文章中
第25個推文與發文時間的間隔小於5分鐘的結果
其中Error是發文者不小心改到時間或者因為其他原因讓格式跑掉
https://i.imgur.com/x7USUcU.png
https://i.imgur.com/SNFZOh2.png
https://i.imgur.com/vMrSGbr.png
https://i.imgur.com/mSvjwzC.png
https://i.imgur.com/o00pnww.png
https://i.imgur.com/Dvv2mOD.png
5.後記:
不用Z過濾出目標推文數之後再分析的原因是避免有人故意歸零
另外,這只是整理出符合這些條件的文章,要怎麼解讀就...我對統計比較不熟啦
有任何可以改進的地方希望可以推文/箭頭提出,包括程式設計上可以改善的部分XD
謝謝大家:)