Re: [爆卦] 異常爆文分析器V1.1

作者: clothg34569 (提拉米蘇冰淇淋)   2018-11-06 21:26:04
※ 引述《clothg34569 (提拉米蘇冰淇淋)》之銘言:
: 大家安安,八卦板首PO,如果有違反板規麻煩告知一下,我再修改
: 0.前言:
: 就,最近想說拿八卦版來玩玩爬蟲,又看到一堆人說八卦有異常爆文的情形
: 所以就寫了個異常爆文分析器來當練習
: 1.介紹:
: 先上GIT,Code和Readme都放在這了
: https://github.com/Daniel34569/PTTCrawler
: 首先我們先定義一下異常爆文
: 我先定義為:在短時間內有不合常理大量推文的就算
: 至於時間多短,大量是多大量就因人而異,因此都當作輸入的參數
: 2.使用套件:
: 我是使用Python以及PTTLibrary為主來進行爬蟲
: 如果要使用的話需要安裝Python及使用的套件(git上有列出)
: 沒有製作成EXE檔是因為我這版本Python製作EXE剛好會報錯,我又懶得解決
: 而且我也懶得找免空來存
: 3.執行過程:
: 在settings中輸入好參數之後
: 會開始列出範圍中符合自定義的異常爆文的標題、編號
: 以及第25/50/75則推文與發文時間之間的差距
: ...其實應該要把結果存起來或者是把檔案存起來省時間啦
: 如果有需求我在改版好了:)
: 4.執行結果:
: 這是試著跑八卦版第770000到780000這一萬則文章中
: 第25個推文與發文時間的間隔小於5分鐘的結果
: 其中Error是發文者不小心改到時間或者因為其他原因讓格式跑掉
: https://i.imgur.com/x7USUcU.png
: https://i.imgur.com/SNFZOh2.png
: https://i.imgur.com/vMrSGbr.png
: https://i.imgur.com/mSvjwzC.png
: https://i.imgur.com/o00pnww.png
: https://i.imgur.com/Dvv2mOD.png
: 5.後記:
: 不用Z過濾出目標推文數之後再分析的原因是避免有人故意歸零
: 另外,這只是整理出符合這些條件的文章,要怎麼解讀就...我對統計比較不熟啦
: 有任何可以改進的地方希望可以推文/箭頭提出,包括程式設計上可以改善的部分XD
: 謝謝大家:)
簡單做一個小改版
增加了分析特定ID的功能
檔案一樣放在GIT上
https://github.com/Daniel34569/PTTCrawler
多了兩項參數可以設定:要不要搜尋ID和搜尋的ID
範例: 搜尋馬雅人
顯示參數設定
https://i.imgur.com/M0SqliJ.png
中間個別文章顯示的過程省略
最後結果:
https://i.imgur.com/3AQy10U.png
另外附上剛剛PO的那篇的爆文時間
https://i.imgur.com/Z5cMqZv.png
25推:7分鐘
50推:14分鐘
75推:23分鐘
整體而言還蠻平滑的XD
另外,用馬雅人當例子是想說選一個比較沒爭議的
如果馬雅人不希望被當例子麻煩站內一下我改掉
從馬雅人這個例子可以看出,其實只要累積夠高的名氣(例如變成知名ID
爆文速度也會加速,不過馬雅人底下一堆先推再看或純推的...
畢竟整篇看完時間會超過5分鐘
最後,這個分析器基本上只是一個Filter,幫助找出可能是異常的爆文
後續分析還是要看個人
像是馬雅人這種ID爆文速度很快就很正常,不太算異常
而發錢、地震等等幾種類型的文章,也都蠻快的
PS:加這個功能是因為比較簡單XD
PS2:最近期中,所以就看心情更新

Links booklink

Contact Us: admin [ a t ] ucptt.com