※ 引述《kuo1102 (昨天已過去)》之銘言:
: 2. 數據哪來的 ?
: 通常這種多是從資料庫裏撈數據然後交給程式統計, 一般如公車 APP, 不是向
: 各公家機關要求資料庫讀取權限,不然就是從某些不能說的方法撈到資料。
: 最後的方法是向官方網頁撈資料,或用 GOOGLE 的搜尋找某個網站 SITE 裏的
: 關鍵字和關鍵 ID 撈到資料後來統計。
: 以上只是猜測。一般用在網頁資料庫統計中用最多的是 ASP 或 PHP。
: 自己建資料庫。我猜不太可能。資料量太大,而且要用很多空間來裝。
就是撈PTT資料阿,寫程式機器人去抓阿
http://www.yousee.cc/ 已死
http://ptt-8g-class.appspot.com 已死
http://share.youthwant.com.tw/reader/ 半廢
以前還有那個王XX的愛po吧和幾個小站用Google服務抓
目前大概就是 ucptt、pttdata等等之類的備份站
最近幾年的大多網站在PttAntiBot都有紀錄
早期都靠註冊大量的PTT ID,登入後去一篇一篇抓取,再放上網路
自從有了WEB版的PTT,抓取變得很簡單,一般人就能抓了
光是Google就把文章都撈光了,那些砍站的網站也不用擔心PTT ID被BAN掉了
這個網站只要砍完八卦板和政黑板的大多數文章,
期間從8月2日到10月1日短短兩個月,
有了整篇內文再透過過濾,濾出IP成為資料庫
PTT進化速度過慢,導致帶風向太容易,隨便註冊個帳號,
或是花錢買個帳號,就能操弄輿論...
像是中國大陸學術移出到商業站的BBS、日本5ch、美國4chan、reddit等系統,
做的都比PTT好很多,可以BAN IP網段,可以直接封掉Proxy和VPN所有IP,
中國大陸的BBS更是可以同步在telnet和web介面發文修文刪文,
而且很早就有這些好用的功能,不必再靠手動慢慢操作
PTT被網軍攻佔,站方可以說沒有什麼辦法束手無策,
就算這個查詢網站的出現也不會改變什麼東西,
PTT站方有更完整的登入IP和時間可以查閱,
但就是抓不完惡意想要亂搞亂帶風向的分身假帳號,
只能放任綠色網軍繼續亂搞