[討論] 分享個人爬蟲資料 ( PTT文章 )

作者: f496328mm (為什麼會流淚)   2017-11-04 21:40:44
分享給對text mining有興趣的朋友
以下是我個人架設的 MySQL 平台
目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下
http://114.34.138.146/phpmyadmin/
另外以下連結是我的 github ,有對平台做一些介紹,
https://github.com/f496328mm/Crawler_and_Share
github中提供關於 py 連上 MySQL 的範例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為
dataframe ,利於分析。
2.
upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後,
一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。
程式中提供建立 data file 和上傳 data 的範例。
PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。
PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。
作者: janice001 (真理)   2017-11-04 21:42:00
作者: shuwei12 (dooocker)   2017-11-05 01:32:00
推 我也是用python寫 還有搭配mail會通知為了抓股版的抄底王XD
作者: goldflower (金色小黃花)   2017-11-05 01:41:00
話說我每次都在想 不想被放在ptt以外的人可以告嗎XD
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2017-11-05 08:41:00
樓上是想說智財的重製跟散佈?
作者: vi000246 (Vi)   2017-11-05 11:14:00
站方本身是不允許這種備份行為的.. 只是抓不到
作者: alan23273850   2017-11-05 20:47:00
如果不允許,那麼fb的出賣表特又該如何解釋呢?
作者: vi000246 (Vi)   2017-11-06 12:29:00
違反站規的事情你做了沒被抓不代表站方默許可以去看看PttAntiBot這個看板如果是單個爬蟲就算了 做了分散式爬蟲算是DDOS了要用法律治你也是可以的
作者: f496328mm (為什麼會流淚)   2017-11-06 20:05:00
樓上其實說的沒錯,爬蟲有點遊走在法律邊緣,甚至有些網站會擋,程式瀏覽網頁跟人的行為非常不同,不難抓/擋
作者: bluecadence (Maxwell's demon)   2017-11-07 15:21:00
除非要玩文字探勘不然架這個用途想不太出要做什麼,不如架一個股票股價相關資訊的資料庫應該會大受歡迎(純屬個人偏見)不過受歡迎後吃掉的頻寬/資源就很可觀了 :p
作者: f496328mm (為什麼會流淚)   2017-11-07 20:18:00
我的目的就是text mining、nlp
作者: chan15 (ChaN)   2017-11-13 12:11:00
你中文都沒遇到問題嗎,我常遇到 cp950,即便對方編碼是 utf8
作者: f496328mm (為什麼會流淚)   2017-11-13 19:40:00
chan,我目前都沒遇到過,爬新聞、雜誌等等都沒遇到

Links booklink

Contact Us: admin [ a t ] ucptt.com