分享給對text mining有興趣的朋友
以下是我個人架設的 MySQL 平台
目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下
http://114.34.138.146/phpmyadmin/
另外以下連結是我的 github ,有對平台做一些介紹,
https://github.com/f496328mm/Crawler_and_Share
github中提供關於 py 連上 MySQL 的範例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為
dataframe ,利於分析。
2.
upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後,
一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。
程式中提供建立 data file 和上傳 data 的範例。
PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。
PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。
作者:
shuwei12 (dooocker)
2017-11-05 01:32:00推 我也是用python寫 還有搭配mail會通知為了抓股版的抄底王XD
話說我每次都在想 不想被放在ptt以外的人可以告嗎XD
作者:
Sunal (SSSSSSSSSSSSSSSSSSSSSSS)
2017-11-05 08:41:00樓上是想說智財的重製跟散佈?
違反站規的事情你做了沒被抓不代表站方默許可以去看看PttAntiBot這個看板如果是單個爬蟲就算了 做了分散式爬蟲算是DDOS了要用法律治你也是可以的
樓上其實說的沒錯,爬蟲有點遊走在法律邊緣,甚至有些網站會擋,程式瀏覽網頁跟人的行為非常不同,不難抓/擋
除非要玩文字探勘不然架這個用途想不太出要做什麼,不如架一個股票股價相關資訊的資料庫應該會大受歡迎(純屬個人偏見)不過受歡迎後吃掉的頻寬/資源就很可觀了 :p
作者:
chan15 (ChaN)
2017-11-13 12:11:00你中文都沒遇到問題嗎,我常遇到 cp950,即便對方編碼是 utf8
chan,我目前都沒遇到過,爬新聞、雜誌等等都沒遇到