分享給對text mining有興趣的朋友
以下是我個人架設的 MySQL 平台
目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下
http://114.34.138.146/phpmyadmin/
另外以下連結是我的 github ,有對平台做一些介紹,
https://github.com/f496328mm/Crawler_and_Share
github中提供關於 py 連上 MySQL 的範例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為
dataframe ,利於分析。
2.
upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後,
一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。
程式中提供建立 data file 和上傳 data 的範例。
PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。
PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。