[問題] 抓取限定區間日期的PTT文章

作者: EasonWW (叫我大飛)   2018-09-01 13:58:04
大家好,小弟最近在學習上遇到一個問題
先跟大家說一下,因為我希望短期有個明確的成果,來鼓勵自己學習下去
因此在學習一些最最最基本的概念後,決定找一個已經被編輯好的code
從對方的code中,透過了解每行code的意義與用法後,希望最後可以理解並運用這個code
所以我選擇之前在網路上看到的一則爬PTT圖片的code來學習(因為看到很多心得分享文章,都說小成果的第一次是爬出PPT的圖片)
但是那邊主要是爬,當日的PTT文章,想請問如何把日期的限制,改成特定日期或特定區間的日期
而非只有針對當日新增的文章做爬文動作。以下是該code針對時間限制的段落
if __name__ == '__main__':
current_page = get_web_page(PTT_URL + '/bbs/Beauty/index.html')
if current_page:
articles = [] # 全部的今日文章
date = time.strftime("%m/%d").lstrip('0') # 今天日期, 去掉開頭的 '0'
以符合 PTT 網站格式
current_articles, prev_url = get_articles(current_page, date) # 目前
頁面的今日文章
while current_articles: # 若目前頁面有今日文章則加入 articles,並回到
上一頁繼續尋找是否有今日文章
articles += current_articles
current_page = get_web_page(PTT_URL + prev_url)
current_articles, prev_url = get_articles(current_page, date)
"%m/%d" 如果這個是當日日期,要如何改變日期限制呢?再麻煩各位大大了謝謝!
我知道可能有人會覺得我的學習方式有點偏門,但是實在是為了有些成果來鼓勵自己...
作者: s8300355 (s8300355)   2018-09-01 16:08:00
直接從爬到的資料去限制時間應該可以吧
作者: EasonWW (叫我大飛)   2018-09-01 19:26:00
請問大大是什麼意思,我用這個爬都只會有當天的文章...這樣要從何限制呢?抱歉太菜
作者: TakiDog (多奇狗)   2018-09-02 01:23:00
"python 時間計算" datetime 等等.. 時間不只有字串狀態
作者: CodingMan (程式俠)   2018-09-02 16:58:00
https://github.com/Truth0906/PTTLibrary自動就是二元搜尋到你想要的日期的第一篇 然後爬文直到不是你想要的日期簡單一點就是你先自己把該日期起始編號跟結束編號找出來 然後用爬文API 去幫你爬完

Links booklink

Contact Us: admin [ a t ] ucptt.com