[請益] 自己刻 RSS Reader chan15 PTT批踢踢實業坊

[請益] 自己刻 RSS Reader

作者: chan15 (ChaN) 2015-02-08 15:26:30

最近心血來潮想要練習寫一個公司用的 RSS Reader，目的就是抓取一
些指定的網址之後將內容彙整進來，並且標示已讀未讀而已，想到幾
個問題想請教大家
1. 資料擷取時間：
我目前個人使用 Feedly，根據觀察的結果，我猜網址資料的開始，應
該是從第一個加入此網址的人起始，譬如說有個 Blog 叫 http://ww
w.aaa.com 從 2007 年開始，A 是在這個 RSS Reader 第一個使用該
網址的人，使用時間是 2014-11 月份，於是 Server 便會從這段時間
開始定期執行 cron job 去掃資料，可是這樣跑掃描時間間距不能太
長，否則的話如果是個更新頻繁的網站會有掉資料的機會，可是如果
database 有幾千幾萬個網站，這樣跑起來也是挺恐怖的。
2. 資料擷取問題：
可以在某些確定是有名的 Blog 形式例如說（blogger）可能利用 lo
gic 去找出對應的 RSS 檔案或者是 XML 擷取資料，可是像是一些掛
有個人 domain 的，例如像 http://blog.littlelin.info/，要怎麼
check 或 convert 他成為 seed 呢

作者: MOONRAKER (㊣牛鶴鰻毛人) 2015-02-08 16:47:00

阿不就user各自登記URL然後server逐個送request看有沒有RSS內容這樣我跟你若是訂同一個網址可以只poll一次

作者: chan15 (ChaN) 2015-02-08 18:51:00

應該是定期掃吧，request 才掃難免掉資料

作者: MOONRAKER (㊣牛鶴鰻毛人) 2015-02-09 11:28:00

當然馬是定期送request 怎麼可能request才掃

繼續閱讀

Re: [請益] Apache 新增虛擬主機bency Re: [討論] 請問想從頭了解PHPjeffher1024 請問關於url的變數可否做限制？guest62 [情報] PHP也有Day#12rickysu [請益] phpmailer發信收不到justpluto [請益] CSRF問題asshole88 [請益] php語法錯誤，如何修改？hata423 Re: [請益] PHP Form表單利用js來判斷是否有填寫ben0065 array轉CSV後，0都不見了chlorine [請益] PHP Form表單利用js來判斷是否有填寫ben0065