: 推 emptie: 屁啦 一大堆純文字的東西最好會影響效能 07/03 14:21
: → emptie: but站方有限制爬蟲短時間能存取的數量就是了,你爬太快有 07/03 14:22
: → emptie: 機會被auto ban 07/03 14:22
: → emptie: 那樣備份網站可能就要多開幾隻帳號來爬 很不方便 07/03 14:23
我不認為備份網站是用 PTT 帳號在爬的
應該是去爬網頁板,原因有以下幾個
1. 控制碼
首先可以觀察到,備份站是沒有控制碼的。
如果是用帳號在爬的話,有控制碼的文章就會出現他的帳號名稱。
PiTT 的作法是偵測到這個頁面有在用控制碼(右下角會顯示)就改成純文字模式,
所以如果用 PiTT 你會發現有控制碼的文章一定是全白色的,即使作者有用顏色。
但純文字模式下ID控制碼會變成 **s,也並非完全消失
當然他可以取一個亂碼ID然後直接取代掉,不過感覺起來還是直接爬網頁板比較方便
2. 文章編號
例如以下形式 #12345678 (NoSuchBoard)
可以發現備份網站的文章編號是可以連到相應的文章的
如果是爬網頁板的話很簡單,因為網頁板直接就提供連結了 (<a href=...>)
把網域改了就好了
但如果是用帳號去爬的話,就得自己去偵測哪裡有文章編號
還要自己從文章編號轉成網址,有點吃力不討好
3. ???
525的這篇文章: #1YiVstLH (Marginalman)
https://www.ptt.cc/bbs/Marginalman/M.1655831991.A.551.html
我也不知道原因,可是我不管用 term.ptt.cc 還是各種 app
都會顯示一堆 胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
而網頁板不知道為什麼就沒有,且備份站也沒有
所以我覺得備份站應該是爬網頁板而不是自己用帳號爬的