Re: an94mod0 : 備份網站找不到了

作者: int0x80 (請逐項修改)   2022-07-03 18:51:08
: 推 emptie: 屁啦 一大堆純文字的東西最好會影響效能 07/03 14:21
: → emptie: but站方有限制爬蟲短時間能存取的數量就是了,你爬太快有 07/03 14:22
: → emptie: 機會被auto ban 07/03 14:22
: → emptie: 那樣備份網站可能就要多開幾隻帳號來爬 很不方便 07/03 14:23
我不認為備份網站是用 PTT 帳號在爬的
應該是去爬網頁板,原因有以下幾個
1. 控制碼
首先可以觀察到,備份站是沒有控制碼的。
如果是用帳號在爬的話,有控制碼的文章就會出現他的帳號名稱。
PiTT 的作法是偵測到這個頁面有在用控制碼(右下角會顯示)就改成純文字模式,
所以如果用 PiTT 你會發現有控制碼的文章一定是全白色的,即使作者有用顏色。
但純文字模式下ID控制碼會變成 **s,也並非完全消失
當然他可以取一個亂碼ID然後直接取代掉,不過感覺起來還是直接爬網頁板比較方便
2. 文章編號
例如以下形式 #12345678 (NoSuchBoard)
可以發現備份網站的文章編號是可以連到相應的文章的
如果是爬網頁板的話很簡單,因為網頁板直接就提供連結了 (<a href=...>)
把網域改了就好了
但如果是用帳號去爬的話,就得自己去偵測哪裡有文章編號
還要自己從文章編號轉成網址,有點吃力不討好
3. ???
525的這篇文章: #1YiVstLH (Marginalman)
https://www.ptt.cc/bbs/Marginalman/M.1655831991.A.551.html
我也不知道原因,可是我不管用 term.ptt.cc 還是各種 app
都會顯示一堆 胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
而網頁板不知道為什麼就沒有,且備份站也沒有
所以我覺得備份站應該是爬網頁板而不是自己用帳號爬的
作者: NENEmywife (我是NENE老公1號)   2022-07-03 18:54:00
所以還是沒結論
作者: MurasakiSion (紫咲シオン)   2022-07-03 18:55:00
大師
作者: AnemoriLuna (姐森刺激)   2022-07-03 18:57:00
胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
作者: emptie ([ ])   2022-07-03 18:57:00
3好神奇
作者: ninjin (擰晶)   2022-07-03 18:57:00
525那篇顯示沒問題
作者: emptie ([ ])   2022-07-03 18:58:00
我的pttstar會有很多 胬
作者: lunawalker (lunawalker)   2022-07-03 19:04:00
大師
作者: zxcv070801 (遠坂櫻)   2022-07-03 19:07:00
大師

Links booklink

Contact Us: admin [ a t ] ucptt.com