作者:
yobook (@@)
2021-10-09 09:40:57花了很多P幣,跟時間再研究google跟備份網站
備份網站不是用多線程爬蟲技術嗎?
但是好像發現了,沒有這麼簡單
好像每個版,測試過,被備份的方式不同....
說簡單,但也不簡單
這類網站所依賴的技術,其實滿簡單的
但是PTT只要發文權限跟方式不改,永遠都一定會被備份
發文的那個瞬間,因為很多地方不能改變,只能發文後再改
所以,第一次的文章標題,還有發文者一定會被紀錄
本文可以修改,所以必須等第二次才能解決
想問一下,PTT備份網站,像是PTTWEB 所仰賴的技術.....
謝謝!
損失好多P幣跟時間,血淚,才得到這種結論.....
人腦真的比不上電腦QQ
作者:
gasbomb (虛空雷神獸)
2021-10-09 10:03:00……有人看得懂這篇嗎?
作者: yinxuanh (飄飄然) 2021-10-09 10:08:00
伸手文啊
作者:
loadingN (sarsaparilla)
2021-10-09 10:09:00為什麼會損失p幣
作者:
PttLite (PTT Lite)
2021-10-09 11:08:00看標題進來因為是DB backup或snapshot結果是爬蟲...我快跟不上時代了..
作者:
qrtt1 (有些事,有時候。。。)
2021-10-09 11:55:00看不懂想要幹麻
作者: yougigun 2021-10-09 12:02:00
我也跟不上你的腦
作者:
chocopie (好吃的巧克力派 :))
2021-10-09 12:50:00先定義你要備份的內容是甚麼。是原本的內容一模一樣?還是只爬文章文字內容?
作者:
JimRoid (小綿綿)
2021-10-09 12:55:00看標題我以為你是要問快照之類的
作者:
utdsml (阿邊肥)
2021-10-09 13:02:00原 po 應該是想問備份 PTT 裡面所有發推文紀錄的網站
作者: moom50302 (武林三羚鱷) 2021-10-09 13:05:00
ctrl+S…?
我覺得PTT備份文章的網站真的好厲害喔!全都可以記錄
作者:
kyoe (緣份‧不再)
2021-10-09 13:47:00只要格式固定,都可以被解析
作者: roccqqck (ccqq) 2021-10-09 15:18:00
爬蟲作業自己寫欸 本來每個網站爬蟲都不一樣都要修改
作者:
Olwen (歐溫)
2021-10-09 15:45:00明明是中文,我確聽不懂
作者:
PttLite (PTT Lite)
2021-10-09 15:54:00要用眼看
看不懂的都沒有成為PM的資質客戶說的備份 要跟工程師說逆向工程才聽得懂
作者:
wave1et (百分百殖利率)
2021-10-09 17:19:00ptt有個allpost版吧
作者:
PttLite (PTT Lite)
2021-10-09 18:12:00為什麼要對自己的網站做逆向工程
作者:
RINPE (RIN)
2021-10-09 18:18:00沒有什麼是複製貼上解決不了的
2012做到現在發文發問還像完全不懂程式的外行著實厲害
作者:
bill0205 (善良的小孩沒人愛)
2021-10-09 20:21:00對不起我還真的看不懂
作者:
OrzOGC (洞八達人.拖哨天王)
2021-10-09 20:22:00我看得懂,有人可以撿我去當PM嗎?QQ
作者:
pilor (Formosa)
2021-10-09 20:54:00我看得懂中文看不懂這篇文
作者:
boy70263 (Johnny)
2021-10-09 21:34:00Ctrl+A+C+P
偷別人網站內容 然後做出相似的東西放出來 他想知道那些網站怎麼辦到的
作者:
wulouise (在線上!=在電腦前)
2021-10-09 23:41:00沒講解決要解決什麼,一百遍都猜不透吧
作者:
BignoZe (BignoZe)
2021-10-09 23:54:00看得懂 還好我有看完新上的通靈王
作者: Kazimir (Kazimir) 2021-10-10 04:46:00
公開網站要怎麼防止備份 你要他們刪文不然寫信去問看看R
作者:
qrtt1 (有些事,有時候。。。)
2021-10-10 08:31:00只有一開始就不存在的東西不會被備份
作者:
MarcoReus (Marco Reus)
2021-10-10 08:48:00反向思考 你可以發加密文
作者:
art1 (人,原來不是人)
2021-10-10 09:38:00去跟 ptt 站方要求禁止來自這些網站的爬蟲應該說請求才對
公開網站可以防爬蟲的話,那一開始你就發加密網站就好
作者: daddy29 (願上帝與你同在) 2021-10-10 10:19:00
砍站
作者: aa06697 (todo se andarà) 2021-10-10 10:56:00
公開網站 網站也不是你擁有的話 你單純發文沒辦法防吧
作者:
WJAider (Aider)
2021-10-10 13:10:00哪篇啊? 我架個網站備份那篇,你想刪聯絡我一定刪
作者:
sppmg (sppmg)
2021-10-10 14:01:00我看唯一的問題應是:如何發文不留痕跡?
作者:
Apache (阿帕契)
2021-10-10 15:30:00不要上網
作者: MonyemLi (life) 2021-10-10 17:59:00
如果你是說刪除,那叫特權,工程師不能任意刪除的。公司主管授權維運工程師,政府公權力要求私人企業
作者: longlongint (華哥爾) 2021-10-10 18:28:00
問netflix怎麼防止用直播截取卡把魷魚遊戲錄下來阿你文章就發出來了
作者:
chocopie (好吃的巧克力派 :))
2021-10-10 19:04:001. 直接爬BBS、爬PTT網頁版、爬別人的爬蟲2. 如何防止? 1. 發在有讀取權限的版 2. 不要發文3. 檯面上方法有許多,檯面下方法不好說
作者:
mathrew (Joey)
2021-10-10 19:27:00砍東西就是駭客行為啊,資訊資產保留的有一定的規範,不是你要砍就砍
作者:
Apache (阿帕契)
2021-10-10 19:30:00你可以用GDPR去要求刪除
作者:
TakiDog (多奇狗)
2021-10-12 12:58:00支離破碎的發言
作者:
andrew5106 (撿到一百塊雷~)
2021-10-12 18:11:00啊不就爬蟲之前試過在文章開頭加個HTML註解,有些備份網站就抓不到內文嘗試更改你的內文阿,或是故意加一些語法讓爬蟲程式錯亂認不出來爬蟲只能抓固定Pattern的東西吧