[請益] 備份網站的技術?

作者: yobook (@@)   2021-10-09 09:40:57
花了很多P幣,跟時間再研究google跟備份網站
備份網站不是用多線程爬蟲技術嗎?
但是好像發現了,沒有這麼簡單
好像每個版,測試過,被備份的方式不同....
說簡單,但也不簡單
這類網站所依賴的技術,其實滿簡單的
但是PTT只要發文權限跟方式不改,永遠都一定會被備份
發文的那個瞬間,因為很多地方不能改變,只能發文後再改
所以,第一次的文章標題,還有發文者一定會被紀錄
本文可以修改,所以必須等第二次才能解決
想問一下,PTT備份網站,像是PTTWEB 所仰賴的技術.....
謝謝!
損失好多P幣跟時間,血淚,才得到這種結論.....
人腦真的比不上電腦QQ
作者: gasbomb (虛空雷神獸)   2021-10-09 10:03:00
……有人看得懂這篇嗎?
作者: yinxuanh (飄飄然)   2021-10-09 10:08:00
伸手文啊
作者: loadingN (sarsaparilla)   2021-10-09 10:09:00
為什麼會損失p幣
作者: Raymond0710 (雷門)   2021-10-09 10:14:00
作者: PttLite (PTT Lite)   2021-10-09 11:08:00
看標題進來因為是DB backup或snapshot結果是爬蟲...我快跟不上時代了..
作者: qrtt1 (有些事,有時候。。。)   2021-10-09 11:55:00
看不懂想要幹麻
作者: wahaha279 (哇哈哈:3)   2021-10-09 11:58:00
看不懂在說什麼
作者: yougigun   2021-10-09 12:02:00
我也跟不上你的腦
作者: brianhsu (墳墓)   2021-10-09 12:09:00
請先閱讀「提問的智慧」,謝謝。
作者: chocopie (好吃的巧克力派 :))   2021-10-09 12:50:00
先定義你要備份的內容是甚麼。是原本的內容一模一樣?還是只爬文章文字內容?
作者: JimRoid (小綿綿)   2021-10-09 12:55:00
看標題我以為你是要問快照之類的
作者: utdsml (阿邊肥)   2021-10-09 13:02:00
原 po 應該是想問備份 PTT 裡面所有發推文紀錄的網站
作者: moom50302 (武林三羚鱷)   2021-10-09 13:05:00
ctrl+S…?
作者: eduishappy (開心就好)   2021-10-09 13:06:00
我覺得PTT備份文章的網站真的好厲害喔!全都可以記錄
作者: stupid0319 (徵女友)   2021-10-09 13:37:00
偷取別人網站內容叫備份¿¿¿
作者: geroge0820 (可.....可惡)   2021-10-09 13:43:00
這就是工程師和客戶之間的思維差異
作者: kyoe (緣份‧不再)   2021-10-09 13:47:00
只要格式固定,都可以被解析
作者: flypaper (一直飛)   2021-10-09 14:31:00
我程度太差看不懂 QQ
作者: roccqqck (ccqq)   2021-10-09 15:18:00
爬蟲作業自己寫欸 本來每個網站爬蟲都不一樣都要修改
作者: Olwen (歐溫)   2021-10-09 15:45:00
明明是中文,我確聽不懂
作者: PttLite (PTT Lite)   2021-10-09 15:54:00
要用眼看
作者: ChungLi5566 (中壢56哥)   2021-10-09 16:33:00
看不懂的都沒有成為PM的資質客戶說的備份 要跟工程師說逆向工程才聽得懂
作者: wave1et (百分百殖利率)   2021-10-09 17:19:00
ptt有個allpost版吧
作者: PttLite (PTT Lite)   2021-10-09 18:12:00
為什麼要對自己的網站做逆向工程
作者: RINPE (RIN)   2021-10-09 18:18:00
沒有什麼是複製貼上解決不了的
作者: sniper2824 (月夜)   2021-10-09 19:25:00
2012做到現在發文發問還像完全不懂程式的外行著實厲害
作者: bill0205 (善良的小孩沒人愛)   2021-10-09 20:21:00
對不起我還真的看不懂
作者: aidansky0989 (alta)   2021-10-09 20:22:00
這個表達能力不愧是工程師
作者: OrzOGC (洞八達人.拖哨天王)   2021-10-09 20:22:00
我看得懂,有人可以撿我去當PM嗎?QQ
作者: viper9709 (阿達)   2021-10-09 20:45:00
看不懂想問什麼+1
作者: pilor (Formosa)   2021-10-09 20:54:00
我看得懂中文看不懂這篇文
作者: boy70263 (Johnny)   2021-10-09 21:34:00
Ctrl+A+C+P
作者: ChungLi5566 (中壢56哥)   2021-10-09 21:57:00
偷別人網站內容 然後做出相似的東西放出來 他想知道那些網站怎麼辦到的
作者: wulouise (在線上!=在電腦前)   2021-10-09 23:41:00
沒講解決要解決什麼,一百遍都猜不透吧
作者: BignoZe (BignoZe)   2021-10-09 23:54:00
看得懂 還好我有看完新上的通靈王
作者: Kazimir (Kazimir)   2021-10-10 04:46:00
公開網站要怎麼防止備份 你要他們刪文不然寫信去問看看R
作者: qrtt1 (有些事,有時候。。。)   2021-10-10 08:31:00
只有一開始就不存在的東西不會被備份
作者: MarcoReus (Marco Reus)   2021-10-10 08:48:00
反向思考 你可以發加密文
作者: art1 (人,原來不是人)   2021-10-10 09:38:00
去跟 ptt 站方要求禁止來自這些網站的爬蟲應該說請求才對
作者: FantasyRyu (眩惑之龍)   2021-10-10 09:50:00
公開網站可以防爬蟲的話,那一開始你就發加密網站就好
作者: daddy29 (願上帝與你同在)   2021-10-10 10:19:00
砍站
作者: aa06697 (todo se andarà)   2021-10-10 10:56:00
公開網站 網站也不是你擁有的話 你單純發文沒辦法防吧
作者: WJAider (Aider)   2021-10-10 13:10:00
哪篇啊? 我架個網站備份那篇,你想刪聯絡我一定刪
作者: sppmg (sppmg)   2021-10-10 14:01:00
我看唯一的問題應是:如何發文不留痕跡?
作者: Apache (阿帕契)   2021-10-10 15:30:00
不要上網
作者: ChungLi5566 (中壢56哥)   2021-10-10 17:08:00
駭進去砍啊 不然就走法律途徑
作者: MonyemLi (life)   2021-10-10 17:59:00
如果你是說刪除,那叫特權,工程師不能任意刪除的。公司主管授權維運工程師,政府公權力要求私人企業
作者: longlongint (華哥爾)   2021-10-10 18:28:00
問netflix怎麼防止用直播截取卡把魷魚遊戲錄下來阿你文章就發出來了
作者: chocopie (好吃的巧克力派 :))   2021-10-10 19:04:00
1. 直接爬BBS、爬PTT網頁版、爬別人的爬蟲2. 如何防止? 1. 發在有讀取權限的版 2. 不要發文3. 檯面上方法有許多,檯面下方法不好說
作者: mathrew (Joey)   2021-10-10 19:27:00
砍東西就是駭客行為啊,資訊資產保留的有一定的規範,不是你要砍就砍
作者: Apache (阿帕契)   2021-10-10 19:30:00
你可以用GDPR去要求刪除
作者: TakiDog (多奇狗)   2021-10-12 12:58:00
支離破碎的發言
作者: realbout (薩摩訶)   2021-10-12 15:10:00
這篇是三小....
作者: andrew5106 (撿到一百塊雷~)   2021-10-12 18:11:00
啊不就爬蟲之前試過在文章開頭加個HTML註解,有些備份網站就抓不到內文嘗試更改你的內文阿,或是故意加一些語法讓爬蟲程式錯亂認不出來爬蟲只能抓固定Pattern的東西吧
作者: uglykidjoe (uglykidjoe)   2021-10-22 17:24:00
怎麼這麼多會通靈的人,真是太厲害了

Links booklink

Contact Us: admin [ a t ] ucptt.com