[-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.34 danny0838 PTT批踢踢實業坊

[-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.34

作者: danny0838 (道可道非常道) 2019-03-01 00:56:09

網頁剪貼簿 (WebScrapBook) 0.34.0
https://github.com/danny0838/webscrapbook
進入連結後在 Readme 下面的 Downloads: 可看到下載連結
前情提要：請在本版搜尋 ScrapBook
最近的重點更動（0.19.* → 0.34.0）：
* 套件名稱更名為 WebScrapBook（之前是 Web ScrapBook）。
* 大幅改善介面，比如那一坨拉庫的擷取選項現在可以按「？」顯示詳細說明；
按住 Ctrl 選取多個分頁可一起擷取，手機版可直接擷取目前分頁，等等。
* 大幅重構及改善程式碼架構，讓未來更容易擴充。
不過有個小代價是為了使用超好用的 async/await，
最低支援版本提高至 Firefox 52/Chromium 55（以前是 Fx 48/Chr 49）。
* 由於 AMO 對安全性的堅持（還等了夭壽久...），
最終放棄在內建封存網頁檢視器支援 JavaScript。
不過反過來說之前的方式的確也不是長久之計，
加上需要擷取 JavaScript 且擷取後能用的機會本來很微小，
暫時就先這樣吧。
之後預計又會有大改版，這裡做個小報告順便徵詢一些意見：
WebExtension 不支援許多關鍵功能（比如存取檔案系統），
因此若要 WebScrapBook 有像傳統 ScrapBook X 那些強大的功能，
在系統安裝輔助程式是必要的。
這議題擺了非常久，細節就不多說，之前的討論可參考這裡：
https://github.com/danny0838/webscrapbook/issues/2
目前的規畫是用 Python 寫一個後端程式，
情況順利的話以後使用 WebScrapBook 的方法大概像這樣：
1. 在系統上安裝 Python 3.5+ （用不用管理員權限裝都可以）
2. 在系統上安裝 WebScrapBook 後端程式的 Python 套件
（一般來說到命令列輸入 pip install webscrapbook 就可以完成）
3. 在命令列進入想當資料庫的資料夾（假設叫做 D:\scrapbook），
輸入 wsb config 之類的初始化命令完成初始化，
會自動建立一個 .wsb 資料夾存放設定檔和啟動腳本。
4. 初始化完成後，
以後執行 D:\scrapbook\.wsb\serve.py 就會自動啟動後端程式架起伺服器，
伺服器架起來就可以用瀏覽器存取 D:\scrapbook，
假設伺服器「網站」位址設定在 http://localhost:8080/，
就到 WebScrapBook 選項把剪貼簿位址設定為 http://localhost:8080/，
之後 WebScrapBook 擷取網頁就會自動傳到伺服器，
也會有按鈕可直接進入後端資料庫的首頁，
可以用瀏覽器直接查看擷取資料列表，或開在側欄。
伺服器還可以設定成開放外界存取（得先會設定防火牆及路由器就是），
以後人在外面可以用手機的 WebScrapBook 把資料直接存到電腦。
5. 後端程式還可以提供其他功能：
* 完整支援 .htz/.maff 壓縮格式，
進入伺服器網址瀏覽這些檔案就和看一般網頁一樣。
* 基本的檔案操作：增刪資料夾及檔案、上傳檔案、資料夾打包下載等。
* 和本地系統整合：可從瀏覽器把檔案用本地程式啟動，或開在檔案總管裡。
* 編輯功能：編輯文字檔、
編輯網頁（包括舊 ScrapBook X 的螢光筆、劃線等都能做到）、
編輯 Markdown 筆記（儲存後可直接看 HTML 輸出）等等。
* 如果已經有架 Apache 或其他伺服器，
可以用 WSGI 轉接到這個後端伺服器；
Python 非常模組化，有心的話也可以寫另一個程式調用 webscrapbook 模組。
* 後端程式本身也提供一些命令列工具，大概會包括幾個功能：
* 轉檔：比如從舊版 ScrapBook X 及 WebScrapBook 匯入資料庫
* 建置全文搜尋索引
* 輸出成靜態網站（以便整批丟到手機上看，或架到 GitHub Page 等等）
其他目前打算做的一些改變，
可能會影響過去使用 ScrapBook X 或 WebScrapBook 的習慣，
若有什麼想法請不吝提出：
* 資料結構調整：為了讓資料更簡潔更好組織，預計把以往 ScrapBook X 的架構：
<scrapbook>/scrapbook.rdf
<scrapbook>/search.html
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
或 WebScrapBook 索引器的架構：
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
改成像這樣：
<scrapbook>/.wsb/<設定檔>
<scrapbook>/.wsb/server/<伺服器快取檔等等>
<scrapbook>/.wsb/tree/<索引檔>
<scrapbook>/<資料檔>
簡而言之就是以後 webscrapbook 後端程式產生的都統一丟在 .wsb 資料夾裡。
* 拿掉目前的索引器：
WebExtension 套件的功能畢竟很難像 Python 程式那樣完整，
要維護兩套也很麻煩，乾脆拿掉。
會衝擊到的主要是想要索引功能又不想安裝後端程式的人，
以及手機版（雖然手機版的索引功能本來就很難用），
不曉得有沒有版友是這種人？XD
* 拿掉儲存成單一 HTML 頁面的功能：
WebScrapBook 原始目的是網頁的長久保真封存，
單一 HTML 頁面雖然方便，
但有很多地方會失真或失效、檔案會變肥、也不容易用其他程式轉檔，
不是長久封存的理想選擇。
之後後端程式應該會加入轉存成單一 HTML 頁面的功能，
（技術上以往 ScrapBook X Converter 能做的所有事後端程式都能做到，
只是要時間寫，而且可能是從命令列執行，介面沒那麼友善）
想把擷取的資料再另存成單一 HTML 網頁分享給別人還是可以，
只是就不再提供直接從瀏覽器套件儲存成單一網頁的選項。

作者: DCG (DCG) 2019-03-01 09:10:00

如果只是單純擷取網頁（部份或整頁）為 HTZ，以後改版也要安裝後端程式才能用嗎？

作者: danny0838 (道可道非常道) 2019-03-01 10:24:00

封存頁面檢視器會保留

作者: sate5232 (Hao) 2019-03-08 21:52:00

如果管理功能能有以往般強大，要安裝後端也沒問題

作者: DCG (DCG) 2019-03-11 20:09:00

試了一下，新版的 reddit 好像無法正常儲存，例如：https://pse.is/FHGU9看到的是這樣：https://i.imgur.com/gSr36rQ.png整頁儲存變成這樣：https://i.imgur.com/sgBKYqD.jpg試著把腳本或其他元素選儲存也一樣，無法正常顯示改儲成 HTML，也一樣無法正常顯示

作者: aiwheat (尋找自己的阿尼瑪) 2019-03-13 19:58:00

儲存頁面時，會另外跳出的一個視窗處理，然後又跳出一個視窗，讓人選擇下再到自己電腦裡，這兩個部份可以不要顯示出來嗎？另外儲存所有分頁時，可以讓人選擇要哪些分頁?

繼續閱讀

[問題] Chrome 放大縮小skyhawkptt [-Fx-] 看臉書直播會容易變頓rocklorl [-Fx-] firefox的縮放比例間隔wxtab019 [-Fx-] 取代UnMHT的附加元件?Quando [分享] 刪除 Ptt 網頁版文章的簽名檔kuro [新聞] 台灣團隊操刀 Mozilla 輕量化瀏覽器進軍kuro Re: [-GC-] Chromium 或將限制擋廣告的外掛abc0922001 [-Fx-] Firefox將整合Firefox Monitorhn9480412 Fw: [心得] 我把兩個 PttChrome plugin 整合辣～alan23273850 [問題] IDF(網路下載軟體）無法開啟ad40123