[-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.34

作者: danny0838 (道可道非常道)   2019-03-01 00:56:09
網頁剪貼簿 (WebScrapBook) 0.34.0
https://github.com/danny0838/webscrapbook
進入連結後在 Readme 下面的 Downloads: 可看到下載連結
前情提要:請在本版搜尋 ScrapBook
最近的重點更動(0.19.* → 0.34.0):
* 套件名稱更名為 WebScrapBook(之前是 Web ScrapBook)。
* 大幅改善介面,比如那一坨拉庫的擷取選項現在可以按「?」顯示詳細說明;
按住 Ctrl 選取多個分頁可一起擷取,手機版可直接擷取目前分頁,等等。
* 大幅重構及改善程式碼架構,讓未來更容易擴充。
不過有個小代價是為了使用超好用的 async/await,
最低支援版本提高至 Firefox 52/Chromium 55(以前是 Fx 48/Chr 49)。
* 由於 AMO 對安全性的堅持(還等了夭壽久...),
最終放棄在內建封存網頁檢視器支援 JavaScript。
不過反過來說之前的方式的確也不是長久之計,
加上需要擷取 JavaScript 且擷取後能用的機會本來很微小,
暫時就先這樣吧。
之後預計又會有大改版,這裡做個小報告順便徵詢一些意見:
WebExtension 不支援許多關鍵功能(比如存取檔案系統),
因此若要 WebScrapBook 有像傳統 ScrapBook X 那些強大的功能,
在系統安裝輔助程式是必要的。
這議題擺了非常久,細節就不多說,之前的討論可參考這裡:
https://github.com/danny0838/webscrapbook/issues/2
目前的規畫是用 Python 寫一個後端程式,
情況順利的話以後使用 WebScrapBook 的方法大概像這樣:
1. 在系統上安裝 Python 3.5+ (用不用管理員權限裝都可以)
2. 在系統上安裝 WebScrapBook 後端程式的 Python 套件
(一般來說到命令列輸入 pip install webscrapbook 就可以完成)
3. 在命令列進入想當資料庫的資料夾(假設叫做 D:\scrapbook),
輸入 wsb config 之類的初始化命令完成初始化,
會自動建立一個 .wsb 資料夾存放設定檔和啟動腳本。
4. 初始化完成後,
以後執行 D:\scrapbook\.wsb\serve.py 就會自動啟動後端程式架起伺服器,
伺服器架起來就可以用瀏覽器存取 D:\scrapbook,
假設伺服器「網站」位址設定在 http://localhost:8080/,
就到 WebScrapBook 選項把剪貼簿位址設定為 http://localhost:8080/,
之後 WebScrapBook 擷取網頁就會自動傳到伺服器,
也會有按鈕可直接進入後端資料庫的首頁,
可以用瀏覽器直接查看擷取資料列表,或開在側欄。
伺服器還可以設定成開放外界存取(得先會設定防火牆及路由器就是),
以後人在外面可以用手機的 WebScrapBook 把資料直接存到電腦。
5. 後端程式還可以提供其他功能:
* 完整支援 .htz/.maff 壓縮格式,
進入伺服器網址瀏覽這些檔案就和看一般網頁一樣。
* 基本的檔案操作:增刪資料夾及檔案、上傳檔案、資料夾打包下載等。
* 和本地系統整合:可從瀏覽器把檔案用本地程式啟動,或開在檔案總管裡。
* 編輯功能:編輯文字檔、
編輯網頁(包括舊 ScrapBook X 的螢光筆、劃線等都能做到)、
編輯 Markdown 筆記(儲存後可直接看 HTML 輸出)等等。
* 如果已經有架 Apache 或其他伺服器,
可以用 WSGI 轉接到這個後端伺服器;
Python 非常模組化,有心的話也可以寫另一個程式調用 webscrapbook 模組。
* 後端程式本身也提供一些命令列工具,大概會包括幾個功能:
* 轉檔:比如從舊版 ScrapBook X 及 WebScrapBook 匯入資料庫
* 建置全文搜尋索引
* 輸出成靜態網站(以便整批丟到手機上看,或架到 GitHub Page 等等)
其他目前打算做的一些改變,
可能會影響過去使用 ScrapBook X 或 WebScrapBook 的習慣,
若有什麼想法請不吝提出:
* 資料結構調整:為了讓資料更簡潔更好組織,預計把以往 ScrapBook X 的架構:
<scrapbook>/scrapbook.rdf
<scrapbook>/search.html
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
或 WebScrapBook 索引器的架構:
<scrapbook>/data/<資料檔>
<scrapbook>/tree/<索引檔>
改成像這樣:
<scrapbook>/.wsb/<設定檔>
<scrapbook>/.wsb/server/<伺服器快取檔等等>
<scrapbook>/.wsb/tree/<索引檔>
<scrapbook>/<資料檔>
簡而言之就是以後 webscrapbook 後端程式產生的都統一丟在 .wsb 資料夾裡。
* 拿掉目前的索引器:
WebExtension 套件的功能畢竟很難像 Python 程式那樣完整,
要維護兩套也很麻煩,乾脆拿掉。
會衝擊到的主要是想要索引功能又不想安裝後端程式的人,
以及手機版(雖然手機版的索引功能本來就很難用),
不曉得有沒有版友是這種人?XD
* 拿掉儲存成單一 HTML 頁面的功能:
WebScrapBook 原始目的是網頁的長久保真封存,
單一 HTML 頁面雖然方便,
但有很多地方會失真或失效、檔案會變肥、也不容易用其他程式轉檔,
不是長久封存的理想選擇。
之後後端程式應該會加入轉存成單一 HTML 頁面的功能,
(技術上以往 ScrapBook X Converter 能做的所有事後端程式都能做到,
只是要時間寫,而且可能是從命令列執行,介面沒那麼友善)
想把擷取的資料再另存成單一 HTML 網頁分享給別人還是可以,
只是就不再提供直接從瀏覽器套件儲存成單一網頁的選項。
作者: DCG (DCG)   2019-03-01 09:10:00
如果只是單純擷取網頁(部份或整頁)為 HTZ,以後改版也要安裝後端程式才能用嗎?
作者: danny0838 (道可道非常道)   2019-03-01 10:24:00
封存頁面檢視器會保留
作者: sate5232 (Hao)   2019-03-08 21:52:00
如果管理功能能有以往般強大,要安裝後端也沒問題
作者: DCG (DCG)   2019-03-11 20:09:00
試了一下,新版的 reddit 好像無法正常儲存,例如:https://pse.is/FHGU9看到的是這樣:https://i.imgur.com/gSr36rQ.png整頁儲存變成這樣:https://i.imgur.com/sgBKYqD.jpg試著把腳本或其他元素選儲存也一樣,無法正常顯示改儲成 HTML,也一樣無法正常顯示
作者: aiwheat (尋找自己的阿尼瑪)   2019-03-13 19:58:00
儲存頁面時,會另外跳出的一個視窗處理,然後又跳出一個視窗,讓人選擇下再到自己電腦裡,這兩個部份可以不要顯示出來嗎?另外儲存所有分頁時,可以讓人選擇要哪些分頁?

Links booklink

Contact Us: admin [ a t ] ucptt.com