[閒聊] 刺蝟貓下載方式(非常麻煩)

作者: dbwu (dbwu)   2020-03-01 22:19:52
推 AddictoBear : 很多盜版都是製作成圖片,然後拿來賣錢這樣,刺蝟貓 03/01
22:47
→ AddictoBear : 沒有,據從盜版大佬了解是說,有做過公關,像是廢爐 03/01
22:47
→ AddictoBear : 都有,但廢爐有在抓,而且有很多種方式去ban專門做 03/01
22:47
→ AddictoBear : 盜版的號,其中一種就是看帳號瀏覽章節速度,還有一 03/01
22:47
→ AddictoBear : 些浮印之類的,所以如果想自己製作,可能要注意一下 03/01
22:47
→ AddictoBear : 瀏覽章節速度
“可能”有危險
有兩種方法,但都很麻煩
第一種比較慢,但辨識效果比較好
第二種比較快,但辨識效果比較差
但兩種都沒有好到哪去
正常人只下載圖片就好,別像我一樣妄想轉成txt
第一種:
1.下載章節的圖片
2.用OCR軟體辨識圖片文字
3.手動校對(地獄)
1.下載章節有兩種方法,一種是用腳本:
https://reurl.cc/vny9Ol
缺點: “不支援vip章節” 、數量超過800章很吃記憶體
優點:自動下載成txt、無須校對、
只要是免費章節都可以下載,不管是不是上架的書
https://reurl.cc/GkzM6p
缺點:下載下來的是.md檔案、會在章節名下方產生使用者ID
優點:支援vip章節
刺蝟貓把vip章節的文字轉成圖片,然後以data url的方式存儲
第二個腳本就只是把該章節的data url下載下來而已
md檔用Visual Studio Code打開:
https://imgur.com/ZRpNnpz
箭頭指的按鈕點下去就會轉換了,比線上轉換快幾十倍吧
沒有唬爛,我線上轉換一個章節的圖片要一分鐘
第二種方法用chorme整頁截圖:
叫出開發人員視窗https://imgur.com/owQfCrC
windows是F11還是F12忘了
https://imgur.com/0sRT082
按capture full size screenshot
正常人看到這就好,以下為血汗工程
這個方式會擷取整頁所有元素,辨識結果會更糟
第一種方法就不會出現那些
2.辨識有線上OCR和軟體OCR
線上免費推薦Google Keep,付費推薦誠華OCR(免費很慢,而且限量
軟體推薦FineReader
這裡拿FineReader示範
https://imgur.com/XoDuCFC
簡單比較:
https://imgur.com/panIt6o
左邊是腳本下載的辨識結果
右邊是chrome截圖的辨識結果
反正都是校對地獄。
本來還以為天真的以為有辦法可以下載文字
直到我知道刺蝟貓vip用的是data url
這東西是為了節省瀏覽器讀取網頁消耗資源用的
結果被技術部用來防盜版
也因此網路上找得到的刺蝟貓X版幾乎不能看
原因就是上述內容
一個月前想起起點台灣的公告
說使用者只有存取權沒有所有權
我很不爽所以開始想方法備份
刺蝟貓又不像起點一堆特別的網站免費幫你
所以只好自己來啦
尤其現在又要淨網
刺蝟貓雖然每次都在打擊邊緣,但我不想等到真的出事
其實沒什麼內容啦,騙騙p幣

Links booklink

Contact Us: admin [ a t ] ucptt.com