作者:
poeta (鍵盤詩人)
2017-03-06 16:07:19HathiTrust Digital Library這個典藏網站,歐美名校有合作關係的,可以點選
畫面的 Download whole book (PDF),沒有合作的學校只能一頁一頁抓了。
像我看到的這份資料,想要抓其中一卷,線上觀看的網址是這個:
https://babel.hathitrust.org/cgi/pt?id=nnc1.cu04711483;view=2up;seq=3
按右鍵就可以看到他的原始連結,也可以下載,網站本身是沒有禁止的,所以我
寫了一個迴圈的語法,顯示我要抓的1~30頁超連結。
不過遇到的問題是,他的圖檔是jpg和png混雜
例如第3頁是jpg檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=3
第5頁則是png檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=6
因此我用firefox的downthemall插件,快速抓下來以後,即使是按時間排列,圖
檔的順序仍會錯亂。所以想問這個網站,應該要用什麼軟體來下載呢?