[問題] wget抓取網頁內容疑問!?

作者: BIAO (超越自己)   2017-07-10 18:47:54
各位板友大家好,
想請問如果要用wget抓取網頁內容該如何操作呢?
我需要抓取http://24.23.159.200:8603/頁面的內容,
但是用wget只能抓到html的標籤,
懇請板上先進提供指引,謝謝大家。
作者: bamchisu (suchi)   2017-07-10 19:14:00
curl
作者: kenduest (小州)   2017-07-10 19:19:00
那個算是動態網頁內容,裡面有 js 語法讓瀏覽器去進行內容大概就是每隔一秒對某個 url 請求timeout 1 curl http://24.23.159.200:8603/stream測試看看
作者: BIAO (超越自己)   2017-07-10 20:36:00
謝謝二位,真的可以了!curl為什麼可以撈到後端產生的資料呢?如果我要寫個爬蟲程式,不用libcurl的話能夠做到嗎?其實我想問的是這件事 XDDD這個撈動態網頁資料的方式有沒有專有名詞呢?主要是好像用python或node.js相對於Qt好像比較好爬蟲..但是因為需要直接用qt程式碼進行爬蟲,所以想和板友請教一下
作者: CP64 (( ̄▽ ̄#)﹏﹏)   2017-07-10 21:20:00
就只是去分析網頁的行為啊他做的事情就是去 http://24.23.159.200:8603/stream拉資料 然後填充到網頁裡就是說 你要的網頁只是骨架 實際上內容是用 js拉東西下來 然後填進骨架 但是 wget 不會去處理 javascript所以你拉下來會是只有一點 html如果你用 wget http://24.23.159.200:8603/stream 也是有的
作者: BIAO (超越自己)   2017-07-10 21:39:00
疑,對耶!wget也是有的,因為我一開始沒有加stream..原來有這種東西...XD謝謝CP64大喔 ^^

Links booklink

Contact Us: admin [ a t ] ucptt.com