[問題] httpclient遇到#document

作者: storypp (隨風而逝的是一份真)   2016-10-20 21:05:43
我使用HttpClient要抓網頁原始檔
可是只要遇到網頁內含有 #document
該段就會被跳過
如圖一
http://i.imgur.com/VBDQIgC.png
這個網頁用chrome的檢查可以看到裏面有一段#document的內容
可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來,
結果變成圖二
http://i.imgur.com/OmN99yt.png
可以看到#document一直到</frame>中間的內容全部消失
想請教大家都如何解決這種問題?
作者: ssccg (23)   2016-10-20 21:36:00
那就是frame裡的另一個網頁,你要parse frame的src另外發一個reuqest去抓才會有,#document只是chrome開發者工具標示frame中另一個網頁內容的方式而已另外Elements是chrome建的DOM,原始檔是Sources那個分頁的

Links booklink

Contact Us: admin [ a t ] ucptt.com