PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
java
[問題] httpclient遇到#document
作者:
storypp
(隨風而逝的是一份真)
2016-10-20 21:05:43
我使用HttpClient要抓網頁原始檔
可是只要遇到網頁內含有 #document
該段就會被跳過
如圖一
http://i.imgur.com/VBDQIgC.png
這個網頁用chrome的檢查可以看到裏面有一段#document的內容
可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來,
結果變成圖二
http://i.imgur.com/OmN99yt.png
可以看到#document一直到</frame>中間的內容全部消失
想請教大家都如何解決這種問題?
作者:
ssccg
(23)
2016-10-20 21:36:00
那就是frame裡的另一個網頁,你要parse frame的src另外發一個reuqest去抓才會有,
#document
只是chrome開發者工具標示frame中另一個網頁內容的方式而已另外Elements是chrome建的DOM,原始檔是Sources那個分頁的
繼續閱讀
[賣] JAVA 及 NFC書籍 各一本
vuarnet
[問題] web framework 求推薦
s58348292
[問題] 爬蟲正規表達式的效能
vi000246
[問題] ArrayList的層數問題
iphone5566s
售JAVA考試卷兩張
ada76145
[問題] 請教64位元的JVM如何呼叫32位元的註冊服
eric123
[問題] 新手提問 有關河內塔的遞迴理解
ciakkk040156
[工具] 產生PDF的oper source工具?
embman
[出售]售JAVA考試券(台北巨匠購入)已售出
youngwe0803
[問題] ethereumj sync thread
pttuserboy
Links
booklink
Contact Us: admin [ a t ] ucptt.com