[問題] 抓取網頁html source code? smilekerker PTT批踢踢實業坊

[問題] 抓取網頁html source code?

作者: smilekerker (科科:)) 2015-01-23 18:10:04

剛要學怎麼抓網頁source code
再來解析自己要的資訊
結果第一步抓code就死掉了= =
譬如我想抓的網頁是PCHOME 股市的某頁
http://pchome.megatime.com.tw/rank/sto0/ock03.html
然後寫了這個小程式

但是回傳只有這樣的訊息

請問這樣是哪裡有錯誤嗎?
還是這網頁不能這樣讀?
麻煩指點一下
謝謝 :)

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2015-01-23 18:53:00

網上搜尋 ajax

作者: smilekerker (科科:)) 2015-01-23 19:16:00

這是ajax的特殊語法嗎? 那我再去查查謝謝 :)

作者: secondsee (窩ㄎ唷) 2015-01-23 19:23:00

這個網址就是只會吐這段html給你,你所看到的東西是因為browser去執行了裡面的javascript改寫到了原本的body

作者: smilekerker (科科:)) 2015-01-23 19:36:00

好的，看來是這樣QQ，那有其他快速簡潔的方法可以獲得原始碼的嗎?

作者: secondsee (窩ㄎ唷) 2015-01-23 19:48:00

urllib2.urlopen(url,'is_check=1').read()

作者: smilekerker (科科:)) 2015-01-23 19:52:00

居然這麼簡單!! 萬分感謝!!

繼續閱讀

[問題]該怎樣將json檔轉成CSV? allen511081 Re: [問題] python 檔案上傳gn00618777 [問題] python 檔案上傳gn00618777 [問題] 一行表列 ['cat','dog','rabbit'] 的字元fourdollars [問題]Visual Studio 2013 安裝MySQL出現問題BLKD [問題] 下載的資料不見了 !!!pttsasho [問題] Django template language eric111043 [問題] 想請問有關Python的書籍jayzhuang [問題] func default value 的 list 沒有清掉changyuheng Re: [問題] 在客戶端的網頁顯示gn00618777

Contact Us: admin [ a t ] ucptt.com