小弟因為專題需要爬證交所網站的一些資料,所以用python 2.7 和requests套件操作
網址如下:
http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php
(每個月份都要爬)
程式碼如下:
import requests
payload = {
'myear': 2016,
'mmom': 5
}
url='http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php'
page = requests.post(url, data=payload)
print page.text.decode('iso-8859-1').encode('utf8')
然後就遇到兩個問題:
1.有抓到東西,但是只有抓到其他不重要的,數據的部分完全沒有
(應該是payload那有錯,抱歉小弟連html都沒寫過QQ)
2.抓下來的編碼是亂碼,所以加了爬文看到的解碼那行,卻出現error:
UnicodeEncodeError: 'ascii' codec can't encode character u'\xbb' in position
130: ordinal not in range(128)
整整花了3個半天還是搞不定,只好PO文求救了QQ