作者:
ajsaak (光)
2015-12-24 20:16:07有幾個問題想問問,本身沒程式基礎,參考一些文章使用下面的指令
import urllib2
from bs4 import BeautifulSoup
url = 'http://zh.divine-gate.wikia.com/wiki/1509'
request = urllib2.Request(url)
request.add_header('Accept-Encoding', 'utf-8')
response = urllib2.urlopen(request)
soup = BeautifulSoup(response)
print soup.text
問題1.最後顯示出來,仍然有許多不需要的部分,用Infolite取得表格文字在
td跟th部分嘗試改成print soup.select('td'),但卻變成似乎有亂碼的情況
問題2.現在是使用notebooks操作,如果要輸入成擋案成純文本該如何作?改成py檔
執行完就直接不見了
問題3.如果要大量擷取,要如何修改呢?
如:http://zh.divine-gate.wikia.com/wiki/xxxx XXXX=1~1500