大家好
小弟近來自學python的網路爬蟲
抓取網頁的html檔後用beautifulsoup資料分析
我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆)
目前發現一個問題無法解決(也google不到)
因為我要抓的網頁資料在原始碼上的編排有做手腳
我要抓的title它有些是編排為: "標題"
有些是:"標題
"
因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致
請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致?
謝謝
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title