[問題] 網路爬蟲後的資料分析

作者: ansi54 (笑笑生)   2015-12-02 14:35:50
大家好
小弟近來自學python的網路爬蟲
抓取網頁的html檔後用beautifulsoup資料分析
我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆)
目前發現一個問題無法解決(也google不到)
因為我要抓的網頁資料在原始碼上的編排有做手腳
我要抓的title它有些是編排為: "標題"
有些是:"標題
"
因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致
請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致?
謝謝
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title
作者: Slimlife (SlimLife)   2015-12-02 20:14:00
Did you try regexp already?
作者: ansi54 (笑笑生)   2015-12-03 09:12:00
not yet, but I'll try it. THX.
作者: Ziom (Oquainogen)   2015-12-03 22:50:00
有時某些空格用strip()也消不掉 可以試"".join(s.split())其中s是你要拆解的string
作者: ansi54 (笑笑生)   2015-12-04 09:05:00
謝謝z大 我會試試看的 感謝

Links booklink

Contact Us: admin [ a t ] ucptt.com