[問題] 網路爬蟲後的資料分析 ansi54 PTT批踢踢實業坊

[問題] 網路爬蟲後的資料分析

作者: ansi54 (笑笑生) 2015-12-02 14:35:50

大家好
小弟近來自學python的網路爬蟲
抓取網頁的html檔後用beautifulsoup資料分析
我的目的在於要抓取關鍵字搜索後的資料（一頁有50筆）
目前發現一個問題無法解決（也google不到）
因為我要抓的網頁資料在原始碼上的編排有做手腳
我要抓的title它有些是編排為： "標題"
有些是："標題
"
因為這個雙引號位置的關係，使得我抓出來的資料編排就不一致
請問各位先進我要如何修改我的程式才能讓我抓出來的資料編排一致？
謝謝
小弟的程式如下：
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,"．",title

作者: Slimlife (SlimLife) 2015-12-02 20:14:00

Did you try regexp already?

作者: ansi54 (笑笑生) 2015-12-03 09:12:00

not yet, but I'll try it. THX.

作者: Ziom (Oquainogen) 2015-12-03 22:50:00

有時某些空格用strip()也消不掉可以試"".join(s.split())其中s是你要拆解的string

作者: ansi54 (笑笑生) 2015-12-04 09:05:00

謝謝z大我會試試看的感謝

繼續閱讀

[問題] 請教該如何處理這個問題Dong0129 [問題] csv檔案讀寫ybeei [問題] python IDEcwoldind [問題] 0基礎網路影片trausing [問題] 新手學習所遇到的問題mymx4000 [問題] py2exe 加入要import的.pyad20scott [問題] django pipeline vs compressorJS1037 [問題] 關於django新手入門建議spriteeddy [問題] Django的這個資料顯示大家會怎麼處理？content71 [問題] import session的問題herbacin