[問題] 如何移除tag保留裡面內容呢?

作者: aitbtitw (你好)   2016-05-10 18:49:35
小弟是python新手 最近剛開始學習爬蟲
但是最近遇到一個問題 就是怎麼都移除不了<li>
以下部分是程式碼
import urllib.request
import re
from bs4 import BeautifulSoup as bs4
page = urllib.request.urlopen('http://health.udn.com/disease/sole/185');
html = str(page.read(),'utf-8')
soup = bs4(html, 'html.parser')
s = soup.select('.outbreak > ul')
s = s[0]
print(s)
輸出結果為:
<ul><li>隨年齡增長而提高。男性大於45歲,女性大於55歲,又男性發生率高於女性。
</li><li>患有高血壓、糖尿病、高血脂等疾病者。尤其糖尿病患常合併有三高,加上多
重代謝異常,壞膽固醇容易囤積在血管內,造成大規模阻塞病變。</li><li>情緒容易緊
張、易怒、憂慮和恐慌者。</li><li>過度勞累、生活壓力大者。</li><li>缺乏規律運動
習慣者。</li><li>膽固醇、血脂肪及三酸甘油脂數值過高者。</li><li>菸癮者,因抽煙
會加速粥狀動脈硬化。</li><li>冠狀動脈心臟病患者,或有冠狀動脈心臟病家族史者。
患者因動脈硬化血管腔狹窄,很容易造成阻塞。</li></ul>
煩請各位高手指點了 謝謝大家
作者: obelisk0114 (追風箏的孩子)   2016-05-10 19:49:00
請看 beautifulsoup 的官方文件,裡面有寫
作者: octantis (@.@)   2016-05-10 21:30:00
看你是要全部抓一起還是一個個抓,全部抓一起用s.text分開抓用s.strings或s.elements.text
作者: woogee (woogee)   2016-05-11 04:55:00
print s.text
作者: ripple0129 (perry tsai)   2016-05-12 01:41:00
你乾脆用regex自己把tag移除掉
作者: aitbtitw (你好)   2016-05-12 15:44:00
謝謝各位。已經解決了

Links booklink

Contact Us: admin [ a t ] ucptt.com