PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] 爬蟲剔除不必要標籤
作者:
m87dd05
(八八里阿巴)
2019-03-12 10:57:35
小弟是爬蟲新手
想請問各位前輩
我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下圖之資訊
但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time
試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會
得到
作者:
rexyeah
(ccccccc)
2019-03-12 11:33:00
find_all("th" attrs=lambda x: x and "whatever" in x)沒測過... 不過常用類似的方法去篩選抓回來的東西
作者:
nini200
(200妮妮)
2019-03-12 13:57:00
直接給網址
作者:
art1
(人,原來不是人)
2019-03-12 22:26:00
使用.contents[0]看看
繼續閱讀
[討論] 爬蟲在ptt的應用?
nini200
[問題] 環境該如何設定
yehsc0806
[問題] 誤調環境變數的系統變數
tokyo291
[問題] kmode套件使用問題
BlgAtlfans
[問題] Django多worker爬蟲 如何做shared memory
Minarai
[問題] Pandas 擷取部分excel欄位並合併
nanokevin
[問題] 請問這個問題是如何記
e79829
Re: [問題] 初學該選哪一本書?
liton
[問題] 請問我為何無法建立檔案物件
alubasteve
[討論] 急徵Python家教
casio8
Links
booklink
Contact Us: admin [ a t ] ucptt.com