[問題] 網頁抓資料特殊符號處理

作者: zilong308 (大師兄)   2015-01-27 09:44:25
大家好
小弟最近使用python抓取網頁資料
在網頁原始檔中有td標籤如下的
<td align="right" width="56">
755
</td>
都能順利讀取其值 755
使用方法是SGMLParser
但現在有個問題
<td align="middle" class="12red" width="61">
<font color="red">
▲+8
</font>
這種的td標籤雖然有3個attrs,若沒有下面的font標籤,我想也不難抓取值
但現在不只有font標籤,而且"▲"這個要怎處理?
小弟現在以parse標籤帶三個屬性的方式硬處理,結果未能抓取其值(或抓取到空白?)
因為print出來似乎是一個空格而已
希望板上大大能幫忙解惑,感恩~

Links booklink

Contact Us: admin [ a t ] ucptt.com