[問題] 該如何靠一個定位點抓取上層資料?

作者: KeyBoardKill (✩鍵✩盤✩戮✩)   2018-06-03 18:38:31
各位好,做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ,我必須靠Number
來追蹤到ID,目前已經能做到追蹤到Number但ID跟Number不同行,我不懂該如何提取
能給我點提示嗎?謝謝
範例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分鐘資料</a></li>
'''
如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html
但現在如果分行了,我只能抓到 唯一識別值:十分鐘資料,我不知道應該怎麼回推
從我在原始碼找到十分鐘的資料後,往上一行獲取到 123.html 這個值
懇請指點 謝謝
作者: ringlwe   2018-06-03 18:56:00
作者: ThxThx (洗洗睡)   2018-06-03 19:39:00
我看起來你的做法是把HTML code看成是純文字來處理為何不先把他parse成結構化的資料?
作者: kobe8112 (小B)   2018-06-03 23:09:00
爬蟲還是建議用selector啦,不管是CSS或是XPATH這樣遇到問題自己比較容易除錯,板友也容易幫忙

Links booklink

Contact Us: admin [ a t ] ucptt.com