[問題] 該如何靠一個定位點抓取上層資料？ KeyBoardKill PTT批踢踢實業坊

[問題] 該如何靠一個定位點抓取上層資料？

作者: KeyBoardKill (✩鍵✩盤✩戮✩) 2018-06-03 18:38:31

各位好，做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ，我必須靠Number
來追蹤到ID，目前已經能做到追蹤到Number但ID跟Number不同行，我不懂該如何提取
能給我點提示嗎？謝謝
範例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分鐘資料</a></li>
'''
如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html
但現在如果分行了，我只能抓到唯一識別值：十分鐘資料，我不知道應該怎麼回推
從我在原始碼找到十分鐘的資料後，往上一行獲取到 123.html 這個值
懇請指點謝謝

作者: ringlwe 2018-06-03 18:56:00

是不是這個呀https://stackoverflow.com/questions/5815747/beautifulsoup-getting-href

作者: ThxThx (洗洗睡) 2018-06-03 19:39:00

我看起來你的做法是把HTML code看成是純文字來處理為何不先把他parse成結構化的資料？

作者: kobe8112 (小B) 2018-06-03 23:09:00

爬蟲還是建議用selector啦，不管是CSS或是XPATH這樣遇到問題自己比較容易除錯，板友也容易幫忙

繼續閱讀

[問題] 新手請益 Jupyter 內使用 tooltip longallen007 [問題] 新手請益關於抓資料ppoo1215 [問題] 陣列放值進去出錯tsrn37992307 Re: [問題] while迴圈問題TW185930 Re: [問題] while迴圈問題MOONY135 [問題] while迴圈問題TW185930 [問題] python的o是唸作［o] 還是［a]？wang19980531 [討論] 循環執行N個函式的寫法icetofux [問題] pygame徵求問問題計費的家教b05703 [問題] SQL一個欄位裡面找複數目標MAGICXX