[問題] 新手爬蟲請益 etudiant PTT批踢踢實業坊

[問題] 新手爬蟲請益

作者: etudiant (weiwei) 2022-09-02 01:04:37

板上的各位大大們好，最近剛開始自學爬蟲，知道可以用find_all去抓所有同標籤和屬性
下的網頁文字內容，但想請問如果我想抓html裡面的特定內容，沒有顯示在網頁的那種，
如下圖的黃色miaowu2020的部分該如何下手呢？謝謝！
https://i.imgur.com/NhgYWme.jpg
附上我抓其他網頁內容的程式
https://i.imgur.com/uuSK3Io.jpg

作者: AndCycle (AndCycle) 2022-09-02 03:14:00

印象裡 find_all("a", {"data-item-id": "miaowu2020"})

作者: JerryChungYC (JerryChung) 2022-09-02 03:50:00

get("data-item-id")

作者: lycantrope (阿寬) 2022-09-02 14:37:00

你有看過t.attrs嗎

作者: etudiant (weiwei) 2022-09-02 14:55:00

l大您好，我沒看過我來研究一下，謝謝您

作者: surimodo (好吃棉花糖) 2022-09-02 16:16:00

程式碼不要用截圖盡量用線上文本貼圖很難Debug

作者: etudiant (weiwei) 2022-09-02 16:28:00

謝謝S大提醒，我等到貼上來文字目前主要是想在這個網站外面總覽的部分先抓好每一個商品的id，因為有發現它點進去個別商品的網頁名稱最後都是用data-item-id結尾的，想說也許這樣一次爬下來就能設計一個一口氣抓完個別內容的程式碼（？

作者: lycantrope (阿寬) 2022-09-02 16:47:00

可以嘗試一下if else來篩選非None的值吧

作者: surimodo (好吃棉花糖) 2022-09-02 19:26:00

https://paste.ee/p/7jvvN https://paste.ee/p/xOxLW 最後改迴圈

作者: etudiant (weiwei) 2022-09-02 20:04:00

非常謝謝樓上s大，我馬上來研究一下！！

作者: surimodo (好吃棉花糖) 2022-09-02 20:20:00

不懂再問^^

作者: etudiant (weiwei) 2022-09-02 21:18:00

感謝好心s大，大致上都看懂了，除了attrs［］那邊的用法我不太懂可能要花點時間補些資料看XD

繼續閱讀

Re: [問題] @propertytsaiminghan [問題] 如何知道subplot的位置以及更新子圖barusu [問題] 使用sys.argv怎麼進入debug模式unfinish [問題] All pipe instances are busyhappy95oya [問題]如何使用unittest.mock測試subprocess.runVivianAnn [資訊] Heroku Free Dynos終止服務ToastBen [問題] 請問 ajax串接fastapi出現422怎麼解bamboopole Re: [問題] 爬蟲部署到Heroku後請求失敗atrisk Re: [問題] 爬蟲新手請問yahoo財經的台指期圖表surimodo [問題] 爬蟲新手請問yahoo財經的台指期圖表tuberosum