[問題] 爬新聞html5抓不到內文 jasonfun44 PTT批踢踢實業坊

[問題] 爬新聞html5抓不到內文

作者: jasonfun44 (kk123) 2022-10-16 06:19:00

想請教版上的專家，有先搜尋資料了，但還是爬不了新聞內文，故想請教
目前想要把新聞內文爬進來
https://reading.udn.com/read/story/122749/6680114
網頁程式如下
https://i.imgur.com/eYufIAY.png
目前程式到這一步卡住，一直抓不到內文，故要請教各位專家該怎麼調整
，謝謝。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

貼程式碼不要用圖片貼圖片還貼成相簿又要再點進去然後你選擇器應該打錯了你檢查一下

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

貼程式碼不要用圖片貼圖片還貼成相簿又要再點進去然後你選擇器應該打錯了你檢查一下

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

貼程式碼不要用圖片貼圖片還貼成相簿又要再點進去然後你選擇器應該打錯了你檢查一下

作者: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道選擇器怎麼改，我試了好幾次

作者: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道選擇器怎麼改，我試了好幾次

作者: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道選擇器怎麼改，我試了好幾次

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾留給你自己濾

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾留給你自己濾

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾留給你自己濾

作者: jasonfun44 (kk123) 2022-10-16 21:13:00

謝謝！

作者: jasonfun44 (kk123) 2022-10-16 21:13:00

謝謝！

作者: jasonfun44 (kk123) 2022-10-16 21:13:00

謝謝！

作者: GQward 2022-10-21 01:06:00

使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式所以就爬不到內文

作者: GQward 2022-10-21 01:06:00

使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式所以就爬不到內文

作者: jasonfun44 (kk123) 2022-10-21 06:58:00

原來如此！！！

作者: jasonfun44 (kk123) 2022-10-21 06:58:00

原來如此！！！

作者: jasonfun44 (kk123) 2022-10-21 06:58:00

原來如此！！！

作者: tzouandy2818 (Naked Bear) 2022-10-15 22:36:00

貼程式碼不要用圖片貼圖片還貼成相簿又要再點進去然後你選擇器應該打錯了你檢查一下

作者: jasonfun44 (kk123) 2022-10-15 22:53:00

已修正，抱歉，但我不知道選擇器怎麼改，我試了好幾次

作者: tzouandy2818 (Naked Bear) 2022-10-16 00:10:00

你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾留給你自己濾

作者: jasonfun44 (kk123) 2022-10-16 13:13:00

謝謝！

作者: GQward 2022-10-20 17:06:00

使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式所以就爬不到內文

作者: jasonfun44 (kk123) 2022-10-20 22:58:00

原來如此！！！

繼續閱讀

[問題] 搜尋URL如何讓字串空格轉%20RicohG8 [教學] vscode 執行ai PULSE 環境建置LLSGG [問題] 圖表顯示 (x,y) 方式WTSAO [問題] 直接拖曳進QT視窗?note100 [問題] Flask LTS 的版本應該要怎麼看？yimean [問題] 下載台股上櫃每日收盤碰到mac greek codePettitte1 [問題] Pyarmor加密可靠嗎?gostjoke [問題] 新手爬蟲（被擋的問題）etudiant [問題] 月經文請教denchang [問題] 集保戶股權分散表無法爬取toyboy