Re: [問題] bs4抓取連結問題 MOONY135 PTT批踢踢實業坊

Re: [問題] bs4抓取連結問題

作者: MOONY135 (談無慾) 2015-08-07 18:28:42

※ 引述《nendi (淡定~)》之銘言：
: 您好，我是一個剛學一個月的新手，有些指令還不太熟悉
: 我想抓取某個網頁的超連結
: 其中我要的連結都在 <ul class="no_listyle ar_grd"> 之下
: 我的程式碼如下
: from bs4 import BeautifulSoup
: import requests
: res= requests.get('http: xxx')
: #實際網址太長，我用縮網址發文被說是廣告，只好寫xxx代替
: soup = BeautifulSoup(res.text)
: ul = soup.findAll('ul',{'class':"no_listyle ar_grd"})
: #找出來後，我想把<a href=" ">之中的超連結取出來，所以我試接著寫
: for link in ul:
: print(link.find('a')['href'])
: 但只顯現出了第一個連結，我希望能把所有超連結取出
: 可否哪位好心大大指導一下呢？
: 感謝
res_index = requests.get(xxxx)
soup_index = BeautifulSoup(res_index.text,"html.parser")
main_container_index = soup_index.select('.r-ent')
for link in main_container_index:
try:
Post_link = link.find('a')['href']
我每取出一筆就直接寫入csv檔這樣可以參考一下
或者參考
=======================================================
import requests
from bs4 import BeautifulSoup
import sys
res_index = requests.get("https://www.ptt.cc/bbs/gamesale/index.html")
soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇文章的URL聯結
main_container = soup_index.find_all('a', href=True)
href = main_container[7].get('href')[19:23]
print(type(href))

繼續閱讀

[問題] bs4抓取連結問題nendi Re: [問題] 哪個版本是不用()的?tytyty [問題] requirements 檔案的製作方式paulyanzi [問題] 可以做到網頁互動嗎?MOONY135 Re: [問題] Linux更改python路徑jimmytzeng [問題] Linux更改python路徑mikapauli [問題] 哪個版本是不用()的?yienjion [問題] python 怎麼唸啊frank910138 Fw: [問題] ssh連線在Python裡面控制seleniumcal0712 [問題] bs4抓取資料問題MOONY135