PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] bs4抓取資料問題
作者:
MOONY135
(談無慾)
2015-07-29 12:18:26
我想從網頁版的ptt抓取資料 每篇文章的 作者跟發文日
還有文章的網頁
import requests
from bs4 import BeautifulSoup
import sys
res_index = requests.get("https://www.ptt.cc/bbs/gamesale/index.html")
soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇文章的URL聯結
main_container_index = soup_index.select('.r-ent')
for link in main_container_index:
print(link.select('div.author')[0].text, link.select('div.date')[0].text)
print(link.find('a')['href'])
我有疑問的是print(link.find('a')['href'])這行
因為我想要抓網址 但一定要這樣寫才可以抓到
a href="/bbs/Gamesale/M.1438136421.A.732.html"
這行 不知道大家可以幫我解釋一下為甚麼要這樣寫嗎
=================以下是網頁長相
thireh 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438136421.A.732.html">[PC ] 售mycard 點數85折</a>
</div>
DREAMLS 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137518.A.6A3.html">[PSV ] 售/換 psv2007(青檸白)
+16g記憶卡+六片超值遊戲</a>
</div>
CTC0115 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137532.A.B0E.html">[PS3 ] 售 VR快打5 </a>
</div>
作者:
s860134
(s860134)
2015-08-01 17:02:00
先了解 html可以依照他的tag (<a></a>,<div></div>這些)可以被解讀成一個樹狀結構,而bs4就是幫你把建樹和搜尋整合在一起的一個package。
https://goo.gl/lCmf4C
幫你"逐行"解釋了 耐心看吧
作者:
MOONY135
(談無慾)
2015-08-02 21:24:00
感恩
繼續閱讀
Re: [問題] python寫財務技術指標
forloricever
Re: [問題] python 讀取netCDF
ccwang002
[問題] python 讀取netCDF
ihaveaids
[問題] django 取得專案的網路流量
aiweisen
[問題] list取特定字串
a9704030
[問題] 使用 FuncDesigner 製造二維oovar陣列
BCRK7
[問題] 自動更新json資料
chuanmaotou
python在sublime或vim撰寫
a4679123
[問題] 請問一下我打完PIP以後怎麼會這麼怪呢?
abcgo
[問題] pip freeze怎麼處理'requests[security]'
prelight
Links
booklink
Contact Us: admin [ a t ] ucptt.com