作者:
lueichun (no anonymous)
2018-11-08 17:32:55我現在嘗試從PTT八卦版爬文,想爬出鄉民推文的ID和內容。
我透過八卦版的URL,連線到八卦版:
https://www.ptt.cc/bbs/Gossiping/index.html
這是八卦版最新網頁的URL。
前一頁的URL:
https://www.ptt.cc/bbs/Gossiping/index39000.html
多出「39000」這個頁碼,依此類推,前面的網頁,頁碼會是
38999->38998->38997......一路往下。
我現在的問題是,這樣的話每一頁的URL都不一樣,那麼是不是變成要爬每一頁時,
都變成要重新new一個新的connection??
但是真的這樣做的話,光是開啟、關閉connection就耗掉很多時間了。
我有使用多執行緒,讓code執行的快一點,但也就快一點而已,
整體來看還是跑得很慢。
所以想請問,現在面對這麼多的url,從39000->1,總共快4萬筆url,
有沒有比較快的連線方式呢?
不然我現在的作法,是一個url就開一個connection,真的很花資源又很花時間。