[問題] 新手問ptt政黑版爬蟲

作者: askdrlin (中央氣象局)   2018-12-09 12:11:45
大家好,小弟我目前已經把ptt政黑版爬蟲給爬完了,目前的狀況是標題,時間,發文id
,內容,推文,都可以爬下來
想要進階到正則表達式把內文作者或是來源給抓出來,不知道這是否可行?因為政黑版的
發文格式相當混亂,
像是是
新聞來源:xx
新聞:xx
xxx 報導
xxxx ooo 綜合報導
或是什麼都沒有
不曉得是否能夠寫出把這些單獨抓出來的正則表達式,因為也怕寫了會抓到其他的字就是
了....
作者: jiyu520 (不要鯽魚我)   2018-12-09 12:36:00
ㄜ...你自己回答自己了,可以啊
作者: s860134 (s860134)   2018-12-09 16:55:00
沒有乾淨的資料只有無盡的苦功...
作者: CodingMan (程式俠)   2018-12-10 14:59:00
推二樓 你只能case by case 了

Links booklink

Contact Us: admin [ a t ] ucptt.com