Re: [討論] 資料擷取程式發想 Spanner PTT批踢踢實業坊

Re: [討論] 資料擷取程式發想

作者: Spanner (孝任) 2014-05-14 15:16:47

※ 引述《StupidGaGa (笨嘎嘎)》之銘言：
: 分析或拆網頁的話，也有幾個方法，
: 01. Json、Xxml
: 02. Html Agility Pack
: 03. string
: 01的話，直接反序列化就好，最快，
: 02的話，稍微學一下，蠻簡單的。
: 03的話，通常會用string.IndexOf或string.Split
我自己是用XDocument，首先擷取回來的碼先用HtmlAgilityPack轉成標準xml
用XDocument直接下語法去查(擷取物件)
例如找出原始碼中table元素 id=table4的所有資料
XElement table = (from t in xdoc.Descendants("table")
where t.Attribute("id") != null
&& t.Attribute("id").Value == "table4"
select t).Single();
//擷取每個row
List<XElement> trList = table.Descendants("tr").ToList();
//first row is headers
for (int i = 1; i < trList.Count; i++)
{
//crawl each cell data.
.....略
.....略
}

繼續閱讀

[徵才]國家晶片中心手機/Win/嵌入式軟體工程師bebefish [徵才]三竹資訊-Android 手機APP研發工程師asoro [徵才] PHP程式設計star1231 [徵才] 美商PositiveGrid徵求iOS/Win/Mac資深工程師kalitbri Re: [討論] 資料擷取程式發想StupidGaGa Re: [閒聊] 當政府介入打壓新創公司TonyQ [請益] 未來工作走向-影像串流相關lisniberck [請益] linux general library interface??lookat1205 Re: [討論] 資料擷取程式發想VVll [閒聊]open source用越多是越害怕del680202