[問題] 解析類似html的Dataset unimaybe PTT批踢踢實業坊

[問題] 解析類似html的Dataset

作者: unimaybe (unimaybe) 2018-07-31 16:36:29

各位版友好，小弟是新手><，最近想利用python處理這類的文件
是一個sogou-QCL的一個Dataset
這是參考的網址
http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0
下圖是Dataset的結構
https://i.imgur.com/M3jsivD.png
想建立一個這樣的模型
簡單來說就是把每一種query會搜尋到哪種document
建立成一個list，所以一個query裡面會存很多document
而document後面存放五個相關度的數值
像下面這樣
┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五個相關度)
│ ├ doc_id_02 ─ [TCM_value........
│ ├ doc_id_03
│ ├ doc_id_04
│ └.......
├ query_id_02 ┌.....
│
│
│.........
原本想用beautifulsopu來處理
但是因為每一個子doc標籤裡面有<html></html>的標籤
搜尋只會在第一個document就結束了
有想過用Regular Expression來處理
可是也遇到不少障礙
因為標籤類型不對，所以也不能用elementTree
想請問各位版友有沒有什麼建議

作者: handsomeLin (DoGLin) 2018-07-31 18:18:00

依據doc分開之後用re去找吧應該是最快的比較沒效率但直接string find open tag closed tag中的index差就能找到你要存的東西

作者: InfinityGate (小鳥) 2018-07-31 23:56:00

lxml

作者: s860134 (s860134) 2018-08-01 21:36:00

他例子的資料有問題<TACM>0.499875283413</TACMM> 不對稱　tag這個可能要　hardcode 清理除去這個你就直接拿 lxml.etree.XML 一爬就解

繼續閱讀

[問題] 請教有無跟 vpython 功能類似的模組star07 Re: [問題] 新手請教一些音樂相關問題sma1033 [問題] flask內使用keras模組ggbast [問題] 新手請教一些音樂相關問題phoenixlife [問題] 網頁爬蟲juust Re: [問題] Dataframe 合併(想讓資料膨脹)Raymond0710 [問題] Dataframe 合併(想讓資料膨脹)a52053100 Re: [問題] 爬蟲圖片遇到編碼問題(日文)eight0 [問題] pandas read_sql(mysql) 資料大時很慢atoo333 [問題] (已解決)爬蟲圖片遇到編碼問題(日文)laiDark