Re: [問題] 關於使用for迴圈挖掘資料時出錯-換頁問題 Neisseria PTT批踢踢實業坊

Re: [問題] 關於使用for迴圈挖掘資料時出錯-換頁問題

作者: Neisseria (Neisseria) 2016-04-10 00:59:54

改寫了一下程式碼，可參考 https://pastebin.com/19TJULMd
原來的程式的主要問題在於
第一次抓 user name 和第二次抓 user tags 的動作是分開的
有可能在從 user name 找 user tags 的時候，兩者間沒有對應在一起
後來的程式，先將代表一個 user 的 div 抓起來
再從裡面分別找 user name 和 tags
這樣子，就可以將 user name 和 tags 對應起來
印出來的結果沒有整理，看需求再自行更改吧
※ 引述《busystudent (busystudent)》之銘言：
: 各位好，最近使用for迴圈寫了一隻功能有自動換頁且挖掘資料的程式碼，可是當使用for迴圈換頁時一直抓錯頁面。
: 例如當我在links =[]裡的range()輸入2時，就會出現抓錯頁面的狀況。
: 主程式碼在這裡：
: http://dpaste.com/18VP2HA
: 主程式的pseudocode:
: List = [ 想要抓的網頁 ]
: for a in list: #網頁切換地
: for link in links:印出現在切換到哪個網頁
: for link in links#抓出使用者的名稱
: for shop_ink in shop_table:#用regex找出名稱
: break#跳出
: for link in links#抓出使用者tag
: for n in name_list#用regex找出tag
: Output 使用者帳號、使用的標籤
: Output 使用者帳號、使用的標籤
: Output 使用者帳號、使用的標籤
: ['mkitchen', 'heatherperkinson',]
: ['mkitchen', 'heatherperkinson',]
: ================================================
: ['ela', 'elementary', ']
: 若錯誤時則會出現
: ［］
: ［］
: 輸出為類似上述的list，依序為帳號和標籤
: 我試著修改後大概知道，我過多的for迴圈導致後面的res = requests.get(link)抓錯位置和name_list接收錯誤的資料，以至於無法準確的使用正規表示法處理，印出我想要的輸出，但是我實在無法確定到底是哪一個for出現問?

作者: busystudent (busystudent) 2016-04-10 02:18:00

感謝你的用心，這麼晚還回文

繼續閱讀

[問題] 如何被網頁阻擋後，過幾秒重連線?kiloxx [問題] python存取變數Anny19 Re: [問題]一個遞迴的 return問題micangela [問題] 隨機排序shuian88 [問題] 空白消除不掉?kiloxx Re: [問題] 網頁分析之print問題MOONY135 Re: [問題] 網頁分析之print問題MOONY135 Re: [問題] Excel資料做比較ripple0129 [問題] Excel資料做比較os653 [問題] dictionary<string,dictionary<string,ioptt