[詢問] IMPORTXML&HTML 限制問題 neil0123 PTT批踢踢實業坊

[詢問] IMPORTXML&HTML 限制問題

作者: neil0123 (wow) 2021-08-02 02:22:31

Hi ALL
小弟最近想做個資料分析，想抓一些yahoo 上的新聞回來分析
目前想用這個網址 https://tw.news.yahoo.com/world
所以有幾個問題，想請問
1. importxml 好像有網址長度的限制, 有什方式可解決?
系統說：指定網址內容的資源超出大小上限。
https://imgur.com/QpjwYsD
2. importxml or importhtml 有什辦法可取得資料時又同時取得網址?
又或者有什其它參數or 工具可取得?
https://imgur.com/ynz7L5x
3. importhtml 會只抓第一頁資料，有什方式可以讓它也會向下滾動，
可以去抓第二頁以上的資料?
像是https://tw.news.yahoo.com/world，他預設只能顯示一頁資料，可
必需要偵測到下滾的動作，才會顯示第二頁的資料。
4. importxml or importhtml抓的資料，會同一格去顯示多行的資料，有什
指令可以讓他切成多行?
請多指教，謝謝。

作者: microloft (微閣) 2021-08-02 09:08:00

1. 超出大小的是網頁內容，不是網址2. 用 XPath 自行篩選出超連結的 href 屬性3. 這種動態載入的網頁，要去找背後 XHR 的網址跟參數然後再用該網址跟參數去抓資料

作者: PsMonkey (痞子軍團團長) 2021-08-02 20:06:00

考慮用傳統程式語言的方式去解決吧，不然 AppSheet 也好ㄟ等等，不是 AppSheet，我是說指令碼編輯器..

作者: neil0123 (wow) 2021-08-02 23:34:00

感謝兩位，偶會把他寫成AppScript，只是XHR還找不到範例還不清楚要怎看XHR的網址跟參數

作者: PsMonkey (痞子軍團團長) 2021-08-03 05:45:00

最直接的方式就是用 Chrome DevTool 看 network最保險的方式是從上面的方式再去追 source code 怎麼寫但是有很高的機率不是你想像的那樣，除非 importXXX不是我想像的那樣 XDDDD（謎之聲：哪樣？）

繼續閱讀

[詢問] google one 可以一個帳號買200G+100G嗎k04121226 [詢問] 數位行銷證照如何改名?sjerrysss [詢問] 已圖搜圖沒顯示尺寸大小了minyann [ GC ] 回前個版本?koheik2 [詢問] 將別人與我共用的檔案傳到自己的雲端hellotoast [詢問] 如何調整Google Map在中國地圖的偏移PeterChen [詢問] 如何知道自己的Google帳號用在哪裡pikapi1012 [詢問] youtube品牌帳戶沒有辦法匯出waakye [詢問] 我們偵測到您嘗試存取的帳戶有異常活動zt3344 Re: [Tube] YT演算法有辦法自己控制嗎?tbpfs