分享一些從爬蟲開發角度
看這件事情的想法
1. SPA網站
2.
request與response都打亂,迫使爬蟲開發必須爬JS找入口, 否則api吐回來也是一堆看不
懂的大便
3.
JS打亂是一定要,不只工具打亂,開發上也故意寫得可讀性很差。
4.
讓JS在IE核心無法執行,使開發者不能用.net webbrowser模擬操作。
做到以上四點,爬蟲已經相當辛苦且效率差,加上不可避免要用server後端跑爬蟲,你就
可以從IP及agent下手逼迫他不斷pppoe。
做完這些後,你只要專心把平台做到第一,再有老二要撈你資料搶生意,也不用管他了。
電商吃得飽的,只有第一。