最基本的性质其实爬虫也是浏览网站的一个用户而已,只是该用户有点特殊,浏览速度比一般的用户快一些,给服务器带来很大的压力。服务器就采用各种各样的反爬虫策略来限制或是禁止爬虫程序,所以这就是为什么有很大部分人认为Python爬虫一定要使用换ip软件的原因。
如果爬虫程序浏览速度和次数没有超出服务器反爬机制范围,可以不使用换ip软件切换ip;如果要爬取的数据量大到不得不多机器多线程高并发爬取时,那么就需要换ip软件切换ip来协助完成工作了。
所以,一般任务量比较大的爬虫任务都是选择换ip软件来解决反爬策略的限制以确保工作可以进行下去。