动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
黑核动态ip为您提供更友好、更专业的服务。
您的位置:首页>常见问题>爬虫怎么解决封IP的问题
爬虫怎么解决封IP的问题
来源:黑核动态ip代理 时间:2019-12-26

分享到

  在网络爬虫抓取信息的过程中,如果抓取频率高过了网站的设置阀值,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。

  于是在爬虫的开发者通常需要采取两种手段来解决这个问题:

  1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。

  2、第二种方法是通过设置代理IP等手段,突破反爬虫机制继续高频率抓取。但是这样需要多个稳定的代理IP

  代理IP可以搜索到免费的,但是可能不太稳定,也有收费的,但是不一定划算,也可能不是长久之计。

  普通的基于ADSL拨号的解决办法

  通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,

  同时也影响到了其他网站的抓取,整体来说也会降低抓取速度。

  一种可能的解决办法

  同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的服务器,抓取过程中使用这两台服务器作为代理。

  假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。如下图:

爬虫怎么解决封IP的问题

  使用A为代理,B拨号:

  <img data-rawheight="327"data-rawwidth="721"src="https://pic1.zhimg.com/50/9196e28cd8621a06cd0f0339f1fa765b_hd.jpg"class="origin_image zh-lightbox-thumb"width="721"data-original="https://pic1.zhimg.com/9196e28cd8621a06cd0f0339f1fa765b_r.jpg">使用B为代理,A拨号

  <img data-rawheight="327"data-rawwidth="721"src="https://pic2.zhimg.com/50/7afaf540be23920733bc466ae3f6f651_hd.jpg"class="origin_image zh-lightbox-thumb"width="721"data-original="https://pic2.zhimg.com/7afaf540be23920733bc466ae3f6f651_r.jpg">


在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961