动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

爬虫IP被禁有什么解决方法

发布时间:2020-03-14 13:57:20 来源:黑核动态ip代理

分享到

  爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。

  爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程,各种解决方式可谓层出不穷,但是这里说是“简单”解决方案,肯定就是立足于一些比较基础的方法,分分钟就可以上手。

爬虫IP被禁有什么解决方法

  user_agent伪装和轮换

  不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过网站检测客户端的反爬虫机制。比如说,可以把很多的user_agent放在一个列表中,每次随机选一个用于提交访问请求。有一个提供各种user_agent的网站:

  http://www.useragentstring.com/

  最近又看到一个专门提供伪装浏览器身份的开源库,名字取得很直白:

  fake-useragent

  使用代理IP和轮换

  检查ip的访问情况是网站的反爬机制最喜欢也最喜欢用的方式。这种时候就可以更换不同的ip地址来爬取内容。当然,你有很多有公网ip地址的主机或者vps是更好的选择,如果没有的话就可以考虑使用代理,让代理服务器去帮你获得网页内容,然后再转发回你的电脑。代理按透明度可以分为透明代理、匿名代理和高度匿名代理:

  透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷

  匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址

  高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP

  代理的获取方式可以去购买,当然也可以去自己爬取免费的,这里有一个提供免费代理的网站,可以爬下来使用,但是免费的代理通常不够稳定。

  设置访问时间间隔

  很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent

  可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:

  import time,random

  time.sleep(random.random()*3)

  对于一个crawler来说,这是一个比较responsible的做法。

  因为本来爬虫就可能会给对方网站造成访问的负载压力,所以这种防范既可以从一定程度上防止被封,还可以降低对方的访问压力。


相关资讯

怎么知道python爬虫被封禁?爬虫采集出现403怎么办?

python爬虫被封禁的常见问题有哪些?做为python爬虫的一员,你是否遇到过IP地址一直被目标网站封杀却找不到原因?那么这里说几个python爬虫被封禁的常

来源:黑核混拨ip代理

2019-01-18 10:31:33

IP代理工程师:Python爬虫为什么屡次被封禁?

在互联网上进行数据抓取时,总会遇见防不胜防的封禁问题,导致日常工作无法正常运行,整个人都不好了。其中,不少Python爬虫朋友开始质疑,为什么自己会屡次被封禁?

来源:黑核动态ip代理

2019-06-25 11:57:40

IP地址被禁言该怎么办

很多喜欢在论坛发言或者网络推广人员都知道,如果发言的频率太快或者访问次数过多,会导致IP地址被禁言,无法再发言。那么,IP地址被禁言该怎么办呢?解决这种情况的办

来源:黑核动态ip代理

2019-08-14 10:36:07

禁用局域网通过代理上网怎么解决

为了保护局域网内部资料的安全,在网络管理过程中,我们需要对局域网内、外部网络进行隔离,并有针对性的采取一定的措施,对内、外网设备之间的通讯进行控制,同时对局域网

来源:黑核动态ip代理

2019-11-07 14:19:00

如何禁止局域网内使用代理上网

在之前的文章中跟大家分享过如何怎么限制上网时间以及上网内容?但是如果局域网内的客户机使用代理进行上网,那么我们便限制不了其上网内容了。那么如何禁止局域网内使用代

来源:黑核动态ip代理

2019-11-07 15:02:21

爬虫IP被禁有什么简单的解决方法

爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每

来源:黑核动态ip代理

2019-12-26 14:12:16

爬虫IP被禁有什么解决方法

爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每

来源:黑核动态ip代理

2020-03-14 13:57:20

玩英雄联盟用什么加速器好?

这年头玩个游戏都不省心啊,老是延迟,正拿着一把大刀上去砍人的时候突然延迟了,等反应过来的时候人已经回复活点了,所有的优雅走位都还没有没用上,只能看到倒地等复活的

来源:黑核混拨IP加速器网

2018-12-27 14:52:40

换ip软件帮您解决ip被封烦恼!

换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也

来源:黑核混拨IP网

2018-12-25 15:52:02

爬虫技术工程师为什么离不开ip代理

说到爬虫,自然离不开爬虫代理地址。爬虫是一门随着互联网大数据而应运而生的产物,它主要是为了在海量的网络数据中采集分析有效的数据而诞生的一门技术。无需多言,爬虫技

来源:黑核混拨ip加速器网

2018-12-28 15:24:23

IP加速器的使用方法和简单问题解决办法

IP加速器,顾名思义就是加速IP,提升网络性能,降低网络延迟。黑核混拨ip加速器是一款ip量大速度快的加速器,非游戏外挂,可以放心使用。IP加速器的客户端设置简

来源:黑核混拨ip加速器网

2018-12-28 10:21:44

在线客服
QQ:800861888
客服电话
400-998-997
微信客服