动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

如何避免多次采集被封IP的问题

发布时间:2019-12-26 14:15:36 来源:黑核动态ip代理

分享到

  很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。

  相同点:

  a.两者都需要直接抓取到网页源码才能有效工作,

  b.两者单位时间内会多次大量抓取被访问的网站内容;

  c.宏观上来讲两者IP都会变动;

  d.两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

如何避免多次采集被封IP的问题

  不同点:

  搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

  然后再来提出一些防采集方法

  1、限制IP地址单位时间的访问次数

  分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。

  弊端:一刀切,这同样会阻止搜索引擎对网站的收录

  适用网站:不太依靠搜索引擎的网站

  采集器会怎么做:减少单位时间的访问次数,减低采集效率

  2、屏蔽ip

  分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。

  弊端:似乎没什么弊端,就是站长忙了点

  适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人

  采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

  3、利用js加密网页内容

  Note:这个方法我没接触过,只是从别处看来

  分析:不用分析了,搜索引擎爬虫和采集器通杀

  适用网站:极度讨厌搜索引擎和采集器的网站

  采集器会这么做:你那么牛,都豁出去了,他就不来采你了

  4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中

  分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。

  适用网站:所有网站

  采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

  5、用户登录才能访问网站内容

  分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。

  适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站

  采集器会怎么做:制作拟用户登录提交表单行为的模块

  6、利用脚本语言做分页(隐藏分页)

  分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。

  适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识

  采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

  7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER"))

  分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。

  适用网站:不太考虑搜索引擎收录的网站

  采集器会怎么做:伪装HTTP_REFERER嘛,不难。

  8、全flash、图片或者pdf来呈现网站内容

  分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道

  适用网站:媒体设计类并且不在意搜索引擎收录的网站

  采集器会怎么做:不采了,走人

  9、网站随机采用不同模版

  分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。

  适用网站:动态网站,并且不考虑用户体验。

  采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

  10、采用动态不规则的html标签

  分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果次页面的html标签内空格数随机,那么

  采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。

  适合网站:所有动态且不想遵守网页设计规范的网站。

  采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。

  总结:

  一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。


相关资讯

换ip软件帮您解决ip被封烦恼!

换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也

来源:黑核混拨IP网

2018-12-25 15:52:02

不知道怎么样修改ip地址可以用黑核混拨IP软件

现在做推广越来越难做了,动不动就被封号,要么就是一个IP只能登陆一个账号,这就尴尬了,如果只用一个账号推广根本不见效啊,或者说见效也效果不大,只能大批量的做推广

来源:黑核混拨ip加速器网

2018-12-25 16:28:24

黑核混拨IP加速器让你知道如何改变ip地址

被论坛禁言了?玩游戏作弊,被封号了?被人屏蔽IP是件很让人不爽的事情,平时正忙的时候被封禁,会有种天塌下来的感觉。如何改变ip地址成了我们比做的事情,不改变IP

来源:黑核混拨ip加速器网

2018-12-25 16:58:44

黑核混拨IP加速器轻松解决怎么修改手机ip地址问题

有些视频播放站很坑,一天只能观看几个视频就需要开通会员才能看了,但是我们又不想冲会员怎么办,那就需要修改手机IP地址了,但是怎么修改手机IP地址呢?不是谁都懂的

来源:黑核混拨ip加速器网

2018-12-25 17:39:01

还在找ip地址修改器吗?来试试黑核混拨IP加速器吧

国内ip地址修改器顾名思义就是转换自己的IP地址的一个工具或者一款软件,ip地址修改用哪些工具好处呢,因为工作或者个人需求,修改IP后可以注册一些限制IP注册的

来源:黑核混拨ip加速器网

2018-12-25 18:13:13

在国外想玩lol国服吗?来试试这个ip加速器吧

身在国外想玩下国服游戏是一件很痛苦的事情,因为网络延迟太高了,卡到让人怀疑人生的那种地步,有多卡呢?玩个游戏能卡出漫画的效果来,看着都着急啊。特别是玩游戏的时候

来源:黑核混拨ip加速器网

2018-12-27 17:07:17

什么是ip代理软件?可以修改ip地址吗?

经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们

来源:黑核混拨ip加速器网

2018-12-27 17:27:18

现在采集越来越难如何找到实用的HTTP代理IP

目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对

来源:黑核混拨ip加速器网

2018-12-28 15:56:10

如何避免多次采集被封IP的问题

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。相同点:a.两者都需要直接抓取到网页源码才能

来源:黑核动态ip代理

2019-12-26 14:15:36

互联网工作中ip代理是不可缺少的工具

目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对

来源:黑核混拨ip加速器网

2018-12-27 17:45:23

如何避免IP和帐号被封

IP和帐号被封是很多网络营销人员经常遇到的问题,同一个IP已经注册过或频繁登陆是导致被封的主要原因,给正常工作带来了很大的困难。那么,我们要如何避免IP和帐号被

来源:黑核动态ip代理

2019-08-18 13:53:00

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961