动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

爬虫破解IP限制:ADSL动态IP服务器部署

发布时间:2019-05-27 09:48:48 来源:黑核动态ip代理

分享到

  目前遇到的比较难搞的反爬虫技术有两个:特别难识别的人机识别验证码–如极验的手势验证,另外就是ip大量的限制,如R网站两次访问就被强制跳转到验证码页面。现在留下部署手记。

  针对这个问题,采用爬虫届大招一样的ADSL动态部署起来,要是,要明白用ADSL就意味着是开始拼成本了。不再像是过去随意一台电脑就爱怎么爬怎么爬。

  目录:

  ADSL动态IP服务器原理:

  购买与租用

  命令行自动更换ip

  部署爬虫代码

  分布式爬虫问题记录

  1:ADSL动态IP服务器原理

  ADSL动态IP服务器,并不是什么高大上的方式,也不是什么特别高端的服务器,相反,使用起来,我们一般是用配置非常低的那一类,因为这个时候重要的是数量而不是质量。

  原理很简单,在家庭网络中宽带上网只要断开再拨号一次,链接成功就会更换一次外网ip。并且链接建立后网速比较稳定。这就是动态ip了,一般这个ip池很大,一个城市一般会有5W-30W的ip。基本属于用不完。

  so,只要有一台接入了宽带的电脑,都可以叫做ADSL动态IP服务器。但是,你要明白这样以来时间将会有部分消耗在网络建立的时间上大约十秒。

  例如我们现在要攻克的R项目。他的页面每两次访问就会被强制跳转到验证码页面,,so,为了跳过验证码就得每两次访问就换一次ip。而且,最严重的就是要是面对这样高限制ip的,那么就不能在一台机器上通过多开爬虫客户端从而实现单机器的分布式爬虫。效率低很多。

  要想提高效率要么是ip限制次数比较高的。比如1000/ip这种,。要么就是多机器每机器单个爬虫的分布式了。

  2:购买与租用

  要知道具体内容可以搜关键词:动态ip服务器   或者 ADSL服务器 或者 淘宝

  然后你就可以看到n多服务商,一般而言,你选购一个50-80元/一个月的就还算可以用了,一般会采用vnc的方式远程桌面链接,很少有用linux系统的,下文中有分布式winxp系统的配置指南。淘宝中一般有1快或者5-10块试用一天的可以搞来。

  3:命令行自动更换ip

  环境 winxp下。使用rasdial 你在cmd控制台中系统自带有,输入

1

2

3

4

5

6

'rasdial /?‘ 出现帮助

print os.popen('rasdial /DISCONNECT').read()

time.sleep(3)

print os.popen('rasdial "设定的宽带名称"  帐号 密码').read()

print os.popen('rasdial').read()

time.sleep(1)

  这个时候你需要在网上邻居中新建一个宽带链接,名字最好是英文,然后先手动在可视化界面验证一下是否可以上网。然后使用上诉代码,来用控制宽带网络一个循环会断开重链接,

  有可能出现的问题是,手动建立的或者别的进程建立的链接,这个命令行无法断开,所以最好一台电脑之运行一个爬虫,并且断开连接之间最好有时间延时。

  4:部署爬虫代码

  在winxp的环境下使用python一般是32位的,分布式自然会需要python-mysql模块,以及redis模块。下面提供安装包和安装方式。

  python2_jb51 解压后安装msi和exe都可以

  redis-2.1.5-win32 提供redis的功能模块

  redis-py-master 解压后,由控制台移动到目录下,运行 python setup.py (提前配一下python环境变量)

  MySQL-python-1.2.3.win32-py2.7 解压直接安装

  项目运行截图:

爬虫破解IP限制:ADSL动态IP服务器部署

爬虫破解IP限制:ADSL动态IP服务器部署

  5:分布式爬虫问题记录

  目前出现的问题是:

  1:mysql链接出现莫名中断问题,这个因为ip地址跟换太频繁,so,简单的用try来跳过错误,重新加入任务队列,然后重新跑,不让整个爬虫中断了就可以,

  2:redis出现莫名链接中断问题。同上。

  3:跟换ip太快导致ip并没有更换而是用原来的ip。延时久一点,设置为5s间隔为佳,网速链接不好宁愿爬虫请求之间的延时短点。也要让宽带断开与新连接时间长点。


相关资讯

ip被限制了怎么办 有什么办法能解决

还在为注册不了账号而发愁吗?那就使用代理IP吧,代理IP可以替换你的用户IP,然后代替你本来的IP去进行访问网站,从而完成注册业务。做网络业务的人一般都知道,大

来源:黑核混拨ip代理

2019-01-11 11:31:31

为什么网站要限制python爬虫大量抓取

很多从事python爬虫的网友,在采集网站信息时常遇见一些数据显示在浏览器上却无法抓取的情况。这可能是因为对方有意不让爬虫抓取信息,当你的IP地址被网站封杀,就

来源:黑核混拨ip代理

2019-01-14 17:03:45

抢购的时候用什么代理ip软件不会被限制

如果你对代理IP的理解认知还停留在,代理IP可以用来访问我们被限制的网站,那就OUT了,要知道现在是网络科技时代,网络瞬息万变,所以我们也要跟上网络的发展,时代

来源:黑核混拨ip代理

2019-01-15 17:58:33

HTTP代理IP能用来做什么?可以避开限制吗?

HTTP代理IP能否用于网络营销?当我们访问某网站,查看或者进行某项业务时,往往会被提示先注册登录,基本一个IP地址只能注册一个账号。对于每天有大量注册业务的网

来源:黑核混拨ip代理

2019-01-16 16:52:16

python爬虫程序如何预防被限制

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程

来源:黑核混拨ip代理

2019-01-17 16:34:49

Python爬虫如何突破反爬虫限制?

说起Python爬虫的发展史,那简直是与反爬虫相爱相杀的血泪史。在互联网中,有网络爬虫的地方,绝对少不了反爬虫的身影。网站反爬虫的拦截前提是要正确区分人类访问用

来源:黑核混拨ip代理

2019-01-18 16:08:27

IP地址被限制怎么换IP?

怎么才能够应用IP投票而且不限制呢?在网络时代,很多的投票方式都选择网络投票,例如微信投票,这种投票都是利用程序功能输出结果的,所以我们可以通过这种形式来获取大

来源:黑核混拨ip代理

2019-04-01 15:15:23

换ip软件帮您解决ip被封烦恼!

换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也

来源:黑核混拨IP网

2018-12-25 15:52:02

怎么利用动态ip抓取豆瓣电影数据

学爬虫有一段时间了,作为一个悬疑片爱好者总是无限片荒,泛滥的Top250爬取以及填补不了我饥渴的内心。于是果然地决定:自己动手,爬完豆瓣,丰衣足食。(一)反爬虫

来源:黑核混拨ip代理

2019-03-29 10:55:32

爬虫破解IP限制:ADSL动态IP服务器部署

目前遇到的比较难搞的反爬虫技术有两个:特别难识别的人机识别验证码–如极验的手势验证,另外就是ip大量的限制,如R网站两次访问就被强制跳转到验证码页面。现在留下部

来源:黑核动态ip代理

2019-05-27 09:48:48

国内好用又实惠的https代理ip服务器不要错过了

随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁IP的问题,通常会使用

来源:黑核混拨ip加速器网

2018-12-28 16:55:02

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961