动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

如何使用Python爬取代理IP并验证有效性

发布时间:2020-03-24 14:18:00 来源:黑核动态ip代理

分享到

  在爬虫工作的过程中,往往由于IP被限制了而无法进行下去,工程师们也是智计百出,购买代理IP,自己搭建IP池,甚至网上抓取免费代理IP。我们知道,网络上有很多提供免费代理IP的网站,我们可以选择其中一个或多个来进行代理IP的爬取并存储到csv文件中,并通过多进程来验证爬取IP的可用性。

  通过requests和lxml进行网页的爬取和解析。

  在爬取之前,我们首先设置请求头,模拟作为普通浏览器进行网页的访问。

如何使用Python爬取代理IP并验证有效性

  headers={

  'accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

  'accept-encoding':"gzip,deflate",

  'accept-language':"zh-CN,zh;q=0.9",

  'cache-control':"no-cache",

  'connection':"keep-alive",

  'host':"www.******.com",

  'if-none-match':"W/\"61f3e567b1a5028acee7804fa878a5ba\"",

  'upgrade-insecure-requests':"1",

  'user-agent':"Mozilla/5.0(Windows NT 6.1;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/64.0.3282.119 Safari/537.36"

  }

  要爬取的页面结构非常简单,通过lxml的css选择器选择所有的ip地址和端口进行拼接,然后一行行的写入到csv文件中。

  代码如下:

  def getProxyList(target_url=TARGET_URL,pages='1'):

  """

  爬取代理IP地址

  :param target_url:爬取的代理IP网址

  :return:

  """

  proxyFile=open(FILE_NAME,"a+",newline="")

  writer=csv.writer(proxyFile)

  r=requests.get(target_url+pages,headers=headers,timeout=2.5)

  document_tree=lxml.html.fromstring(r.text)

  rows=document_tree.cssselect("#ip_list tr")

  rows.pop(0)

  for row in rows:

  tds=row.cssselect("td")

  proxy_ip=tds[1].text_content()

  proxy_port=tds[2].text_content()

  proxy_addr=tds[3].text_content().strip()

  writer.writerow([proxy_ip,proxy_port,proxy_addr])

  proxyFile.close()

  自己设置好爬取的页面走个循环,爬取好的地址就写入到了csv文件中。不过之前发布的一些代理IP不能用的可能性较大,可以就爬取前5页左右即可。

  在验证代理IP的可行性时,通过进程池添加验证每个代理IP的验证方法即可。通过requests的session可以持续的进行网络的访问。

  def verifyProxies(verify_url,file_path=FILE_NAME):

  session=requests.session()

  proxyFile=open(FILE_NAME,"r+")

  csv_reader=csv.reader(proxyFile)

  p=Pool(10)

  for row in csv_reader:

  proxies={"http":"http://"+row[0]+":"+row[1]}

  p.apply_async(verifyProxy,args=(verify_url,proxies,session))

  p.close()

  p.join()

  proxyFile.close()

  验证每个IP的方法就是通过给网页发送GET请求,然后根据返回的状态码进行判断,并执行相应的操作。在请求时设置了timeout的话,需要使用try-except抛出异常,否则当超过timeout设置的值时,会终止相应的进程。

  功夫不负有心人,爬取了十万八千个免费代理IP后,经过验证,发现有效的IP只有八百六十六个,而延迟比较低的更少,只有三百六十五个,至于业务成功率那就更低了。当然不同的业务成功率各不相同,就不说了。但我们可以看出,免费代理IP的有效率实在是太低,对于新手练手,完全没问题,对于用来完成工作任务的朋友来说,完全玩不了。只能购买付费代理IP,或者搭建代理IP池,或者直接购买黑核动态IP代理的动态高质量代理。


相关资讯

如何用php代码检查代理ip的有效性

如何用php代码检查代理ip的有效性?本文实例为大家分享了检查代理ip有效性php代码,稳定性,如错误率和查询用时,下面一起来看看要怎么做吧!/** 

来源:黑核动态ip代理

2019-05-06 10:03:26

测试代理IP有效性的几种方法

通常我们用的IP代理都是付费购买的,因为免费的IP代理有效性特别低,可用率也不高,而且使用之前需要检查IP地址是否可用,因此要如何检查IP代理是否有效呢?下面介

来源:黑核动态ip代理

2019-05-27 10:17:36

检测ip代理有效性的一些方法

当大家在使用ip代理,一般都是采用付费的,由于免费的ip代理可用率很低,有效性也很低,并且在用前还要检测ip的有效性,所以ip代理有效性要怎么检测呢?接下来就和

来源:黑核动态ip代理

2019-07-16 14:29:49

代理ip最新识别方法及代理ip有效性检测方法

网络营销时代,网络成为企业营销的重要工具。线上有非常多的营销渠道可以利用。当然方法也就越来越多:自媒体、抖音、电商、微商等等,尤其当走进大数据时代,爬虫可以帮助

来源:黑核动态ip代理

2019-07-18 14:07:41

检测ip代理有效性的方法

当大家在使用ip代理,一般都是采用付费的,由于免费的ip代理可用率很低,有效性也很低,并且在用前还要检测ip的有效性,所以ip代理有效性要怎么检测呢?接下来就和

来源:黑核动态ip代理

2019-10-24 13:59:15

分享检测ip代理有效性的方法

当大家在使用ip代理,一般都是采用付费的,由于免费的ip代理可用率很低,有效性也很低,并且在用前还要检测ip的有效性,所以ip代理有效性要怎么检测呢?接下来就和

来源:黑核动态ip代理

2019-11-05 14:38:50

测试代理IP有效性的方式

通常我们用的IP代理都是付费购买的,因为免费的IP代理有效性特别低,可用率也不高,而且使用之前需要检查IP地址是否可用,因此要如何检查IP代理是否有效呢?下面介

来源:黑核动态ip代理

2019-11-06 14:16:24

黑核混拨IP加速器让你知道如何改变ip地址

被论坛禁言了?玩游戏作弊,被封号了?被人屏蔽IP是件很让人不爽的事情,平时正忙的时候被封禁,会有种天塌下来的感觉。如何改变ip地址成了我们比做的事情,不改变IP

来源:黑核混拨ip加速器网

2018-12-25 16:58:44

IP加速器的使用方法和简单问题解决办法

IP加速器,顾名思义就是加速IP,提升网络性能,降低网络延迟。黑核混拨ip加速器是一款ip量大速度快的加速器,非游戏外挂,可以放心使用。IP加速器的客户端设置简

来源:黑核混拨ip加速器网

2018-12-28 10:21:44

什么是ip代理软件?可以修改ip地址吗?

经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们

来源:黑核混拨ip加速器网

2018-12-27 17:27:18

换ip软件帮您解决ip被封烦恼!

换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也

来源:黑核混拨IP网

2018-12-25 15:52:02

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961