动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

如何使用Python爬取代理IP并验证有效性

发布时间:2020-03-24 14:18:00 来源:黑核动态ip代理

分享到

  在爬虫工作的过程中,往往由于IP被限制了而无法进行下去,工程师们也是智计百出,购买代理IP,自己搭建IP池,甚至网上抓取免费代理IP。我们知道,网络上有很多提供免费代理IP的网站,我们可以选择其中一个或多个来进行代理IP的爬取并存储到csv文件中,并通过多进程来验证爬取IP的可用性。

  通过requests和lxml进行网页的爬取和解析。

  在爬取之前,我们首先设置请求头,模拟作为普通浏览器进行网页的访问。

如何使用Python爬取代理IP并验证有效性

  headers={

  'accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

  'accept-encoding':"gzip,deflate",

  'accept-language':"zh-CN,zh;q=0.9",

  'cache-control':"no-cache",

  'connection':"keep-alive",

  'host':"www.******.com",

  'if-none-match':"W/\"61f3e567b1a5028acee7804fa878a5ba\"",

  'upgrade-insecure-requests':"1",

  'user-agent':"Mozilla/5.0(Windows NT 6.1;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/64.0.3282.119 Safari/537.36"

  }

  要爬取的页面结构非常简单,通过lxml的css选择器选择所有的ip地址和端口进行拼接,然后一行行的写入到csv文件中。

  代码如下:

  def getProxyList(target_url=TARGET_URL,pages='1'):

  """

  爬取代理IP地址

  :param target_url:爬取的代理IP网址

  :return:

  """

  proxyFile=open(FILE_NAME,"a+",newline="")

  writer=csv.writer(proxyFile)

  r=requests.get(target_url+pages,headers=headers,timeout=2.5)

  document_tree=lxml.html.fromstring(r.text)

  rows=document_tree.cssselect("#ip_list tr")

  rows.pop(0)

  for row in rows:

  tds=row.cssselect("td")

  proxy_ip=tds[1].text_content()

  proxy_port=tds[2].text_content()

  proxy_addr=tds[3].text_content().strip()

  writer.writerow([proxy_ip,proxy_port,proxy_addr])

  proxyFile.close()

  自己设置好爬取的页面走个循环,爬取好的地址就写入到了csv文件中。不过之前发布的一些代理IP不能用的可能性较大,可以就爬取前5页左右即可。

  在验证代理IP的可行性时,通过进程池添加验证每个代理IP的验证方法即可。通过requests的session可以持续的进行网络的访问。

  def verifyProxies(verify_url,file_path=FILE_NAME):

  session=requests.session()

  proxyFile=open(FILE_NAME,"r+")

  csv_reader=csv.reader(proxyFile)

  p=Pool(10)

  for row in csv_reader:

  proxies={"http":"http://"+row[0]+":"+row[1]}

  p.apply_async(verifyProxy,args=(verify_url,proxies,session))

  p.close()

  p.join()

  proxyFile.close()

  验证每个IP的方法就是通过给网页发送GET请求,然后根据返回的状态码进行判断,并执行相应的操作。在请求时设置了timeout的话,需要使用try-except抛出异常,否则当超过timeout设置的值时,会终止相应的进程。

  功夫不负有心人,爬取了十万八千个免费代理IP后,经过验证,发现有效的IP只有八百六十六个,而延迟比较低的更少,只有三百六十五个,至于业务成功率那就更低了。当然不同的业务成功率各不相同,就不说了。但我们可以看出,免费代理IP的有效率实在是太低,对于新手练手,完全没问题,对于用来完成工作任务的朋友来说,完全玩不了。只能购买付费代理IP,或者搭建代理IP池,或者直接购买黑核动态IP代理的动态高质量代理。


相关资讯

黑核混拨IP加速器让你知道如何改变ip地址

被论坛禁言了?玩游戏作弊,被封号了?被人屏蔽IP是件很让人不爽的事情,平时正忙的时候被封禁,会有种天塌下来的感觉。如何改变ip地址成了我们比做的事情,不改变IP

来源:黑核混拨ip加速器网

2018-12-25 16:58:44

现在采集越来越难如何找到实用的HTTP代理IP

目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对

来源:黑核混拨ip加速器网

2018-12-28 15:56:10

如何使用ip代理保证爬虫能正常工作?

在实际的爬虫抓取的过程中,由于会存在恶意采集或者恶意攻击的情况,很多网站都会设置相应的防爬取机制,通常防爬程序都是通过ip来识别机器人用户的,因此充足可用的ip

来源:黑核混拨ip加速器网

2018-12-28 17:22:15

如何修改ip地址?修改ip地址的方法有哪些?

许多人在工作生活中经常需要用到换IP,比如帮朋友投票,刷单,做网络推广等等。大量的工作需要换IP,单单靠手动切换IP的方法比较耗时间,效果也不好,那么如何更换I

来源:黑核混拨ip加速器网

2018-12-29 13:48:40

不会修改ip怎么办?来这里教你如何修改电脑ip地址

每台电脑都会有一个IP地址,让电脑在网络中具有唯一性,那么有的朋友问道,IP地址怎么改?下面分享三种改IP地址的方法。小贴示:IP地址分为内网IP(局域网)和外

来源:黑核混拨ip加速器网

2018-12-29 14:52:38

如何修改ip地址 修改ip地址的方法有哪些

有时候工作必须要换IP,比如做推广需要到换ip,什么百度知道啊,天涯,知乎,搜搜问问,或者是淘宝刷浏览什么的,这些都是需要换IP才能工作,要不然很容易被封号,被

来源:黑核混拨ip加速器网

2019-01-02 10:19:26

什么是电脑IP?如何更换IP地址?

从事互联网工作的对IP应该都不陌生吧,当然如果是刚入行的可能没听说过,没关系,今天我们说下IP相关的,每个人的电脑都有一个IP,怎么查看呢?可以直接在百度搜索框

来源:黑核混拨ip加速器网

2019-01-03 11:38:13

为什么使用python采集都使用ip代理软件

多线程、异步与动态代理使用代理IPweb爬虫在使用代理ip采集数据的时候,经常会碰到有反采集策略规则的WAF,使得本来很简单事情变得复杂起来,使得很多人无法获取

来源:黑核混拨ip代理

2019-01-10 10:34:30

什么是ip代理软件?可以修改ip地址吗?

经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们

来源:黑核混拨ip加速器网

2018-12-27 17:27:18

如何用php代码检查代理ip的有效性

如何用php代码检查代理ip的有效性?本文实例为大家分享了检查代理ip有效性php代码,稳定性,如错误率和查询用时,下面一起来看看要怎么做吧!/** 

来源:黑核动态ip代理

2019-05-06 10:03:26

Python爬虫如何使用代理ip绕过网站反爬取机制

Python爬虫如何绕过网站反爬取机制Python爬虫是什么?简单的说,Python爬虫是由计算机自动与服务器交互获取数据的工具。现今互联网世界,基于很多原因,

来源:黑核混拨ip代理

2019-01-18 11:26:56

在线客服
QQ:800861888
客服电话
400-998-997
微信客服