动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

突破反爬虫的利器:开源IP代理池

发布时间:2019-04-12 11:28:19 来源:黑核动态ip代理

分享到

  突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或者个人来说,买一些代理ip成本稍微高一些,因此最近写了一个开源项目IPProxys,用来为个人提供代理ip。

突破反爬虫的利器:开源IP代理池

  IPProxys原理:通过爬取各大代理网站提供的免费IP,进行去重,并验证ip的可用性,将有效的ip存储到sqlite中,并提供一个HTTP接口供爬虫程序获取ip。

  IPProxys项目已经上传到github中,链接为/qiyeboy/IPProxys。下面对整个项目工程进行一下说明,如下图所示:

  api包:主要是实现http服务器,提供api接口(通过get请求,返回json数据)

  data文件夹:主要是数据库文件的存储位置和qqwry.dat(可以查询换ip软件的地理位置)

  db包:主要是封装了一些数据库的操作

  spider包:主要是爬虫的核心功能,爬取代理网站上的代理ip

  test包:测试一些用例,不参与整个项目的运行

  util包:提供一些工具类。查询ip的地理位置

  validator包:用来测试ip地址是否可用

  :主要是配置信息(包括配置ip地址的解析方式和数据库的配置)

  整个项目的代码量不大,大家可以根据自己的需求进行修改,也可以提出自己的想法和建议帮助我改进这个项目。

  如何使用IPProxys项目呢?

  1.将项目目录clone到当前文件夹 $gitclone

  2.切换工程目录 $cdIPProxys

  3.运行脚本 windows上运行效果如下图所示:

  项目依赖项:

  需要安装sqlite数据库

  安装requests库:pipinstallrequests

  安装lxml:apt-getinstallpython-lxml

  当IPProxys运行起来后,外部的爬虫如何获取ip呢? 外部的爬虫只需要向IPProxys所在主机的8000端口发送GET请求即可。GET请求的参数为:

  访问http://127.0.0.1:8000/?types=0&count=5&country=中国这个链接的含义是获取5个ip地址在中国的高匿代理。

  响应为JSON格式,返回数据为:

  {"ip":"220.160.22.115","port":80},

  {"ip":"183.129.151.130","port":80},

  {"ip":"59.52.243.88","port":80},

  {"ip":"112.228.35.24","port":8888},

  {"ip":"106.75.176.4","port":80}

  一般爬取到的有效ip大约有60个左右,基本上满足个人的需要。


相关资讯

突破反爬虫的利器:开源IP代理池

突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或者个人来说,买一些代理ip成本稍微高一些,因此最近写了一个开源项目IPProxys,用来为个人提供代理

来源:黑核动态ip代理

2019-04-12 11:28:19

什么是python代理池?

代理IP大家都知道,今天说一下什么是代理池,以及python代理池。代理池是爬虫、采集、爆破、刷单等必不可少的配备。Python中高层次的数据结构,动态类型和动

来源:黑核混拨ip代理

2019-01-17 17:45:30

怎么维护好代理ip池

代理IP现在对于经常使用网络的人来说耳熟能详,目前提供代理IP的网站也有很多,种类齐全,但是质量实在是不敢恭维,所以我们要经过筛选抓取,保存起来供我们使用,不能

来源:黑核混拨ip代理

2019-01-19 17:19:24

Python爬虫为什么使用独享代理IP池效果更好

IP池,也分共享和独享的,但很多商家并不告诉你,而是一味的喊价格多低多低,以低廉的价格来吸引大家的购买使用,但是很多时候都是购买之后,刚开始使用就发现不好用。因

来源:黑核动态ip代理

2019-04-10 14:15:54

Python爬虫为什么使用独享代理IP池更好

IP池,也分共享和独享的,但很多商家并不告诉你,而是一味的喊价格多低多低,以低廉的价格来吸引大家的购买使用,但是很多时候都是购买之后,刚开始使用就发现不好用。因

来源:黑核动态ip代理

2019-04-16 14:00:53

独享代理IP池对Python爬虫效果更好

IP池,也分共享和独享的,但很多商家并不告诉你,而是一味的喊价格多低多低,以低廉的价格来吸引大家的购买使用,但是很多时候都是购买之后,刚开始使用就发现不好用。因

来源:黑核动态ip代理

2019-04-19 10:30:13

互联网工作中ip代理是不可缺少的工具

目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对

来源:黑核混拨ip加速器网

2018-12-27 17:45:23

换ip软件帮您解决ip被封烦恼!

换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也

来源:黑核混拨IP网

2018-12-25 15:52:02

爬虫技术工程师为什么离不开ip代理

说到爬虫,自然离不开爬虫代理地址。爬虫是一门随着互联网大数据而应运而生的产物,它主要是为了在海量的网络数据中采集分析有效的数据而诞生的一门技术。无需多言,爬虫技

来源:黑核混拨ip加速器网

2018-12-28 15:24:23

python爬虫如何使用代理ip软件避开反爬策略

对于python爬虫来说,最常遇见的难题就是来自网站的反爬策略。其实,python爬虫的固定套路也就那么多,各种网站的反爬策略也是针对这些固定的爬虫套路衍生出来

来源:黑核混拨ip代理

2019-01-11 13:51:27

Python爬虫如何突破反爬虫限制?

说起Python爬虫的发展史,那简直是与反爬虫相爱相杀的血泪史。在互联网中,有网络爬虫的地方,绝对少不了反爬虫的身影。网站反爬虫的拦截前提是要正确区分人类访问用

来源:黑核混拨ip代理

2019-01-18 16:08:27

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961