在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。这时候,代理IP就派上用场了。关于代理IP的话也分几种透明代理、匿名代理、混淆代理、高匿代理。
1、透明代理(Transparent Proxy)
REMOTE_ADDR=Proxy IP
HTTP_VIA=Proxy IP
HTTP_X_FORWARDED_FOR=Your IP
透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。
2、匿名代理(Anonymous Proxy)
REMOTE_ADDR=proxy IP
HTTP_VIA=proxy IP
HTTP_X_FORWARDED_FOR=proxy IP
匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。
还有一种比纯匿名代理更先进一点的:混淆代理,见下节。
3、混淆代理(Distorting Proxies)
REMOTE_ADDR=Proxy IP
HTTP_VIA=Proxy IP
HTTP_X_FORWARDED_FOR=Random IP address
如上,与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真:-)
4、高匿代理(Elite proxy或High Anonymity Proxy)
REMOTE_ADDR=Proxy IP
HTTP_VIA=not determined
HTTP_X_FORWARDED_FOR=not determined
可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。
一般我们搞爬虫用的都是高匿的代理IP;
那代理IP从哪里搞呢很简单百度一下,你就知道一大堆代理IP站点。一般都会给出一些免费的,但是花点钱搞收费接口更加方便;
比如http://www.66ip.cn/
httpClient使用代理IP代码:
package com.open1111.httpclient.chap04;
import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class Demo1{
public static void main(String[]args)throws Exception{
CloseableHttpClient httpClient=HttpClients.createDefault();//创建httpClient实例
HttpGet httpGet=new HttpGet("https://www.taobao.com/");//创建httpget实例
HttpHost proxy=new HttpHost("116.226.217.54",9999);
RequestConfig requestConfig=RequestConfig.custom().setProxy(proxy).build();
httpGet.setConfig(requestConfig);
httpGet.setHeader("User-Agent","Mozilla/5.0(Windows NT 6.1;Win64;x64;rv:50.0)Gecko/20100101 Firefox/50.0");
CloseableHttpResponse response=httpClient.execute(httpGet);//执行http get请求
HttpEntity entity=response.getEntity();//获取返回实体
System.out.println("网页内容:"+EntityUtils.toString(entity,"utf-8"));//获取网页内容
response.close();//response关闭
httpClient.close();//httpClient关闭
}
}
建议大家用国内代理IP以及主干道网络大城市的代理IP访问速度快;
相关资讯
什么是ip代理软件?可以修改ip地址吗?
经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们
来源:黑核混拨ip加速器网
2018-12-27 17:27:18
现在玩自媒体需要用到ip代理吗?
如今越来越多的人开始使用微博、今日头条等等各种自媒体平台,因此很多公司很多人都看到了这之中的商机和机会,并且借助自媒体平台来发展自己的生意,也因为自媒体的蓬勃发
来源:黑核混拨ip加速器网
2018-12-27 17:37:53
互联网工作中ip代理是不可缺少的工具
目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对
来源:黑核混拨ip加速器网
2018-12-27 17:45:23
使用代理ip有什么好处?
现在,高匿代理ip时代已经到来,但是,还是有很多人不了解高匿代理ip到底有什么用,虽然随着网络科技的发展,网络对我们的生活带来了很多方便,也带来了更多的选择,网
来源:黑核混拨ip加速器网
2018-12-28 15:00:45
爬虫技术工程师为什么离不开ip代理
说到爬虫,自然离不开爬虫代理地址。爬虫是一门随着互联网大数据而应运而生的产物,它主要是为了在海量的网络数据中采集分析有效的数据而诞生的一门技术。无需多言,爬虫技
来源:黑核混拨ip加速器网
2018-12-28 15:24:23
现在采集越来越难如何找到实用的HTTP代理IP
目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对
来源:黑核混拨ip加速器网
2018-12-28 15:56:10
什么情况下需要ip代理软件 ip代理软件用途
对于网络营销推广和SEO的朋友来说,数据抓取和模拟访问都是必备的工作,这两种方式都需要有大量的IP资源支持,很多用户在一些网站上面批量注册帐号、发布留言评论都会
来源:黑核混拨ip加速器网
2018-12-28 16:28:33
HttpClient使用代理IP
在爬取网页的时候,有的目标站点有反爬虫机制,对于频繁访问站点以及规则性访问站点的行为,会采集屏蔽IP措施。这时候,代理IP就派上用场了。关于代理IP的话也分几种
来源:黑核动态ip代理
2019-11-29 14:31:44
换ip软件帮您解决ip被封烦恼!
换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也
来源:黑核混拨IP网
2018-12-25 15:52:02
IP加速器的使用方法和简单问题解决办法
IP加速器,顾名思义就是加速IP,提升网络性能,降低网络延迟。黑核混拨ip加速器是一款ip量大速度快的加速器,非游戏外挂,可以放心使用。IP加速器的客户端设置简
来源:黑核混拨ip加速器网
2018-12-28 10:21:44
推荐阅读
Copyright © | 广州网连信息技术有限公司动态ip代理版权所有 备案号:粤ICP备18088888号-15 网站地图