使用高匿代理,对方服务器不知道你使用了代理,更不知道你的真实IP。那么如何获取高匿代理ip?下文整理了具体的步骤思路,供大家参考借鉴。
一、获取高匿代理IP思路
注意事项
做第二步之前你需要先找个地址url,用本机访问出来一个成功的页面,建议保留为html,作为后面使用,进行成功和禁用页面的对比,然后才可以高频访问此网站使你的电脑禁用。
获取高匿的可用代理ip,可以用以下四个步骤:
第一步:获取代理ip,比如黑核动态IP代理等一些代理IP网站爬取
第二步:找一个容易禁止代理IP的网站,我选择是孔夫子,进行高频率线程访问孔夫子网,使孔夫子网站禁用我当前电脑ip。
第三步:可以初步进行代理ip筛选,用python request库进行访问百度或者其他,删选出可用代理ip(不一定是高匿的),也可以直接进行第四步。
第四步:直接进行用request访问,如果含有的响应文本里有成功的页面文字就可以说明ip可以用,而且是高匿(因为你的当前电脑已经被测试网站禁止,如果访问成功说明代理ip可以用)
二、实践
1、获取代理ip,这个我就不写了,如果会爬虫自己就可以找几个代理ip网站爬爬。
2、我用的孔夫子旧书网作为鉴别代理IP高匿网站
前提,先保留一份访问成功的响应html页面。
然后进行高频访问网站
不多说直接上代码:
import requests import time from threading import Thread def ceshi(file_save): url = "http://book.kongfz.com/175804/1038155437/" headers = { 'Cookie': 'PHPSESSID=0d12c303a92043f13a3cc2c329e444f36b44ef71; shoppingCartSessionId=74c831996eb9a1009d79244d7d915040; kfz_uuid=f53edd56-8938-48af-a447-9a07bde47ffa; reciever_area=1006000000; Hm_lvt_bca7840de7b518b3c5e6c6d73ca2662c=1552367977; Hm_lvt_33be6c04e0febc7531a1315c9594b136=1552367977; kfz_trace=f53edd56-8938-48af-a447-9a07bde47ffa|10072231|834871367e51d410|-; acw_tc=65c86a0a15523697386136416e812159c1e7ce1072aea90b9eb27c93ee05cc; BIGipServerpool_nxtqzj=527099402.24615.0000; Hm_lpvt_bca7840de7b518b3c5e6c6d73ca2662c=1552371456; Hm_lpvt_33be6c04e0febc7531a1315c9594b136=1552371456', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' } try: resp = requests.get(url=url, headers=headers, timeout=2) if "胡适传论,上下。,胡明,简介,人民文学出版社" in resp.text: print("ok") else: print("errer") except: pass if __name__ == '__main__': start_time = time.time() # 储存可用的ip地址 file_save = open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\66代理IP\ok_2s_detail_ips.txt', 'a', encoding='utf-8') thread_list = [] total_num = 0 for i in range(1000): thred_ip = Thread(target=ceshi, args=[file_save]) thread_list.append(thred_ip) thred_ip.start() total_num += 1 print(total_num, total_num) for i in thread_list: i.join() file_save.close() end_time = time.time() print((end_time - start_time), '秒')
3、初步删选
如果爬的代理ip数量很多采用这一步,少的话可以直接下一步,想着多了进行初次删选,以后这批初步代理ip可能需要,我使用的是百度。
直接上代码:
import requests import time from threading import Thread def demo_ip(ip_one, file_save): url = "https://www.baidu.com/" headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive', 'Cookie': 'PSTM=1550130597; BIDUPSID=526C9C6BFBDCEB1D551FA9C22E28F592; BAIDUID=A9DC7E5415BF03D3B8D8749E48A7529A:FG=1; BD_UPN=12314753; ispeed_lsm=2; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_HOME=0; H_PS_PSSID=26523_1429_21099_28607_28584_28558_28604_28606', 'Host': 'www.baidu.com', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36' } proxies = { "http": "http://" + ip_one, } try: resp = requests.get(url=url, headers=headers, proxies=proxies, timeout=2) # resp = requests.get(url=url, headers=headers, timeout=2) # print(resp.text) except: pass else: file_save.write(ip_one + '\n') if __name__ == '__main__': start_time = time.time() # 储存可用的ip地址 file_save = open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\有效获取测试代理IP是高匿的方法\初步可用代理2ip_2s.txt', 'a', encoding='utf-8') with open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\有效获取测试代理IP是高匿的方法\获取去重的总IP数量113万个', 'r', encoding='utf-8') as file_ips: ips_list = file_ips.readlines() thread_list = [] total_num = 0 for ip_one in set(ips_list): # 前面携带http的 # ip = ip_one.replace('http://','').strip() # 直接ip+port的 ip = ip_one.strip() thred_ip = Thread(target=demo_ip, args=[ip, file_save]) thread_list.append(thred_ip) thred_ip.start() total_num += 1 print(total_num, total_num) time.sleep(0.0005) for i in thread_list: i.join() file_save.close() end_time = time.time() print((end_time - start_time), '秒')
4、测试高匿代理可用ip(前提本机代理ip已经被禁)
如果不知道是否本机电脑被禁,用浏览器访问孔夫子官网,如果可以访问说明没有被禁止,如果不能访问,说明可以进行高匿删选了。
直接上代码:
import requests import time from threading import Thread def get_gao_ni_ip(ip, file_save): url = "http://book.kongfz.com/175804/1038155437/" headers = { 'Cookie': 'PHPSESSID=0d12c303a92043f13a3cc2c329e444f36b44ef71; shoppingCartSessionId=74c831996eb9a1009d79244d7d915040; kfz_uuid=f53edd56-8938-48af-a447-9a07bde47ffa; reciever_area=1006000000; Hm_lvt_bca7840de7b518b3c5e6c6d73ca2662c=1552367977; Hm_lvt_33be6c04e0febc7531a1315c9594b136=1552367977; kfz_trace=f53edd56-8938-48af-a447-9a07bde47ffa|10072231|834871367e51d410|-; acw_tc=65c86a0a15523697386136416e812159c1e7ce1072aea90b9eb27c93ee05cc; BIGipServerpool_nxtqzj=527099402.24615.0000; Hm_lpvt_bca7840de7b518b3c5e6c6d73ca2662c=1552371456; Hm_lpvt_33be6c04e0febc7531a1315c9594b136=1552371456', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' } proxies = { "http": "http://" + ip, } try: resp = requests.get(url=url, headers=headers, proxies=proxies, timeout=2) # print(resp.text) if "胡适传论,上" \ "下。_胡明_孔夫子旧书网" in resp.text: print("ip可用",ip) file_save.write(ip + '\n') else: print("errer") except: pass if __name__ == '__main__': start_time = time.time() # 储存可用的ip地址 file_save = open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\有效获取测试代理IP是高匿的方法\高匿ip.txt', 'a', encoding='utf-8') with open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\有效获取测试代理IP是高匿的方法\获取去重的总IP数量113万个', 'r', encoding='utf-8') as file_ips: ips_list = file_ips.readlines() thread_list = [] total_num = 0 for ip_one in set(ips_list): # 前面携带http的 ip = ip_one.strip() # 直接ip+port的 thred_ip = Thread(target=get_gao_ni_ip, args=[ip, file_save]) thread_list.append(thred_ip) thred_ip.start() total_num += 1 print(total_num, total_num) # 为了是电脑CPU不至于很卡 time.sleep(0.005) for i in thread_list: i.join() file_save.close() end_time = time.time() print((end_time - start_time), '秒')
至此,删选高匿代理ip结束,如果有更好删选高匿代理ip方法,欢迎留言告知,希望大老不吝赐教。
4、测试高匿代理可用ip第二种方法
利用百度搜索IP,出来的网站的结果,进行爬取,然后利用自己电脑本机ip和request请求响应回来的代理ip进行比较,如果不一样,说明请求的代理IP就是高匿的。
代码如下:
import requests from fake_useragent import UserAgent import re import time from threading import Thread ua = UserAgent() print(dir(ua)) print(ua.random) def ceshi(ip, file_save): # url = "https://whatismyipaddress.com/zh-cn/index" url = "http://2019.ip138.com/ic.asp" headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36' 'User-Agent': ua.random } proxies = { "http": "http://" + ip, # "http": "http://62.7.85.234:8080", } try: resp = requests.get(url=url, headers=headers, proxies=proxies, timeout=2,allow_redirects=False) # resp = requests.get(url=url, headers=headers, timeout=2) # print(111,resp.text) if '' in resp.text: ip1 = re.findall('.*\[(.*?)\].*',resp.text)[0] if ip1 != '42.120.74.109': print("ip可用", ip1) file_save.write(ip + '\n') else: print("ip是透明的") else: print("errer") except Exception as e: print("异常",e) pass if __name__ == '__main__': file_save = open(r'D:\zjf_workspace\000爬虫代码-基础的\scrapy_003免费代理_IP\有效获取测试代理IP是高匿的方法\高匿_detail-ip.txt', 'a', encoding='utf-8') ip = '106.75.140.177:8888' ceshi(ip, file_save)
相关资讯
如何设置高匿http代理ip
对于代理IP的使用相信现在大多数用户基本都掌握了,在网络上看到网友提问说http代理ip地址有要求吗?那么这个就为大家解答一下这个问题,这里以高匿代理IP为例,
来源:黑核混拨ip代理
2019-01-16 15:52:50
高匿http代理ip是什么意思?
代理ip高匿http代理在代理IP中,高匿代理是常常被人们提到的,因为现在的代理市场巨大且服务商鱼龙混杂,网络上的一些HTPP代理虽然可以使用,能够更换用户的I
来源:黑核混拨ip代理
2019-01-21 11:21:40
高匿代理到底有多高?
前几天,有个朋友问我,黑核动态ip代理是高匿代理IP吗?我很肯定的回答他是的,接下来他问了一句我懵逼的话:你家的高匿代理有多高呢,太低了可不行,会被识别出来的。
来源:黑核动态ip代理
2019-04-19 10:12:47
使用高匿代理IP后是否能为所欲为
用了高匿代理后是否从此就可以高枕无忧、为所欲为呢?答案当然是不行,道高一尺,魔高一丈,使用代理还是低调一点好,使用高匿代理还是有可能被检测出来的。据我所知,至少
来源:黑核动态ip代理
2019-04-23 10:11:35
如何获取高匿代理ip
使用高匿代理,对方服务器不知道你使用了代理,更不知道你的真实IP。那么如何获取高匿代理ip?下文整理了具体的步骤思路,供大家参考借鉴。一、获取高匿代理IP思路注
来源:黑核动态ip代理
2019-05-09 09:56:36
CenterOS使用qurid搭建高匿代理服务器
CenterOS使用qurid搭建高匿代理服务器要怎么做?下文梳理具体的步骤流程,供大家参考借鉴。一、环境介绍操作系统:CentOS7x64二、概念我们根据其向
来源:黑核动态ip代理
2019-05-11 09:29:05
高匿爬虫代理ip怎么选择
作爬虫采集的工程师们对高匿动态爬虫代理ip肯定不陌生,也接触过不少爬虫代理ip的提供商家,那么对于爬虫工作,要如何去选择高匿爬虫代理ip呢?哪样的ip代理提供商
来源:黑核动态ip代理
2019-05-26 10:42:00
黑核混拨IP加速器让你知道如何改变ip地址
被论坛禁言了?玩游戏作弊,被封号了?被人屏蔽IP是件很让人不爽的事情,平时正忙的时候被封禁,会有种天塌下来的感觉。如何改变ip地址成了我们比做的事情,不改变IP
来源:黑核混拨ip加速器网
2018-12-25 16:58:44
什么是ip代理软件?可以修改ip地址吗?
经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们
来源:黑核混拨ip加速器网
2018-12-27 17:27:18
换ip软件帮您解决ip被封烦恼!
换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也
来源:黑核混拨IP网
2018-12-25 15:52:02
Python爬虫如何获取大量的ip预防被封
python爬虫抓取和分析京东商城评价互联网购物现已成为当下最流行的购物方式,很多用户在互联网购买商品后,会对商品包装、质量,商家服务做出客观评价。商品评价的好
来源:黑核混拨ip代理
2019-01-19 10:51:05
推荐阅读
Copyright © | 广州网连信息技术有限公司动态ip代理版权所有 备案号:粤ICP备18088888号-15 网站地图