我们在制作爬虫爬取想要的资料时,由于是计算机自动抓取,强度大、速度快,通常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,在这里介绍相关的技巧,以免被封;但在制作爬虫时,还是要适当加入延时代码,以减少对目标网站的影响。下文分享5种ip代理的设置方法,供大家参考!
一、requests设置代理:
importrequests
proxies={"http":"http://192.10.1.10:8080","https":"http://193.121.1.10:9080",}
requests.get("http://targetwebsite.com",proxies=proxies)
二、Selenium+Chrome设置代理:
fromseleniumimportwebdriver
PROXY="192.206.133.227:8080"
chrome_options=webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server={0}'.format(PROXY))
browser=webdriver.Chrome(chrome_options=chrome_options)
browser.get('www.targetwebsize.com')
print(browser.page_source)
brsowser.close()
三、Selenium+Phantomjs设置代理:
#利用DesiredCapabilities(代理设置)参数值,重新打开一个sessionId.
proxy=webdriver.Proxy()
proxy.proxy_type=ProxyType.MANUAL
proxy.http_proxy='192.25.171.51:8080'
#将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
browser.get('http://www.targetwebsize.com')
print(browser.page_source)
#还原为系统代理只需将proxy_type重新设置一次
proxy.proxy_type=ProxyType.DIRECT
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
四、爬虫框架scrapy设置代理:
在setting.py中添加代理IP
PROXIES=['http://173.207.95.27:8080',
'http://111.8.100.99:8080',
'http://126.75.99.113:8080',
'http://68.146.165.226:3128']
而后,在middlewares.py文件中,添加下面的代码。
importscrapyfromscrapy
importsignals
importrandom
classProxyMiddleware(object):
'''设置Proxy'''
def__init__(self,ip):
self.ip=ip
@classmethod
deffrom_crawler(cls,crawler):
returncls(ip=crawler.settings.get('PROXIES'))
defprocess_request(self,request,spider):
ip=random.choice(self.ip)
request.meta['proxy']=ip
最后将我们自定义的类添加到下载器中间件设置中,如下。
DOWNLOADER_MIDDLEWARES={'myproject.middlewares.ProxyMiddleware':543,}
五、Python异步Aiohttp设置代理:
proxy="http://192.121.1.10:9080"
asyncwithaiohttp.ClientSession()assession:
asyncwithsession.get("http://python.org",proxy=proxy)asresp:
print(resp.status)
#https方法一:
#connector=SocksConnector.from_url('socks5://localhost:1080',rdns=True)
#asyncwithaiohttp.ClientSession(connector=connector)assess:
#https方法二:
asyncwithaiohttp.ClientSession()assession:
session.proxies={'http':'socks5h://127.0.0.1:1080',
'https':'socks5h://127.0.0.1:1080'}
headers={'content-type':'image/gif',
'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/70.0.3538.77Safari/537.36'
}
cookies={'cookies_are':'working'}
#proxy="http://127.0.0.1:1080"
withasync_timeout.timeout(10):#设置请求的最长时间为10s
#asyncwithsess.get(url,proxy="http://54.222.232.0:3128")asres:
asyncwithsession.get(url,headers=headers,cookies=cookies,verify_ssl=False)asres:
text=awaitres.text()
print(text)
相关资讯
经久不衰的http代理ip如何设置代理
作为最高出现在网络上的一个超文本协议,http是目前互联网上使用率最高的一个文本协议。如我们日常生活中最常用的一个网站,度娘使用的也是http协议。即使如今的代
来源:黑核混拨ip代理
2019-01-10 11:52:14
http客户端代理ip如何设置?HTTPS代理IP有什么用途
http客户端代理ip要想知道http客户端代理ip如何设置,首先我们来了解一下http客户端。HTTP协议可能是现在Internet上使用得最多、最重要的协议
来源:黑核混拨ip代理
2019-01-16 14:52:36
如何设置高匿http代理ip
对于代理IP的使用相信现在大多数用户基本都掌握了,在网络上看到网友提问说http代理ip地址有要求吗?那么这个就为大家解答一下这个问题,这里以高匿代理IP为例,
来源:黑核混拨ip代理
2019-01-16 15:52:50
代理IP对爬虫的重要性以及Python3如何设置代理
对于从事互联网工作的朋友来说,代理ip并不是一个陌生的存在,如果你恰好是负责网络爬虫的相关工作,那么每天跟你打交道比较多的就是代理ip了。我们都知道,网络爬虫能
来源:黑核动态ip代理
2019-04-09 11:14:13
Android模拟器设置网络代理的方法
在服务器上启动模拟器的时候加了--http-proxy,但是不起作用。下面为大家提供四种Android模拟器设置网络代理的方法。一:将网络连接代理设置写入配置数
来源:黑核动态ip代理
2019-04-12 14:57:45
Python实现爬虫设置代理IP和伪装成浏览器的方法
今天小编就为大家分享一篇Python实现爬虫设置代理IP和伪装成浏览器的方法,具有很好的参考价值,希望对大家有所帮助!1.python爬虫浏览器伪装#导入url
来源:黑核动态ip代理
2019-05-06 09:39:08
设置代理服务器的方法及图解
所谓代理服务器就是一种关于服务器的安全功能,它一般是用来帮助我们连接国外的网络的。在我们日常的工作中,有的时候会需要用到外网,但要上外网就要设置代理服务器但是要
来源:黑核动态ip代理
2019-05-06 09:56:43
保护ip地址的5种方法
有什么办法可以保护IP地址呢?下文整理了保护ip地址的5种方法,供大家参考借鉴!一、停用网络链接服务法大伙儿知晓,假如限制客户修改TCP/IP参数的话,哪么这类
来源:黑核动态ip代理
2019-04-15 11:46:57
什么是ip代理软件?可以修改ip地址吗?
经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们
来源:黑核混拨ip加速器网
2018-12-27 17:27:18
换ip软件帮您解决ip被封烦恼!
换ip软件帮您解决ip被封烦恼!我想做互联网工作的基本上都需要换下ip吧,很多时候我们做推广经常被封账号,特别是同一个IP自问自答马上封你没商量,但是这些推广也
来源:黑核混拨IP网
2018-12-25 15:52:02
IP加速器的使用方法和简单问题解决办法
IP加速器,顾名思义就是加速IP,提升网络性能,降低网络延迟。黑核混拨ip加速器是一款ip量大速度快的加速器,非游戏外挂,可以放心使用。IP加速器的客户端设置简
来源:黑核混拨ip加速器网
2018-12-28 10:21:44
推荐阅读
Copyright © | 广州网连信息技术有限公司动态ip代理版权所有 备案号:粤ICP备18088888号-15 网站地图