动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

Python爬虫如何设置代理IP和伪装成浏览器

发布时间:2019-07-02 11:40:49 来源:黑核动态ip代理

分享到

  Python爬虫如何设置代理IP和伪装成浏览器?黑核动态IP代理为大家整理了具体的步骤流程,一起来看看吧!

Python爬虫如何设置代理IP和伪装成浏览器

  一、python爬虫浏览器伪装

  #导入urllib.request模块

  import urllib.request

  #设置请求头

  headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")

  #创建一个opener

  opener=urllib.request.build_opener()

  #将headers添加到opener中

  opener.addheaders=[headers]

  #将opener安装为全局

  urllib.request.install_opener(opener)

  #用urlopen打开网页

  data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

  二、设置代理

  #定义代理ip

  proxy_addr="123.247.78.168:66666"

  #设置代理

  proxy=urllib.request.ProxyHandle({'http':proxy_addr})

  #创建一个opener

  opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)

  #将opener安装为全局

  urllib.request.install_opener(opener)

  #用urlopen打开网页

  data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

  三、同时设置用代理和模拟浏览器访问

  #定义代理ip

  proxy_addr="123.247.78.168:88888"

  #创建一个请求

  req=urllib.request.Request(url)

  #添加headers

  req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)

  #设置代理

  proxy=urllib.request.ProxyHandle("http":proxy_addr)

  #创建一个opener

  opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)

  #将opener安装为全局

  urllib.request.install_opener(opener)

  #用urlopen打开网页

  data=urllib.request.urlopen(req).read().decode('utf-8','ignore')

  四、在请求头中添加多个信息

  import urllib.request

  page_headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",

  "Host":"www.baidu.com",

  "Cookie":"xxxxxxxx"

  }

  req=urllib.request.Request(url,headers=page_headers)

  data=urllib.request.urlopen(req).read().decode('utf-8','ignore')

  五、添加post请求参数

  import urllib.request

  import urllib.parse

  #设置post参数

  page_data=urllib.parse.urlencode([

  ('pn',page_num),

  ('kd',keywords)

  ])

  #设置headers

  page_headers={

  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0',

  'Connection':'keep-alive',

  'Host':'www.lagou.com',

  'Origin':'https://www.lagou.com',

  'Cookie':'JSESSIONID=ABAAABAABEEAAJA8F28C00A88DC4D771796BB5C6FFA2DDA; user_trace_token=20170715131136-d58c1f22f6434e9992fc0b35819a572b',

  'Accept':'application/json, text/javascript, */*; q=0.01',

  'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',

  'Referer':'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98?labelWords=&fromSearch=true&suginput=',

  'X-Anit-Forge-Token':'None',

  'X-Requested-With':'XMLHttpRequest'

  }

  #打开网页

  req=urllib.request.Request(url,headers=page_headers)

  data=urllib.request.urlopen(req,data=page_data.encode('utf-8')).read().decode('utf-8')

  六、利用phantomjs模拟浏览器请求

  #1.下载phantomjs安装到本地,并设置环境变量

  from selenium import webdriver

  bs=webdriver.PhantomJS()

  #打开url

  bs.get(url)

  #获取网页源码

  url_data=bs.page_source

  #将浏览到的网页保存为图片

  bs.get_screenshot_as_file(filename)

  七、phantomjs设置user-agent和cookie

  from selenium import webdriver

  from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

  dcap = dict(DesiredCapabilities.PHANTOMJS)

  dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")

  bs = webdriver.PhantomJS(desired_capabilities=dcap)

  bs.get(url)

  #删除cookie

  bs.delete_all_cookies()

  #设置cookie

  #cookie格式:在浏览器cookie中查看,一个cookie需要包含以下参数,domain、name、value、path

  cookie={

  'domain':'.www.baidu.com', #注意前面有.

  'name':'xxxx',

  'value':'xxxx',

  'path':'xxxx'

  }

  #向phantomjs中添加cookie

  bs.add_cookie(cookie)

  八、利用web_driver工具

  #1.下载web_driver工具(如chromdriver.exe)及对应的浏览器

  #2.将chromdriver.exe放到某个目录,如c:\chromdriver.exe

  from selenium import webdriver

  driver=webdriver.Chrome(executable_path="C:\chromdriver.exe")

  #打开url

  driver.get(url)


相关资讯

为什么使用python采集都使用ip代理软件

多线程、异步与动态代理使用代理IPweb爬虫在使用代理ip采集数据的时候,经常会碰到有反采集策略规则的WAF,使得本来很简单事情变得复杂起来,使得很多人无法获取

来源:黑核混拨ip代理

2019-01-10 10:34:30

身为python爬虫程序员如何寻找稳定的代理ip软件

身为python爬虫的程序猿,不懂的时候一般都善于动脑且有一定动手能力。对于稳定代理IP,没有就去寻找嘛!google、度娘,输入关键字:代理IP,前几页几乎都

来源:黑核混拨ip代理

2019-01-10 15:58:02

有什么代理ip软件能提高Python爬虫的工作效率

Python是一种动态解释型的编程语言,它可以在Windows、UNIX、MAC等多种操作系统以及Java、.NET开发平台上使用。如果我们想在网络上快速抓取数

来源:黑核混拨ip代理

2019-01-10 18:00:45

python爬虫如何使用代理ip软件避开反爬策略

对于python爬虫来说,最常遇见的难题就是来自网站的反爬策略。其实,python爬虫的固定套路也就那么多,各种网站的反爬策略也是针对这些固定的爬虫套路衍生出来

来源:黑核混拨ip代理

2019-01-11 13:51:27

为什么Python爬虫经常被封?有什么办法解决

如果你一直被网站封杀却找不到原因,那么这篇文章获取能帮助到你。今天小编重点给大家讲一下,网络爬虫被封的常见原因。一、检查JavaScript如果出现页面空白、缺

来源:黑核混拨ip代理

2019-01-14 15:46:14

为什么网站要限制python爬虫大量抓取

很多从事python爬虫的网友,在采集网站信息时常遇见一些数据显示在浏览器上却无法抓取的情况。这可能是因为对方有意不让爬虫抓取信息,当你的IP地址被网站封杀,就

来源:黑核混拨ip代理

2019-01-14 17:03:45

代理IP对python爬虫有用吗?为什么说代理IP方便我们上网

HTTP代理IP对python爬虫有何作用?现如今,网络python爬虫早已不是什么陌生词汇,许多开发者在爬取数据时最常遇见的就是IP地址被网站封禁。究其原因,

来源:黑核混拨ip代理

2019-01-16 16:11:50

爬虫技术工程师为什么离不开ip代理

说到爬虫,自然离不开爬虫代理地址。爬虫是一门随着互联网大数据而应运而生的产物,它主要是为了在海量的网络数据中采集分析有效的数据而诞生的一门技术。无需多言,爬虫技

来源:黑核混拨ip加速器网

2018-12-28 15:24:23

黑核混拨IP加速器让你知道如何改变ip地址

被论坛禁言了?玩游戏作弊,被封号了?被人屏蔽IP是件很让人不爽的事情,平时正忙的时候被封禁,会有种天塌下来的感觉。如何改变ip地址成了我们比做的事情,不改变IP

来源:黑核混拨ip加速器网

2018-12-25 16:58:44

Python实现爬虫设置代理IP和伪装成浏览器的方法

今天小编就为大家分享一篇Python实现爬虫设置代理IP和伪装成浏览器的方法,具有很好的参考价值,希望对大家有所帮助!1.python爬虫浏览器伪装#导入url

来源:黑核动态ip代理

2019-05-06 09:39:08

什么是ip代理软件?可以修改ip地址吗?

经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们

来源:黑核混拨ip加速器网

2018-12-27 17:27:18

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961