动态ip

>

代理ip软件

>

换ip软件

>

HTTP代理

>
Socks5代理
黑核动态ip代理
您的位置: 首页 > 新闻资讯 > 正文

python爬虫使用代理池爬取拉勾网招聘信息

发布时间:2019-05-14 09:21:49 来源:黑核动态ip代理

分享到

  本文主要如何使用python爬虫使用代理池爬取拉勾网招聘信息,关键有两点,一,构建代理池解决同一ip访问频繁封ip问题,二,是找到python招聘信息真正的页面,拉勾网是动态加载出来的,招聘的信息是通过json数据传递的,直接在页面中是获取不到的,需要找到传递json数据的连接,获取到json数据,然后再解析数据,提取需要的因素。

  一,代理池搭建

  可以直接去github上下载别人搭建好的代理池,我用的代理池链接是:https://github.com/Germey/CookiesPool 需要安装好redis数据库并配置好启动服务,需要安装flash,aiohttp,requests,redis-py,pyquery等python库。

  二,招聘信息的在数据所在:

  打开拉勾网,搜索python,按f12打开开发者工具,点击network,勾选XHR,可以查看动态加载页面的链接,然后查看Preview里面的数据,可以看到招聘信息的数据。

python爬虫使用代理池爬取拉勾网招聘信息

  然后可以在headers里面找到链接信息 url和from data:

python爬虫使用代理池爬取拉勾网招聘信息

python爬虫使用代理池爬取拉勾网招聘信息

  pn可以控制页面翻页加载新的数据。

  代码如下:

import requests
import time

PROXY_POOL_URL = 'http://127.0.0.1:5000/get'
url = "https://www.lagou.com/jobs/positionAjax.json?city=%E6%AD%A6%E6%B1%89&needAddtionalResult=false"
headers = {
    'Host': 'www.lagou.com',
    'Origin': 'https://www.lagou.com',
    'Referer': 'https://www.lagou.com/jobs/list_java?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=sug&suginput=Java',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
    'X-Anit-Forge-Code': '0',
    'X-Anit-Forge-Token': None,
    'X-Requested-With': 'XMLHttpRequest'
}
proxy=None
MAX_COUNT=5


def get_proxy():
    try:
        response = requests.get(PROXY_POOL_URL)
        if response.status_code == 200:
            return response.text
        return None
    except ConnectionError:
        return None

def get_html(url, count=1):
    print('Crawling', url)
    print('Trying Count', count)
    global proxy
    if count >= MAX_COUNT:
        print('Tried Too Many Counts')
        return None
    try:
        if proxy:
            proxies = {
                'http': 'http://' + proxy
            }
            response = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)
            json_data = response.json()
        else:
            response = requests.get(url, allow_redirects=False, headers=headers)
            json_data = response.json()
        if 'content' in json_data:
            postions = json_data.get('content', ).get("positionResult").get('result')
            for postion in postions:
                postion = {
                    'education': postion.get('education'),
                    'workYear': postion.get('workYear'),
                    'salary': postion.get('salary'),
                    'positionName': postion.get('positionName'),
                    'companyFullName': postion.get('companyFullName')
                }
                print(postion)
        else:
            # Need Proxy
            print('requests too mach times ,need proxy')
            proxy = get_proxy()
            if proxy:
                print('Using Proxy', proxy)
                return get_html(url)
            else:
                print('Get Proxy Failed')
                return None
    except ConnectionError as e:
        print('Error Occurred', e.args)
        proxy = get_proxy()
        count += 1
        return get_html(url, count)



def main():
    for page in range(1, 20):
        print("第{}页数据".format(page))
        get_html(url,count=1)
        time.sleep(3)

if __name__=="__main__":
    main()

相关资讯

爬虫技术工程师为什么离不开ip代理

说到爬虫,自然离不开爬虫代理地址。爬虫是一门随着互联网大数据而应运而生的产物,它主要是为了在海量的网络数据中采集分析有效的数据而诞生的一门技术。无需多言,爬虫技

来源:黑核混拨ip加速器网

2018-12-28 15:24:23

如何使用ip代理保证爬虫能正常工作?

在实际的爬虫抓取的过程中,由于会存在恶意采集或者恶意攻击的情况,很多网站都会设置相应的防爬取机制,通常防爬程序都是通过ip来识别机器人用户的,因此充足可用的ip

来源:黑核混拨ip加速器网

2018-12-28 17:22:15

为什么网络爬虫需要大量IP 有什么好用的IP切换软件

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP

来源:黑核混拨ip加速器网

2019-01-02 18:00:27

爬虫程序为什么都离不开代理ip软件

c#爬虫程序,现在做爬虫抓取数据用什么程序最好,之前在知乎上有一位用户,只为证明c#是爬虫最好的程序而进行了大量的测试。那么写爬虫抓取数据一定会用到代理ip,黑

来源:黑核混拨ip代理

2019-01-10 10:55:33

为什么说好的代理ip软件能提高爬虫效率

c#爬虫,现在做业务越来越难,市面上的代理ip商家五花八门,试过很多代理ip的人会知道对业务效果并不理想,为什么黑核混拨ip代理软件的代理ip质量很高,下面我来

来源:黑核混拨ip代理

2019-01-10 11:07:11

爬虫程序为什么要使用代理ip软件

c#爬虫和python要用什么代理ip?我用c#,java都写过爬虫。区别不大,原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python

来源:黑核混拨ip代理

2019-01-10 11:19:45

哪里有好用又便宜的爬虫代理ip软件

在互联网世界中,用户每一次点击和访问,都不仅仅只是一次点击、访问,它们将汇聚成大片数据,成为你和他人网络畅游的路径。这是爬虫的作用,采集抓取网站信息,帮助搜索引

来源:黑核混拨ip代理

2019-01-10 15:54:51

python爬虫使用代理池爬取拉勾网招聘信息

本文主要如何使用python爬虫使用代理池爬取拉勾网招聘信息,关键有两点,一,构建代理池解决同一ip访问频繁封ip问题,二,是找到python招聘信息真正的页面

来源:黑核动态ip代理

2019-05-14 09:21:49

互联网工作中ip代理是不可缺少的工具

目前,中国的互联网大军正在不断壮大,各种各样依托互联网的新兴行业正在兴起,哪怕是很多传统行业,为了抢占竞争的制高点,也将跟友商之间的竞争搬到了互联网平台之上。对

来源:黑核混拨ip加速器网

2018-12-27 17:45:23

什么是ip代理软件?可以修改ip地址吗?

经常碰到朋友问,代理IP是做啥的,有什么用。我对他一顿解释,然后他还是云里雾里,好吧,可能是我口才不好,这里写文再解释下。代理IP对于很多人来说,用处很大,他们

来源:黑核混拨ip加速器网

2018-12-27 17:27:18

为什么网站要限制python爬虫大量抓取

很多从事python爬虫的网友,在采集网站信息时常遇见一些数据显示在浏览器上却无法抓取的情况。这可能是因为对方有意不让爬虫抓取信息,当你的IP地址被网站封杀,就

来源:黑核混拨ip代理

2019-01-14 17:03:45

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
客服电话
13318873961