Python爬虫入门：如何爬取招聘网站并进行分析

合集下载

python爬虫实现详解

python爬虫实现详解摘要：1.Python 爬虫概述2.Python 爬虫的实现步骤3.Python 爬虫的常用库和框架4.Python 爬虫的实际应用案例正文：一、Python 爬虫概述Python 爬虫是指使用Python 编写程序，自动化地抓取网页信息，并进行数据处理和分析的技术。

Python 爬虫可以帮助我们快速获取大量数据，对于数据分析、网站运营和网络营销等领域具有广泛的应用。

二、Python 爬虫的实现步骤Python 爬虫的实现步骤可以概括为以下几个步骤:1.确定爬取目标网站和页面在开始编写爬虫程序之前，需要先确定要爬取的目标网站和页面。

一般来说，需要根据实际需求来选择合适的网站和页面。

2.分析网页结构和数据格式在编写爬虫程序之前，需要对目标网页的结构和数据格式进行分析。

这可以通过查看网页源代码来实现。

一般来说，需要分析网页的HTML 代码，找出需要爬取的数据所在的标签和属性。

3.编写爬虫程序在分析网页结构和数据格式之后，可以开始编写爬虫程序。

一般来说，Python 爬虫程序包括以下几个部分:- 发送HTTP 请求：使用Python 的requests 库发送HTTP 请求，获取目标网页的内容。

- 解析网页内容：使用Python 的BeautifulSoup 库解析网页内容，提取需要爬取的数据。

- 存储数据：将爬取到的数据存储到本地文件或数据库中。

- 编写循环：编写循环，以便爬取多个页面或重复爬取同一个页面。

4.运行爬虫程序在编写完爬虫程序之后，可以开始运行程序，等待程序爬取到所需数据。

三、Python 爬虫的常用库和框架Python 爬虫有许多常用的库和框架，包括:- requests:用于发送HTTP 请求。

- BeautifulSoup:用于解析HTML 和XML 文档。

- Scrapy:一个基于Python 的开源网络爬虫框架，可用于快速构建爬虫程序。

- Selenium:用于模拟浏览器操作，可以与Python 爬虫结合使用，以实现更复杂的爬虫任务。

Python网络爬虫电商数据抓取与竞品分析技巧

Python网络爬虫电商数据抓取与竞品分析技巧近年来，随着电子商务的快速发展，电商数据的抓取和竞品分析变得越来越重要。

Python作为一种强大且灵活的编程语言，成为了许多开发者首选的工具。

本文将介绍Python网络爬虫的基本原理、电商数据的抓取方法以及竞品分析的技巧，帮助读者更好地利用Python进行电商数据的抓取与竞品分析。

一、Python网络爬虫的基本原理网络爬虫是一种自动获取网页内容的程序，它可以模拟浏览器行为，通过发送HTTP请求获取网页数据，并从中提取有用的信息。

Python具有丰富的爬虫库，例如Requests、BeautifulSoup和Scrapy，它们提供了强大的功能，能够帮助开发者更轻松地进行网页数据的抓取和处理。

使用Python编写爬虫程序，可以大大提高爬虫的效率和灵活性。

二、电商数据的抓取方法1. 确定目标网站：首先，需要确定要抓取数据的电商网站。

常见的电商网站有淘宝、京东、天猫等。

通过分析目标网站的网页结构和数据源，可以确定抓取的策略和方法。

2. 发送HTTP请求：使用Python的Requests库可以方便地向目标网站发送HTTP请求，并获取到返回的网页内容。

在发送请求时，可以设置请求头部信息，模拟真实浏览器的行为，以避免被网站识别为爬虫。

3. 解析网页内容：获取到网页内容后，需要使用BeautifulSoup库等工具对网页进行解析，提取出需要的数据。

通过分析网页的HTML结构，可以使用选择器、正则表达式等方式进行数据的抓取。

4. 数据存储：抓取到的数据可以保存到本地文件或者数据库中。

在Python中，可以使用CSV、JSON等格式进行数据的存储，也可以使用数据库框架如SQLite、MySQL等进行数据的管理和查询。

三、竞品分析的技巧竞品分析是电商运营中的重要一环，通过对竞品的分析，可以更好地了解市场动态和消费者需求，为自己的产品或服务提供参考。

以下是几种常见的竞品分析技巧：1. 价格分析：通过抓取竞品的价格数据，可以分析市场价格的走势和竞争力。

网站数据爬取方法

网站数据爬取方法随着互联网的蓬勃发展，许多网站上的数据对于研究、分析和商业用途等方面都具有重要的价值。

网站数据爬取就是指通过自动化的方式，从网站上抓取所需的数据并保存到本地或其他目标位置。

以下是一些常用的网站数据爬取方法。

1. 使用Python的Requests库：Python是一种功能强大的编程语言，具有丰富的第三方库。

其中，Requests库是一个非常常用的库，用于发送HTTP请求，并获取网页的HTML内容。

通过对HTML内容进行解析，可以获取所需的数据。

2. 使用Python的Scrapy框架：Scrapy是一个基于Python的高级爬虫框架，可以帮助开发者编写可扩展、高效的网站爬取程序。

通过定义爬虫规则和提取规则，可以自动化地爬取网站上的数据。

3. 使用Selenium库：有些网站使用了JavaScript来加载数据或者实现页面交互。

对于这类网站，使用传统的爬虫库可能无法获取到完整的数据。

这时可以使用Selenium库，它可以模拟人为在浏览器中操作，从而实现完整的页面加载和数据获取。

4.使用API：许多网站为了方便开发者获取数据，提供了开放的API接口。

通过使用API，可以直接获取到所需的数据，无需进行页面解析和模拟操作。

5. 使用网页解析工具：对于一些简单的网页，可以使用网页解析工具进行数据提取。

例如，使用XPath或CSS选择器对HTML内容进行解析，提取所需的数据。

6.使用代理IP：一些网站为了保护自身的数据安全，采取了反爬虫措施，例如设置访问速度限制或者封锁IP地址。

为了避免被封禁，可以使用代理IP进行爬取，轮流使用多个IP地址，降低被封禁的风险。

7.使用分布式爬虫：当需要爬取大量的网站数据时，使用单机爬虫可能效率较低。

这时，可以使用分布式爬虫，将任务分发给多台机器，同时进行爬取，从而提高爬取效率。

8.设置合理的爬取策略：为了避免对网站服务器造成过大的负担，并且避免触发反爬虫机制，需要设置合理的爬取策略。

Python网络爬虫的数据爬取与人才招聘应用案例

Python网络爬虫的数据爬取与人才招聘应用案例随着互联网的快速发展，大量的数据被存储在各个网站上，而这些数据对于企业和个人的决策过程非常重要。

然而，手动收集数据是一项耗时耗力的任务，因此，利用Python编写网络爬虫程序来自动化数据收集是一个高效的解决方案。

本文将探讨Python网络爬虫在人才招聘领域的应用案例。

1. 数据爬取的重要性数据在人才招聘领域具有重要的作用。

通过收集和分析招聘网站上的数据，企业可以了解人才市场的趋势，掌握各类岗位的需求量和竞争情况。

另外，个人求职者也可以通过分析数据，了解行业的就业前景，选择适合自己的职位。

因此，数据爬取成为了人才招聘领域的重要环节。

2. Python网络爬虫简介Python是一种简洁而强大的编程语言，广泛应用于数据处理和网络爬虫开发。

它具有丰富的库和工具，例如BeautifulSoup和Scrapy，可实现高效的网页解析和数据抓取。

同时，Python具有简单易学的语法，使得初学者也能够快速上手。

3. 网络爬虫案例：人才招聘数据收集我们以一个人才招聘网站为例，来演示Python网络爬虫的应用。

首先，我们需要分析目标网站的网页结构和数据组织方式。

然后，使用Python爬虫程序发送HTTP请求，获取网页内容。

接着，利用网页解析库BeautifulSoup提取所需的数据，并进行清洗和整理。

最后，将数据保存到数据库或文件中，以供后续分析和应用。

4. 数据可视化与分析通过Python网络爬虫收集到的数据，可以进行各种形式的可视化和分析。

例如，我们可以使用matplotlib库绘制招聘职位的数量随时间的变化趋势图，用以展示行业的就业热点和趋势。

此外，还可以利用Pandas库对数据进行统计和筛选，帮助企业和个人进行更精准的人才招聘决策。

5. 权益和隐私保护在进行数据爬取时，我们必须遵守相关的法律法规和道德规范，确保所获取的数据不会被滥用或侵犯他人的权益。

在爬取过程中，需要设置适当的爬取频率和访问流量，以避免对目标网站造成过大的负担。

Python网络爬虫中的页面解析与DOM操作技巧

Python网络爬虫中的页面解析与DOM操作技巧在Python中，我们可以利用网络爬虫来获取网页上的数据。

然而，仅仅获取网页的源代码并不足以满足我们的需求，我们还需要对页面进行解析和操作。

本文将介绍在Python网络爬虫中常用的页面解析技巧和DOM操作技巧。

一、页面解析技巧1. 正则表达式正则表达式是一种强大的字符串处理工具，可以用来匹配、查找和提取符合特定模式的字符串。

在网络爬虫中，我们可以使用正则表达式来解析网页的源代码，从中提取我们需要的数据。

例如，我们可以使用正则表达式提取页面中的标题、链接、图片等信息。

2. XPathXPath是一种用于在XML文档中定位节点的语言，它也可以用于解析HTML文档。

在Python中，我们可以使用XPath来解析网页，并通过路径表达式来定位元素。

XPath提供了一种更高级、更简洁的方式来提取特定的数据。

例如，我们可以使用XPath表达式提取页面中的所有链接。

3. BeautifulSoupBeautifulSoup是Python中的一个HTML/XML解析库。

它可以快速解析HTML文档，并提供了易于使用的API来搜索、遍历和修改解析树。

使用BeautifulSoup，我们可以更方便地提取页面中的数据，而无需编写复杂的解析代码。

二、DOM操作技巧1. 查找元素在爬取网页数据时，我们经常需要根据特定的元素来定位其他的相关元素。

通过使用XPath或BeautifulSoup，我们可以根据元素的标签名、类名、id等属性来查找元素。

2. 获取元素属性有时，我们需要获取元素的属性值，例如链接的地址、图片的URL 等。

在Python中，我们可以使用XPath或BeautifulSoup提供的方法来获取元素的属性值。

3. 修改元素内容有时，我们需要修改网页中的元素内容。

通过使用XPath或BeautifulSoup提供的方法，我们可以轻松地修改元素的文本内容、属性值等。

4. 添加新元素有时，我们需要向网页中添加新的元素，例如插入一段新的文本、图片等。

Python网络爬虫的基本原理和流程

Python网络爬虫的基本原理和流程Python网络爬虫是一种自动化程序，用于从互联网上提取数据。

它可以模拟真实用户的行为，访问网页并抓取所需的信息。

网络爬虫在各个领域具有广泛的应用，如数据挖掘、搜索引擎优化和业务数据分析等。

本文将介绍Python网络爬虫的基本原理和流程。

一、爬虫的基本原理网络爬虫的基本原理是通过HTTP协议发送请求，获取网页内容，然后提取所需的数据。

Python提供了一些强大的库和工具，可以简化爬虫的开发过程。

1. 发送请求使用Python的模块，如Requests或Scrapy，可以发送HTTP请求并获取响应。

通过GET或POST方法，可以向指定的URL发送请求，并获得服务器返回的响应。

2. 解析HTML获取到页面的HTML源代码后，需要通过解析HTML来抓取所需的数据。

常用的HTML解析库包括BeautifulSoup和lxml等。

这些库可以根据HTML标签和其他特征来提取所需的数据。

3. 数据提取在解析HTML的基础上，可以使用CSS选择器或XPath表达式来定位和提取特定的数据。

这些工具提供了灵活的方式来选择DOM元素，并获取其对应的值。

4. 数据存储一旦获取了所需的数据，可以将其存储到数据库或文件中。

Python提供了各种数据库和文件处理的库，如MySQL、MongoDB和CSV等。

二、爬虫的基本流程Python网络爬虫的基本流程包括以下几个步骤：1. 发送请求使用Python的Requests库，通过GET或POST方法向目标网站发送请求。

可以设置请求头部信息，模拟真实用户的行为。

2. 获取响应收到服务器的响应后，可以获取页面的HTML源码。

通过解码和解析HTML，可以获取页面中的各种元素和数据。

3. 解析HTML使用合适的HTML解析库，如BeautifulSoup或lxml，解析HTML源码，并根据预先定义好的规则提取所需的数据。

4. 数据提取通过CSS选择器或XPath表达式，定位和提取特定的数据。

Python网络爬虫的数据采集与分析案例分享

Python网络爬虫的数据采集与分析案例分享随着互联网的快速发展，数据成为了当今社会的一项重要资源。

而网络爬虫作为一种自动化工具，能够帮助我们从互联网上获取大量的数据，为我们的数据分析提供了很大的便利。

本文将分享几个实际案例，演示如何使用Python网络爬虫进行数据采集与分析。

案例一：天气数据采集与分析在实际生活中，我们经常需要了解天气情况以便做出相应的安排。

而许多网站提供了天气预报的信息，我们可以使用Python爬虫库来获取这些数据。

通过分析历史天气数据，我们可以揭示出一些有趣的趋势和规律，如某地区的季节性变化、气温变化趋势等。

这些数据可以帮助我们做出更准确的天气预测和决策。

案例二：股票数据采集与分析股票市场一直是人们关注的焦点，而股票数据的采集和分析对于投资者来说尤为重要。

我们可以使用Python爬虫从金融网站获取股票的实时价格、历史数据和相关新闻等信息。

通过分析这些数据，我们可以发现股票价格的波动规律，预测趋势，制定相应的投资策略，提高投资收益。

案例三：舆情数据采集与分析舆情分析是一种通过网络爬虫收集大众言论，并对其进行情感分析和主题分析的方法。

舆情分析可以用于政府决策、企业品牌建设、新闻报道等方面。

我们可以使用Python爬虫从社交媒体平台、论坛等网站上获取公众对某个事件、产品或者品牌的评论和评价。

通过情感分析和主题分析，我们可以了解到大众的看法和反应，为决策提供参考。

案例四：电影数据采集与分析电影作为一种重要的文化载体，一直受到人们的喜爱。

我们可以使用Python爬虫从电影评价网站获取电影的评分、评论、导演等信息。

通过分析这些数据，我们可以了解到观众对于不同类型电影的喜好、各个导演的特点等。

这些信息对于电影业的发展和电影推荐系统的建立都具有重要意义。

综上所述，Python网络爬虫是一种强大的工具，通过它我们能够方便地从互联网上获取各种数据资源。

在数据采集的基础上，我们可以对这些数据进行深入的分析，揭示出一些有价值的信息和规律，为决策和研究提供帮助。

快速入门爬取网站数据十大的步骤

快速入门爬取网站数据十大的步骤：1、了解目标网站：首先，要熟悉你要爬取的网站结构和内容。

浏览一下网站，了解其HTML 结构、CSS样式和JavaScript代码。

2、选择合适的编程语言和库：根据你的编程经验和需求选择合适的编程语言。

Python是一个流行的选择，它有许多强大的库，如BeautifulSoup和Scrapy，可以帮助你轻松地进行网页抓取。

3、学习基本的HTML和CSS选择器：为了从网页中提取所需信息，你需要熟悉HTML元素（如div、span、a等）和CSS选择器（如类名、ID等）。

4、使用请求库获取网页内容：使用编程语言中的请求库（如Python的requests库）向目标网站发出HTTP请求以获取网页内容。

5、解析网页内容：使用解析库（如Python的BeautifulSoup）解析网页内容，提取你感兴趣的数据。

这可能包括文本、链接、图片等。

6、处理分页和导航：如果你要爬取的网站有多个页面，你需要处理分页和导航链接。

这可能包括查找下一页的链接、处理无限滚动页面等。

7、存储抓取到的数据：将提取到的数据存储到适当的文件格式或数据库中，如CSV、JSON、SQLite等。

8、异常处理和优雅地处理错误：编写代码时，确保处理可能遇到的错误和异常情况。

例如，网站可能会更改结构，或者请求可能会因超时而失败。

编写可适应这些问题的代码是很重要的。

9、遵守爬虫道德规范：在爬取网站时，遵循网站的robots.txt文件规定的限制，避免对目标网站的服务器造成不必要的负担。

如果可能的话，限制你的爬虫速度，以减轻对目标网站的影响。

10、学习和实践：最后但同样重要的是，通过实际操作和学习来不断提高你的爬虫技能。

尝试不同的项目，与他人分享你的经验，获取有关网络爬虫最佳实践的建议。

通过遵循这些步骤，你可以作为新手开始爬取网站的数据。

随着时间的推移，你会变得越来越熟练，能够应对更复杂的项目和挑战。

在你成为网络爬虫专家之路上，可以探索以下高级主题：1、使用代理和IP轮换：为了避免被目标网站屏蔽，可以使用代理服务器和IP轮换策略。

Python中的网络爬虫实战案例分析

Python中的网络爬虫实战案例分析网络爬虫是一种自动获取互联网上信息的程序，对于爬取与分析数据而言，Python是非常强大的工具之一。

本文将介绍一个Python中的网络爬虫实战案例分析，旨在帮助读者理解网络爬虫的实际应用。

案例一：豆瓣电影Top250信息爬取豆瓣电影Top250是电影爱好者们了解和评价电影的重要来源之一。

我们可以利用Python中的网络爬虫工具来获取豆瓣电影Top250的相关信息。

首先，我们需要通过分析豆瓣电影Top250的页面结构，找到需要获取的数据所在的HTML标签位置。

然后，使用Python中的第三方库（如BeautifulSoup或Scrapy）来解析HTML，并提取我们需要的数据。

比如，我们可以使用Requests库来发送HTTP请求，获取豆瓣电影Top250的网页源代码。

然后，使用BeautifulSoup库来解析网页源代码，提取其中的电影名称、评分、导演等信息。

最后，将获取的数据保存到本地文件或数据库中，方便日后的使用和分析。

案例二：新闻标题抓取与分析新闻标题是了解当前时事和热点问题的重要途径之一。

我们可以利用Python的网络爬虫实现新闻标题的抓取与分析。

首先，我们需要确定要抓取的新闻网站，了解其网页结构和数据分布。

然后，使用Python的网络爬虫工具根据网站的URL进行爬取。

比如，我们可以使用Requests库发送GET请求，并使用正则表达式或者XPath解析网页源代码，提取出新闻标题的相关信息。

接着，可以应用自然语言处理工具（如NLTK）对新闻标题进行文本分析，提取关键词、情感倾向等信息。

这些信息对于了解新闻热点、舆论导向等方面非常有帮助。

案例三：电商网站商品信息爬取电商网站是我们购物的重要平台，如果能够获取商品信息并进行分析，将有助于我们进行市场调研、价格比较等工作。

我们可以使用Python的网络爬虫实现电商网站商品信息的爬取。

首先，需要确定要爬取的电商网站，并了解其页面结构和数据布局。

10个python爬虫练手项目案例

10个python爬虫练手项目案例学习Python爬虫时，通过完成一些练手项目可以更好地巩固知识。

以下是一些适合初学者的Python爬虫练手项目案例：
1. 简单网页爬取：使用requests 库获取并打印网页的内容。

2. 图片下载器：爬取特定网站上的图片并下载到本地。

3. 新闻网站爬虫：从新闻网站抓取最新的新闻标题和链接。

4. 天气信息获取：从天气网站获取当前城市的天气信息。

5. 翻译工具：制作一个简单的翻译工具，可以将输入的文本翻译成其他语言。

6. 电影信息爬取：从电影数据库（如IMDb）中获取电影的相关信息。

7. GitHub仓库信息：获取GitHub上指定用户或仓库的信息。

8. 豆瓣电影Top250：从豆瓣电影Top250榜单中获取电影信息。

9. 动态网页爬虫：使用Selenium等工具爬取动态加载的网页内容。

10. 招聘信息爬取：从招聘网站上获取特定职位的招聘信息。

这些项目可以帮助您熟悉Python爬虫的基本原理，掌握网络请求、HTML解析、数据存储等技能。

在进行爬虫项目时，请确保遵守网站的使用条款和规定，以避免违反法律或道德规范。

1/ 1。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0 前言工作之余，时常会想能做点什么有意思的玩意。

互联网时代，到处都是互联网思维，大数据、深度学习、人工智能，这些新词刮起一股旋风。

所以笔者也赶赶潮流，买了本Python爬虫书籍研读起来。

网络爬虫，顾名思义就是将互联网上的内容按照自己编订的规则抓取保存下来。

理论上来讲，浏览器上只要眼睛能看到的网页内容都可以抓起保存下来，当然很多网站都有自己的反爬虫技术，不过反爬虫技术的存在只是增加网络爬虫的成本而已，所以爬取些有更有价值的内容，也就对得起技术得投入。

1案例选取人有1/3的时间在工作，有一个开心的工作，那么1/3的时间都会很开心。

所以我选取招聘网站来作为我第一个学习的案例。

前段时间和一个老同学聊天，发现他是在从事交互设计（我一点也不了解这是什么样的岗位），于是乎，我就想爬取下前程无忧网（招聘网_人才网_找工作_求职_上前程无忧）上的交互设计的岗位需求：2实现过程我这里使用scrapy框架来进行爬取。

2.1程序结构C:\Users\hyperstrong\spiderjob_jiaohusheji │scrapy.cfg│└─spiderjob│ items.py│ pipelines.py │ settings.py │ __init__.py│ middlewares.py├─spiders│ jobSpider.py│ __init__.py其中：items.py是从网页抽取的项目jobSpider.py是主程序2.2链接的构造用浏览器打开前程无忧网站招聘网_人才网_找工作_求职_上前程无忧，在职务搜索里输入“交互设计师”，搜索出页面后，观察网址链接：【交互设计师招聘】前程无忧手机网_触屏版/jobsearch/search_result.php?fromJs=1&k eyword=%E4%BA%A4%E4%BA%92%E8%AE%BE%E8%AE%A1%E5%B8%88&keywordty pe=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9 网址链接中并没有页码，于是选择第二页，观察链接:红色标记的为页码，于是可以通过更改此处数字来实现从“第1页”到第44页“的网页自动跳转。

当然读者也可以通过网页内容抓取处下一页的链接进行自动翻页，有兴趣的网友可以试下：2.3网页分析我要抓取的几个数据分别是职位名公司名工作地点薪资发布时间截图如下，右侧是浏览器-开发者工具（F12）里查找的源代码，和网页对应查看：2.4数据字段：items.py# -*- coding: utf-8 -*-# Define here the models for your scraped items# See documentation in:# /en/latest/topics/items.htmlimport scrapyclass SpiderjobItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()jobname = scrapy.Field()companyname= scrapy.Field()workingplace= scrapy.Field()salary= scrapy.Field()posttime= scrapy.Field()2.5主要运行程序我是用的python2.7编写的，并且使用XPath表达式进行数据的筛选和提取。

# -*- coding: utf-8 -*-from scrapy import Requestfrom scrapy.spiders import Spiderfrom spiderjob.items import SpiderjobItemclass jobSpider(Spider):name ='jobSpider'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER','Accept':'text/css,*/*;q=0.1','Accept-Encoding':'gzip, deflate, sdch','Accept-Language':'zh-CN,zh;q=0.8','Referer':'close','Host':''};def start_requests(self):url1 ='/list/000000,000000,0000,00,9,99,%25E4 %25BA%25A4%25E4%25BA%2592%25E8%25AE%25BE%25E8%25AE%25A1%25E5%2 5B8%2588,2,'url2 ='.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&d egreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1& ord_field=0&confirmdate=9&fromType=1&dibiaoid=0&address=&line= &specialarea=00&from=&welfare='url = url1 +'1'+ url2yield Request(url, headers=self.headers)def parse(self, response):item = SpiderjobItem()jobs =response.xpath('//div[@class="dw_table"]/div[@class="el"]') for job in jobs:item['companyname'] = job.xpath('.//span[@class="t2"]/a[@target="_blank"]/text()').extract()[0 ]item['workingplace'] = job.xpath('.//span[@class="t3"]/text()').extract()[0]item['salary'] = job.xpath('.//span[@class="t4"]/text()').extract()item['posttime'] =job.xpath('.//span[@class="t5"]/text()').extract()[0]item['jobname'] = job.xpath('.//p[@class="t1"]/span/a[@target="_blank"]/text()').extract()[0]yield itemfor i in range(2,44):url1 ='/list/000000,000000,0000,00,9,99,%25E4 %25BA%25A4%25E4%25BA%2592%25E8%25AE%25BE%25E8%25AE%25A1%25E5%2 5B8%2588,2,'url2 ='.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&d egreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1& ord_field=0&confirmdate=9&fromType=1&dibiaoid=0&address=&line= &specialarea=00&from=&welfare='next_url = url1 +str(i)+ url2yield Request(next_url,headers=self.headers,callback=self.parse)2.6抓取效果：在开始运行里输入里cmd，修改路径为C:\Users\hyperstrong\spiderjob_jiaohusheji 。

然后输入scrapy crawl jobSpder -o jiaohusheji.csv3数据进行简单分析从excel表格里抽取2个特征：薪资和城市分析不同城市的交互设计岗位平均薪资分析不同城市对于交互设计岗位需求，即在该城市是否容易找到工作说干就干，代码奉上：#!/usr/bin/python# -*- coding: UTF-8 -*-import pandas as pdimport numpy as npfrom datetime import datetimeimport matplotlib.pyplot as pltimport sysimport reimport csvimport stringdef analyze_job_demand (filepath):data = pd.read_csv(filepath)wp=[]num=len(data['workingplace'])for i in range(0,num-1):a=data['workingplace'].ix[i].decode('utf-8') b=a[0:2].encode('utf-8')wp.append(b)bj=wp.count('北京')sh=wp.count('上海')gz=wp.count('广州')sz=wp.count('深圳')wh=wp.count('武汉')cd=wp.count('成都')cq=wp.count('重庆')zz=wp.count('郑州')nj=wp.count('南京')sz1=wp.count('苏州')hz=wp.count('杭州')xa=wp.count('西安')dl=wp.count('大连')qd=wp.count('青岛')cs=wp.count('长沙')nc=wp.count('南昌')hf=wp.count('合肥')nb=wp.count('宁波')km=wp.count('昆明')last=num-bj-sh-gz-sz-wh-cd-cq-nj-sz1-hz-xa-cs-hf print( u'武汉的交互设计相关岗位占全国的需求比例为:'+str(float(wh)/num*100)+'%')print( u'苏州的交互设计相关岗位占全国的需求比例为:'+str(float(sz1)/num*100)+'%')print( u'杭州的交互设计相关岗位占全国的需求比例为:'+str(float(hz)/num*100)+'%')print( u'合肥的交互设计相关岗位占全国的需求比例为:'+str(float(hf)/num*100)+'%')print( u'长沙的交互设计相关岗位占全国的需求比例为:'+str(float(cs)/num*100)+'%')print( u'北京的交互设计相关岗位占全国的需求比例为:'+str(float(bj)/num*100)+'%')print( u'上海的交互设计相关岗位占全国的需求比例为:'+str(float(sh)/num*100)+'%')print( u'广州的交互设计相关岗位占全国的需求比例为:'+str(float(gz)/num*100)+'%')print( u'深圳的交互设计相关岗位占全国的需求比例为:'+str(float(sz)/num*100)+'%')print( u'重庆的交互设计相关岗位占全国的需求比例为:'+str(float(cq)/num*100)+'%')print( u'成都的交互设计相关岗位占全国的需求比例为:'+str(float(cd)/num*100)+'%')print( u'南京的交互设计相关岗位占全国的需求比例为:'+str(float(nj)/num*100)+'%')print( u'西安的交互设计相关岗位占全国的需求比例为:'+str(float(xa)/num*100)+'%')#绘制饼图#调节图形大小，宽，高plt.figure(figsize=(6,9))#定义饼状图的标签，标签是列表labels =['shanghai','shenzhen','beijing','guangzhou','hangzhou','wuhan','chengdu','chongqing','nanjing','suzhou','xian','changsha',' hefei','else']sizes = [sh,sz,bj,gz,hz,wh,cd,cq,nj,sz1,xa,cs,hf,last]colors =['red','yellowgreen','lightskyblue','blue','pink','coral','ora nge']#将某部分爆炸出来，使用括号，将第一块分割出来，数值的大小是分割出来的与其他两块的间隙explode = (0.05,0,0,0,0,0,0,0,0,0,0,0,0,0)patches,l_text,p_text =plt.pie(sizes,explode=explode,labels=labels,colors=colors,labeldistance =1.1,autopct ='%3.1f%%',shadow =False,startangle =90,pctdistance =0.6) #labeldistance，文本的位置离远点有多远，1.1指1.1倍半径的位置#autopct，圆里面的文本格式，%3.1f%%表示小数有三位，整数有一位的浮点数#shadow，饼是否有阴影#startangle，起始角度，0，表示从0开始逆时针转，为第一块。