基于python的网络爬虫设计

合集下载

python网络爬虫课课程设计

python网络爬虫课课程设计一、教学目标本课程的学习目标包括以下三个方面：1.知识目标：学生需要掌握Python网络爬虫的基本概念、原理和常用库，如requests、BeautifulSoup等。

了解网络爬虫的分类、爬取策略和工作原理，以及与之相关的数据解析、持久化存储等知识。

2.技能目标：学生能够运用Python网络爬虫编写简单的爬虫程序，实现对网页数据的抓取、解析和分析。

具备解决实际网络爬虫问题的能力，如处理登录认证、模拟浏览器行为、反爬虫策略等。

3.情感态度价值观目标：培养学生对网络爬虫技术的兴趣和热情，使其认识到网络爬虫在信息获取、数据分析和网络监测等方面的应用价值。

同时，引导学生树立正确的网络安全意识，遵循道德规范，不滥用网络爬虫技术。

二、教学内容本课程的教学内容主要包括以下几个部分：1.Python网络爬虫基本概念和原理：介绍网络爬虫的定义、分类、爬取策略和工作原理。

2.常用Python网络爬虫库：讲解requests、BeautifulSoup、lxml等库的使用方法，以及如何选择合适的库进行数据抓取和解析。

3.数据解析和处理：学习如何提取网页中的文本数据、图像数据、音频数据等，并进行预处理和清洗。

4.持久化存储：了解如何将抓取的数据存储到文件、数据库等介质中，以便后续分析和使用。

5.实战项目：通过实际案例，让学生学会运用Python网络爬虫解决实际问题，如爬取某的资讯、监测网络舆情等。

6.反爬虫策略与应对：讲解反爬虫技术的原理和常见形式，如验证码、动态加密等，以及如何应对反爬虫策略。

三、教学方法本课程采用以下几种教学方法：1.讲授法：讲解Python网络爬虫的基本概念、原理和常用库。

2.案例分析法：通过分析实际案例，让学生学会运用Python网络爬虫解决实际问题。

3.实验法：让学生动手编写爬虫程序，进行数据抓取和分析，提高实际操作能力。

4.讨论法：学生分组讨论，分享学习心得和解决问题的方法，培养团队合作精神。

基于python爬虫的毕业设计

基于Python爬虫的毕业设计一、引言在当今信息化时代，互联网是获取各类信息的主要途径之一。

人们需要从网络上获取各种数据，并进行分析和研究。

而爬虫技术作为一种能够自动从网页中提取数据的工具，被广泛应用于各个领域。

本文以基于Python的爬虫技术为研究对象，探讨其在毕业设计中的应用。

二、Python爬虫的基本原理Python爬虫是通过程序模拟人的行为来访问网络，并获取所需数据的过程。

其基本原理包括以下几个步骤： 1. 发送HTTP请求：通过HTTP协议向目标网站发送请求，并获取相应的数据。

2. 解析HTML页面：将获取的网页内容进行解析，提取出需要的数据。

3. 数据存储和处理：将获取的数据存储到本地或者数据库中，并进行进一步的处理和分析。

三、Python爬虫的工具和库Python爬虫可以使用多种工具和库来实现，下面介绍几个常用的工具和库： 1. Requests库：用于发送HTTP请求和获取网页内容。

2. BeautifulSoup库：用于解析HTML页面，提取出需要的数据。

3. Scrapy框架：一个强大的Python爬虫框架，提供了高效的数据提取和爬取功能。

4. Selenium库：用于模拟浏览器操作，解决动态网页的爬取问题。

四、Python爬虫的应用领域Python爬虫在各个领域都有广泛的应用，下面列举几个常见的应用领域： ###4.1 网络数据分析爬虫可以用于获取网络上的各种数据，如新闻、股票、天气等，以及社交媒体上的用户信息和评论等。

这些数据可以被用于进行数据分析和挖掘，为决策提供依据。

4.2 商品价格监控通过爬虫技术，可以实时监控电商网站上商品的价格和促销活动，及时获取最低价格和优惠信息，为消费者提供购物建议。

4.3 数据采集和整合爬虫可以用于采集和整合各种数据，如学术论文、专利信息等，为科研人员和企业提供便利。

4.4 搜索引擎优化通过爬虫技术，可以获取搜索引擎的排名结果，了解竞争对手的网站结构和内容，从而优化自己的网站。

python爬虫的实验报告

python爬虫的实验报告一、实验目的随着互联网的迅速发展，大量有价值的数据散落在各个网站中。

Python 爬虫作为一种获取网络数据的有效手段，具有广泛的应用前景。

本次实验的目的是通过使用 Python 编写爬虫程序，深入理解网络爬虫的工作原理，掌握基本的爬虫技术，并能够成功获取指定网站的数据。

二、实验环境1、操作系统：Windows 102、开发工具：PyCharm3、编程语言：Python 3x三、实验原理网络爬虫的基本原理是模拟浏览器向服务器发送请求，获取服务器返回的 HTML 页面，然后通过解析 HTML 页面提取所需的数据。

在Python 中，可以使用`requests`库发送请求，使用`BeautifulSoup`或`lxml`库解析 HTML 页面。

四、实验步骤（一）安装所需库首先，需要安装`requests`、｀BeautifulSoup4`和`lxml`库。

可以通过以下命令使用`pip`安装：｀｀｀pip install requestspip install beautifulsoup4pip install lxml｀｀｀（二）分析目标网站选择一个要爬取的目标网站，例如具体网站地址。

对该网站的页面结构进行分析，确定要获取的数据所在的位置以及页面的链接规律。

（三）发送请求获取页面使用`requests`库发送 HTTP 请求获取目标页面的 HTML 内容。

以下是一个简单的示例代码：｀｀｀pythonimport requestsdef get_html(url)：response ＝ requestsget(url)if responsestatus_code ＝＝ 200:return responsetextelse:print(＂请求失败，状态码：＂， responsestatus_code)return Noneurl ＝＂＂html ＝ get_html(url)｀｀｀（四）解析页面提取数据使用`BeautifulSoup`或`lxml`库对获取到的 HTML 内容进行解析，提取所需的数据。

基于python的本科毕业设计题目

基于Python的本科毕业设计题目及分析==================1. 网络爬虫与数据挖掘------------------题目：基于Python的网络爬虫与数据挖掘应用研究分析：本题目要求设计并实现一个网络爬虫系统，用于从互联网上自动收集数据，并进行数据清洗、存储和分析。

该系统需要能够处理各种网页结构，使用爬虫框架如Scrapy或BeautifulSoup进行数据抓取，并利用数据库进行存储。

在数据挖掘方面，需要对抓取的数据进行分析和处理，提取有用的信息，可以使用机器学习、自然语言处理等技术。

2. 自动化与脚本编写----------------题目：基于Python的自动化测试与脚本编写研究分析：本题目要求设计并实现一个自动化测试框架，用于对各种软件进行自动化测试，包括功能测试、性能测试等。

该框架需要能够模拟用户行为，进行界面操作和数据输入，并能够解析测试结果，给出报告。

同时，需要编写各种测试脚本，利用Python的语法和第三方库进行测试。

3. Web开发与后端开发-----------------题目：基于Python的Web应用开发与后端开发研究分析：本题目要求设计并实现一个Web应用，包括前端和后端的开发。

前端可以使用HTML、CSS和JavaScript等技术，后端则需要使用Python的Web框架如Django或Flask进行开发。

需要实现各种功能，如用户登录、数据展示、表单处理等，并能够进行高效的数据库操作。

4. 图像处理与计算机视觉-------------------题目：基于Python的图像处理与计算机视觉应用研究分析：本题目要求设计并实现一个图像处理和计算机视觉的应用，可以进行图像的各种操作，如缩放、旋转、裁剪等，并能够进行图像识别、目标检测等任务。

需要使用Python的图像处理库如Pillow或OpenCV进行开发。

同时，需要进行算法研究和优化，提高应用的性能和准确性。

基于Python的网络爬虫技术研究与应用

基于Python的网络爬虫技术研究与应用一、引言网络爬虫（Web Crawler）是一种自动获取网页信息的程序或脚本，它可以模拟人类浏览网页的行为，按照一定的规则抓取互联网上的信息。

Python作为一种简洁、易学、功能强大的编程语言，被广泛应用于网络爬虫技术的研究和实践中。

本文将探讨基于Python的网络爬虫技术在不同领域的应用，并介绍其原理和实现方法。

二、网络爬虫技术概述网络爬虫技术是信息检索和数据挖掘领域的重要组成部分，它可以帮助用户从海量的网络数据中快速准确地获取所需信息。

基本上，一个网络爬虫程序主要包括以下几个步骤：发送HTTP请求、获取网页内容、解析网页数据、存储数据等。

Python语言具有丰富的库和框架，如Requests、BeautifulSoup、Scrapy等，可以帮助开发者轻松实现各种复杂的网络爬虫功能。

三、Python网络爬虫技术原理1. 发送HTTP请求在进行网页抓取之前，首先需要向目标网站发送HTTP请求，获取网页内容。

Python中的Requests库提供了简洁易用的API，可以方便地发送GET或POST请求，并处理服务器返回的响应数据。

2. 解析网页数据获取到网页内容后，需要对其进行解析提取所需信息。

BeautifulSoup是一个强大的HTML解析库，可以帮助开发者高效地从HTML或XML文档中提取数据，并支持多种解析器。

3. 存储数据爬取到的数据通常需要进行存储和分析。

Python中可以使用各种数据库（如MySQL、MongoDB）或文件格式（如CSV、JSON）来保存爬取到的数据，以便后续处理和分析。

四、Python网络爬虫技术应用1. 网络数据采集利用Python编写网络爬虫程序，可以实现对特定网站或页面的数据采集。

比如新闻网站、电商平台等，可以通过网络爬虫定时抓取最新信息，为用户提供及时准确的数据支持。

2. SEO优化搜索引擎优化（SEO）是提升网站在搜索引擎中排名的关键技术之一。

Python网络爬虫设计与实现-课件详解

数据可视化
学习使用Python的数据可视化工具创建图表和可视化呈现数据。
Pandas库应用
了解如何使用Pandas库对爬虫数据进行处理和分析。
爬取动态网页的方法与技巧
1 动态网页基础
了解动态网页的基本原理和技术。
2 模拟浏览器行为
学习使用Selenium模拟浏览器行为来解析动态网页。
3 AJAX抓包
学习如何使用解析库解析和提取XML页面的数据。
3 JSON解析
介绍如何使用解析库解析和提取JSON数据。如何提高爬虫效率与稳定性
1
多线程/多进程
了解并实践使用多线程或多进程提高爬
异步请求
2
虫效率。
介绍异步请求的概念和使用方法以提高
爬虫的效率。
3
错误处理和重试
学习如何处理爬虫中的错误和异常，并进行自动重试。
学习如何使用爬虫爬取和保存网页上的图片数据。
视频爬取技巧
了解如何使用爬虫爬取和保存网页上的视频数据。
图像识别技术
介绍使用图像识别技术自动识别和下载网页中的图片。
数据提取技术
学习使用XPath和正则表达式提取网页中的数据。
API集成
了解通过API和Web Services获取结构化数据的方法。
RSS订阅
介绍如何使用爬虫订阅和提取 RSS源的内容。
网页解析的基本方法及相关技术
1 HTML解析
了解如何使用解析库解析和提取HTML 页面的数据。
2 XML解析
学习URL解析和请求头设置的基本知识。
常见请求错误
介绍一些常见的网络请求错误和解决方法。
爬虫的常见反爬策略及应对方法
1
IP封禁

基于python爬虫的毕业设计

基于python爬虫的毕业设计一、背景介绍随着互联网的普及，越来越多的信息被发布在网上，这些信息的数量庞大，种类繁多，对于人们的信息获取需求提出了更高的要求。

因此，网络爬虫技术应运而生，它可以自动化地从互联网上抓取信息，为人们提供便利。

本毕业设计基于Python语言，使用网络爬虫技术，实现对某个网站上的信息进行抓取和分析，从而实现对该网站的数据分析和挖掘。

二、设计目标本毕业设计的主要目标是使用Python爬虫技术，实现对某个网站上的信息进行抓取和分析，具体包括以下几个方面：1. 实现对指定网站的数据抓取，包括网站上的文本、图片、视频等信息。

2. 实现对抓取到的数据进行分析和挖掘，包括数据的统计、可视化等操作。

3. 实现对抓取到的数据进行存储和管理，包括数据的备份、恢复、查询等操作。

三、技术实现1. 网络爬虫技术网络爬虫是一种自动化程序，可以模拟浏览器行为，从网站上抓取数据。

Python 语言具有强大的网络爬虫库，如Requests、BeautifulSoup、Scrapy等，可以方便地实现对网站的数据抓取。

2. 数据分析和挖掘技术Python语言具有丰富的数据分析和挖掘库，如NumPy、Pandas、Matplotlib 等，可以方便地实现对抓取到的数据进行分析和挖掘，例如统计、可视化等操作。

3. 数据库技术本毕业设计需要实现对抓取到的数据进行存储和管理，因此需要使用数据库技术。

Python语言具有多种数据库库，如MySQL、SQLite、MongoDB等，可以方便地实现对数据的存储和管理。

四、实现步骤1. 确定抓取目标首先需要确定要抓取的网站和信息类型，例如新闻、图片、视频等。

2. 编写爬虫程序使用Python语言编写网络爬虫程序，实现对网站上的数据抓取。

可以使用Requests库实现对网站的请求，使用BeautifulSoup库实现对网站的解析，从而获取所需的数据。

3. 数据分析和挖掘使用Python语言的数据分析和挖掘库，对抓取到的数据进行分析和挖掘，例如统计、可视化等操作。

Python网络爬虫实践教程

Python网络爬虫实践教程一、什么是网络爬虫网络爬虫，也称为网络蜘蛛或网络机器人，是一种自动获取互联网信息的程序工具。

通过模拟浏览器行为，爬虫程序可以访问网页、提取网页中的数据，在大规模数据采集、搜索引擎、数据分析等领域发挥着重要作用。

二、网络爬虫的基本原理网络爬虫的基本原理是通过发送HTTP请求，并解析响应得到的HTML文档来获取网页数据。

首先，我们需要使用Python中的requests库发送网络请求，并获得服务器的响应。

然后，通过解析HTML文档，提取出我们需要的数据。

三、准备工作在开始编写网络爬虫之前，我们需要安装Python以及相关的库。

首先，需要安装Python解释器和pip包管理工具。

然后，使用pip安装requests、beautifulsoup和lxml等库。

四、发送HTTP请求在编写爬虫程序之前，我们需要了解如何使用Python发送HTTP请求。

使用requests库发送GET请求非常简单，只需要调用get方法，并提供目标网址即可。

如果需要发送POST请求，同样使用post方法，并在参数中传递需要提交的数据。

五、解析HTML文档解析HTML文档是爬虫中非常重要的一步。

Python提供了多种解析HTML的库，其中比较常用的是beautifulsoup和lxml。

通过指定解析器，我们可以轻松地提取出HTML文档中的各个元素，并进行进一步的处理。

六、处理反爬机制为了阻止爬虫程序的访问，许多网站采取了反爬机制，例如设置验证码、限制IP访问频率等。

对于这些反爬措施，我们可以通过使用代理IP、设置请求头信息、使用验证码识别技术等方法来绕过。

七、数据存储与分析在爬虫过程中，我们通常需要将获取的数据进行存储和分析。

常用的数据存储方式包括将数据保存到数据库、文本文件、Excel 表格或者CSV文件中。

而要对数据进行分析，可以使用Python中的数据分析库，如pandas、numpy等。

八、实践案例：爬取豆瓣电影数据为了更好地理解网络爬虫的实践过程，我们以爬取豆瓣电影数据为例进行讲解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于python的网络爬虫设计【摘要】近年来，随着网络应用的逐渐扩展和深入，如何高效的获取网上数据成为了无数公司和个人的追求，在大数据时代，谁掌握了更多的数据，谁就可以获得更高的利益，而网络爬虫是其中最为常用的一种从网上爬取数据的手段。

网络爬虫，即Web Spider，是一个很形象的名字。

如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页的。

从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

那么，既然网络爬虫有着如此先进快捷的特点，我们该如何实现它呢？在众多面向对象的语言中，首选python，因为python是一种“解释型的、面向对象的、带有动态语义的”高级程序，可以使人在编程时保持自己的风格，并且编写的程序清晰易懂，有着很广阔的应用前景。

关键词python 爬虫数据1 前言1.1本编程设计的目的和意义随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。

搜索引擎（例如传统的通用搜索引擎AltaVista，Yahoo!和Google等）作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是，这些通用性搜索引擎也存在着一定的局限性，如： (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2) 通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

(4) 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。

聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。

与通用爬虫(generalpurpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

1.2编程设计目及思路1.2.1编程设计目的学习了解并熟练掌握python的语法规则和基本使用，对网络爬虫的基础知识进行了一定程度的理解，提高对网页源代码的认知水平，学习用正则表达式来完成匹配查找的工作，了解数据库的用途，学习mongodb数据库的安装和使用，及配合python的工作。

1.2.2设计思路（1)以世纪佳缘网为例，思考自己所需要的数据资源，并以此为基础设计自己的爬虫程序。

（2)应用python伪装成浏览器自动登陆世纪佳缘网，加入变量打开多个网页。

（3)通过python的urllib2函数进行世纪佳缘网源代码的获取。

（4)用正则表达式分析源代码，找到所需信息导入excel。

（5)连接数据库，将爬下的数据存储在数据库中。

1.3本编程设计应达到的要求1、对特定的网站爬取特定的数据；2、实现代码和得到结果；3、能够和数据库进行连接，将爬下的数据存储在数据库中。

4、将爬下的数据储存在excel中方便编辑。

2 编程设计方案2.1爬取方案2.1.1所需爬取的数据以世纪佳缘网为例，所需要爬取的数据为注册世纪佳缘网的人的用户名、真实姓名、性别、年龄、学历、月收入这些直观信息。

2.1.2用python获取世纪佳缘网的源代码爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。

因此，准确地理解URL对理解网络爬虫至关重要。

URL是URI的一个子集。

它是Uniform Resource Locator的缩写，译为“统一资源定位符”。

通俗地说，URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。

采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

URL的格式由三部分组成：①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址，如目录和文件名等。

第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的，第三部分有时可以省略。

例如：/talk/talk1.htm 其计算机域名为；超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。

这是瑞得聊天室的地址，可由此进入瑞得聊天室的第1室。

Python获取网页源代码可用urllib或urllib2函数进行，极其方便快捷，代码如下：import urllib2response = urllib2.urlopen('/')html = response.read()print html2.1.3应用python伪装成浏览器自动登陆世纪佳缘网，加入变量打开多个网页。

有了源代码就可以进行数据的爬取了，但是因为世纪佳缘网近日进行了改版，简单的爬虫程序已经无法在对其进行全网页的爬取工作了，所以，在获取数据之前，需要对爬虫进行一下伪装，使其成为一个浏览器，以实现全网页的爬取工作。

应用opener和header的基础知识即可实现伪装成浏览器这一步骤。

在伪装的同时，需要加入变量来打开多个网页，是的爬取工作可以顺利进行。

代码如下：r=0w=3013while 3012<w<9999:w=w+1k=str(w)login_page = "/dologin.php?pre_url=http://usercp.jiayuan.co m/"cj = cookielib.CookieJar()opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]data = urllib.urlencode({"name":"****************","password":"benben12"}) opener.open(login_page,data)op=opener.open("/10796"+k)html=op.read()2.14 用正则表达式分析网页源代码正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。

其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。

它拥有自己独特的语法以及一个独立的处理引擎，在提供了正则表达式的语言里，正则表达式的语法都是一样的。

下图为使用正则表达式进行匹配的流程：正则表达式的大致匹配过程是：1.依次拿出表达式和文本中的字符比较，2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。

3.如果表达式中有量词或边界，这个过程会稍微有一些不同。

Python是通过re模块实现对正则表达式的调用的。

程序代码如下：find_re = pile(r"absolute.+?span>(.*?)</.+?>></a>(.*?)</h2>.+?(.*?)</s.+?(.*?)</s.+?(.*?)</sp.+?(.*?)</sp.+?",re.DOTALL)2.2存储方案2.2.1储存在excel表格中Excel表格具有方便筛选、查找和编辑的特点，所以将网络爬虫爬取的数据储存在excel 表格中是首选。

使用python建立excel表格是十分容易，代码如下：filename = xlwt.Workbook ()sheet = filename.add_sheet('name')建立完成后可将数据写入excel表格：for a in x:sheet.write(r,0,a[0].decode("utf-8"))sheet.write(r,1,a[1].decode("utf-8"))sheet.write(r,2,a[2].decode("utf-8"))sheet.write(r,3,a[3].decode("utf-8"))sheet.write(r,4,a[4].decode("utf-8"))sheet.write(r,5,a[5].decode("utf-8"))r=r+1print r+3012filename.save('test3.xls')2.2.2储存在数据库中数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

将数据储存在数据库中也具有直观简洁的特点。

Python调用数据库是用pymongo模块，创建与导入代码如下：db = pymongo.Connection().testfor a in x:values=dict(img=a[0].decode("utf-8"),infor=a[1].decode("utf-8"),age=a[2].decode("utf-8"),adress=a[3].decode("utf-8"),marry=a[4].decode("utf-8"))er.insert({'values':values})content = er.find()for a in x:print 'img:'+a[0].decode("utf-8")print 'infor:'+a[1].decode("utf-8")print 'age:'+a[2].decode("utf-8")print 'adress:'+a[3].decode("utf-8")print 'marry:'+a[4].decode("utf-8")3、总结本程序利用了python语言编写网络爬虫程序，实现了从世纪佳缘网上爬取用户数据资料，使用urllib函数以及re模块、pymongo模块进行源代码的获取、编辑和数据的导出，并针对网页代码中无性别显示的问题，采取爬取注册用户信息同时爬取注册用户照片地址的方式解决，浏览所爬取信息时，只需将照片地址输入浏览器地址栏，即可得到所查看用户上传的自拍照，得到形象信息。