基于Hadoop的分布式主题网络爬虫研究_李应

合集下载

基于Hadoop的分布式搜索引擎研究与实现探讨

基于Hadoop的分布式搜索引擎研究与实现探讨现今，互联网的信息已经融入了人们的生活与学习中，人们越来越重视信息获取的能力。

传统的集中式搜索引擎，存在覆盖范围窄，更新时间长，返回结果多，存在查询歧义等问题，已经不能适应现今网络的发展，开发出一种可以快速处理信息，准确获取资源的搜索引擎，是现今网络研究的热点[1]。

因此，分布式搜索引擎应运而生。

该搜索引擎具备分布式处理信息的作用，可以对系统规模进行扩展，进而提高系统处理信息的能力。

本文从几方面，对在Hadoop平台下，分布式搜素引擎进行一定的探讨，期望可以为网络系统的长远发展提供借鉴。

一、Hadoop 平台概述Hadoop平台，是一种具备扩展性、可靠性、高效性、低成本的软件框架，是分布式处理的软件平台，常被用来处理与运行海量数据。

Hadoop的扩展性，体现在可以处理PB 级数据；Hadoop的可靠性，体现在可以保护多个工作数据副本，可以对失败的节点进行重新分布操作。

Hadoop的高效性，体现在经由并行处理的模式，可以显著提高处理速度。

Hadoop 的低成本，体现在它的服务器较为低端，甚至普通的PC机就能作为集群的一员，实现的成本可以得到有效控制[2]。

现今，伴随多个版本的进展，Hadoop已经发展成为搜索引擎中的理想平台。

分布式文件系统、分布式计算MapReduce，是Hadoop平台的两大核心。

除了核心内容外，还包括Hbase；Hvie；Chukwa；Avro；Common诸多子项目。

子项目之间，可以进行服务的互助操作，或者是依据核心层，为更高级别提供服务[3]。

二、基于Hadoop 的分布式搜索引擎的原理及优势1.分布式搜索引擎的原理分布式搜索引擎，其依据的标准为地域、IP 地址、主题等，将全网分为多个区域，进而形成网络区域的自行管理。

任何自治区，都是通过检索服务器完成相应的工作。

具体讲，一个基本的分布式搜索引擎包括分布式信息采集器、分布式索引器以及分布式检索器三部分。

基于Hadoop的分布式搜索引擎研究与实现

太原理工大学硕士学位论文基于Hadoop的分布式搜索引擎研究与实现姓名：封俊申请学位级别：硕士专业：软件工程指导教师：胡彧20100401基于Hadoop的分布式搜索引擎研究与实现摘要分布式搜索引擎是一种结合了分布式计算技术和全文检索技术的新型信息检索系统。

它改变了人们获取信息的途径，让人们更有效地获取信息，现在它已经深入到网络生活的每一方面，被誉为上网第一站。

目前的搜索引擎系统大多都拥有同样的结构——集中式结构，即系统所有功能模块集中部署在一台服务器上，这直接导致了系统对服务器硬件性能要求较高，同时，系统还有稳定性差、可扩展性不高的弊端。

为了克服以上弊端就必须采购极为昂贵的大型服务器来满足系统需求，然而并不是所有人都有能力负担这样高昂的费用。

此外，在传统的信息检索系统中，许多都采用了比较原始的字符串匹配方式来获得搜索结果，这种搜索方式虽然实现简单，但在数据量比较大时，搜索效率非常低，导致用户无法及时获得有效信息。

以上这两个缺点给搜索引擎的推广带来了很大的挑战。

为应对这个挑战，在搜索引擎系统中引入了分布式计算和倒排文档全文检索技术。

本文在分析当前几种分布式搜索引擎系统的基础上，总结了现有系统的优缺点，针对现有系统的不足，提出了基于Hadoop的分布式搜索引擎。

主要研究工作在于对传统搜索引擎的功能模块加以改进，对爬行、索引、搜索过程中的步骤进行详细分析，将非顺序执行的步骤进一步分解为两部分：数据计算和数据合并。

同时，应用Map/Reduce编程模型思想，把数据计算任务封装到Map函数中，把数据合并任务封装到Reduce函数中。

经过以上改进的搜索引擎系统可以部署在廉价PC构成的Hadoop分布式环境中，并具有较高的响应速度、可靠性和扩展性。

这与分布式搜索引擎中的技术需求极为符合，因此本文使用Hadoop作为系统分布式计算平台。

此外，系统使用了基于倒排文档的全文检索技术，构建了以关键词为单位的倒排索引模块，同时结合TF-IDF和PageRank算法，改进了网页评分策略，优化了搜索结果。

《2024年基于Hadoop的海量数据处理模型研究和应用》范文

《基于Hadoop的海量数据处理模型研究和应用》篇一一、引言随着信息化和数字化进程的深入，数据量的爆发性增长带来了海量的数据处理挑战。

面对如此庞大的数据量，传统的数据处理方法已经难以满足需求。

因此，基于Hadoop的海量数据处理模型的研究和应用显得尤为重要。

Hadoop作为一种分布式计算框架，具有高可扩展性、高容错性和低成本等特点，为海量数据处理提供了有效的解决方案。

二、Hadoop技术概述Hadoop是一个由Apache基金会开发的分布式计算平台，其核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。

HDFS为海量数据提供了高可靠性的存储服务，而MapReduce则是一种编程模型，用于处理大规模数据集。

Hadoop 的优点在于其能够处理海量数据，具有高可扩展性、高容错性和低成本等特点。

三、基于Hadoop的海量数据处理模型研究1. 数据存储模型Hadoop的海量数据处理模型中，数据存储采用分布式文件系统HDFS。

HDFS将文件分割成多个块，并将这些块存储在多个节点上，从而实现了数据的分布式存储。

这种存储模型具有高可靠性和容错性，能够保证数据的完整性和安全性。

2. 数据处理模型Hadoop的数据处理模型采用MapReduce编程模型。

MapReduce将复杂的计算任务分解为多个简单的子任务，这些子任务在集群中并行执行。

Map阶段负责数据映射，将输入数据分解成键值对；Reduce阶段则对键值对进行规约操作，得出最终结果。

这种处理模型能够充分利用集群的计算能力，提高数据处理的速度和效率。

四、基于Hadoop的海量数据处理应用1. 日志数据分析日志数据是互联网公司的重要资产之一，其数量庞大且增长迅速。

基于Hadoop的海量数据处理模型可以有效地处理和分析日志数据。

通过MapReduce编程模型，将日志数据分解成多个小文件并存储在HDFS中，然后进行数据分析和挖掘，得出有价值的结论。

基于Hadoop的大数据技术研究与应用

基于Hadoop的大数据技术研究与应用一、概述随着互联网的迅速发展和普及，大数据已经成为互联网行业中一个不可忽视的重要领域。

如何高效地对大数据进行收集、存储、分析和应用，是当前互联网行业中急需解决的问题。

基于Hadoop的大数据技术在这方面发挥了非常重要的作用，本文将从Hadoop的基本架构、数据存储、数据处理、数据安全等方面对基于Hadoop的大数据技术进行深入研究，并对其应用进行分析。

二、Hadoop基本架构Hadoop的基本架构主要由两个部分组成：HDFS和MapReduce。

其中，HDFS是Hadoop分布式文件系统，用于存储大量数据，具有高可靠性、高扩展性和高容错性等特点。

MapReduce是Hadoop的并行处理框架，用于将大量数据分解为多个小块，并将这些小块分配给不同的计算节点进行处理，最终将处理结果收集起来。

Hadoop中还有一个重要的组件是YARN，即“Yet Another Resource Negotiator”，它用于管理Hadoop的计算资源，包括CPU、内存等。

通过YARN，Hadoop可以更加灵活地利用计算资源，提高计算效率和数据处理速度。

三、数据存储在Hadoop中，数据存储和计算是分开的，数据存储在HDFS 中，而计算则由MapReduce执行。

由于HDFS是一个分布式文件系统，数据可以被分散存储在多个计算节点上，这样可以大大提高数据的可靠性和容错性。

Hadoop中的数据一般都是以键值对（key-value）形式进行存储，这种方式可以更方便地进行数据的查询和处理。

同时，Hadoop还支持多种数据存储格式，如文本、序列化、二进制、JSON、CSV 等，可以根据实际需求选择适合的存储格式。

四、数据处理Hadoop最重要的功能就是数据处理，它通过MapReduce框架实现对大规模数据的分布式处理。

其中，Map阶段主要用于对数据进行拆分和处理，Reduce阶段则用于将各个Map节点处理的结果进行汇总。

基于Hadoop的分布式机器学习算法研究

基于Hadoop的分布式机器学习算法研究随着人工智能时代的到来，数据规模和数据复杂度的不断增加，对于算法的效率和精度提出了更高的要求。

而随着Hadoop等分布式计算平台的发展，基于Hadoop的分布式机器学习算法也逐渐成为一个热门研究方向。

本文将综述基于Hadoop的分布式机器学习算法的研究进展和应用情况，以及未来的发展趋势。

一、分布式机器学习算法的背景和意义随着人类生产和社会活动的数字化，互联网、移动通信、物联网等技术的发展，数据规模愈来愈大，而数据结构也变得复杂，数据处理的过程也愈加耗时和高成本。

同时，随着机器学习算法的进步，其在业务决策、大数据挖掘、生物信息学等方面的应用也愈发广泛。

分布式机器学习算法的出现正是针对上述背景，试图通过并行计算技术来加速机器学习算法的训练过程。

相比于传统的机器学习算法的串行实现，分布式机器学习算法可以更好地满足大规模数据处理的需求，并且通过分布式的方式，不但可以减少运算时间，同时还能够充分发挥大规模计算机集群的优势。

因此，分布式机器学习算法成为当今机器学习领域的研究热点之一。

二、Hadoop的分布式计算框架Hadoop作为一个开源的分布式计算框架，已经被广泛应用于大数据处理、机器学习、推荐系统等领域。

它采用了分布式文件系统（HDFS）和分布式计算框架（MapReduce）两个核心技术，实现了海量数据的存储和高效计算。

Hadoop生态系统中还有很多其他的组件（如Hive、HBase、Pig等），它们可以帮助开发人员更快地实现特定领域的应用。

在Hadoop中，MapReduce是最基本的计算模型，它将大任务切割成小任务，分配到多台计算机上并行执行，最后再将结果合并起来。

这样做不但可以提高计算速度，还可以避免单点故障，提高系统稳定性。

因此，MapReduce被广泛用于分布式机器学习算法的实现。

例如，以梯度下降为优化方法的线性回归算法、逻辑回归算法等。

三、基于Hadoop的分布式机器学习算法1. 基于Hadoop的决策树算法决策树是一种常用的机器学习算法，可以用于分类和回归分析。

基于Hadoop的分布式爬虫及其实现

基于Hadoop的分布式爬虫及其实现引言随着互联网的快速发展和信息的爆炸式增长，大数据时代已经来临。

海量的数据涌入网络，并形成了一个巨大的信息资源库。

如何有效地从这个海洋中提取有价值的信息，成为了当今互联网领域面临的重要挑战之一。

为了应对这一挑战，分布式爬虫技术应运而生。

本文将介绍基于Hadoop的分布式爬虫的实现过程及其优势。

一、分布式爬虫的背景与意义1.1 现有的爬虫技术传统的爬虫技术主要是基于单机环境下的串行爬虫，即一个爬虫程序在一个机器上运行，通过遍历链接、下载网页并解析的方式进行信息抓取。

然而，在处理大规模的数据量时，单机环境面临着许多挑战，如性能瓶颈、系统崩溃等。

1.2 分布式爬虫的优势与应用分布式爬虫依赖于分布式计算框架，如Hadoop，将爬取任务进行拆分，通过多个爬虫节点并行执行，大大提高了爬取效率。

同时，分布式爬虫还能够充分利用多个计算节点的存储资源，提高数据的采集速度和处理能力。

因此，分布式爬虫在大规模数据挖掘、搜索引擎优化等领域具有广泛的应用前景。

二、基于Hadoop的分布式爬虫的实现步骤2.1 爬虫任务的拆解与调度在分布式爬虫中，首先需要将爬取任务进行拆分，分配给多个爬虫节点。

如何进行任务的拆解与调度是整个分布式爬虫实现的重要环节。

Hadoop的MapReduce框架提供了良好的任务调度机制，可以将爬取任务拆解成独立的Map任务，再通过Reduce任务进行合并和处理。

2.2 爬虫节点的配置与管理在分布式爬虫中，每个爬虫节点都需要配置相应的设备和环境。

常见的配置包括网络代理、数据存储路径、爬取深度等。

此外，还需要对爬虫节点进行管理和监控，确保节点的正常工作和性能优化。

2.3 数据的采集与清洗数据的采集是分布式爬虫的核心步骤之一。

在分布式爬虫中，不同的爬虫节点负责采集不同的数据片段，并将采集结果通过消息队列等方式传递给中心节点。

中心节点进行数据的合并和清洗，去除重复数据和无效信息，得到最终的爬取结果。

基于Hadoop的Nutch分布式网络爬虫的研究9.2

基于Hadoop的Nutch分布式主题主题网络爬虫的研究施磊磊，施化吉，朱玉婷(江苏大学计算机科学与通信工程学院，江苏镇江212013)摘要：针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题，本文提出了改进的主题判断和预测模型来提高下载网页的主题相关度和网页的质量，同时引入改进的PageRank 算法来计算链接主题网页的优先级，并搭建Hadoop分布式集群环境，以MapReduce分布式计算模型以达到高效率的分布式爬取，然后利用HBase、Zookeeper和Memcached来达到高效率的分布式存储，最后通过实验验证了Nutch分布式主题爬虫的高效性、准确性、扩展性和可靠性。

关键词：主题爬虫；Hadoop集群； Nutch； MapReduceResearch on Nutch distributed web crawlersubject oriented.SHI Lei-lei ， SHI Hua-ji ， ZHU Yu-tin(School of Computer Science and Telecommunication Engineering，Jiangsu University，Zhenjiang 212013，China)Abstract：For crawling crawling efficiency and accuracy problems Nutch crawler distributed topic, this paper proposes an improved model to predict and judge topics to improve the quality of downloaded pages and pages of the topic, while the introduction of the improved PageRank algorithm to calculate the link priorities and build Hadoop distributed cluster environment to MapReduce distributed computing model in order to achieve efficient crawling topic pages, preferably through experimental verification of the efficiency of the subject reptiles, scalability and reliability.Keywords：topic crawler；Hadoop cluster；Nutch；MapReduce1 引言Nutch是一个开源的垂直搜索引擎，它使用Java语言开发，具有跨平台应用的优点，Nutch作为主题网络爬虫和lucene的结合，功能上极其强悍，每个月数以亿计的网页爬取量，网页搜索的高速，开源的功能剖析都是我们选择研究它的关键因素。

基于Hadoop的分布式爬虫及其实现

基于Hadoop的分布式爬虫及其实现随着互联网的飞速发展，网络数据量急速增长，并且呈现出多样化和复杂化的特点。

对于许多应用程序和研究领域来说，获取网络数据是非常重要的一项任务。

爬虫技术就是一种从互联网中采集数据的技术手段，可以自动化地获取和整理网络数据。

然而，随着互联网规模的不断扩大，传统的单机爬虫已经难以应对数据量的挑战。

为了解决这个问题，分布式爬虫应运而生。

分布式爬虫可以通过将任务分发给多台机器来提高数据爬取的效率和速度。

在分布式爬虫中，Hadoop是一个非常重要的组件。

Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。

它的核心是分布式文件系统（Hadoop Distributed File System，简称HDFS）和分布式计算框架（MapReduce）。

Hadoop的分布式计算能力能够有效地并行处理大规模的爬取任务。

基于Hadoop的分布式爬虫可以分为三个主要步骤：URL管理、数据获取和数据处理。

首先，URL管理是分布式爬虫的一个关键环节。

URL管理模块负责维护待爬取的URL队列，确保每个URL只被爬取一次。

在Hadoop中，可以使用HBase或者Zookeeper等工具来实现URL管理模块。

这些工具可以提供高可用性和可扩展性，确保分布式爬虫的稳定运行。

其次，数据获取是分布式爬虫的核心任务。

数据获取模块负责从互联网中获取数据。

在Hadoop中，可以使用MapReduce框架来并行处理多个URL，提高数据获取的效率。

每个URL都会被分配到一个任务节点上进行数据获取和存储。

数据获取模块还可以利用Hadoop的数据局部性原则，将爬取任务调度到离目标数据所在位置最近的节点上，减少网络传输的开销。

最后，数据处理是分布式爬虫的后续处理环节。

数据处理模块负责对爬取的数据进行清洗、过滤、分析等操作。

在Hadoop中，可以使用MapReduce框架来并行处理爬取的数据。

通过编写自定义的Map和Reduce函数，可以实现对数据的灵活处理和分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于Ｈａｄｏｏｐ的分布式主题网络爬虫研究李　应（西安工程大学计算机科学学院，陕西西安７１００４８）摘　要：主题网络爬虫采用集中式体系结构，具有对单台服务器性能要求高、可扩展性差等缺点。

提出了一种基于Ｈａｄｏｏｐ的分布式主题网络爬虫架构，通过将主题网络爬虫部署在分布式集群中的不同机器，运用ＭａｐＲｅｄｕｃｅ编程模型对数据进行抓取分析，使不同机器共同完成对指定任务的抓取工作。

实验证明，采用分布式架构，通过动态调节分布式集群中的节点个数，能够明显改善主题网络爬虫的抓取效果。

关键词：Ｈａｄｏｏｐ；ＭａｐＲｅｄｕｃｅ；分布式架构；主题网络爬虫ＤＯＩ：１０．１１９０７／ｒｊｄｋ．１５１１４５９中图分类号：ＴＰ３０１．６文献标识码：Ａ文章编号：１６７２－７８００（２０１６）００３－００２４－０３作者简介：李应（１９８９－），男，陕西礼泉人，西安工程大学计算机科学学院硕士研究生，研究方向为大数据、分布式系统、智能搜索、自然语言处理。

０　引言互联网资源正在以指数级快速增长，如何能够快速获取网络资源已经成为广大用户的一项基本需求。

通用网络爬虫由于是对互联网全网资源的获取，因此其获取的资源范围涉及各个领域，这对于想要获得某个专业领域资源的用户带来不便。

主题网络爬虫的出现使获取的网络资源具有更强的针对性，在一定程度上解决了用户的专业性需求，用户能够快速、准确地得到想要的资源。

对于拥有庞大数据量的网络资源，采用集中式服务体系结构有许多不可避免的缺点，如对于单台服务器性能要求高、数据的可维护性与可扩展性差等。

分布式体系结构能够明显改善集中式体系结构中的问题，具有可扩展性强、成本低、数据不易丢失等众多优点。

本文利用分布式体系结构的优点，将主题网络爬虫与Ｈａｄｏｏｐ分布式开源框架相结合，提出了一种基于Ｈａｄｏｏｐ的分布式主题网络爬虫架构。

１　相关概念介绍１．１　Ｈａｄｏｏｐ分布式文件系统（ＨＤＦＳ）ＨＤＦＳ［１－２］是Ｈａｄｏｏｐ的核心组件之一，是一个可扩展的分布式文件系统。

ＨＤＦＳ可以运行在廉价的普通计算机上，具有良好的容错能力，并且能够提供更高性能的服务。

Ｈａｄｏｏｐ的ＨＤＦＳ对普通用户来说是透明的，用户可以像操作个人计算机一样在ＨＤＦＳ上添加、删除数据等。

在ＨＤＦＳ中有３个重要角色：ＮａｍｅＮｏｄｅ、ＤａｔａＮｏｄｅ以及Ｃｌｉｅｎｔ。

其中，ＮａｍｅＮｏｄｅ用来存储文件的元数据信息，包括文件名、文件所有者、文件权限等；ＤａｔａＮｏｄｅ是真正用来存放用户数据的位置，所有数据都保存在ＤａｔａＮ－ｏｄｅ上，并用冗余机制来保证数据的安全性。

图１给出了ＨＤＦＳ的读写数据流程。

图１　ＨＤＦＳ读写数据流程１．２　Ｈａｄｏｏｐ分布式计算框架（ＭａｐＲｅｄｕｃｅ）ＭａｐＲｅｄｕｃｅ［３－４］是一种分布式编程模型，整个Ｍａ－ｐＲｅｄｕｃｅ采用“分而治之”的思想。

ＭａｐＲｅｄｕｃｅ首先将大规模数据任务进行分割，其次将分割后的子任务交给不同的节点完成，待各个子节点完成相应的子任务分析或者计算后，将各个子节点的处理结果进行汇总，得到最终结果。

在Ｈａｄｏｏｐ的ＭａｐＲｅｄｕｃｅ编程模型中，包含ＪｏｂＴｒａｃｋｅｒ和ＴａｓｋＴｒａｃｋｅｒ两个重要角色。

ＪｏｂＴｒａｃｋｅｒ用来进行任务分解，分解的子任务交给每个Ｔａｓｋｔｒａｃｋｅｒ去完成。

Ｈａｄｏｏｐ中每一个ＭａｐＲｅｕｃｅ任务都要处理成一个Ｊｏｂ，在该Ｊｏｂ中分为Ｍａｐ和Ｒｅｄｕｃｅ两个阶段，Ｍａｐ阶段负责各个子任务的分析处理，Ｒｅｄｕｃｅ用来将子任务的处理结果进行合并。

图２给出了ＭａｐＲｅｄｕｃｅ的处理流程。

图２　ＭａｐＲｅｄｕｃｅ处理流程１．３　主题网络爬虫主题网络爬虫［５－６］的爬取流程与通用爬虫流程大体相似，主要区别在于主题网络爬虫抓取的网页都与某个主题领域有关，在网络爬虫抓取过程中，只有与设定主题相关的网页才会被抓取。

主题网络爬虫的分析算法要去除与主题无关的网页，将与主题相关的链接加入待抓取ＵＲＬ队列中，然后根据选取的搜索策略从待抓取队列中选择要抓取的网页，一直重复该过程，直到满足爬虫停止条件为止。

图３给出了主题网络爬虫的抓取流程。

图３　主题网络爬虫抓取流程２　分布式主题网络爬虫设计与实现２．１　基于Ｈａｄｏｏｐ的分布式主题网络爬虫总体架构爬虫总体架构主要由爬虫主控节点、多个爬虫子节点以及分布式文件系统（ＨＤＦＳ）组成，这３部分是一个有机整体，相互联系，共同完成数据的抓取和存储任务。

图４给出了分布式网络爬虫的总体架构。

爬虫主控节点：该节点是整个架构的核心，主要用来管理子网络爬虫的启动、ＵＲＬ资源任务的调度、负载均衡、判断是否终止抓取等功能。

主控节点通过和各爬虫子节点不断进行通信，随时调节其抓取任务负载，使每个子网络爬虫都能充分抓取稳定的网络资源。

多个爬虫子节点：这些节点是真正用来完成数据抓取任务的节点。

多个爬虫子节点按照主控节点给其分配的ＵＲＬ资源，按照主题网络爬虫的抓取流程获得互联网上的网络资源。

当每个子节点完成自己的抓取任务时，将已抓取完成的信息反馈给主控节点，主控节点得到信息后，再分配特定的ＵＲＬ资源给该节点。

多个爬虫子节点中的每个节点重复完成不同的抓取任务，直到主控节点不再给其分派ＵＲＬ资源为止。

图４　分布式网络爬虫总体架构分布式文件系统（ＨＤＦＳ）：该分布式文件系统主要用来存储多个网络爬虫抓取的网络资源。

该ＨＤＦＳ系统上存储的数据规模非常庞大，但其对外界普通用户是透明的，只需像操作自己的个人电脑一样操作ＨＤＦＳ。

ＨＤＦＳ通过本身的冗余机制保证了下载网络资源的安全性，数据丢失率大大降低。

２．２　下载网页Ｍａｐ／Ｒｅｄｕｃｅ编程模型实现流程图５给出了下载网页Ｍａｐ／Ｒｅｃｕｄｅ编程模型实现流程。

图５　下载网页Ｍａｐ／Ｒｅｄｕｃｅ实现流程上述执行流程可以概括如下：建立ＭａｐＲｅｄｕｃｅ任务，将其封装成一个Ｊｏｂ形式提交给分布式集群；ＩｎｐｕｔＦｏｒ－ｍａｔ进行处理，获取ＵＲＬ数据文件，对其进行分片，分片后转换为ｋｅｙ、ｖａｌｕｅ对的形式；执行Ｍａｐ函数，对于数据文件进行相应转换；进行Ｃｏｍｂｉｎｅｒ过程，将一些中间文件·５２·第３期李　应：基于Ｈａｄｏｏｐ的分布式主题网络爬虫研究合并，以减少Ｒｅｄｕｃｅ阶段的复杂度；Ｐａｒｔｉｔｉｏｎｅｒ过程对上一步得到的结果进行分区，可以使服务器下载同一台服务器上的ＵＲＬ；Ｒｅｄｕｃｅ过程对得到的数据结果进行合并，下载的最终结果保存在ＨＤＦＳ中；ＯｕｔｐｕｔＦｏｒｍａｔ过程对数据的输出格式进行处理，以便数据的规范化。

３　实验结果及分析实验环境：实验采用８台普通ＰＣ机搭建Ｈａｄｏｏｐ分布式集群，每台ＰＣ机都装有６４ｂｉｔ　ｌｉｎｕｘ系统，机器硬盘大小都为５００Ｇ，内存为４Ｇ。

其中一台机器作为ＮａｍｅＮｏｄｅ，另外７台作为ＤａｔａＮｏｄｅ，Ｈａｄｏｏｐ版本为１．２．１。

实验要抓取的主题为新闻信息，以新浪官方网站ｈｔ－ｔｐ：／／ｗｗｗ．ｓｉｎａ．ｃｏｍ为ＵＲＬ种子，让主题网络爬虫去下载相关新闻网页。

图６给出了网页下载速度随节点数目变化的柱状图，从图中可以看出，随着数据节点个数的增加，下载网页的速度不断加快。

因此，在采用分布式架构的网络爬虫体系结构下，通过扩展数据节点，可优化爬虫系统的性能，为数据采集提供更好的服务。

图６　网页下载速度随节点数目变化情况４　结语本文首先讨论了分布式开源框架Ｈａｄｏｏｐ的两大核心ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ，从原理上说明了其高性能的根本原因，其次介绍了主题网络爬虫的网络资源抓取机制，解释了其与通用网络爬虫的根本区别。

在此基础上，本文结合Ｈａｄｏｏｐ分布式开源框架及主题网络爬虫提出了基于Ｈａｄｏｏｐ的分布式开源框架及其实现流程。

实验结果表明，通过采用分布式主题网络爬虫架构，能够明显提高网页抓取速率，提高网络爬虫工作效率。

参考文献：［１］　廖彬，于炯，张陶，等．基于分布式文件系统ＨＤＦＳ的节能算法［Ｊ］．计算机学报，２０１３（５）：１０４８－１０５０．［２］　余琦，凌捷．基于ＨＤＦＳ的云存储安全技术研究［Ｊ］．计算机工程与设计，２０１３（８）：２７０１－２７０２．［３］　李建江，崔健，王聃，等．ＭａｐＲｅｄｕｃｅ并行编程模型研究综述［Ｊ］．电子学报，２０１１（１１）：２６３６－２６３８．［４］　李成华，张新访，金海，等．新型的分布式并行计算编程模型［Ｊ］．计算机工程与科学，２０１１（３）：１２９－１３１．［５］　刘金红，陆余良．主题网络爬虫研究综述［Ｊ］．计算机应用研究，２００７（１０）：２７－２８．［６］　于娟，刘强．主题网络爬虫研究综述［Ｊ］．计算机工程与科学，２０１５（２）：２３２－２３４．（责任编辑：黄　健）Ｒｅｓｅａｒｃｈ　ｏｎ　ａ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｔｏｐｉｃ　Ｗｅｂ　Ｃｒａｗｌｅｒ　Ｂａｓｅｄ　ｏｎ　ＨａｄｏｏｐＡｂｓｔｒａｃｔ：Ｔｏｐｉｃ　Ｗｅｂ　ｃｒａｗｌｅｒ　ｕｓｅｓ　ａ　ｃｅｎｔｒａｌｉｚｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｆｏｒ　ａ　ｓｉｎｇｌｅ　ｓｅｒｖｅｒ　ｈａｖｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｒｅｑｕｉｒｅｍｅｎｔｓ，ｓｃａｌ－ａｂｉｌｉｔｙ　ｐｏｏｒ　ｓｈｏｒｔｃｏｍｉｎｇｓ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｓ　ａ　ｄｉｓｔｒｉｂｕｔｅｄ　ｔｏｐｉｃ　ｃｒａｗｌｅｒ　Ｈａｄｏｏｐ－ｂａｓｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ．Ｔｏｐｉｃ　ｂｙ　ｄｉｆｆｅｒｅｎｔｍａｃｈｉｎｅｓ　ｉｎ　ａ　ｄｉｓｔｒｉｂｕｔｅｄ　Ｗｅｂ　ｃｒａｗｌｅｒ　ｄｅｐｌｏｙｍｅｎｔ　ｃｌｕｓｔｅｒ，ｕｓｉｎｇ　ｔｈｅ　ＭａｐＲｅｄｕｃｅ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅｌ　ｆｏｒ　ｄａｔａ　ａｎａｌｙｓｉｓｃｒａｗｌ，ｃｒａｗｌ　ａｌｌ　ｔｈｅ　ｄｉｆｆｅｒｅｎｔ　ｍａｃｈｉｎｅｓ　ｔｏｇｅｔｈｅｒ　ｔｏ　ｃｏｍｐｌｅｔｅ　ｗｏｒｋ　ｏｎ　ａ　ｇｉｖｅｎ　ｔａｓｋ．Ｅｘｐｅｒｉｍｅｎｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｕｓｅ　ｏｆ　ａ　ｄｉｓ－ｔｒｉｂｕｔｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ，ｄｉｓｔｒｉｂｕｔｅｄ　ｂｙ　ｄｙｎａｍｉｃａｌｌｙ　ａｄｊｕｓｔｉｎｇ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｎｏｄｅｓ　ｉｎ　ｔｈｅ　ｃｌｕｓｔｅｒ，ｃａｎ　ｓｉｇｎｉｆｉｃａｎｔｌｙ　ｉｍｐｒｏｖｅｔｈｅ　ｔｏｐｉｃ　ｃｒａｗｌｅｒ　ｔｏ　ｃｒａｗｌ　ｅｆｆｅｃｔ．Ｋｅｙ　Ｗｏｒｄｓ：Ｈａｄｏｏｐ；Ｄｉｓｔｒｉｂｕｔｅｄ　Ａｒｃｈｉｔｅｃｔｕｒｅ；Ｔｏｐｉｃ　Ｗｅｂ　Ｃｒａｗｌｅｒ·６２·软件导刊２０１６年。