基于Hadoop的分布式搜索引擎研究与实现

合集下载

分布式计算平台的设计与实现

分布式计算平台的设计与实现

分布式计算平台的设计与实现随着互联网和计算机技术的迅猛发展,数据量的急速增加和计算速度的不断提高,分布式计算平台作为一种新型的计算方式,逐渐引起人们的关注和应用。

本文将探讨分布式计算平台的设计与实现。

一、什么是分布式计算平台分布式计算平台是指利用多台计算机资源进行分布式计算的一种计算模式。

它集合了多台计算机的计算能力和存储资源,通过网络将它们连接起来,形成一个庞大的计算机群。

在分布式计算平台中,各个计算机节点通过共享任务和结果,共同完成一项计算任务。

分布式计算平台的主要优势在于分布式计算的计算速度更快、计算能力更强、计算精度更高,并且具有较好的可扩展性和可靠性,同时减少计算能耗、节省成本,广泛应用于高性能计算、大规模数据分析、人工智能等领域。

二、分布式计算平台的设计原则分布式计算平台的设计需要考虑以下原则:(1)可扩展性:分布式计算平台为了适应不同规模的计算需求,需要具有较好的可扩展性,能够支持更多计算节点的加入和退出,这样可以在不同的项目开发和应用场景下满足不同的计算需求。

(2)可靠性:分布式计算平台需要具有良好的可靠性,防止单点故障出现,保证每个计算节点的可靠性和稳定性,以保证整个系统的稳定运行。

(3)任务分配:分布式计算平台需要能够把任务分配到各个计算节点上,根据不同计算节点的运行能力进行任务分配,以实现系统性能的优化。

(4)数据传输:分布式计算平台需要具有高效的数据传输能力,减少不必要的数据传输和存储,从而提高系统的传输速度和计算效率。

(5)安全性:分布式计算平台需要保证数据的安全性,尤其是在涉及到敏感数据的应用场景下,需要加强数据的加密和权限控制。

三、分布式计算平台的实现分布式计算平台的实现可以采用多种软件技术和编程语言,比如Hadoop、Spark、MapReduce、MPI等。

下面主要介绍基于Hadoop实现的分布式计算平台。

Hadoop是一种开源的分布式计算软件框架,适用于大规模计算和数据处理,目前已成为云计算和大数据处理的标准工具。

计算机专业毕业论文题目

计算机专业毕业论文题目

计算机专业毕业论文题目计算机本科毕业自我鉴定计算机硬件毕业论文题目1、基于知识库的计算机硬件维修服务系统2、计算机硬件虚拟实验室的设计与研究3、通用性齿轮箱状态监测与故障诊断系统的研究4、局域网内计算机硬件资源管理系统的开发5、计算机监控管理系统的设计与实现6、企业人力资本投资与企业绩效7、基于DSP和FPGA的多功能嵌入式导航计算机系统设计8、面向服务软件体系架构原理与范例研究9、信息和通讯技术产业与经济增长:对中国实践的研究10、抗恶劣环境可穿戴计算机研究11、可穿戴计算机硬件技术研究12、基于DSP的导航计算机硬件设计13、计算机硬件虚拟实验平台的研究与开发14、星载并行计算机硬件系统可靠性设计与分析15、基于USB的可穿戴计算机接口设计16、半导体神经计算机硬件实现研究及在全方位实物识别中的应用17、基于本体和规则的计算机故障诊断研究18、基于尘源控制与净化设备的数字仿真系统的分析与应用19、中国计算机行业上市公司并购动因及并购绩效研究20、计算机硬件测试系统的设计与实现21、飞控计算机的容错研究与设计22、计算机硬件设备故障管理机制研究23、航天器时变计算机体系结构研究24、基于浮点DSP的微小型导航系统设计与工程实现研究25、无人机余度飞行控制计算机关键技术研究26、基于DSP的无人机飞控计算机的设计与实现27、激光陀螺捷联惯导系统快速原型技术研究28、基于586-Engine的小型化飞控计算机设计29、星载计算机的硬件容错设计与可靠性分析30、基于XEN网络虚拟化的性能研究31、基于Virtools的中学计算机硬件虚拟实验的研究与设计32、无人机余度飞行控制软件的设计与研究33、基于FPGA的多核可重构技术研究34、面向城市轨道交通的安全计算机设计35、在现代教育技术环境下开放实验教学模式研究36、基于PC755和PC107A的单板计算机的开发37、基于中职的计算机组装虚拟实验室的设计与开发研究38、无人机余度飞行控制计算机设计及研究39、基于双DSC的无人机飞控计算机核心系统的设计与实现40、无人机余度飞行控制软件设计与研究计算机网络技术专业毕业论文题目1、基于移动互联网下服装品牌的推广及应用研究2、基于Spark平台的恶意流量监测分析系统3、基于MOOC翻转课堂教学模式的设计与应用研究4、一种数字货币系统P2P消息传输机制的设计与实现5、基于灰色神经网络模型的网络流量预测算法研究6、基于KNN算法的Android应用异常检测技术研究7、基于macvlan的Docker容器网络系统的设计与实现8、基于容器云平台的网络资源管理与配置系统设计与实现9、基于OpenStack的SDN仿真网络的研究10、一个基于云平台的智慧校园数据中心的设计与实现11、基于SDN的数据中心网络流量调度与负载均衡研究12、软件定义网络(SDN)网络管理关键技术研究13、基于SDN的数据中心网络动态负载均衡研究14、基于移动智能终端的医疗服务系统设计与实现15、基于SDN的网络流量控制模型设计与研究16、《计算机网络》课程移动学习网站的设计与开发17、数据挖掘技术在网络教学中的应用研究18、移动互联网即时通讯产品的用户体验要素研究19、基于SDN的负载均衡节能技术研究20、基于SDN和OpenFlow的流量分析系统的研究与设计21、基于SDN的网络资源虚拟化的研究与设计22、 SDN中面向北向的控制器关键技术的研究23、基于SDN的网络流量工程研究24、基于博弈论的云计算资源调度方法研究25、基于Hadoop的分布式网络爬虫系统的研究与实现26、一种基于SDN的IP骨干网流量调度方案的研究与实现27、基于软件定义网络的WLAN中DDoS攻击检测和防护28、基于SDN的集群控制器负载均衡的研究29、基于大数据的网络用户行为分析30、基于机器学习的P2P网络流分类研究31、移动互联网用户生成内容动机分析与质量评价研究32、基于大数据的网络恶意流量分析系统的设计与实现33、面向SDN的流量调度技术研究34、基于P2P的小额借贷融资平台的设计与实现35、基于移动互联网的智慧校园应用研究36、内容中心网络建模与内容放置问题研究37、分布式移动性管理架构下的资源优化机制研究38、基于模糊综合评价的P2P网络流量优化方法研究39、面向新型互联网架构的移动性管理关键技术研究40、虚拟网络映射策略与算法研究计算机信息管理毕业论文题目1、基于RFID技术的固定资产管理软件系统的设计与开发2、基于RFID高校信息管理系统的研究与实现3、数据库管理系统中的隐式授权问题研究4、生产制造行业中RFID技术的应用5、中小型银行信息管理系统的研究与实践6、基于Web教务管理系统安全方案研究7、基于RFID的可追溯果园生产过程管理系统8、基于SOA的联邦式信息检索平台的研究与实现9、基于信息管理的垃圾短信控制系统的设计与实现10、基于QR二维码的井群信息管理系统研究11、基于视景重现的舰船IETM系统开发12、 RFID技术在物资仓库管理系统中的应用研究13、基于RFID的大型赛事人员及车辆信息管理系统开发应用研究14、基于RFID的输变电设备EPC编码的应用研究15、基于目录服务的物联网元数据及公共服务管理系统的设计及实现16、基于目录服务的物联网节点信息管理系统的设计与实现17、基于PKI技术的高校电子档案安全管理系统的设计与实现18、面向隐私保护的第三方个人信息服务平台研究19、基于神经网络的车牌识别与信息管理系统20、平庄西露天矿地质信息管理系统的开发及应用研究21、安全信息管理(SIM)风险管理的研究与实现22、数据备份恢复工具的设计与实现23、个人信息管理中文件路径编码研究24、电子商务信息管理系统数据安全性研究25、基于XML的移动艾滋病信息管理系统安全研究26、虹膜识别技术在医疗信息管理系统中的设计与实现27、单点登录方法研究及模型实现28、基于RFID的药品包装信息管理系统29、基于WebGIS的五金产业信息搜索系统的设计与实现30、地下管线三维CAD与信息管理软件开发。

基于Hadoop的分布式爬虫及其实现

基于Hadoop的分布式爬虫及其实现

基于Hadoop的分布式爬虫及其实现引言随着互联网的快速发展和信息的爆炸式增长,大数据时代已经来临。

海量的数据涌入网络,并形成了一个巨大的信息资源库。

如何有效地从这个海洋中提取有价值的信息,成为了当今互联网领域面临的重要挑战之一。

为了应对这一挑战,分布式爬虫技术应运而生。

本文将介绍基于Hadoop的分布式爬虫的实现过程及其优势。

一、分布式爬虫的背景与意义1.1 现有的爬虫技术传统的爬虫技术主要是基于单机环境下的串行爬虫,即一个爬虫程序在一个机器上运行,通过遍历链接、下载网页并解析的方式进行信息抓取。

然而,在处理大规模的数据量时,单机环境面临着许多挑战,如性能瓶颈、系统崩溃等。

1.2 分布式爬虫的优势与应用分布式爬虫依赖于分布式计算框架,如Hadoop,将爬取任务进行拆分,通过多个爬虫节点并行执行,大大提高了爬取效率。

同时,分布式爬虫还能够充分利用多个计算节点的存储资源,提高数据的采集速度和处理能力。

因此,分布式爬虫在大规模数据挖掘、搜索引擎优化等领域具有广泛的应用前景。

二、基于Hadoop的分布式爬虫的实现步骤2.1 爬虫任务的拆解与调度在分布式爬虫中,首先需要将爬取任务进行拆分,分配给多个爬虫节点。

如何进行任务的拆解与调度是整个分布式爬虫实现的重要环节。

Hadoop的MapReduce框架提供了良好的任务调度机制,可以将爬取任务拆解成独立的Map任务,再通过Reduce任务进行合并和处理。

2.2 爬虫节点的配置与管理在分布式爬虫中,每个爬虫节点都需要配置相应的设备和环境。

常见的配置包括网络代理、数据存储路径、爬取深度等。

此外,还需要对爬虫节点进行管理和监控,确保节点的正常工作和性能优化。

2.3 数据的采集与清洗数据的采集是分布式爬虫的核心步骤之一。

在分布式爬虫中,不同的爬虫节点负责采集不同的数据片段,并将采集结果通过消息队列等方式传递给中心节点。

中心节点进行数据的合并和清洗,去除重复数据和无效信息,得到最终的爬取结果。

基于Hadoop的Nutch分布式网络爬虫的研究9.2

基于Hadoop的Nutch分布式网络爬虫的研究9.2

基于Hadoop的Nutch分布式主题主题网络爬虫的研究施磊磊,施化吉,朱玉婷(江苏大学计算机科学与通信工程学院,江苏镇江212013)摘要:针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了改进的主题判断和预测模型来提高下载网页的主题相关度和网页的质量,同时引入改进的PageRank 算法来计算链接主题网页的优先级,并搭建Hadoop分布式集群环境,以MapReduce分布式计算模型以达到高效率的分布式爬取,然后利用HBase、Zookeeper和Memcached来达到高效率的分布式存储,最后通过实验验证了Nutch分布式主题爬虫的高效性、准确性、扩展性和可靠性。

关键词:主题爬虫;Hadoop集群; Nutch; MapReduceResearch on Nutch distributed web crawlersubject oriented.SHI Lei-lei , SHI Hua-ji , ZHU Yu-tin(School of Computer Science and Telecommunication Engineering,Jiangsu University,Zhenjiang 212013,China)Abstract:For crawling crawling efficiency and accuracy problems Nutch crawler distributed topic, this paper proposes an improved model to predict and judge topics to improve the quality of downloaded pages and pages of the topic, while the introduction of the improved PageRank algorithm to calculate the link priorities and build Hadoop distributed cluster environment to MapReduce distributed computing model in order to achieve efficient crawling topic pages, preferably through experimental verification of the efficiency of the subject reptiles, scalability and reliability.Keywords:topic crawler;Hadoop cluster;Nutch;MapReduce1 引言Nutch是一个开源的垂直搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为主题网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择研究它的关键因素。

基于Hadoop的大数据处理系统设计与实现

基于Hadoop的大数据处理系统设计与实现

基于Hadoop的大数据处理系统设计与实现随着互联网和移动智能终端的飞速发展,数据量不断增长,由此产生的数据处理和存储需求也日益增加。

而传统的数据库处理方式已经无法满足如此庞大的数据量和处理速度需求,于是大数据处理技术应运而生。

Hadoop是其中最著名的开源大数据处理框架,下面将介绍基于Hadoop的大数据处理系统的设计和实现。

一、需求分析设计一个基于Hadoop的大数据处理系统,需要先进行需求分析。

我们需要对系统进行如下几个方面的分析:1.数据存储系统需要提供存储庞大数据的容器和机制,并且要保证数据的完整性和可靠性。

2.数据处理系统需要支持对大数据的处理和分析,并能够以高效的方式对数据进行处理。

3.系统性能系统需要具有良好的性能,并且能够对数据进行快速处理。

基于这些要求我们可以设计出一个基于Hadoop的大数据处理系统,用于处理大规模数据。

二、系统设计1.系统架构设计Hadoop设计的核心是分布式计算,系统采用主从架构模式,包含一个主服务器和多个从服务器,从服务器上运行着Data Node和Task Tracker进程,分别负责数据存储和数据处理,主服务器上运行着Name Node和Job Tracker进程,分别负责管理文件系统和任务管理。

2.数据存储设计系统采用HDFS(Hadoop Distributed File System)作为数据存储的容器,HDFS的特点是高可用性以及对大文件的支持。

在HDFS中,数据被分成块并分布在多个服务器上进行存储,从而提高了存储性能和可靠性,同时也通过数据缓存,实现了数据的快速读取。

3.数据处理设计系统采用MapReduce模型进行数据处理,MapReduce的特点是并行和分布式处理。

MapReduce将数据处理任务分解成两个阶段:Map阶段和Reduce阶段,Map阶段负责将输入数据处理成键值对,Reduce阶段则负责将相同键的值进行聚合得到最终结果。

基于hadoop的课程设计题目

基于hadoop的课程设计题目

基于hadoop的课程设计题目正文:基于Hadoop的课程设计题目是指以Hadoop作为基础框架进行开发的课程设计项目。

Hadoop是一个开源的分布式计算框架,可以处理海量数据的存储和分析,具有高可靠性和可扩展性的特点。

在这样的设计中,学生可以通过设计和实现一个基于Hadoop的应用来深入了解分布式计算和大数据处理的原理和技术。

以下是一些基于Hadoop的课程设计题目的例子:1. 大数据处理与分析平台的设计与实现:学生可以设计并实现一个大数据处理与分析平台,该平台能够接收大规模数据集,使用Hadoop进行分布式存储和计算,并提供数据查询、可视化等功能。

2. 分布式日志分析系统的设计与实现:学生可以设计并实现一个分布式日志分析系统,该系统能够处理大量的日志数据,并提取有用的信息,如异常日志、用户行为等,帮助企业进行系统监控和故障排查。

3. 分布式推荐系统的设计与实现:学生可以设计并实现一个基于Hadoop的分布式推荐系统,该系统能够根据用户的历史数据和兴趣,为用户提供个性化的推荐内容,如电影、音乐、商品等。

4. 分布式图计算的设计与实现:学生可以设计并实现一个分布式图计算系统,该系统能够处理大规模图数据,并进行图计算算法的实现,如PageRank、社区发现等,用于社交网络分析、网络流量优化等领域。

5. 分布式机器学习系统的设计与实现:学生可以设计并实现一个分布式机器学习系统,该系统能够处理大规模的训练数据,并进行机器学习算法的训练和预测,如分类、聚类、推荐等,用于大数据分析和智能决策。

以上仅是一些基于Hadoop的课程设计题目的示例,学生可以根据自己的兴趣和实际情况进行选择和拓展。

通过这样的课程设计,学生可以掌握大数据处理和分布式计算的基本原理和技术,提升自己在大数据领域的实际应用能力。

基于Hadoop的大数据处理与分析系统设计与实现

基于Hadoop的大数据处理与分析系统设计与实现

基于Hadoop的大数据处理与分析系统设计与实现一、引言随着互联网的快速发展和智能化技术的不断进步,大数据已经成为当今信息时代的重要组成部分。

大数据处理与分析系统的设计与实现变得愈发重要。

Hadoop作为一个开源的分布式计算框架,被广泛应用于大数据处理与分析领域。

本文将探讨基于Hadoop的大数据处理与分析系统的设计与实现。

二、Hadoop简介Hadoop是Apache基金会的一个开源项目,主要用于存储和处理大规模数据。

它提供了一个分布式文件系统(HDFS)和一个分布式计算框架(MapReduce),能够有效地处理海量数据。

Hadoop的核心设计理念是将数据分散存储在多台服务器上,并通过并行计算来加速数据处理过程。

三、大数据处理与分析系统架构设计1. 数据采集在大数据处理与分析系统中,首先需要进行数据采集。

数据可以来自各种来源,如传感器、日志文件、数据库等。

通过Hadoop提供的工具和技术,可以将这些数据采集并存储到HDFS中。

2. 数据清洗与预处理由于原始数据可能存在噪音和不完整性,需要对数据进行清洗和预处理。

这包括去除重复数据、填充缺失值、转换数据格式等操作。

Hadoop提供了MapReduce等机制来实现这些操作。

3. 数据存储清洗和预处理后的数据需要进行存储。

HDFS是Hadoop提供的分布式文件系统,具有高容错性和可靠性,适合存储大规模数据。

此外,还可以结合其他存储系统如HBase、Cassandra等进行存储。

4. 数据处理与分析在数据存储完成后,可以利用Hadoop的MapReduce框架进行数据处理与分析。

MapReduce将任务分解成Map和Reduce两个阶段,实现并行计算。

通过编写MapReduce程序,可以实现各种复杂的数据处理和分析操作。

5. 数据可视化最终结果需要以直观的方式呈现给用户。

数据可视化是大数据处理与分析系统中至关重要的一环。

通过工具如Tableau、PowerBI等,可以将处理后的数据以图表、报表等形式展示出来,帮助用户更好地理解和利用数据。

基于Hadoop的大数据分析系统的设计与实现

基于Hadoop的大数据分析系统的设计与实现

基于Hadoop的大数据分析系统的设计与实现随着信息化时代的到来,数据量呈爆炸式增长,如何利用这些海量数据来为企业、政府等机构提供更好的服务成为一个热门话题。

而大数据分析技术的产生和发展,为这个问题提供了一个有效的解决方案。

作为其中的代表性技术之一,Hadoop已经成为一款备受欢迎的大数据分析系统。

本文将从设计和实现两个层面来总结分析基于Hadoop的大数据分析系统。

1. 设计1.1 数据的分片Hadoop的一个核心思想就是将数据分成很多块进行处理。

这种方式可以有效增加并行度,减少单个节点处理的压力,提高系统的效率。

分片的大小一般由MapReduce框架中的“块大小(block size)”参数来定义,一般建议设置为128MB到256MB之间。

1.2 数据的存储Hadoop的数据存储一般采用HDFS(分布式文件系统)进行管理,其基本特点是数据分布式存储,副本备份,处理集群与数据存储集群分离,容错性强。

HDFS的数据块默认大小为64MB,每个文件至少存储3个副本(可设置),且这些副本分布在不同的节点上,以保证数据的冗余备份和高可用。

1.3 数据的处理Hadoop采用MapReduce编程模型对数据进行处理。

MapReduce本身是一种分布式计算模型,可以为不同类型的数据提供不同的计算方式。

MapReduce过程包括两个阶段:Map和Reduce。

Map负责将数据进行划分、处理和输出,Reduce则负责合并Map输出结果并输出最终结果。

事实上,Map和Reduce运行的都是相同的代码,但在MapReduce框架中,它们的作用却不同。

1.4 数据的分发Hadoop的一大特点是能够很好地利用分布式式处理来提高数据分析的效率。

在Hadoop的分布式式处理中,数据的分发通常采用Hadoop的YARN(Yet Another Resource Negotiator)来负责完成。

YARN是Hadoop的一个资源调度系统,它提供了一个简单的接口,使得用户可以对运行在集群上的应用程序进行监控和管理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

太原理工大学硕士学位论文基于Hadoop的分布式搜索引擎研究与实现姓名:封俊申请学位级别:硕士专业:软件工程指导教师:胡彧20100401基于Hadoop的分布式搜索引擎研究与实现摘要分布式搜索引擎是一种结合了分布式计算技术和全文检索技术的新型信息检索系统。

它改变了人们获取信息的途径,让人们更有效地获取信息,现在它已经深入到网络生活的每一方面,被誉为上网第一站。

目前的搜索引擎系统大多都拥有同样的结构——集中式结构,即系统所有功能模块集中部署在一台服务器上,这直接导致了系统对服务器硬件性能要求较高,同时,系统还有稳定性差、可扩展性不高的弊端。

为了克服以上弊端就必须采购极为昂贵的大型服务器来满足系统需求,然而并不是所有人都有能力负担这样高昂的费用。

此外,在传统的信息检索系统中,许多都采用了比较原始的字符串匹配方式来获得搜索结果,这种搜索方式虽然实现简单,但在数据量比较大时,搜索效率非常低,导致用户无法及时获得有效信息。

以上这两个缺点给搜索引擎的推广带来了很大的挑战。

为应对这个挑战,在搜索引擎系统中引入了分布式计算和倒排文档全文检索技术。

本文在分析当前几种分布式搜索引擎系统的基础上,总结了现有系统的优缺点,针对现有系统的不足,提出了基于Hadoop的分布式搜索引擎。

主要研究工作在于对传统搜索引擎的功能模块加以改进,对爬行、索引、搜索过程中的步骤进行详细分析,将非顺序执行的步骤进一步分解为两部分:数据计算和数据合并。

同时,应用Map/Reduce编程模型思想,把数据计算任务封装到Map函数中,把数据合并任务封装到Reduce函数中。

经过以上改进的搜索引擎系统可以部署在廉价PC构成的Hadoop分布式环境中,并具有较高的响应速度、可靠性和扩展性。

这与分布式搜索引擎中的技术需求极为符合,因此本文使用Hadoop作为系统分布式计算平台。

此外,系统使用了基于倒排文档的全文检索技术,构建了以关键词为单位的倒排索引模块,同时结合TF-IDF和PageRank算法,改进了网页评分策略,优化了搜索结果。

最后,详细分析了在应用Map/Reduce编程模型实现系统模块过程中遇到的问题,及其解决方案。

构建了一个4节点的小型分布式搜索引擎系统,通过对网络资源的爬行、索引和检索,以及对系统进行可靠性和扩展性测试,获得实验数据。

在分析实验数据的基础上,验证了所提出的基于Hadoop 的分布式搜索引擎的合理性。

关键词: Map/Reduce,Hadoop,分布式计算,搜索引擎 THE RESEARCH AND IMPLEMENTATION OFDISTRIBUTED SEARCH ENGINEBASED ON HADOOPABSTRACTDistributed Search Engine is a brand new information retrieval system which is consisted of distributed computing technology and full-text retrieval technology.It has changed the way of achieving informations for people and has made it more effectively. Now it has been deep into every aspects of the Internet, and it is known as the first Step of navigation.At present, most of the search engine system are structured similarly - centralized structure, which means all of system’s modules are deployed on one server, and it also result in the server must be of high performance,meanwhile, the system still have poor stability and bad scalability. In order to deal with these disadvantanges, people have to purchase very large and expensive servers to satisfy the system requirements, however, not everyone have the ability to afford such high cost. In addition, a primitive string matching mode was adopted to gain the results in many traditional information retrieval systems. Although this method is simple, the search efficiency became very low when data volume is huge, and customers could not retrieve useful informations in time. The two disadvantages mentioned above was a big challenge to the promotion of search engine. In order to deal with this challenge, the technology of distributed computing and inverted document full-text retrieval were introduced into the search engine system.In this paper, it summaried the advantages and disadvantages based on an analysis of several distributed search engine systems. In order to deal with theexisting drawbacks, it proposed a distributed search engine based on Hadoop. The main tasks of this paper are to improve the traditional search engine function modules, analyze the steps on the crawling, indexing, searching, in the process, and further decomposed these process that can be excuted disorderly into two parts: data computing and data combining. Then, packaged the algrithm of data computing into Map function, and the algrithm of data combining into Reduce function by using Map/Reduce programming thinkings. After the implementation of these technologies, it improved search engine system could be deployed on a Hadoop distributed environment which was structured by some low-cost PCs, so this system had high response speed, reliability and scalability. Because of the technology closed to the distributed search engine’s needs. In this paper, it used Hadoop distributed computing platform as a system. Besides, this paper constructed with keywords for inverted indexing module, by using the inverted document based full-text retrieval technology. And it combined with TF-IDF and PageRank algorithm to improve the page score strategy and optimize the search results.Finally, a detailed analysis of how to use Map/Reduce programming model to achieve system module has proposed as well as the difficulties in the implementation process, a nd it built a small distributed search engine system with four nodes, the experimental data was achieved by means of the crawling, indexing and retrieving through Internet, and tested system reliability and scalability. In the analysis of this experimental data, the rationality of the distributed search engine based on Hadoop has been validated.KEY WORDS: Map/Reduce, Hadoop, Distributed compute, Search Engine第一章绪论1.1 课题研究背景随着互联网的飞速发展,大量网站如同雨后春笋般大批涌现,截止2009年,全球互联网新增网站达4600万,总计达2.315亿。

相关文档
最新文档