搜索引擎的设计与实现

合集下载

基于补偿的Nutch搜索引擎的设计与实现

８２６０
科
学
技
术
与
工
程
１卷１
了一些列优先权和长度的数值。其计算公式如公
式（）２。
虑其重要性ｌ。使得网页Ｄ即使更新了内容也很５］难在短时间内提高其权重值，而让用户发现。补从
Ｎｆ）＝Ｂ（ｆ兀Ｂ（（，ｄ）ｆ，）（
第１卷１
第３４期
２１０１年１２月
科
学
技
术
与
工
程
Ｖｏ１Ｎ．４Ｄｅ．２１Ｌ１ｏ３ｃ０１
１７ — １１（０１３ —６９０６１８５２１）４８１ —５
ＳｉｎｅＴｃｎｌｇｎｎｉｅｒｎｃｅｃｅｈｏｏｙａｄＥｇｎｅｉｇ
页面排序技术是搜索引擎的一项关键技术，因为检索的结果直接面向用户，响用户的体验感影
钩。根据一段时间内真实的排名结果，建立一个来
惩罚与奖励的制度，样有利于信息的快速传播，这
弱提用（）偿机制正是帮助这些 “ 者 ” 升自己的重要性，２主动的方式加速有价值的信息传播。
２２补偿排序．
公式（）２中的Ｂ为文档的ｂｏｔ，ｏｓ值是建立索引的时候设置的全局文档的得分，文档域的ｂｏｔ一个文ｏｓ是档域添加到文档中时设定的字段得分。在公式（）２

基于搜索引擎调用的主题搜索设计与实现

ＣＨＥＣａ—ｅ ‘ ＷＡＮＧａＺＨＥＮＧｅＣＨＥＮｉｎｓＮｉｓｎ，Ｔｏ，Ｗｉ，Ｊａ．ｉ
（．ｐｒｎｆｏｐｔｒｎｉｅｉ，Ｏｄａｃｎｉｅｎｏｌｅｈｉｈａｇ５０３ｈｎ；１ＤｅａｍｅｔＣｍｕｇｅｒｇｒｎｎｅｇｅｒｇＣｌｇ，Ｓ￣ａｕｎ００，ＣｉｔｏｅＥｎｎＥｎｉｅｚ０ａ２Ｔａｉｇｅａｔｎ，ＯｄａｃｎｉｅｒｇＣｌｇ，Ｓｉａｈａｇ０００，Ｃｉａ．ｒｉｎｐｒｎＤｍｅｔｒｎｎｅｇｎｅｎｏｌｅｈｉｕｎ５０３ｈｎ）Ｅｉｅｊｚ
陈财森王韬郑伟陈建泗，， பைடு நூலகம்
（．军械工程学院计算机工程系，河北石家庄０００；２１５０３．军械工程学院训练部，河北石家庄０００）５０３
摘要：络搜索是目前从因特网上获取信息的主要手段，网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方网而
０引言
法，主题搜索策略是专业搜索引擎的核心技术。通过研究网络蜘蛛的工作原理，分析了网络蜘蛛的搜索策略和搜索优化措施，设计出一种将限制搜索深度、多线程技术和正则表达式匹配方法结合一起的网络蜘蛛，实验结果表明该方法能够快速
而准确地搜索所需的相关主题信息。
ｒｓｒｉｓｈｅｔｆｅｒｈｎｏｅｉｎｄｍｕｔｈｅｄｎｃｎｌｇｎｘｒｓｉｎｆｒｌｅｕａｘｒｓｉｎｃｍｂｎｏｅｈｒｅｔａｎｅｄｐｈｏａｃｉｇｆｒｉｄｓｅ，ｔｓｓｇｌｔｒａｉｇｔｈｏｏｙａｄｅｐｅｓｏｏｍｕａｒｇｌｒｐｅｓｏｏｉｅｔｇｔｅｉｅｅａｅｕｅ．Ｔｈｘｅｍｅｔｌｅｕｔｎｉａｅａｉｔｏａｏｒｈｅｄｄｔｐｃｉｆｒａｉｎｆｓａｄａｃａｅｙｒｓｄｅｅｐｒｎａｓｌｉｄｃｔｄｔｔｈｓｉｒｈｔｍｅｈｄｃｎｌｋｆｅｎｅｅｉｏｍｔｏａｔｎｃｕｔｌ．ｏｏｔｏｎｒＫｅｒｓｔｐｃｓａｃ；ｓａｃｎｉｅｗｅｐｄｒｍｕｔｈｅｄｎ；ｒｇｌｒｘｒｓｉｎｙｗｏｄ：ｏｉｅｒｈｅｒｈｅｇｎ；ｂｓｉｅ；ｌｔｒａｉｇｅｕａｐｅｓｏｉｅ

法律搜索引擎索引系统同步模块的设计与实现

中图分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：６３６９２１）３０３一５１７ — ２Ｘ（０１Ｏ — １７Ｏ
ＤｅｉｎｎｍｐｌｍｅｔｔｏｆＬａＳａｃｇｎｎｄｘｓｇａｄＩｅｎａｉｎｏｗｅｒｈＥｎｉｅＩｅＳｙｔｍ ’ ｙｃｏｉａｉｎＭｏｌｓｅＳＳｎｈｒｎｚｔｏｄｕｅ
ＡｂｔａｔＡｌｎｔｅｒｐｉｅｅｏｍｅｔｆｔｅＩｔｒｅ．ｉｆｒａｉｎｅｐｏｉｎｅｓｓｉｏｔｏｅｐｅ，ｔｅｐｏｌｍａｏｔｎｓｒｃ：ｏｇｗｉｔａｄｄｖｌｐｈｈｎｎｅｎｔｎｏｍｔｏｘｌｓｏｘｉｎｆｎｆｏｌｈｒｂｅｔｔｈｗｏｆｄｏｈｔｒｐｈｉｒｑｉｄｉｆｒａｉｎｆｏｈｃａｆｉｆｒａｉｎｂａｔｃｎｅｉｎｎｆｅｔｅｍｅｈｄｉｅｏｉｇｍｏｅａｄｍｏｅｉｏｔｔｅｕｒｎｏｍｔｏｍｔｅｏｅｎｏｎｏｅｒｍｔｏｙｆｓ，ｏｖｎｅｔａｄｅｃｉｔｏｓｂｃｍｎｒｖｎｒｍｐｒａ，ｎｓａｃｎｎｅｅａｅｃｏｄｎｏｐｏｌＳｎｅｓＩｃｏｄｎｅｗｉｅｃｎｉｅ’ ”ｆｌ，ａｃｒｔｆｓａｄｇｏｅａｕｔｎｅｒｈｅｇｉｅｇｎｒｔｓａｃｒｉｇｔｅｐｅ’ ｅｄ．ｎａｃｒａｃｔｓａｈｅｇｎＳｈｒｕｌｃｕａｅ，ａｔｎｏｄ’ ｖｌａｉｏ

一个网络搜索引擎的设计与实现

和用户接口四大主要部分组成。
主页出发，就可以抓取到网络上所有的网页，被抓取
的网页被称之为网页快照。
处理网页：搜索引擎抓到网页后，需要对网页进行
大量的处理工作，然后把处理好的网页送往数据库
…
…
…
…
…
．
一
…
…
…
…
…
…
…
…
…
…
…
一
…
ｒ－．蔼一 … 建… … 皇… … 脑糕ＵＪｌＡＮｅＯ．｛Ｔ醴
一
个网络搜索引擎的设计与实现
白晋伟
（苏州大学图书馆数字化部苏州江苏２１５００６）
【摘要】：网络搜索引擎是指自动地从网络搜集信息，经过处理后提供给用户查询的系统。设计了
没有冲浪板，面对滔天海水，只能望洋兴叹，没有搜索
检索器：根据用户输入的查询请求，在索引数据
进行相关度评价，对将要输出的引擎面对浩如烟海的网上信息我们将无从下手，找不库中快速检索文档，并按用户的查询需求合理返回让用户满意到我们希望得到的信息。网络搜索引擎是对网络上网结果排序，
网络爬虫：又被称为网络蜘蛛，网络机器人，是一中，以便检索器在数据库中进行检索。其中包括提取
种按照一定的规则，自动的抓取万维网信息的程序或关键词，建立索引文件数据库、对重复网页网页的处者脚本。从一个或若干初始网页的ＵＲＬ开始，获得初理、中文分词的处理、判断网页类型、解析得出超链计算网页的页面排名等。始网页上的ＵＲＬ，在抓取网页的过程中，不断从当前接、

基于文本分类的搜索引擎的设计与实现

是文档中的总词数；Ｄｊ该类的所有训练文本数；ｔＪ是Ｎ（，
ｄ）词条ｔ文档ｄ是在中的词频；￡是所有训练文档中Ｐ（）词条的比重。
２２预测阶段．
在预测阶段中，要是利用某种分类算法对未知文档主
长，而且阙值难以准确确定。因此，系统提出了一种基本于带权值的分类主题词表的关键词匹配算法：先，过首通文本训练阶段建立一个带权值的分类主题词表，题词表主中的主题词就是特征项；后，次取出分类主题词表中然依的主题词与经过分词处理后的待分类文本中的字符串进
类别中排在最前面的１００个关键词作为特征项，可以０即
构成分类主题词表中的主题词。特征加权就是按照某种
特征加权算法得出和每个主题词自身贡献度相一致的权
重，些权值就构成了分类主题词表中的主题词所对应的这
个或多个，主要由训练阶段和预测阶段两大部分组成。它
２１训练阶段．
通过向量的相似度比较来判断文本之问的相似性。但是这种算法需要确定一个相似度阙值，的计算量大、间它时

信息检索系统设计与实现

信息检索系统设计与实现在当今数字化的时代，信息如同海洋般浩瀚，如何快速、准确地从这海量信息中找到我们所需的内容，成为了一个至关重要的问题。

信息检索系统应运而生，它就像是一位智能的导航员，帮助我们在信息的海洋中找到方向。

接下来，让我们一起深入探讨信息检索系统的设计与实现。

一、信息检索系统的需求分析在设计信息检索系统之前，我们首先要明确用户的需求。

不同的用户群体可能有着不同的需求，比如学者可能需要查找专业的学术文献，企业员工可能需要查找公司内部的文档和资料，普通大众可能更多地是搜索新闻、娱乐等方面的信息。

了解用户的搜索习惯和期望也是至关重要的。

有些用户喜欢输入精确的关键词，而有些用户可能更倾向于用自然语言来描述他们的需求。

此外，还需要考虑用户对检索结果的准确性、完整性和时效性的要求。

二、信息检索系统的架构设计1、数据采集模块这是信息检索系统的基础，负责从各种来源收集信息。

这些来源可以包括网页、数据库、文件系统等。

在采集数据的过程中，需要确保数据的完整性和准确性，同时要对数据进行初步的处理，比如去除噪声和重复的数据。

2、数据预处理模块采集到的数据往往是杂乱无章的，需要进行预处理。

这包括对文本进行分词、去除停用词、词干提取等操作，将文本转化为便于处理和检索的形式。

3、索引构建模块索引就像是一本书的目录，能够加快检索的速度。

常见的索引结构有倒排索引、正排索引等。

通过构建高效的索引，可以在短时间内找到与用户查询相关的信息。

4、查询处理模块当用户输入查询请求时，查询处理模块会对查询进行分析和理解，将其转化为系统能够理解的形式，并与索引进行匹配，找到相关的文档。

5、结果排序模块找到相关的文档后，还需要对结果进行排序，将最符合用户需求的文档排在前面。

排序的依据可以是文档与查询的相关性、文档的质量、更新时间等因素。

6、用户接口模块这是用户与系统交互的界面，需要设计得简洁、直观、易用。

用户可以通过输入关键词、选择筛选条件等方式进行查询，并能够方便地查看检索结果。

Intranet搜索引擎设计与实现

ｉｎａｄＩｐｅｅｔｔｏｆＩｔａｅｅｒｈＥｎｉｅｓｇｎｍｌｍｎａｉｎｏｎｒｎｔＳａｃｇｎ
ＨＵＡＮＧｎＤＯＮＧａｍｉｇＺＨＡＮＧｉｎＫｕＸｉｏｎＪａ
人的信息查询。要实现全文检索，然首先要建立全文索引＿。全文显１］
点。
本文主要从速度方面人手，究在Ｌ平台上的Ｉ一研ｉ
ｔｎｔｒｅ搜索引擎的实现和应用。ａ
２全文检索算法分析
２１基于简单匹配的检索．
Ｃｌｓｃ，ｒＴＰ３３ａｓＮｕＰ￣ｌ９
１引言
搜索引擎实际上就是一种全文检索系统，它是管理文档的软件系统。包括文档维护子系统和检索子系统，有别于我们常见的数据库系统，能够为人们提供更全面和深它
ｇｎｅｐｏｏｙｅＩＩＥ（ｎｕｎｔａｅｅｒｈＥｎｎ）ｗｈｃｓｄｏｎｘＬＩＥｓｎｄｘｎｅｈｄｂｓｄｐｒｓｄｌｔｔｃｎｐｏｉｅｉｒｔｔｐ－ＳＬｉｘＩｒｎｔＳａｃｇｉｅ，ｉｈｂａｅｎＬｉｕ．Ｓｕｅｉｅｉｇｍｔｏａｅｈａｅｉ，ｉａｒｖｄｓｍｏｅｃｒｅｔｉｆｒａｉｎｆｒｔｅｕｅｓａｄｍｅｔｈｅｕｒｍｅｓｉｎｉｄｆｅｔｒｒｓｓｒ．ｒｏｒｃｎｏｍｔｏｈｓｒｎｅｓｔｅｒｑｉｅｎｔｎｍａｙｋｎｓｏｎｅｐｉｅｕｅｓｏＫｏｒｓＩｔａｔｅｒｈｅｇｎｅｕｌｔｘｅｒｅａ，ｉｖｒｅｉｓｅｙＷｄｎｒｎｅ，ｓａｃｎｉ，ｆｌｅｔｒｔｉｖｌｎｅｔｄｆｅｌ

一个元搜索引擎的设计与实现

引擎与专门搜索 “ｎｉｂｂ的检索工具相结ＩｖｉｅＷｅ ” ｓｌ合，采用高效的融合处理算法对它们的检索结果进行分析处理后，按各记录表现的主题进行分类，同时通过跟踪分析用户的搜索行为，各主题与用户可将能最感兴越的主题的记录返回给用户。
ＫｅｒｓＳｅｉｉｅｅｃｎｉｅＴｐｃｄｓｌｔｎ；ｐｃａｉｅｉｔｎｒＩｖｓｂｅＷｅｙｗｏｄ：ｐｃａｚｄｓａｈｅｇｎ；ｏｉｉｔｌｉＳｅｉｌｄｄｃｉａｙ；ｎｉｌｂｌｒｉａｏｚｏｉ
ＸＡＯＧｕＩｏ—ｑａｇＺｉｎ，ＨＡＮＧＦｎａｇ
（ｅａｔｅｔｆＣｍｕｒｃｎｅａｄＴｃｎｌｙＷｕａ３０４Ｃｉ）Ｄｐｒｎｏｐｔｉｃｎｅｈｏｇ，ｈｎ４０７，ｈｎｍｏｅＳｅｏａ
ＡｂｔａｔＩｈｓｐｐｒａｍｅａ — ｓａｃｎｉｅｂｓｄｏｐｃａｉｅｅｒｈｎｎｉｅｉｉｔ－ｓｒｃ：ｎｔｉａｅ，ｔｅｒｈｅｇｎａｅｎｓｅｉｌｄｓａｃｉｇｅｇｎｓｎｒｚｏ
ｇａｅｐｒａｈＴｅｒｓｌｔｒｅｄｐｅｗｙｏｓｂｉｉｇｐｆｓｉｎｌｄｃｏａｙｔｘｒｃｒｔｄａｐｏｃ．ｈｅｕｔｒｕｄａｏｔｔａｆｅｔｌｈｎｒｅｓｏａｉｔｎｒｏｅｔｔｓｅｎｈａｓｏｉａ
ｄｃｄＰｏｓｉａｓａｃｎｎｉｅｍａｅｉｐｃａｚｄｓａｃＩｖｓｌＷｅ ”ｓａｃｏｓｎｅｕｅ．ｒｅｓｎｅｈｅｇｅｗｌｂｄｔｓｅｉｉｒｈ“ｎｉｂｅｂｅｒｔｌｉ — ｆｏｌｒｉｌｗｈｌｅｅｉｈｏｔ

基于Lucene的全文搜索引擎的设计与实现

效性。
图１Ｌｃｎｕｅｅ系统的结构组织图
２Ｌｕｅｅ的系统结构分析ｃｎ
２２ｏｇａａｈ．ｃｎ．ｉｅ索引包是整个系统核心，．ｒ．ｐｃｅ［ｅｅｎｘｕｄ主要提供库的读写接口，过该包可以创建库．加删除记录及通添读取记录等。全文检索的根本就为每个切出来的词建立索引，查询时只需要遍历索引，不需要遍历整个正文，而极大地而从提高了检索效率，引创建的质量直接关系整个系统的质量。索Ｌｃｎ的索引树是非常优质高效的，这个包中，要有Ｉ．ｕｅｅ在主ｎ
查询结果。图１是Ｌｃｎｕｅｅ系统的结构组织图。２．分析器Ａｎｌｚｒ分析器主要用于切词，段文档输入１ａｙｅ一
以后，过Ａａｚｒ输出时只剩下有用的部分，他部分被剔经ｎｌｅ，ｙ其除。分析器提供了抽象的接口，因此语言分析（ｎｌ）Ａａ￣ｒ是可以ｙ定制的。因为Ｌｃｎ缺省提供了２个比较通用的分析器Ｓｕｅｅｉｍ．ｐＡａｓ和ＳａｄｒＡａｓｒ这２个分析器缺省都不支持中ｌｅｌｅｎｙｒｔｎａｄｎｌｅ，ｙ文，以要加入对中文语言的切分规则，要修改这２个分析所需

基于Lucene的搜索引擎设计与实现

ｅｐｅｓｏｏｇａｎｏａｏｘｒｓｉｎｔｒｂｉｆｒｔｎ，ＩｄｘｍｏｕｅｕｅｎｅｔｄｉｄｘｍｅｏＷｏｄｓｇｎａｏｇｒｔｍｓｓｍａｉｌｔｈＣｈｎｓｒｓｍｉｎｅｄｌｓｓｉｖｒｅｎｅｔｄ．ｒｅｍｅｔｔｎａｏｉｈｉｌｈｕｅｘｍａｌｍａｃｉｅｅｗｏｄｙ
整体上采用基于Ｓｒｓ．框架的模型．ｔｔ２ｕ１视图－控制器设计模式，据采集模块利用基于正则表达式的有限状态自动机抓取数据，索引模块应数
用倒排索引方法，系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明，方案具有较高的资源检索率，同时能够保该
第３卷第ｌ期７６
Ｖｏ．７１３
・
计
算
机
工
程
２１年８月０１
Ａｕｕｔ２１ｇｓ０１
Ｎｏ１．６
ＣｏｕｅＥｎｉｅｒｎｍｐｔｒｇｎｅｉｇ
软件技术与数据库・
文编ｔ０ — ４（１ｌ０９０章号０３８ｏ）— ０＿３文标码Ａｌｏ２２１６３＿献识・
ｅｓｒｈｅａｃｒｃｆｔｅｒｔｉｖｌｒｓｌｓｎｕｅｔｃｕａｙｏｈｅｒｅａｅｕｔ．
［ｅｏｄｌＦｌＴａｓｒｒｏｏＦＰｓｃｇｎ；ｕｅｅｒｗｒ；ｄｌｉｏｔｌｒＣ；ｎｅｔｅｕｏａ；ｖｒｄｘＫｙｒｓｉｒｆｏｃｌＴ）ｅｈｎｉｅＬｃｎａｏｋＭｏｅＶｅＣｎｏｌ（ｗｅｎｅＰｔ（ｒａｅｆｍｅｗｒｅＭＶ）ｉｔａｔｍｔｉｅｅｉｅｉｆｔｓａａｎｔｎｄＤＩ１．６／ｉｎ１０－４８０１６１Ｏ：０９９．ｓ．０３２．１．．３３ｊｓ０２１０

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二〇〇八年六月本科毕业设计说明书学校代码： 10128 学号： 040201015 题目：搜索引擎的设计与实现学生姓名：庞佳学院：信息工程学院系别：计算机专业：计算机科学与技术班级：计算机04-2 指导教师：苏依拉副教授钱庭荣工程师摘要为了适应网络信息的飞速增长，并且能够迅速、方便地从网络中获取有效信息, 搜索引擎逐渐走进了人们的生活，“竹竹”搜索引擎系统在这样的条件下，应运而生。

本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。

使读者能够初步了解搜索引擎技术。

然后，详细介绍了“竹竹”搜索引擎系统。

“竹竹”搜索引擎是基于Web的，面向笔记本电脑品牌的搜索引擎。

系统的前端以MVC模式来实现，Spring做中间层，JDBC作后端来开发实现的。

本系统分为三个子模块，抓取模块实现的功能为：将web上的海量网页抓取到系统中；采用的实现方法是使用Heritrix来完成对网页的抓取。

处理模块实现的功能为：解析网页，提取其中的有用内容，为网页建立词库，由于笔记本电脑的品牌名在现有词库中不存在，因此要建立其特有的词库文件，对解析网页生成的信息文件进行分词，并建立索引，将索引存入数据库中；采用的实现方法是：通过Lucene的API来实现对网页内容的建索，使用HTMLParser的API实现了对网页内容的解析。

用户模块实现的主要功能是：用户模块是系统的用户接口，用户通过此模块完成与系统的交互，当用户在查询界面上输入要检索的品牌信息后，系统将在可以接受的时间内，返回用户所需的结果集；采用的实现方法是：通过DWR封装了AJAX技术，处理用户请求；通过Lucene的API 来实现检索。

关键词：搜索引擎；Lucene；HeritrixAbstractIn order to adapt to the rapid growth of information networks, and can quickly and easily access to information from the network, search engines gradually come into people's lives, "zhuzhu" search engine system is builded in such conditions.This paper first introduced the system,the concept of search engines, the development of history, and search engines category. So that readers can understand the search engine technology. Then, details of the "zhuzhu" search engine system."zhuzhu" search engine is a Web-based, brand-oriented notebook computer search engine. The front-end system is made by model MVC, Spring to the middle layer, JDBC for the back-end . The system is divided into three sub-module, crawl module for the realization of the functions: Massive on the web page to crawl into the system; using the method is used to running Heritrix. Processing module for the realization of the functions: Analysis of the page, which extract useful content, pages thesaurus, because the brand of notebook computers available in the thesaurus does not exist, to establish its unique lexicon documents, analysis of the page Information generated by Word documents, and index, the index will be deposited in the database; method is used: Lucene API to achieve the content of the cable construction, the use of the API HTMLParser achieve the web content analysis. User module to achieve the main functions are: the user module is the user interface, the user through the completion of this module interactive system, when a user interface for input to the brand information retrieval system, the system will be acceptable time, Back to the user requirements set of results; using the method is: through the package the DWR AJAX technology, processing user requests through the Lucene API to achieve search.Key words: search engine; Lucene; Heritrix目录引言 (1)第一章课题背景 (2)1.1搜索引擎的概念 (2)1.2搜索引擎的发展历史 (3)1.2.1搜索引擎的起源 (3)1.2.2第一代搜索引擎 (3)1.2.3第二代搜索引擎 (3)1.2.4当前著名的搜索引擎简介 (4)1.3搜索引擎的分类 (5)1.3.1全文索引 (5)1.3.2目录索引 (5)1.3.3元搜索引擎 (5)1.3.4垂直搜索引擎 (6)1.3.5其他非主流搜索引擎形式 (6)第二章系统需求分析 (7)2.1搜索引擎的工作原理 (7)2.2系统功能需求 (7)2.3系统性能需求 (8)第三章系统总体设计 (9)3.1“竹竹”搜索引擎系统总体介绍 (9)3.2系统模块介绍 (11)3.2.1 模块功能介绍 (11)第四章系统详细设计 (16)4.1模块总体介绍 (16)4.2抓取子模块 (17)4.2.1运行Heritrix子模块 (17)4.2.2分析网页子模块 (22)4.3处理子模块 (26)4.3.1解析网页子模块 (26)4.3.2创建词库子模块 (27)4.3.3生成持久化类子模块 (27)4.3.4创建Document子模块 (28)4.4.5存储数据子模块 (32)4.4用户子模块 (32)4.4.1搜索页面 (33)4.4.2详细信息页面 (33)结论 (34)参考文献 (35)谢辞 (36)引言随着互联网的不断发展和日益普及，信息技术的不断发展,网上的信息量在爆炸性增长，这已经深入到了人们生活的各个方面，改变了人们生活方式和思维方式，方便了全球信息资源共享。

在2004年4月，全球Web页面的数目已经超过40亿，中国的网页数估计也超过了3亿。

要在如此浩瀚的海洋里寻找信息，就像“大海捞针”一样，能有一种工具使我们可以迅速找到我们想要的内容吗？答案是“有”，这就是搜索引擎。

著名的因特网搜索引擎包括Baidu、Google、Sohu等。

由于笔记本电脑的使用和风靡，有关笔记本电脑的检索也随之增多。

因此，为了使用户能够更加简单，快捷的检索笔记本电脑，“竹竹”搜索引擎系统实现了这种需求。

搜索引擎（Search Engine）就是指在WWW（World Wide Web）环境中能够响应用户提交的搜索请求，返回相应的查询结果信息的技术和系统，是互联网上的可以查询网站或网页信息的工具。

它包括信息搜集、信息整理和用户查询三部分。

“竹竹” 搜索引擎系统实现了自动将Web上的海量网页抓取到本地。

然后解析网页，提取其中的有用内容，为网页建立词库（由于笔记本电脑的品牌名在现有词库中不存在，因此要建立其特有的词库文件），对解析网页生成的信息文件进行分词，并建立索引，将索引存入数据库中。

“竹竹” 搜索引擎系统为用户提供了简洁的查询页面，用户通过此界面完成与系统的交互。

当用户在查询界面上输入要检索的品牌信息后，系统将在可以接受的时间内，返回用户所需的结果集。

因此，本系统实现了搜索引擎的基本功能，能够使用户可以简单，快捷，精确的对笔记本电脑品牌进行检索。

第一章课题背景1.1搜索引擎的概念由于网络信息的飞速增长，我们不得不面对浩瀚的网络资源，这极大地改变了人们获取信息的方式, 面对浩如烟海的网络信息, 如何才能迅速、方便地获取有效信息, 日益成为人们关心的问题, 搜索引擎的出现极大地缓解了这一矛盾。

它为所有网上冲浪的用户提供了一个入口，毫不夸张的说，所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。

因此它也成为除了电子邮件以外最多人使用的网上服务。

搜索引擎是一种应用在Web上的，为用户提供检索服务的软件系统, 它以一定的策略在Web上搜集和发现信息, 并对信息进行分析、提取、组织等处理后形成供检索用的数据库。

从使用者的角度看，这种软件系统提供一个网页界面，让他通过浏览器提交一个词语或者短语，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。

这个与用户输入内容相关的信息列表（常常会是很长一个列表，例如包含1万个条目）。

这个列表中的每一条目代表一篇网页，至少有3个元素：（1）标题：以某种方式得到的网页内容的标题。