主题搜索引擎的关键技术研究与实现

合集下载

搜索引擎的应用及研究

搜索引擎的应用及研究internet是一个由不同类型和规模的独立自主运行和管理的计算机网络组成的全球范围的计算机网络，它的前身是1969年美国国防部高级研究计划署组建的实验性网络arpanet，随着计算机网络和通信技术的发展，各个国家和组织的网络的不断加入，internet已成为一个规模巨大、自治性强、发展变化快、用户访问频繁的全球最大的国际互联网络，截至1996年7月，internet已连接了134346个网络，入网的国家和地区超过150个，主机1228万台，用户人数以亿计。

internet又是一个无穷无尽的信息源泉，它已深入到人们生产、生活的各个领域，向人们提供着巨大的并且还在不断增长的信息资源和服务，越来越多的公司、企业通过网页宣传自己，越来越多的科研机关和学校通过网页交流科研成果，越来越多的组织和个人拥有了自己的主页，越来越多的报刊、杂志加入了internet的大家庭，足不出户而知天下事已不再是神话。

据不完全统计，1996年internet上的网页数已达到1900万，时至今日，这个数目决不会少于4亿。

为了让用户能够在如此庞大、杂乱、瞬息万变的信息海洋中，方便、快捷地找到自己感兴趣的信息，而不是茫然不知所措，仅靠网页上的超文本链是远远不够的，提供www信息导航服务的搜索引擎（search engine）是解决这个问题的一个途径。

传统的spider式搜索引擎通过被称为spider的程序自动地在网上循着超文本链递归地访问、收集www网页，分析页面的内容，生成索引和摘要，并向用户提供www查询页面，根据用户的查询请求在索引库中查找相关信息在网上的位置，最后将查询结果按照相关度排序后返回，帮助用户尽快地找到所需的信息，给用户带来了极大的便利。

这类搜索引擎的代表有infoseek和alta vista基于人工分类的目录式搜索引擎稍后出现，它在人工的参与下建立分类目录，对收集的网页按主题或者学科进行分类，编写摘要，用户可以沿着分类目录的层次结构，进入自己感兴趣的主题，进而找到所需的信息。

个性化搜索引擎关键技术及应用

个性化搜索引擎关键技术及应用摘要：网络中的资源非常丰富，但是如何有效的搜索信息却是一件困难的事情。

建立搜索引擎就是解决这个问题的最好方法。

本文首先介绍了基于英特网的搜索引擎的系统结构，然后从网络机器人、索引引擎、Web服务器3个方面进行说明，并从个性化搜索引擎的“个性化”进行探讨。

关键词：搜索引擎；搜索器；索引器；个性化信息过滤0 引言搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

随着WWW 信息爆炸式生长和人们对搜索引擎关注点的转变（从如何找到更多的信息转移到如何找到准确、有用的信息），现有搜索引擎越来越不能满足人们的查询要求，搜索引擎技术面临着前所未有的挑战。

这就需要人们不断钻研新的快速、高效的搜索引擎。

搜索引擎一般由信息搜集系统、索引数据库、检索器和用户接口4个部分组成：①信息搜集系统：信息搜集系统又称为搜索器，即各种搜索引擎的蜘蛛、爬虫，其功能是在互联网中漫游，发现和搜集信息；②索引数据库有时称索引器，其功能是理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表；③检索器：其功能是根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果排序，并能按用户的查询需求合理反馈信息；④用户接口：用户接口即传统的搜索框，其作用是接纳用户查询、显示查询结果、提供个性化查询项。

1 搜索引擎的构成1.1 网络机器人网络机器人也称为“网络蜘蛛”(Spider)，是一个功能很强的Web 扫描程序。

它可以在扫描Web页面的同时检索其内的超链接并加入扫描队列等待以后扫描。

蜘蛛的工作职责是发现新的网页并收集这些网页的快照，然后分析该网页。

蜘蛛以抓取页面为主，比如扫描网页，所有的搜索引擎都能够实现深层检索和快速检索。

在深层检索中，蜘蛛可以查找和扫描网页内的所有内容；在快速检索中，蜘蛛不遵循深层检索的规则，只搜索重要的关键词部分，而不检查和扫描网页里的所有内容。

信息检索与推荐系统实验搜索引擎与推荐算法实现

信息检索与推荐系统实验搜索引擎与推荐算法实现随着互联网技术的快速发展，信息变得越来越丰富且庞大，因此，为了能够高效地检索和推荐用户需要的信息，信息检索与推荐系统的研究与应用变得越发重要。

本文将就信息检索与推荐系统中的搜索引擎以及推荐算法的实现进行探讨。

一、搜索引擎的实现搜索引擎是信息检索与推荐系统中最基础的组件之一，其作用是根据用户输入的关键词，在海量的信息中快速找到与关键词相关的信息。

搜索引擎的实现主要包括以下几个步骤：1. 网页抓取与索引为了能够实现高效的搜索，搜索引擎需要对互联网上的网页进行抓取与索引。

在这个过程中，搜索引擎会从网页中提取出网页的核心内容和元数据，并建立起索引以便于后续的检索。

2. 关键词提取与分析用户输入的搜索关键词通常是一个或多个词语，搜索引擎需要对这些关键词进行提取与分析，找出其中的重要信息。

例如，对于一个包含多个词语的搜索关键词，搜索引擎可以通过分析关键词之间的关系，来判断用户的真实意图，从而提供更加准确的搜索结果。

3. 搜索结果排序与展示在搜索结果的展示上，搜索引擎需要根据相关性对搜索结果进行排序，并提供给用户最相关的结果。

通常，搜索引擎会根据网页的质量、用户反馈等多个因素来判断网页的相关性，并将相关性较高的结果排在前面展示给用户。

二、推荐算法的实现除了搜索引擎，推荐算法也是信息检索与推荐系统中非常重要的组件。

推荐算法的任务是根据用户的历史行为数据或者其他的用户特征，为用户推荐他们可能感兴趣的信息。

推荐算法主要包括以下几个步骤：1. 数据收集与分析推荐算法需要收集用户的历史行为数据，例如用户的购买记录、浏览记录等，然后对这些数据进行分析。

通过分析用户的行为模式，推荐算法可以了解用户的兴趣爱好，从而为用户提供更加个性化的推荐结果。

2. 特征提取与建模在推荐系统中，对于每一个用户和每一件物品，都可以提取出一些特征，例如用户的性别、年龄等，物品的类别、标签等。

推荐算法需要对这些特征进行提取与建模，从而能够更好地理解用户和物品之间的关系。

智能搜索引擎发展现状及关键技术

能够实现信息服务的智能化、人性化、高效化，
数的增长，人们将怎样在网络上搜索自己需要的信息。传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。在这样的状况下，智能搜索引擎技术应运而生，也成为当前搜索
第三代搜索引擎的智能化、人性化特征，不再为用户检索互联网信息提供了方便，其发展是局限于机械的关键词检索，可以直接对用户输入的检索词进行语义分析整合，满足了用户更快、更准、更方便的查询需求。
章中有较全面的综述），由此来提高搜索结果
的质量。
的各个领域。数据挖掘又可称为数据库中的知识发现，指的是从存放数据库、数据仓库货其他信息库中的大量数据中获取有效的、新颖的、
潜在有用的、最终可理解的模式的过程［５】。
从第一代搜索引擎到第二代搜索引擎是
参考文献
［１］浅析第三代搜索引擎的发展 … ．包瑞．晋图学刊，２０１０年第４期（总第
１１９期）．
基于关键词和特殊算法的搜索，是依靠机器条进行匹配，在待分析汉字串与词典中已有的
抓取的、建立在超链分析基础上的大规能满足网民的检索需求，用户在信息检索过程中有仍存在查全率、查准率低，检索多媒体信息的能力差等。
一
个长期的过程。目前的搜索引擎主要提供基
于文字内容的信息检索服务，而对于进一步提
高检索结果的相关、个性化检索服务、支持多媒体检索、支持自然语言检索、增强检索界

大数据时代的主流搜索引擎技术研究与优化

大数据时代的主流搜索引擎技术研究与优化随着信息化时代的不断发展，人们已经相当依赖搜索引擎来获取需要的信息。

搜索引擎在人们的日常生活中扮演了重要的角色。

在大数据时代，搜索引擎技术的研究和优化显得尤为重要。

一、搜索引擎的概念和发展搜索引擎是一种能够帮助用户快速查找感兴趣信息的网络工具。

搜索引擎的信息检索技术早在1960年代问世，经过数十年的发展逐渐成为目前世界上用户数量最多的互联网工具之一。

搜索引擎已经成为了目前互联网上搜索和分发信息的核心模式之一。

随着信息量的不断增大，传统的文本检索模式已经不能满足用户需求，因此现代搜索引擎逐渐采用了机器学习、自然语言处理、海量数据处理等技术，实现了更加精确和高效的信息检索。

二、搜索引擎技术的研究和优化搜索引擎技术的研究和优化主要包括以下方面：1、信息检索技术信息检索技术是搜索引擎关键的技术之一。

信息检索包括全文检索和关键词检索两个方面。

全文检索是指通过处理文档中的所有文本内容，将文本信息转化为索引，供用户检索。

关键词检索则是根据用户输入的关键词，对文本数据的库进行查询检索。

2、机器学习技术在搜索引擎中，机器学习被广泛应用于相关度排序的算法。

机器学习可以利用用户的历史搜索记录和浏览记录，预测用户感兴趣的内容并对其进行推荐。

3、自然语言处理技术用户的搜索问题通常都是自然语言，而搜索引擎能否准确理解用户问题、提供针对性的搜索结果，关键就在于自然语言处理技术的应用。

自然语言处理技术能有效地分析语句的意思，将用户的问题和搜索内容进行匹配。

4、海量数据处理技术搜索引擎会收集和处理各种文本数据，如网站内容、新闻、百科、社交媒体等，要求搜索引擎具有处理大数据量的能力。

如何快速处理海量数据是搜索引擎技术之一的难点，目前，批处理、流处理、分布式计算等技术被广泛应用。

三、搜索引擎技术的发展方向搜索引擎技术的未来可谓是充满想象空间，以下几个方向值得期待：1、语音搜索技术语音搜索技术即为用户提供语音交互的搜索服务。

中文垂直搜索引擎研究与实现

分析转换的方法，自动抽取结构化的数据。１３中文分词．
设计中文搜索引擎首先要进行中文分词。目前分词的方法主要有三大类：械分词方法、于统计的分词方法和基于理解机基
０、言引
随着Ｉｔｍｅ的普及和发展．索引擎已经成为大众获取信ｎｅｔ搜
息的重要渠道。通用搜索引擎很大程度上能够帮助人们查找互联网上的信息，其在使用中面临着覆盖率低、效性差、导但时易致迷航、询结果不准确等问题。赛迪调查显示：０查４％以上的网络用户认为．目前的通用搜索引擎提供给用户的不相关信息太多。们呼唤更有针对性的搜索引擎工具，直搜索技术应运而人垂生。垂直搜索引擎是专为查询某一特定领域的信息而产生的查询工具。专门收录某一主题信息，解决该领域内的实际查询它对问题比通用搜索引擎有效得多。于它面向某一特定领城。备由具有效的信息采集策略．得索引更新周期大大缩短．证了对该使保领域信息的及时更新，够从根源上避免搜索时产生的” 音 ” 能噪，从而极大地提高了查询效率
１１聚焦爬虫．
爬虫是搜索引擎中的重要模块它是一个自动收集网页的

基于语义分析的搜索引擎优化技术研究与应用

基于语义分析的搜索引擎优化技术研究与应用随着互联网的蓬勃发展，搜索引擎成为了人们获取信息的重要途径。

然而，传统的搜索引擎主要依赖关键词匹配的方式，往往无法准确理解用户的意图，导致搜索结果与用户期望不符。

为了解决这个问题，基于语义分析的搜索引擎优化技术应运而生。

语义分析是一种通过对语言文本的理解和分析，进而获取文本所承载信息的技术。

在搜索引擎中应用语义分析技术，可以更加准确地理解用户的搜索意图，从而提供更加高质量的搜索结果。

下面将从语义分析的原理、技术和应用等方面进行论述。

一、语义分析的原理语义分析的原理基于自然语言处理和人工智能技术。

它通过对关键词、语法、语义等多个维度的分析和推理，从而实现对文本中的潜在需求和意图的理解。

主要包括文本预处理、句法分析、语义分析和语义理解等步骤。

在文本预处理阶段，对用户输入的文本进行分词、词性标注等操作，以便后续的分析和处理。

句法分析阶段则负责构建文本的语法结构，分析句子的成分关系和句子间的逻辑关系。

语义分析阶段进一步解释句子的意义，提取实体、关系和事件等信息。

而语义理解则是在对文本进行分析的基础上，对用户意图进行推理和判断。

二、基于语义分析的搜索引擎优化技术基于语义分析的搜索引擎优化技术主要包括语义关联分析、用户意图识别和上下文理解等方面。

其中，语义关联分析可用于识别文本之间的关联性，从而为搜索结果排序提供依据。

用户意图识别是为了更加准确地理解用户的搜索意图，并提供相关的搜索结果。

而上下文理解则是在搜索过程中综合考虑搜索历史、用户位置、时间等因素，为用户提供更加个性化、精准的搜索服务。

在语义关联分析方面，搜索引擎可以通过分析文本之间的语义关系，提取整体文本的主题和相关性等信息。

通过建立语义关系图模型，可以实现对文本的高级语义分析和理解。

这样一来，在搜索结果的排序过程中，搜索引擎可以更加准确地评估文本的相似性和相关性。

对于用户意图识别，搜索引擎可以通过分析用户的搜索历史、点击行为等信息，了解用户真正的需求。

基于Java技术的搜索引擎

Solr提供了丰富的API和用户界面，方便开发者和使用者进行操作。
Solr适用于需要稳定、高效和可扩展的搜索平台的场景，如企业内网搜索、电商网站搜索、大型网站内容检索等。
07
总结与展望
总结
技术应用
基于Java技术的搜索引擎在信息检索领域中具有广泛的应用。它利用Java的强大功能和跨平台特性，实现了高效、稳定和可扩展的信息检索服务。
案例三：Solr搜索引擎
概述
• 稳定性
• 扩展性
• 易用性
应用场景
Solr是一个基于Java的开源搜索平台，提供了强大的搜索功能和灵活的扩展性。它使用 Lucene作为其搜索基础，并提供了易于使用的 RESTful API。
Solr具有高稳定性，能够保证服务的可用性和可靠性。
Solr具有良好的扩展性，支持各种插件和定制化开发。
查询解析
搜索引擎接收到用户查询后，首先对其进行解析和处理，以理解用户查询的意图和关键词。查询解析包括分词、去除停用词、词干提取等预处理操作。
查询匹配
解析后的查询与索引进行匹配，找到与查询相关的文档。匹配过程可以采用精确匹配或模糊匹配，根据查询关键词和文档内容的相关性进行筛选。
结果排序
搜索引擎根据匹配结果对文档进行排序，以便用户更容易找到相关内容。排序算法通常基于相关性、点击率、权威性等因素，以提高搜索结果的准确性和相关性。
跨媒体检索
随着多媒体数据的不断增加，基于Java技术的搜索引擎将进一步拓展跨媒体检索功能。它将融合文本、图像、音频和视频等多种媒体信息，提供更加全面的信息检索服务。
个性化推荐
基于Java技术的搜索引擎将进一步强化个性化推荐功能。通过分析用户的搜索历史和偏好，为用户提供更加个性化的搜索结果和建议。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主题优先抓取算法根据网络页面结构的特点,通过页面之间的主题传递来预测页面主题相关性,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阀值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。相关性信息值将互联网网页以主题的不同分割在不同的通道内,所有与主题相关的网页都在最大通道内,各个通道交错相连,爬虫按通道的大小顺序抓取。 
再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。
2.期刊论文刘淑梅.夏亮.许南山.LIU Shu-Mei.XIA Liang.XU Nan-Shan主题搜索引擎网络爬虫搜索策略的研究与
实现-计算机系统应用2010,19(3)
根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题.首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递.传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值.最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高.
论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。
本文在对Internet化学化工主题搜索引擎设计和分析的基础上,设计并实现了化学化工主题搜索引擎的两个主要模块:化学化工主题网络爬虫和基于化学化工词典的倒排索引,以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。 
主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先(Breadth First)和深度优先(Depth First)等通用网络爬虫等相比,主题网络爬虫的爬行策略变为主题相关优先(Topic First)或者最佳优先(Best First)。本文通过对网络化学化工资源的抓取,比较了基于分类器(支持向量机、简单贝叶斯和中心向量)主题网络爬虫、基于关键词匹配主题网络爬虫(匹配网页全文、匹配标题文本和匹配锚文本)和基于链接分析(PageRank和BackLink)主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型(DOM)的页面分块算法和基于视觉(VIPS)的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响,尤其是在爬行的初始阶段。 
首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。
其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。
其次,为了提高网络爬虫预测链接价值的准确性,本文提出了Shark改进算法,其主要思想是:通过改进Shark算法来提高搜索相关网页的能力以及降低优先排序空间复杂度和时间复杂度,提高搜索效率、节约大量时间和资源。
再次,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。
爬虫要抓取的网页信息量庞大,单台主机不能满足这些信息的存储。本文在资源库以及链接地址库都采用postgresql数据库集群技术,扩大后台存储容量。并且在各个数据库点中使用pgbouncer连接池技术,减少数据库连接次数,争取时间。在链接地址库中采用缓存技术减少数据库操作次数,减少消耗时间,提高爬虫工作速度。 
最后通过实验测试,分析数据,验证了基于主题优先抓取技术的有效性及postgresql数据库集群技术的爬虫系统的可行性。
4.学位论文刘玮基于启发式搜索策略的主题网络爬虫算法的设计与实现2008
随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。
Web 搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。
作者:孙轩
学位授予单位:武汉理工大学
1.学位论文夏诏杰Internet化学化工搜索引擎的主题网络爬虫和索引研究2008
Internet作为信息的主要载体之一,其信息资源几乎涵盖所有学科领域。化学专业领域也不例外,Internet已ห้องสมุดไป่ตู้逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点,使Internet资源不仅体现为分布式、高度动态和海量,而且信息的质量参差不齐,出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息,面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询,但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息,因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。 
最后,本研究采用改进的Shark算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。本系统综合了网页的相关性和重要性两方面的需要,不仅能够准确、自动地爬行到主题相关网页,从而提高信息搜索的效率,而且还可节约网络带宽,具有良好的稳定性。另外,本系统URL的优先级侧重点是可调和,具有很强的灵活性。
本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息,如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息,为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点,并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响。 
7.学位论文陈丛丛主题爬虫搜索策略研究2009
随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。
在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。
倒排文件作为一种简单、高效的文档数据索引方式,是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中,本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引,而对除中文以外的网页以字为单位建立索引的方式
,这样可以在查全率和查准率之间做出一定的权衡,并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法,即正排索引和倒排索引都按照一定规则被存放在一系列的桶中,每一个桶中只存放一定范围词条(根据词条ID号)所对应的索引,通过合理安排桶的数量就可以减小各个索引文件的大小,方便倒排索引分布式的存储和处理。 
论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜索效率。
5.学位论文吴安清主题搜索引擎爬行策略的研究2006
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通用搜索引擎所广泛采用的基于图的遍历搜索策略(如广度或深度优先算法)已不再适用,因此,以何种策略访问Web(即主题爬行策略)已成为近年来主题搜索引擎研究的关键问题之一。
本文从提高主题爬虫的搜索效率和搜索精度出发,在以下四个方面对主题搜索引擎的爬行策略进行了较为深入的研究。
首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的
准确性、重要性及主题网络资源覆盖度的搜索策略,以提高主题爬虫的自适应性和搜索效率。
通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而Web 信息容量的巨大使得网络爬虫不可能提取所有的Web页面,即使能够全部提取,也没有足够大的空间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资源的效率。主题网络爬虫设计的关键是如何将待爬行的URL按照某种策略进行排序,使得与主题相关的、质量高的URL优先爬行,爬行的过程逐渐向主题领域聚焦。