面向主题搜索论文：基于Lucene的面向主题信息搜索系统的关键技术分析及应用

合集下载

lucene搜索引擎与信息检索

第1章搜索引擎与信息检索Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。

仿佛一夜间，各种各样的搜索服务席卷而来，从最初的Google、Yahoo到现今的Baidu、MSN、中搜、Sogou 等，搜索引擎的品牌越来越多，服务也越来越丰富。

同时，伴随着Web2.0的疯狂普及，网络信息的膨胀速度成指数急速增长，各种各样的网站都需要为其加入检索功能，以满足用户的需要。

另外，在企业级应用的市场上，全文信息检索的需求也一直在增加，各种文档处理、内容管理软件都需要加入全文检索的功能。

在这样的背景下，搜索引擎的技术迅速发展。

各种讨论搜索的文章、杂志、论文铺天盖地，论坛和博客上也有着许多相关贴子。

一时间，搜索技术成为最为热门的技术之一。

不过，搜索引擎技术并非是一种大众技术，从其出现开始，就一直是一种高门槛的技术，它的后台包括学术领域的众多先进思想和设计，其涉及的学科包括自然语言处理、人工智能、离散数学、排列组合、编译原理等等。

因此设计一个性能良好，并且实用性强的搜索引擎并非易事。

本书不研究上述多种学科与搜索引擎的关联理论，但是作为读者，了解和掌握搜索引擎技术的方方面面，会对阅读有很大的帮助。

因此，作为本书的第1章，将带领读者了解一下搜索引擎和信息检索的基础知识、发展历史、现今状况等内容。

1.1 搜索引擎的历史在互联网发展的最初阶段，网站的数量相对较少，信息查找比较容易。

随着互联网爆炸性地发展，用户很难找到所需的资料。

这时，搜索引擎的需求就出现了，一些为满足大众信息检索需求的专业搜索网站也就应运而生。

1.1.1 萌芽：Archie、Gopher1．Archie事实上，搜索引擎的的诞生追溯到1990年，在加拿大蒙特利尔（Montreal）的麦吉尔大学，一个学生制作了一个自动索引互联网上匿名FTP网站文件的程序。

这个学生叫Alan Emtage。

如图1-1所示。

图1-1 Alan Emtage12 2 这个能够自动索引互联网上匿名FTP 网站文件的程序，被他们称为Archie 。

基于Lucene的全文检索系统的研究与实现的开题报告

基于Lucene的全文检索系统的研究与实现的开题报告一、选题背景及意义随着互联网时代的到来，信息爆炸式增长已经成为人们必须面对的一个问题。

传统的基于关键字的检索方式已经不能满足人们的需求。

全文检索系统应运而生，它可以从大量的文本中快速准确地查找需要的信息，方便人们的使用。

Lucene是一个流行的全文检索引擎，它是基于Java语言开发的，使用Apache协议开源。

Lucene具有快速、可扩展和高效的特点，在应用领域有广泛的应用，如搜索引擎、电子商务网站、维基百科等。

然而，Lucene作为一个开源的库，仍需要使用者有一定的技术基础才能进行使用。

因此，本文将研究如何利用Lucene实现全文检索系统，并通过分析其架构和实现细节，深入了解全文检索系统的工作原理和技术方法。

二、研究内容1. 全文检索技术的概述2. Lucene的基本原理和架构3. 全文检索系统的需求分析4. Lucene全文检索系统的设计和实现5. 系统优化和性能测试三、预期成果完成本文研究所需的工作，预期可以达到以下成果：1. 掌握全文检索技术的基本原理和方法。

2. 深入了解Lucene的架构和实现细节，掌握Lucene的基本使用方法和技巧。

3. 实现一个基于Lucene的全文检索系统，包括需求分析、系统设计、编码实现、系统优化和性能测试等环节。

4. 对系统的性能进行测试和优化，提高系统的搜索效率和准确性。

四、研究方法1. 文献调研：通过阅读相关的学术论文和技术博客，了解全文检索技术的最新研究进展和应用情况。

2. 系统分析：对基于Lucene全文检索系统的需求进行分析和定位，明确系统的功能和性能要求。

3. 系统设计：根据需求分析，设计系统的架构和流程，确定系统各个模块之间的交互和约束关系。

4. 编码实现：使用Java语言编写全文检索系统，使用Lucene作为底层引擎，实现检索功能和系统界面。

5. 系统测试和优化：进行系统性能测试和故障测试，针对测试结果进行优化和改进。

基于Lucene的全文检索系统研究与实现

、、▲
Ｌｉｓｔ（２字长词）
Ｌｉｓｔ（３字长词）
Ｌｉｓｔ（４字长洲）
● ● ● ● ● ●
图２字典数据结构
３．１．２基于双向最大匹配的中文分词算法基于字典的分词方法又叫机械分词算法，这种算法按照一定的策略将待分析的汉字串与一个 “ 充
７８
浙江外国语学院学报
２０１３皋
２．１文档归一化模块
文档归一化模块主要完成对待检索文档的预处理，主要有两个功能：一是支持将．ｐｄｆ，．ｐｐｔ，．ｄｏｃ等
文本解码并转化为．ｔｘｔ文件；二是对文本内容进行过滤，取出可能存在的非法字符和乱码．２．２文本分析模块
分大” 的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功，识别出一个词］．文中，我们提出的匹配算法是正向匹配与逆向匹配相结合的算法，算法流程如下：（１）导人待分词的文本，利用Ｓｏｕｇｏｕ词库构建按字长构建字典数据结构．然后，将待分词文本按照不同类型（如普通中文字
文本分析模块主要实现对元文件文档附属信息的提取存储和通过文本分析器对中文内容的分析
与构建倒排索引．文档相关附属信息（如作者、时间、单位、文件存放目录等）直接存储在数据库中；而对于摘要内容和正文内容信息，由于信息量较大，我们通过文本分析器实现中文自动分词，再利用Ｌｕ — ｃｅｎｅ的索引模块实现倒排索引的自动构建．Ｌｕｃｅｎｅ自带有中文自动分词系统，但性能一般，为此我们

基于Lucene的搜索关键词辅助系统的设计与实现

第１卷第１１期２０ｌ１年３月
南通纺织职业技术学院学报（合版）综
ＪｕａｆＮａｔｎｇＴｅｔｌｃｔｏａｃｎｌｇｌｅｅｏｒｌｏｎｏｘｉＶｏａｉｎｌｎｅＴｅｈｏｏｙＣｏｌｇ
Ｖｏ．Ｎｏ１１１１．．
般要求用户输入关键词，对于一些陌生的领域，户无法给出准确的关键词．但用没有准确的关键词，就无法从网络上迅速搜索到需要的信息．Ｙｈｏ搜狐、ｏｇｅ北大天网、度等搜索引擎在一定程度上满足ａｏ、Ｇｏｌ、百
收稿ｔ期：２１ — ８８５ｔ０００一Ｉ作者简介：宋永生（９４）男，苏徐州人，１８一，江南通纺织职业技术学院现代教育技术中心教师，主要从事移动开发及搜索引擎研究。
ｆ）引模块．索引擎一般通过网络爬虫进行信息采集。采集到的信息存储到本地．信息的格式１索搜将
多种多样．这些不同格式的信息要进行不同的预处理．为了简化开发。对本文将采集到的信息以纯文本格式存储在本地．索之前。先建立索引．ｕｅｅ身无法对物理文件建立索引．搜要Ｌｃｎ本只能识别并处理Ｄｃｍｎｏｕｅｔ类型的文件ｌ３Ｉ．先将物理文件转化为Ｄｃｍｅｔｏｕｎ类型．然后使用Ｉｄｘｉｒ类来建立索引．在建立索引的ｎｅＷｒｅｔ过程中，进行分词处理，掉停用词和常用词，出关键词，记录关键词出现的位置．Ｌｃｎ要去找并ｕｅｅ在传统倒排索引的基础上。实现了分块索引，以对新的文件建立小文件索引．可从而提升索引建立的速度．ｆ搜索模块．用户在搜索框中输入搜索关键词，据这些关键词构建查询条件，２１根进行搜索查询．搜索

基于Lucene的全文检索系统研究

科学论坛
—■Ｉ
基于Ｌｃｎｕｅｅ的全文检索系统研究
薛萍
天津３０８）０３７（津师范大学计算机与信息工程学院天［摘要］息时代的到来，信使数据不仅在数量还是多样性有了很大变化。而Ｌｃｎ全文检索就是，代信息检索领域中被广泛应用的重要技术之一。所ｕｅｅ现以本文首先介绍全文检索及系统的概念，次是Ｌｃｎ其ｕｅｅ的系统结构和实现机制。最后讨论使用Ｌｃｎｕｅｅ工具包开发系统的实际应用问题。［关键词］全文检索ｌｃｎ索引ｕｅｅ中图分类号：Ｐ９Ｔ３文献标识码：Ａ文章编号：０９９４（００３— ４９Ｏ１０ — １Ｘ２１）３０ｌｌ
２全文检素与全文检索系统全文搜索就是以文本数据为主要处理对象，基于全文表引，使用自然语言进行检索的技术。也就是通过计算机索引程序扫描和分析文章中的每一个字或者词，对其相应的建立一个索引，来指明它所出现的次数和位置当用户查询时，就可以根据建立好的索引进行查找，并将结果反馈给用户的方式。全文搜索是现代信息检索技术的重要分支之一，它是处理非结构化数据的强大工具，也是搜索引擎的核心技术之一全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索系统需要具备建立索引和提供查询的基本功能外，需要还方便的用户接口，向万维网的开发接口和二次应用开发接口等等。面全文检索系统的核心功能具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能，围则由各种不同的应用系统组成。外

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告一、选题背景和意义随着信息技术的飞速发展，互联网已经成为人们获取各种信息的主要渠道。

因此，如何快速、高效地从大量的文本数据中获取所需信息，成为一个亟待解决的问题。

全文检索系统由此应运而生，它能够对文本数据进行网页搜索、信息检索、自然语言处理等操作，是信息检索领域的核心技术之一。

在实际应用中，全文检索系统被广泛应用于搜索引擎、社交媒体、电子商务等领域，为人们提供了快捷、精准的信息服务。

本文将基于Lucene全文检索引擎，设计并实现一个二次全文检索系统。

全文检索系统可以寻找到所有文本中与某个关键词相关的信息，而二次检索系统则对全文检索的结果再次进行筛选和排序，以提高所需信息的准确性和相关性，从而提高信息检索的效率。

本文旨在研究二次全文检索系统的设计和实现，探究Lucene引擎在信息检索中的应用。

二、研究内容和方法2.1 研究内容（1）了解全文检索系统和二次全文检索系统的概念、特点和应用场景；（2）基于Lucene全文检索引擎，设计并实现一个二次全文检索系统；（3）构建文本语料库，实现数据的导入和索引；（4）研究相关算法，设计二次检索策略，提高信息筛选和排序的准确性和相关性；（5）对系统进行性能测试、优化和调试，并分析检索效果。

2.2 研究方法本研究采用的研究方法主要包括如下几点：（1）文献综述：对全文检索算法、Lucene引擎技术和二次检索策略进行深入学习和研究，了解国内外相关研究现状和最新进展。

（2）系统设计：通过对全文检索系统和二次检索系统的原理和特点进行分析，设计系统结构和算法流程。

（3）数据处理：构建文本语料库，实现数据的导入、处理和索引，保证数据能够准确、高效地被检索。

（4）算法实现：研究相关算法，设计二次检索策略，提高信息的筛选和排序准确性和相关性。

（5）系统测试：对系统进行测试、优化和调试，分析系统检索效果。

三、预期结果及意义3.1 预期结果（1）设计并实现基于Lucene的二次全文检索系统；（2）构建文本语料库，实现数据的导入和索引；（3）研究相关算法，设计二次检索策略，提高信息筛选和排序的准确性和相关性；（4）对系统进行性能测试、优化和调试，并分析检索效果。

基于Lucene的网站全文搜索的设计与实现.

科技情报开发与经济文章编号：１００５－６０３３（２００５）１５－０２４２－０３ＳＣＩ／ＴＥＣＨＩＮＦＯＲＭＡＴＩＯＮＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ２００５年第１５卷第１５期收稿日期：２００５－０６－０３基于Ｌｕｃｅｎｅ的网站全文搜索的设计与实现陈庆伟１，刘军２（１．山西省网络管理中心，山西太原，０３０００１；２．山西省科技情报研究所，山西太原，０３０００１）摘要：Ｌｕｃｅｎｅ是一个基于Ｊａｖａ技术的开放源代码全文索引引擎工具包，它可以方便地嵌入到各种应用中实现针对应用的全文索引／检索功能。

利用Ｌｕｃｅｎｅ的ＡＰＩ可以比较方便地为一个网站提供全文搜索功能。

探讨了如何使用Ｌｕｃｅｎｅ建造一个通用的Ｗｅｂ站点全文搜索工具，并对在构建系统中应注意的若干问题进行了探讨。

关键词：全文搜索；Ｌｕｃｅｎｅ；Ｊａｖａ中图分类号：ＴＰ３９３．０７文献标识码：Ａ在构建一个信息类Ｗｅｂ站点的时候，站点的全文搜索功能是必备的功能之一。

一般站点的信息内容都存储在各种数据库系统中，并使用数据库提供的检索和查询功能构建网站的搜索功能。

但随着信息的累‘％ｋｅｙｗｏｒｄ％’查询构成的数据检索性能将积，使用数据库中的类似ｌｉｋｅ急剧下降，因此，只使用数据库查询进行全文检索并不是一个好的解决它可以方便方案。

Ｌｕｃｅｎｅ是一个基于Ｊａｖａ技术的全文索引引擎工具包，地嵌入到各种应用中实现针对应用的全文索引／检索功能。

例如Ｌｕｃｅｎｅ可以快速实现一个简单、功能强大的数据全文检索系统。

ＰＤＦＷｏｒｄＸＳＬＴ格式化各种输出ＴｅｘｔＸＭＬ输出ＸＭＬ格式ＸＭＬ中间格式ＤＢＬｕｃｅｎｅＤＢ１设计目标全文检索系统的主要功能就是为信息资料提供全文索引和查询。

对其他专业格式图１接口的实现示意图于一个以提供信息资料为主要目的网站来说，网站的全文检索系统是必备功能之一。

但对于小型的信息网站来说，购置全文检索系统的代价经‘ｋｅｙｗｏｒｄ’查询来代替全文检索常是昂贵的。

基于Lucene的电子文献全文检索系统的研究

基于Ｌｕｃｅｎｅ的电子文献全文检索系统的研究【摘要】：实现了中文单字切分模块，并在LuceneAPI基础上建立支持中英文混合检索的全文数据库。

在电子文献全文检索系统项目中作为全文检索工具。

中文全文数据库的主要性能和功能包括：支持中英文混合检索；可以不关机动态添加或删除一篇文档索引；采用多线程设计，能承受大量的访问请求；支持跨平台运行；提供命令行直接查询方式和基于WEB的查询方式；易学通用的检索表达式；系统可扩展性强。

【关键词】：中文信息处理；全文数据库；全文检索Lucene中国分类号：TP3 文献标识码：A 文章编号：1002-6908（2007）0220078-011.Lucene简介Lucene是一个信息检索的函数库(Library)，利用它你可以为你的应用加上索引和搜索的功能。

Lucene的使用者不需要深入了解有关全文检索的知识，仅仅学会使用库中的一个类，你就为你的应用实现全文检索的功能。

Lucene可以对任何的数据做索引和搜索，不管是MS word、Html 、pdf还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用，你就可以用Lucene对它们进行索引以及搜索。

它不仅能用来构建具体的全文检索应用，而且可被集成到各种系统软件中构建Web 等多种应用。

例如，某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。

2.Lucene检索原理Lucene的检索算法属于索引检索，即用空间来换取时间，对需要检索的文件、字符流进行全文索引，在检索的时候对索引进行快速的检索，得到检索位置，这个位置记录检索词出现的文件路径或者某个关键词。

在使用数据库的项目中，一般不使用数据库进行检索，其主要原因是数据库在非精确查询的时候使用查询语言”like%keyword%”，对数据库进行查询是对所有记录遍历，并对字段进行”%keyword%”匹配，在数据库的数据庞大以及某个字段存储的数据量庞大的时候，这种遍历是低效的，它需要对所有的记录进行匹配查询。

基于Lucene的Web搜索引擎实现的开题报告

基于Lucene的Web搜索引擎实现的开题报告1. 研究背景随着互联网的普及，每天都会有大量的网页被发布到网络上。

用户需要在这些海量的网页中寻找特定信息，因此Web搜索引擎变得非常重要。

目前市场上已经有一些知名的搜索引擎，如 Google、Baidu、Bing 等，这些搜索引擎已经成为人们日常学习、工作和娱乐的重要工具。

Lucene是一个开源的全文检索引擎工具包，它提供了基于索引的检索功能，具有高效、可靠、灵活等优点，已经成为搜索引擎、信息检索等领域的重要工具。

同时，随着互联网技术以及计算机硬件的发展，Web搜索引擎不仅需要支持文本检索，还需要支持图片、视频等多种类型的媒体文件的检索。

因此，基于Lucene的Web搜索引擎的研究具有非常重要的意义。

2. 研究目的本研究旨在设计并实现一款基于Lucene的Web搜索引擎，支持文本、图片、视频等多种类型的媒体文件的检索，并对其进行性能测试和优化，评估其检索效率和准确率，为用户提供高效、准确的Web搜索服务。

3. 研究内容（1）Lucene基础知识研究Lucene是一个Java程序库，提供了全文检索的功能，它可以索引各种格式的文档，并提供查询这些文档的API。

本研究将首先研究Lucene 的基础知识，包括索引、查询、文档等概念，了解Lucene的工作原理和基本用法。

（2）Web搜索引擎架构设计基于Lucene的Web搜索引擎需要有一定的架构设计，包括爬虫、索引、查询等模块。

本研究将根据Lucene的特点和Web搜索引擎的需求，设计合理的架构，并对各个模块进行详细的功能设计。

（3）Web搜索引擎实现本研究将根据设计的架构，采用Java语言和Lucene编写代码，实现基于Lucene的Web搜索引擎，并完成各个模块的开发和集成。

同时，为了实现多种类型媒体文件的检索，需要使用相关的技术和工具，如深度学习、图像处理、视频处理等。

（4）性能测试与优化本研究将对实现的Web搜索引擎进行性能测试，包括检索效率、准确率、容错性等各个方面。

基于LUCENE搜索引擎的设计及实现开题报告

基于LUCENE搜索引擎的设计及实现开题报告一、课题背景随着信息时代的到来，大量的数据和信息被产生和积累，使得数据和信息查询变得越来越重要。

传统的检索技术主要是基于关键词匹配的全文检索，但是由于文本数据的复杂性和语义的多样性，全文检索存在着信息冗余和信息缺失的问题。

因此，在信息检索领域，基于语义的检索技术得到了越来越多的关注。

当前，基于语义的检索技术主要有两种实现方式：一种是基于知识图谱的检索技术，另一种是基于语义理解的检索技术。

知识图谱的检索技术需要大量的人工干预和知识抽取，而且建设成本非常高。

而基于语义理解的检索技术则是根据文本的语义和上下文信息进行检索，避免了传统全文检索中存在的问题，具有更好的检索效果。

基于语义理解的检索技术是目前信息检索领域研究的热点之一。

LUCENE搜索引擎是一个基于Java语言开发的全文检索引擎。

它可以快速、准确地搜索和索引文本文档，对于大规模文本检索具有优异性能和可扩展性。

LUCENE搜索引擎已被广泛应用于互联网搜索、企业搜索和专业搜索等各个领域。

二、研究目的和意义基于语义理解的检索技术可以提高检索的准确性和效率，对于实现智能检索和自动化处理具有重要意义。

该研究将LUCENE搜索引擎与中文分词技术相结合，实现基于语义的文本检索。

该研究的目的是：1.分析LUCENE搜索引擎的功能特点和检索原理，探究其在中文文本检索中的优势。

2.分析中文分词技术在语义理解中的应用，设计基于中文分词的语义检索算法。

3.实现基于LUCENE搜索引擎和中文分词技术的语义文本检索系统，并对系统性能进行测试和优化。

该研究将为语义文本检索领域的研究和应用提供新的思路和方法，促进智能检索技术的发展与应用。

三、研究内容和方法1.研究LUCENE搜索引擎的功能特点和检索原理，探究其在中文文本检索中的优势。

2.分析中文分词技术在语义理解中的应用，设计基于中文分词的语义检索算法。

3.实现基于LUCENE搜索引擎和中文分词技术的语义文本检索系统，并对系统性能进行测试和优化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

面向主题搜索论文：基于Lucene的面向主题信息搜索系统
的关键技术分析及应用

【中文摘要】网络信息的爆炸性增长使搜索引擎成为人们上网必
不可少的工具之一。其中应用最广泛的是以Goolge、百度为代表的
综合性搜索引擎,这类搜索引擎服务对象是网络大众用户它为广大网
络用户在查找信息上提供了很大的方便。但随之而来的查找结果的准
确率低,其一是因为由于抓取网页数量以指数级别增大,对这些网页
的预处理能力降低,致使查询结果中存在大量重复网页；其二,人们由
于生活环境与工作环境的不同,对信息关注方向也不同,例如一个气
象工作人员,他们希望查询到的结果会把与气象相关的网页优先排序
在前几页,而一个农业工作者希望将与农产品相关的网页优先显示,
这样一来综合性搜索引擎便无法满足这类专业领域人员的需求了。在
这种背景下面向主题的搜索引擎应运而生。面向主题的搜索引擎系统
与综合性网页搜索引擎最大的区别就是对网页信息进行了结构化信
息抽取,这样做的好处是,在把网页分化成小粒度的单元后,更加方便
对网页文档的内容进行加工处理,如网页净化、去重等。由于搜索引
擎中运作着的各部分是环环相扣,当有了质量较高的网页预处理过程,
接下来可以减小索引的负担,且搜索出的结果准确率更高,使用户有
更高的体验度。面向主题搜索系统中,将它分为四大主要部分,...
【英文摘要】The explosive growth of network information
make search engines become an indispensable tool. One of the
most representative comprehensive search engine system is
Google and Baidu, such search engine provides services to the
public web users, which give a big favor to users to find useful
information on the internet. But which comes with the
convenience, the search result have a low precision. One is
because the number of pages to crawl is increasing in an index
level, so the web pre-processing ability on t...
【关键词】面向主题搜索 Lucene TextTiling HtmlParser 网页
消重
【英文关键词】subject-oriented search system Lucene
TextTiling purification duplicate web pages elimination
【目录】基于Lucene的面向主题信息搜索系统的关键技术分析
及应用摘要4-6Abstract6-7第1章引言
11-191.1 课题研究背景及现状111.2 搜索引擎技术
的研究背景与发展趋势11-141.2.1 搜索引擎的发展历史
11-121.2.2 搜索引擎的现状与发展趋势12-141.3
面向主题的搜索引擎系统14-171.3.1 面向主题搜索引擎的
优势15-161.3.2 面向主题搜索系统的研究现状
16-171.4 本文研究内容17-181.5 本文组织结构
18-19第2章面向主题搜索系统的关键技术分析
19-402.1 数据搜集器19-262.1.1 Heritrix简介
21-222.1.2 Heritrix与Nutch的比较22-232.1.3
Heritrix的配置使用23-262.2 网页解析技术
HTMLPARSER26-312.2.1 HtmlParser概述262.2.2
HtmlParser中主要类的介绍26-292.2.3 HtmlParser中遍历
方式29-312.3 中文分词技术31-342.3.1 中文分词
的研究现状31-332.3.2 常见分词系统33-342.4 全
文搜索框架LUCENE34-382.4.1 Lucene概述342.4.2
Lucene索引结构34-352.4.3 Lucene工作原理
35-382.5 向量空间模型在面向主题搜索系统中的应用
38-40第3章面向主题搜索系统的设计40-453.1 系
统提出背景403.2 系统框架设计40-423.3 词典库设
计42-433.3.1 气象专业词库423.3.2 动态词库
42-433.4 开发环境与系统编程框架43-453.4.1 系
统的开发环境433.4.2 系统编程框架与技术介绍
43-45第4章数据搜集与网页预处理模块45-714.1
数据搜集模块详细设计45-514.1.1 数据搜集模块的基本配
置45-474.1.2 面向主题的搜集47-504.1.3 实验结
果分析50-514.2 网页预处理模块详细设计
51-714.2.1 网页净化模块51-624.2.2 网页消重模
块62-71第5章 LUCENE索引与搜索模块71-885.1
LUCENE建立索引的过程71-835.1.1 提取文本内容
71-775.1.2 多线程建立索引77-835.2 LUCENE查询
模块83-885.2.1 lucene搜索过程83-845.2.2 lucene
中自带排序算法研究84-855.2.3 改进后的网页排序算法
85-875.2.4 实验结果分析87-88第6章个性化设置
与系统应用界面88-936.1 热点词推荐88-896.2 网
页预览功能89-916.3 系统应用界面91-93第7章结
论与展望93-95致谢95-96参考文献96-98攻
读硕士研究生期间主要成果98