面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用

合集下载

lucene搜索引擎与信息检索

lucene搜索引擎与信息检索

第1章搜索引擎与信息检索Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。

仿佛一夜间,各种各样的搜索服务席卷而来,从最初的Google、Yahoo到现今的Baidu、MSN、中搜、Sogou 等,搜索引擎的品牌越来越多,服务也越来越丰富。

同时,伴随着Web2.0的疯狂普及,网络信息的膨胀速度成指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。

另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。

在这样的背景下,搜索引擎的技术迅速发展。

各种讨论搜索的文章、杂志、论文铺天盖地,论坛和博客上也有着许多相关贴子。

一时间,搜索技术成为最为热门的技术之一。

不过,搜索引擎技术并非是一种大众技术,从其出现开始,就一直是一种高门槛的技术,它的后台包括学术领域的众多先进思想和设计,其涉及的学科包括自然语言处理、人工智能、离散数学、排列组合、编译原理等等。

因此设计一个性能良好,并且实用性强的搜索引擎并非易事。

本书不研究上述多种学科与搜索引擎的关联理论,但是作为读者,了解和掌握搜索引擎技术的方方面面,会对阅读有很大的帮助。

因此,作为本书的第1章,将带领读者了解一下搜索引擎和信息检索的基础知识、发展历史、现今状况等内容。

1.1 搜索引擎的历史在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。

随着互联网爆炸性地发展,用户很难找到所需的资料。

这时,搜索引擎的需求就出现了,一些为满足大众信息检索需求的专业搜索网站也就应运而生。

1.1.1 萌芽:Archie、Gopher1.Archie事实上,搜索引擎的的诞生追溯到1990年,在加拿大蒙特利尔(Montreal)的麦吉尔大学,一个学生制作了一个自动索引互联网上匿名FTP网站文件的程序。

这个学生叫Alan Emtage。

如图1-1所示。

图1-1 Alan Emtage12 2 这个能够自动索引互联网上匿名FTP 网站文件的程序,被他们称为Archie 。

基于Lucene的全文检索系统的研究与实现的开题报告

基于Lucene的全文检索系统的研究与实现的开题报告

基于Lucene的全文检索系统的研究与实现的开题报告一、选题背景及意义随着互联网时代的到来,信息爆炸式增长已经成为人们必须面对的一个问题。

传统的基于关键字的检索方式已经不能满足人们的需求。

全文检索系统应运而生,它可以从大量的文本中快速准确地查找需要的信息,方便人们的使用。

Lucene是一个流行的全文检索引擎,它是基于Java语言开发的,使用Apache协议开源。

Lucene具有快速、可扩展和高效的特点,在应用领域有广泛的应用,如搜索引擎、电子商务网站、维基百科等。

然而,Lucene作为一个开源的库,仍需要使用者有一定的技术基础才能进行使用。

因此,本文将研究如何利用Lucene实现全文检索系统,并通过分析其架构和实现细节,深入了解全文检索系统的工作原理和技术方法。

二、研究内容1. 全文检索技术的概述2. Lucene的基本原理和架构3. 全文检索系统的需求分析4. Lucene全文检索系统的设计和实现5. 系统优化和性能测试三、预期成果完成本文研究所需的工作,预期可以达到以下成果:1. 掌握全文检索技术的基本原理和方法。

2. 深入了解Lucene的架构和实现细节,掌握Lucene的基本使用方法和技巧。

3. 实现一个基于Lucene的全文检索系统,包括需求分析、系统设计、编码实现、系统优化和性能测试等环节。

4. 对系统的性能进行测试和优化,提高系统的搜索效率和准确性。

四、研究方法1. 文献调研:通过阅读相关的学术论文和技术博客,了解全文检索技术的最新研究进展和应用情况。

2. 系统分析:对基于Lucene全文检索系统的需求进行分析和定位,明确系统的功能和性能要求。

3. 系统设计:根据需求分析,设计系统的架构和流程,确定系统各个模块之间的交互和约束关系。

4. 编码实现:使用Java语言编写全文检索系统,使用Lucene作为底层引擎,实现检索功能和系统界面。

5. 系统测试和优化:进行系统性能测试和故障测试,针对测试结果进行优化和改进。

基于Lucene的全文检索系统研究与实现

基于Lucene的全文检索系统研究与实现

、 、▲
L i s t ( 2 字 长 词)
L i s t ( 3 字 长 词)
L i s t ( 4 字 长 洲)
● ● ● ● ● ●
图2 字 典 数 据 结 构
3 . 1 . 2 基 于双 向最大 匹配 的中文分词 算法 基于 字典 的分词方 法 又叫机械 分词算 法 , 这种算 法按 照一定 的策 略将 待分 析 的汉 字 串与一 个 “ 充
7 8
浙 江外 国语 学院 学报
2 0 1 3皋
2 . 1 文 档归 一化模 块
文 档归 一化模 块 主要 完成 对待 检索文 档 的预处理 , 主要有 两个 功能 : 一是 支 持将 . p d f , . p p t , . d o c等
文本解 码并 转化为 . t x t 文件 ; 二是 对文本 内容 进行过 滤 , 取 出可 能存在 的非法 字符 和乱码 . 2 . 2 文 本分 析模块
分 大” 的机 器词典 中的词条进 行 匹配 , 若 在词 典 中 找到某 个 字 符 串 , 则 匹 配成 功 , 识 别 出一 个 词 ] . 文 中, 我们 提出 的匹配算 法是 正 向匹 配 与逆 向匹配 相 结 合 的算 法 , 算 法 流程 如 下 : ( 1 ) 导 人 待 分词 的文 本, 利用 S o u g o u词库构 建按 字长构 建字 典数据结 构 . 然后 , 将 待分 词文本 按照不 同类 型 ( 如 普通 中文 字
文 本分 析模块 主要 实现对 元文件 文档 附属信 息 的提取存 储和 通过 文本 分 析器 对 中文 内容 的分 析
与构建 倒排 索引 . 文档相 关 附属 信 息 ( 如作 者 、 时间、 单位 、 文 件存 放 目录等 ) 直 接存 储 在数 据 库 中; 而 对于摘要 内容 和正 文 内容 信息 , 由于 信息量 较大 , 我们通 过文 本分析 器实 现 中文 自动 分词 , 再 利用 L u — c e n e的索引模 块实 现倒排 索引 的 自动构 建 . L u c e n e自带 有 中文 自动 分 词 系统 , 但 性 能一 般 , 为此 我们

基于Lucene的搜索关键词辅助系统的设计与实现

基于Lucene的搜索关键词辅助系统的设计与实现
第 1卷 第 1 1 期 20 l 1年 3月
南 通纺 织 职业 技术 学 院学 报 ( 合 版 ) 综
Ju a fNa tngTe tl c to a c n lg le e o r lo no xi Vo ain l n e Te h oo yColg
Vo . No1 111. .
般 要 求 用 户输 入 关键 词 , 对 于 一 些 陌生 的领 域 , 户 无 法给 出准 确 的关键 词. 但 用 没有 准 确 的关 键 词 , 就无 法 从 网络 上 迅 速搜 索 到 需 要 的信 息 .Y h o 搜 狐 、 oge 北 大 天 网 、 度 等 搜 索 引擎 在 一 定程 度 上 满足 ao 、 G ol 、 百
收 稿 t 期 :2 1 — 8 8 5 t 0 0 0 一I 作 者 简 介 :宋 永 生 ( 9 4 ) 男 , 苏 徐 州 人 , 18一 , 江 南通 纺 织 职 业 技 术 学 院 现 代 教 育 技 术 中心 教 师 , 主要 从 事 移 动 开 发 及 搜 索 引 擎 研 究 。
f) 引模 块 . 索 引擎 一般 通过 网络爬 虫进 行信 息 采集 。 采 集到 的信 息存 储 到本 地 .信 息 的格 式 1索 搜 将
多种 多样 . 这些 不 同格 式 的信 息要 进行 不 同 的预处 理 .为 了简化 开 发 。 对 本文 将 采集 到 的信 息 以纯文 本 格 式存储 在本地 . 索之前 。 先建 立索 引. u e e 身无法 对物理 文件 建立索 引 . 搜 要 L cn 本 只能 识别并处 理D c m n ou e t 类型 的文件 l 3 I .先将 物 理文 件 转 化为 D c me t o u n 类型 . 然后 使 用 Idx i r类来 建立 索 引.在 建 立索 引的 n eWr e t 过 程 中 , 进 行分 词处 理 , 掉停 用 词和 常 用词 , 出关 键词 , 记录 关键 词 出现 的位 置.L cn 要 去 找 并 u e e在传 统 倒 排 索 引 的基础 上 。 实现 了 分块 索 引 , 以对 新 的文 件 建立 小文 件 索 引 . 可 从而 提 升索 引建 立 的速 度 . f 搜 索模 块 .用 户在搜 索 框 中输入 搜 索关 键词 , 据 这些关 键 词构 建查 询 条件 , 2 1 根 进行 搜索 查 询.搜 索

基于Lucene的全文检索系统研究

基于Lucene的全文检索系统研究
科 学 论坛
—■I
基 于 L cn u e e的全文检 索 系统 研究
薛 萍
天津 30 8 ) 0 3 7 ( 津师 范大 学计 算机 与信 息工 程学 院 天 [ 摘 要 ] 息时代 的 到来, 信 使数据 不 仅在 数量 还是 多样 性 有 了很 大 变化 。而 L c n 全 文检 索就 是, 代信 息 检索 领域 中被 广泛 应用 的 重要 技术 之一 。所 ue e 现 以本文 首先 介 绍全文 检 索及 系统 的概 念 , 次是 L c n 其 u e e的系统 结构 和 实现 机制 。最后 讨 论使 用 L c n u e e工 具包 开发 系 统的 实 际应用 问题 。 [ 关键 词] 全文 检 索 l c n 索 引 uee 中 图分类 号 :P 9 T 3 文 献标 识码 : A 文章编 号 :09 94 (0 0 3— 4 9O 10 — 1X 2 1) 30 l l
2全文 检 素与 全 文检 索系 统 全文 搜索 就是 以文 本数据 为主 要处 理对 象, 基于全 文表 引, 使用 自然 语言 进 行检 索 的技术 。也就 是通 过计 算机 索 引程序 扫描 和分析 文 章 中的每 一个字 或 者词 , 对其相 应 的建立 一个 索 引, 来指 明它 所 出现 的 次数和 位 置 当用户查 询时, 就可 以根据 建 立好 的索 引进行 查找, 并将 结果 反馈 给用 户 的方式 。 全文搜 索是 现代信 息检索技 术 的重要分支 之一, 它是处 理非 结构化数 据 的 强大工 具, 也是搜 索 引擎 的核 心技 术之 一 全文检 索 系统是 按照 全文检 索 理论建 立起 来 的用于提 供 全文检 索服 务 的 软 件系 统。 全文检 索 系统 需要具 备建 立索 引和 提供 查询 的基 本功 能外 , 需要 还 方 便的用 户 接 口, 向万 维 网 的开发 接 口和二 次应 用 开发 接 口等等 。 面 全文 检 索系 统 的核 心 功 能具 有 建立 索 引 、处理 查 询 返 回结 果集 、增加 索 引 、优 化索 引结 构 等等 功 能 , 围则 由各种 不 同的应 用 系 统 组成 。 外

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告一、选题背景和意义随着信息技术的飞速发展,互联网已经成为人们获取各种信息的主要渠道。

因此,如何快速、高效地从大量的文本数据中获取所需信息,成为一个亟待解决的问题。

全文检索系统由此应运而生,它能够对文本数据进行网页搜索、信息检索、自然语言处理等操作,是信息检索领域的核心技术之一。

在实际应用中,全文检索系统被广泛应用于搜索引擎、社交媒体、电子商务等领域,为人们提供了快捷、精准的信息服务。

本文将基于Lucene全文检索引擎,设计并实现一个二次全文检索系统。

全文检索系统可以寻找到所有文本中与某个关键词相关的信息,而二次检索系统则对全文检索的结果再次进行筛选和排序,以提高所需信息的准确性和相关性,从而提高信息检索的效率。

本文旨在研究二次全文检索系统的设计和实现,探究Lucene引擎在信息检索中的应用。

二、研究内容和方法2.1 研究内容(1)了解全文检索系统和二次全文检索系统的概念、特点和应用场景;(2)基于Lucene全文检索引擎,设计并实现一个二次全文检索系统;(3)构建文本语料库,实现数据的导入和索引;(4)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(5)对系统进行性能测试、优化和调试,并分析检索效果。

2.2 研究方法本研究采用的研究方法主要包括如下几点:(1)文献综述:对全文检索算法、Lucene引擎技术和二次检索策略进行深入学习和研究,了解国内外相关研究现状和最新进展。

(2)系统设计:通过对全文检索系统和二次检索系统的原理和特点进行分析,设计系统结构和算法流程。

(3)数据处理:构建文本语料库,实现数据的导入、处理和索引,保证数据能够准确、高效地被检索。

(4)算法实现:研究相关算法,设计二次检索策略,提高信息的筛选和排序准确性和相关性。

(5)系统测试:对系统进行测试、优化和调试,分析系统检索效果。

三、预期结果及意义3.1 预期结果(1)设计并实现基于Lucene的二次全文检索系统;(2)构建文本语料库,实现数据的导入和索引;(3)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(4)对系统进行性能测试、优化和调试,并分析检索效果。

基于Lucene的网站全文搜索的设计与实现.

科技情报开发与经济文章编号:1005-6033(2005)15-0242-03SCI/TECHINFORMATIONDEVELOPMENT&ECONOMY2005年第15卷第15期收稿日期:2005-06-03基于Lucene的网站全文搜索的设计与实现陈庆伟1,刘军2(1.山西省网络管理中心,山西太原,030001;2.山西省科技情报研究所,山西太原,030001)摘要:Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。

利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。

探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。

关键词:全文搜索;Lucene;Java中图分类号:TP393.07文献标识码:A在构建一个信息类Web站点的时候,站点的全文搜索功能是必备的功能之一。

一般站点的信息内容都存储在各种数据库系统中,并使用数据库提供的检索和查询功能构建网站的搜索功能。

但随着信息的累‘%keyword%’查询构成的数据检索性能将积,使用数据库中的类似like急剧下降,因此,只使用数据库查询进行全文检索并不是一个好的解决它可以方便方案。

Lucene是一个基于Java技术的全文索引引擎工具包,地嵌入到各种应用中实现针对应用的全文索引/检索功能。

例如Lucene可以快速实现一个简单、功能强大的数据全文检索系统。

PDFWordXSLT格式化各种输出TextXML输出XML格式XML中间格式DBLuceneDB1设计目标全文检索系统的主要功能就是为信息资料提供全文索引和查询。

对其他专业格式图1接口的实现示意图于一个以提供信息资料为主要目的网站来说,网站的全文检索系统是必备功能之一。

但对于小型的信息网站来说,购置全文检索系统的代价经‘keyword’查询来代替全文检索常是昂贵的。

基于Lucene的电子文献全文检索系统的研究

基于Lucene的电子文献全文检索系统的研究【摘要】:实现了中文单字切分模块,并在LuceneAPI基础上建立支持中英文混合检索的全文数据库。

在电子文献全文检索系统项目中作为全文检索工具。

中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。

【关键词】:中文信息处理;全文数据库;全文检索Lucene中国分类号:TP3 文献标识码:A 文章编号:1002-6908(2007)0220078-011.Lucene简介Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能。

Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能。

Lucene可以对任何的数据做索引和搜索,不管是MS word、Html 、pdf还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用,你就可以用Lucene对它们进行索引以及搜索。

它不仅能用来构建具体的全文检索应用,而且可被集成到各种系统软件中构建Web 等多种应用。

例如,某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。

2.Lucene检索原理Lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文件、字符流进行全文索引,在检索的时候对索引进行快速的检索,得到检索位置,这个位置记录检索词出现的文件路径或者某个关键词。

在使用数据库的项目中,一般不使用数据库进行检索,其主要原因是数据库在非精确查询的时候使用查询语言”like%keyword%”,对数据库进行查询是对所有记录遍历,并对字段进行”%keyword%”匹配,在数据库的数据庞大以及某个字段存储的数据量庞大的时候,这种遍历是低效的,它需要对所有的记录进行匹配查询。

基于Lucene的Web搜索引擎实现的开题报告

基于Lucene的Web搜索引擎实现的开题报告1. 研究背景随着互联网的普及,每天都会有大量的网页被发布到网络上。

用户需要在这些海量的网页中寻找特定信息,因此Web搜索引擎变得非常重要。

目前市场上已经有一些知名的搜索引擎,如 Google、Baidu、Bing 等,这些搜索引擎已经成为人们日常学习、工作和娱乐的重要工具。

Lucene是一个开源的全文检索引擎工具包,它提供了基于索引的检索功能,具有高效、可靠、灵活等优点,已经成为搜索引擎、信息检索等领域的重要工具。

同时,随着互联网技术以及计算机硬件的发展,Web搜索引擎不仅需要支持文本检索,还需要支持图片、视频等多种类型的媒体文件的检索。

因此,基于Lucene的Web搜索引擎的研究具有非常重要的意义。

2. 研究目的本研究旨在设计并实现一款基于Lucene的Web搜索引擎,支持文本、图片、视频等多种类型的媒体文件的检索,并对其进行性能测试和优化,评估其检索效率和准确率,为用户提供高效、准确的Web搜索服务。

3. 研究内容(1)Lucene基础知识研究Lucene是一个Java程序库,提供了全文检索的功能,它可以索引各种格式的文档,并提供查询这些文档的API。

本研究将首先研究Lucene 的基础知识,包括索引、查询、文档等概念,了解Lucene的工作原理和基本用法。

(2)Web搜索引擎架构设计基于Lucene的Web搜索引擎需要有一定的架构设计,包括爬虫、索引、查询等模块。

本研究将根据Lucene的特点和Web搜索引擎的需求,设计合理的架构,并对各个模块进行详细的功能设计。

(3)Web搜索引擎实现本研究将根据设计的架构,采用Java语言和Lucene编写代码,实现基于Lucene的Web搜索引擎,并完成各个模块的开发和集成。

同时,为了实现多种类型媒体文件的检索,需要使用相关的技术和工具,如深度学习、图像处理、视频处理等。

(4)性能测试与优化本研究将对实现的Web搜索引擎进行性能测试,包括检索效率、准确率、容错性等各个方面。

基于LUCENE搜索引擎的设计及实现开题报告

基于LUCENE搜索引擎的设计及实现开题报告一、课题背景随着信息时代的到来,大量的数据和信息被产生和积累,使得数据和信息查询变得越来越重要。

传统的检索技术主要是基于关键词匹配的全文检索,但是由于文本数据的复杂性和语义的多样性,全文检索存在着信息冗余和信息缺失的问题。

因此,在信息检索领域,基于语义的检索技术得到了越来越多的关注。

当前,基于语义的检索技术主要有两种实现方式:一种是基于知识图谱的检索技术,另一种是基于语义理解的检索技术。

知识图谱的检索技术需要大量的人工干预和知识抽取,而且建设成本非常高。

而基于语义理解的检索技术则是根据文本的语义和上下文信息进行检索,避免了传统全文检索中存在的问题,具有更好的检索效果。

基于语义理解的检索技术是目前信息检索领域研究的热点之一。

LUCENE搜索引擎是一个基于Java语言开发的全文检索引擎。

它可以快速、准确地搜索和索引文本文档,对于大规模文本检索具有优异性能和可扩展性。

LUCENE搜索引擎已被广泛应用于互联网搜索、企业搜索和专业搜索等各个领域。

二、研究目的和意义基于语义理解的检索技术可以提高检索的准确性和效率,对于实现智能检索和自动化处理具有重要意义。

该研究将LUCENE搜索引擎与中文分词技术相结合,实现基于语义的文本检索。

该研究的目的是:1.分析LUCENE搜索引擎的功能特点和检索原理,探究其在中文文本检索中的优势。

2.分析中文分词技术在语义理解中的应用,设计基于中文分词的语义检索算法。

3.实现基于LUCENE搜索引擎和中文分词技术的语义文本检索系统,并对系统性能进行测试和优化。

该研究将为语义文本检索领域的研究和应用提供新的思路和方法,促进智能检索技术的发展与应用。

三、研究内容和方法1.研究LUCENE搜索引擎的功能特点和检索原理,探究其在中文文本检索中的优势。

2.分析中文分词技术在语义理解中的应用,设计基于中文分词的语义检索算法。

3.实现基于LUCENE搜索引擎和中文分词技术的语义文本检索系统,并对系统性能进行测试和优化。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向主题搜索论文:基于Lucene的面向主题信息搜索系统
的关键技术分析及应用

【中文摘要】网络信息的爆炸性增长使搜索引擎成为人们上网必
不可少的工具之一。其中应用最广泛的是以Goolge、百度为代表的
综合性搜索引擎,这类搜索引擎服务对象是网络大众用户它为广大网
络用户在查找信息上提供了很大的方便。但随之而来的查找结果的准
确率低,其一是因为由于抓取网页数量以指数级别增大,对这些网页
的预处理能力降低,致使查询结果中存在大量重复网页;其二,人们由
于生活环境与工作环境的不同,对信息关注方向也不同,例如一个气
象工作人员,他们希望查询到的结果会把与气象相关的网页优先排序
在前几页,而一个农业工作者希望将与农产品相关的网页优先显示,
这样一来综合性搜索引擎便无法满足这类专业领域人员的需求了。在
这种背景下面向主题的搜索引擎应运而生。面向主题的搜索引擎系统
与综合性网页搜索引擎最大的区别就是对网页信息进行了结构化信
息抽取,这样做的好处是,在把网页分化成小粒度的单元后,更加方便
对网页文档的内容进行加工处理,如网页净化、去重等。由于搜索引
擎中运作着的各部分是环环相扣,当有了质量较高的网页预处理过程,
接下来可以减小索引的负担,且搜索出的结果准确率更高,使用户有
更高的体验度。面向主题搜索系统中,将它分为四大主要部分,...
【英文摘要】The explosive growth of network information
make search engines become an indispensable tool. One of the
most representative comprehensive search engine system is
Google and Baidu, such search engine provides services to the
public web users, which give a big favor to users to find useful
information on the internet. But which comes with the
convenience, the search result have a low precision. One is
because the number of pages to crawl is increasing in an index
level, so the web pre-processing ability on t...
【关键词】面向主题搜索 Lucene TextTiling HtmlParser 网页
消重
【英文关键词】subject-oriented search system Lucene
TextTiling purification duplicate web pages elimination
【目录】基于Lucene的面向主题信息搜索系统的关键技术分析
及应用摘要4-6Abstract6-7第1章 引言
11-191.1 课题研究背景及现状111.2 搜索引擎技术
的研究背景与发展趋势11-141.2.1 搜索引擎的发展历史
11-121.2.2 搜索引擎的现状与发展趋势12-141.3
面向主题的搜索引擎系统14-171.3.1 面向主题搜索引擎的
优势15-161.3.2 面向主题搜索系统的研究现状
16-171.4 本文研究内容17-181.5 本文组织结构
18-19第2章 面向主题搜索系统的关键技术分析
19-402.1 数据搜集器19-262.1.1 Heritrix简介
21-222.1.2 Heritrix与Nutch的比较22-232.1.3
Heritrix的配置使用23-262.2 网页解析技术
HTMLPARSER26-312.2.1 HtmlParser概述262.2.2
HtmlParser中主要类的介绍26-292.2.3 HtmlParser中遍历
方式29-312.3 中文分词技术31-342.3.1 中文分词
的研究现状31-332.3.2 常见分词系统33-342.4 全
文搜索框架LUCENE34-382.4.1 Lucene概述342.4.2
Lucene索引结构34-352.4.3 Lucene工作原理
35-382.5 向量空间模型在面向主题搜索系统中的应用
38-40第3章 面向主题搜索系统的设计40-453.1 系
统提出背景403.2 系统框架设计40-423.3 词典库设
计42-433.3.1 气象专业词库423.3.2 动态词库
42-433.4 开发环境与系统编程框架43-453.4.1 系
统的开发环境433.4.2 系统编程框架与技术介绍
43-45第4章 数据搜集与网页预处理模块45-714.1
数据搜集模块详细设计45-514.1.1 数据搜集模块的基本配
置45-474.1.2 面向主题的搜集47-504.1.3 实验结
果分析50-514.2 网页预处理模块详细设计
51-714.2.1 网页净化模块51-624.2.2 网页消重模
块62-71第5章 LUCENE索引与搜索模块71-885.1
LUCENE建立索引的过程71-835.1.1 提取文本内容
71-775.1.2 多线程建立索引77-835.2 LUCENE查询
模块83-885.2.1 lucene搜索过程83-845.2.2 lucene
中自带排序算法研究84-855.2.3 改进后的网页排序算法
85-875.2.4 实验结果分析87-88第6章 个性化设置
与系统应用界面88-936.1 热点词推荐88-896.2 网
页预览功能89-916.3 系统应用界面91-93第7章 结
论与展望93-95致谢95-96参考文献96-98攻
读硕士研究生期间主要成果98

相关文档
最新文档