基于lucene检索引擎的电子病历全文检索系统

合集下载

基于Lucene的全文检索系统的研究与实现的开题报告

基于Lucene的全文检索系统的研究与实现的开题报告

基于Lucene的全文检索系统的研究与实现的开题报告一、选题背景及意义随着互联网时代的到来,信息爆炸式增长已经成为人们必须面对的一个问题。

传统的基于关键字的检索方式已经不能满足人们的需求。

全文检索系统应运而生,它可以从大量的文本中快速准确地查找需要的信息,方便人们的使用。

Lucene是一个流行的全文检索引擎,它是基于Java语言开发的,使用Apache协议开源。

Lucene具有快速、可扩展和高效的特点,在应用领域有广泛的应用,如搜索引擎、电子商务网站、维基百科等。

然而,Lucene作为一个开源的库,仍需要使用者有一定的技术基础才能进行使用。

因此,本文将研究如何利用Lucene实现全文检索系统,并通过分析其架构和实现细节,深入了解全文检索系统的工作原理和技术方法。

二、研究内容1. 全文检索技术的概述2. Lucene的基本原理和架构3. 全文检索系统的需求分析4. Lucene全文检索系统的设计和实现5. 系统优化和性能测试三、预期成果完成本文研究所需的工作,预期可以达到以下成果:1. 掌握全文检索技术的基本原理和方法。

2. 深入了解Lucene的架构和实现细节,掌握Lucene的基本使用方法和技巧。

3. 实现一个基于Lucene的全文检索系统,包括需求分析、系统设计、编码实现、系统优化和性能测试等环节。

4. 对系统的性能进行测试和优化,提高系统的搜索效率和准确性。

四、研究方法1. 文献调研:通过阅读相关的学术论文和技术博客,了解全文检索技术的最新研究进展和应用情况。

2. 系统分析:对基于Lucene全文检索系统的需求进行分析和定位,明确系统的功能和性能要求。

3. 系统设计:根据需求分析,设计系统的架构和流程,确定系统各个模块之间的交互和约束关系。

4. 编码实现:使用Java语言编写全文检索系统,使用Lucene作为底层引擎,实现检索功能和系统界面。

5. 系统测试和优化:进行系统性能测试和故障测试,针对测试结果进行优化和改进。

基于Lucene二次全文检索系统的设计与实现

基于Lucene二次全文检索系统的设计与实现
参考文献:
[1] 郑轶媛 .基于J2EE的站 内搜索引擎的研究[D].上海 交通 大学.2005.1:8-13
[2] 邱 哲 , 符 滔 滔 . 开 发 自 己 的 搜 索 引 擎 ——Lucene 2 .0+ Heri terx [M]. 北京:人民邮电出版社.2 0 07 .6. 235 -24 6.
系统对PDF文档提供了更深层次的检索,可将检索结果 定位到书籍的具体页,并在页面标示出关键字的具体位置。 该层次的检索用Lucene API是无法实现的。本文定义了一种 二次索引组织方式,二次索引组织格式是 “Book_id#keyword#page#以 逗号隔 开的 X,Y坐 标#关键 词出 现的上下文”。当关键词在页面 可以出现多次时,这样多个 坐标间用"|"隔开,坐标单位为像素,代表关键词以文档左上 角为原点的水平向右和垂直向下方向上的距离。同样其多个 上下文之间也用"|"隔开。如下为一条存于文本文件中的二次 索引示例:
[3] 王学松 .Lucene+nutch开发搜索引擎[M].北 京:人民 邮电 出版社.2008.08. 125-145.
[4] 于 丹.关 于查全 率和查准 率的新 认识[J].西南 民族大 学 学报,2009;2(210):283-285
[5] 励子 闰,余青 松,陈胜 东.基于 全文检索引 擎的信息检 索 技 术 的 应 用 研 究 [J]. 计 算 机 与 数 字 工 程.2 00 8. 9,V ol .3 6,N o. 9: 81 -85
1.2 数据库设计 数据库主要用于存储二次索引,表结构相对简单,目前
只设计了2个表:图书表和二次索引表。图书表 用于存储需 要进行二次检索的图书资料基础信息,二次索引表则存储图 书的二次索引信息,表结构如表1、2所示:

基于Lucene的全文检索系统研究与实现

基于Lucene的全文检索系统研究与实现

、 、▲
L i s t ( 2 字 长 词)
L i s t ( 3 字 长 词)
L i s t ( 4 字 长 洲)
● ● ● ● ● ●
图2 字 典 数 据 结 构
3 . 1 . 2 基 于双 向最大 匹配 的中文分词 算法 基于 字典 的分词方 法 又叫机械 分词算 法 , 这种算 法按 照一定 的策 略将 待分 析 的汉 字 串与一 个 “ 充
7 8
浙 江外 国语 学院 学报
2 0 1 3皋
2 . 1 文 档归 一化模 块
文 档归 一化模 块 主要 完成 对待 检索文 档 的预处理 , 主要有 两个 功能 : 一是 支 持将 . p d f , . p p t , . d o c等
文本解 码并 转化为 . t x t 文件 ; 二是 对文本 内容 进行过 滤 , 取 出可 能存在 的非法 字符 和乱码 . 2 . 2 文 本分 析模块
分 大” 的机 器词典 中的词条进 行 匹配 , 若 在词 典 中 找到某 个 字 符 串 , 则 匹 配成 功 , 识 别 出一 个 词 ] . 文 中, 我们 提出 的匹配算 法是 正 向匹 配 与逆 向匹配 相 结 合 的算 法 , 算 法 流程 如 下 : ( 1 ) 导 人 待 分词 的文 本, 利用 S o u g o u词库构 建按 字长构 建字 典数据结 构 . 然后 , 将 待分 词文本 按照不 同类 型 ( 如 普通 中文 字
文 本分 析模块 主要 实现对 元文件 文档 附属信 息 的提取存 储和 通过 文本 分 析器 对 中文 内容 的分 析
与构建 倒排 索引 . 文档相 关 附属 信 息 ( 如作 者 、 时间、 单位 、 文 件存 放 目录等 ) 直 接存 储 在数 据 库 中; 而 对于摘要 内容 和正 文 内容 信息 , 由于 信息量 较大 , 我们通 过文 本分析 器实 现 中文 自动 分词 , 再 利用 L u — c e n e的索引模 块实 现倒排 索引 的 自动构 建 . L u c e n e自带 有 中文 自动 分 词 系统 , 但 性 能一 般 , 为此 我们

基于Lucene的全文搜索引擎设计

基于Lucene的全文搜索引擎设计

基于Lucene的搜索引擎作者姓名:王旭专业班级:2010050704 指导教师:涂德志摘要从1994年至今,万维网经过了二十年的飞速发展,当前的万维网数据规模到底有多大无从估量。

随着网络信息资源的急剧增长,现如今,信息已经不再是一种稀缺的资源,我们的注意力反而变得稀缺了。

人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。

搜索引擎提供了一种便捷的获取网络信息的途径,只要你能在电脑上打字,那么你就能通过“输入关键字+自行浏览”的用户交互方式快速查找到自己感兴趣的资源。

目前Web搜索引擎(SearchEngine) 技术正成为计算机科学界和信息产业界争相研究、开发的对象。

搜索引擎是指互联网上一种提供用户查询的一类应用。

通过人工目录整理或者是网络爬虫收集互联网上已经存在的网页,在用户输入查询词后,将相关网页迅速展现给用户。

用户自行浏览后选择最合适期望的链接,进入查看。

关键词:网络信息资源 Web搜索引擎查询ABSTRACTSince 1994, the World Wide Webaftertwo decades ofrapid development, how muchthe currentsize ofthe World Wide Webisincalculable. With the rapid growth of network information resources, nowadays, the information is no longera scarce resource, however,our attention becamescarce.more and more concerned about howquickly and efficiently from the vast amounts of network information, to extract potentially valuable information to effectively play a role in the management and decision-making. Search engines provide a convenient way to obtain network information, as long as you can type on a computer, then you can through the mode: "keywords + browse" ,to quickly find the resources you are interested. Currently Web search engine (Search Engine) technology is becoming the target computer science and information industry compete on development.Search engine on the Internet refers to a method of providing a user queries a class of applications. Sorting through artificial catalog or web crawlers to collect Web pages on the Internet already exist, after the user enters the query words, the relevant pages quickly presented to the user. Choose the most appropriate link , browse the desired postinto view.Keywords:Network Information Resources Web Search Engine Consult目录第1章前言 (1)1.1 搜索引擎的学术背景与实际意义 (1)1.2 国内外文献综述 (2)1.3 课题来源及主要研究内容 (2)第2章相关技术介绍 (4)2.1 JSP与Tomcat (4)2.2 SQL Sever数据库 (4)2.3 Ajax简介 (5)2.4 Lucene介绍 (5)第3章搜索引擎原理 (8)3.1 搜索引擎体系结构 (8)3.2 搜索引擎主要模块功能介绍 (9)3.2.1 搜索器 (Crawler) (10)3.2.2 索引器 (Indexer) (11)3.2.3 检索器(Searcher) (12)3.2.4 用户接口((UserInterface) (12)第4章系统分析 (13)4.1 需求分析 (13)4.2 系统可行性分析 (14)4.2.1 社会可行性分析 (14)4.2.2 技术可行性分析 (14)4.2.3 经济可行性分析 (14)第5章总体设计 (15)5.1 系统构架 (15)5.1.1 索引建立子系统 (16)5.1.2 用户接口子系统 (17)5.2 数据库设计 (17)5.3 实现环境配置 (18)第6章详细设计 (19)6.1 建立索引 (19)6.2 文件搜索实现 (20)6.3 数据库搜索实现 (22)6.4 后台数据编辑实现 (23)第7章系统测试 (25)7.1 测试重要性 (25)7.2 测试用例 (26)结论 (28)致谢 (29)参考文献 (30)第1章前言1.1 搜索引擎的学术背景与实际意义万维网是互联网最主要的组成部分,也是人们获取网络信息的最主要的来源。

基于Lucene全文检索系统的研究与实现

基于Lucene全文检索系统的研究与实现

基于Lucene全文检索系统的研究与实现[摘要] lucene是一个开放源代码的全文检索引擎工具包,利用它可以快速地开发一个全文检索系统。

利用lucene开发了一个全文检索系统,通过其特殊的索引结构,实现了传统数据库不擅长的全文索引机制,提供了对非结构化信息的检索能力。

[关键词] lucene 信息检索全文检索索引一、引言计算机技术及网络技术的迅速发展,使得internet成为人类有史以来资源最多、品种最全、规模最大的信息资源库。

如何在这海量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。

这些信息基本上可以分做两类:结构化数据和非结构化数据(如文本文档、word 文档、pdf文档、html文档等)。

现有的数据库检索,是以结构化数据为检索的主要目标,实现相对简单。

但对于非结构化数据,即全文数据,由于复杂的数据事务操作以及低效的高层接口,导致检索效率低下。

随着人们对信息检索的要求也越来越高,而全文检索因为检索速度快、准确性高而日益受到广大用户的欢迎, lucene是一个用java写的全文检索引擎工具包,可以方便地嵌入到各种应用中实现针对应用的全文索引和检索功能。

这个开源项目的推出及发展,为任何应用提供了对非结构化信息的检索能力。

二、全文检索策略通常比较厚的书籍后面常常附关键词索引表(比如,北京:12,34页,上海:3,77页……),它能够帮助读者比较快地找到相关内容的页码。

而数据库索引能够大大提高查询的速度原理也是一样,由于数据库索引不是为全文索引设计的,因此,使用like “%keyword%”时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成类似于一页页翻书的遍历过程了,所以对于含有模糊查询的数据库服务来说,like对性能的危害是极大的。

如果是需要对多个关键词进行模糊匹配:like“%keyword1%”and like “%keyword2%”……其效率也就可想而知了。

基于Lucene的全文检索系统研究

基于Lucene的全文检索系统研究
科 学 论坛
—■I
基 于 L cn u e e的全文检 索 系统 研究
薛 萍
天津 30 8 ) 0 3 7 ( 津师 范大 学计 算机 与信 息工 程学 院 天 [ 摘 要 ] 息时代 的 到来, 信 使数据 不 仅在 数量 还是 多样 性 有 了很 大 变化 。而 L c n 全 文检 索就 是, 代信 息 检索 领域 中被 广泛 应用 的 重要 技术 之一 。所 ue e 现 以本文 首先 介 绍全文 检 索及 系统 的概 念 , 次是 L c n 其 u e e的系统 结构 和 实现 机制 。最后 讨 论使 用 L c n u e e工 具包 开发 系 统的 实 际应用 问题 。 [ 关键 词] 全文 检 索 l c n 索 引 uee 中 图分类 号 :P 9 T 3 文 献标 识码 : A 文章编 号 :09 94 (0 0 3— 4 9O 10 — 1X 2 1) 30 l l
2全文 检 素与 全 文检 索系 统 全文 搜索 就是 以文 本数据 为主 要处 理对 象, 基于全 文表 引, 使用 自然 语言 进 行检 索 的技术 。也就 是通 过计 算机 索 引程序 扫描 和分析 文 章 中的每 一个字 或 者词 , 对其相 应 的建立 一个 索 引, 来指 明它 所 出现 的 次数和 位 置 当用户查 询时, 就可 以根据 建 立好 的索 引进行 查找, 并将 结果 反馈 给用 户 的方式 。 全文搜 索是 现代信 息检索技 术 的重要分支 之一, 它是处 理非 结构化数 据 的 强大工 具, 也是搜 索 引擎 的核 心技 术之 一 全文检 索 系统是 按照 全文检 索 理论建 立起 来 的用于提 供 全文检 索服 务 的 软 件系 统。 全文检 索 系统 需要具 备建 立索 引和 提供 查询 的基 本功 能外 , 需要 还 方 便的用 户 接 口, 向万 维 网 的开发 接 口和二 次应 用 开发 接 口等等 。 面 全文 检 索系 统 的核 心 功 能具 有 建立 索 引 、处理 查 询 返 回结 果集 、增加 索 引 、优 化索 引结 构 等等 功 能 , 围则 由各种 不 同的应 用 系 统 组成 。 外

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告一、选题背景和意义随着信息技术的飞速发展,互联网已经成为人们获取各种信息的主要渠道。

因此,如何快速、高效地从大量的文本数据中获取所需信息,成为一个亟待解决的问题。

全文检索系统由此应运而生,它能够对文本数据进行网页搜索、信息检索、自然语言处理等操作,是信息检索领域的核心技术之一。

在实际应用中,全文检索系统被广泛应用于搜索引擎、社交媒体、电子商务等领域,为人们提供了快捷、精准的信息服务。

本文将基于Lucene全文检索引擎,设计并实现一个二次全文检索系统。

全文检索系统可以寻找到所有文本中与某个关键词相关的信息,而二次检索系统则对全文检索的结果再次进行筛选和排序,以提高所需信息的准确性和相关性,从而提高信息检索的效率。

本文旨在研究二次全文检索系统的设计和实现,探究Lucene引擎在信息检索中的应用。

二、研究内容和方法2.1 研究内容(1)了解全文检索系统和二次全文检索系统的概念、特点和应用场景;(2)基于Lucene全文检索引擎,设计并实现一个二次全文检索系统;(3)构建文本语料库,实现数据的导入和索引;(4)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(5)对系统进行性能测试、优化和调试,并分析检索效果。

2.2 研究方法本研究采用的研究方法主要包括如下几点:(1)文献综述:对全文检索算法、Lucene引擎技术和二次检索策略进行深入学习和研究,了解国内外相关研究现状和最新进展。

(2)系统设计:通过对全文检索系统和二次检索系统的原理和特点进行分析,设计系统结构和算法流程。

(3)数据处理:构建文本语料库,实现数据的导入、处理和索引,保证数据能够准确、高效地被检索。

(4)算法实现:研究相关算法,设计二次检索策略,提高信息的筛选和排序准确性和相关性。

(5)系统测试:对系统进行测试、优化和调试,分析系统检索效果。

三、预期结果及意义3.1 预期结果(1)设计并实现基于Lucene的二次全文检索系统;(2)构建文本语料库,实现数据的导入和索引;(3)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(4)对系统进行性能测试、优化和调试,并分析检索效果。

基于lucene检索引擎的电子病历全文检索系统

基于lucene检索引擎的电子病历全文检索系统

的 继 承 信 息 ;而 从 传 统 的 HIS 每 个 子 系 统 来 看 ,患 者 信 息 却 是局部的、分散的。 所以要对电子病历进行全文检索,首先要 建立一个规范的、合乎要求的电子病历描述模型,将分散于 HIS 系统中的电子病历信息读出并转换为统一形式的文件存 储于电子病历库中。 XML(eXtensible Markup Language,即扩 展标记语言)就是建立并实现该模型的一个有效手段。
依图 1 中的序号,整个系统的信息处理流程为: A.数据预处 理 模 块 读 入 电 子 病 历 的 原 始 数 据 (一 般 以 数 据库表的形式储存在 HIS 系统中), 将原始电子病 历 加 工 为 XML 文件,然后储存于 XML 电子病历库中; B.索引建立模块读入 XML 电子病历库中储存的 XML 文 件,把建立好的全文索引储存于全文索引库中; C.用 户 通 过 用 户 界 面 模 块 提 出 检 索 请 求 ,用 户 界 面 模 块 调用全文检索模块使用电子病历的全文索引进行检索,将得 到的检索结果返回给用户; D. 用户 查 看 了 检 索 结 果 中 电 子 病 历 的 摘 要 后 如 果 需 要 进一步查看电子病历的全文,可以通过用户界面模块直接根 据检索结果中的文档 ID 从 XML 电子病历库中获取全文。 5 系统测试和评价 5.1 测试环境
全 文 检 索 开 发 库 :Apache Lucene 2.2;Web 服 务 器 :Apache Tomcat 6.0;开发工具:IBM Eclipse 3.2.0。 4.2 总体架构
电子病历全文检索系统主要实现对电子病历的表示、存 储、组织和访问,即根据用户的查询要求,从电子病历库中检 索出相关信息资料。 其中心环节是电子病历内容的表达、信 息查询的获得以及相关信息的匹配。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
病历是患者在医院诊断治疗全过程的原始记录,贯穿于 患者在医院就诊的各个环节中。 由于目前病历信息的电子化 大都附属于传统的 HIS 系统,但 HIS 系统并不等于电子病历 系统, 因为从电子病历的角度看患者信息应该是完整的、集 成的,电子病历系统应该能够以统一的视图向用户提供患者
收稿日期:2008-06-24 修回日期:2008-08-10 作 者 简 介 :王 晓 (1981-),女 ,陕 西 安 康 人 ,硕 士 研 究 生 ,助 理 工 程 师 , 主要从事医院信息化方面的工作。
(1)软 件 环 境 测 试 环 境 采 用 Sun 公 司 的 JDK1.5.0,操 作 系 统 采 用 的 是 微软的 Windows XP SP2。 数据库服务器采用的是 Oracle8i 及 其自带的 JDBC 驱动。 (2)硬 件 环 境 运 行 服 务 器 采 用 的 CPU 为 Inter Pentium 3.0E, 内 存 2 GB,硬盘 160 GB。 5.2 测试结果 测试过程中一共选取了 3 个和疾病症状有关的关键词 “肥 胖 ”、“腹 痛 ”和 “恶 心 ”作 为 测 试 检 索 条 件 数 据 ,测 试 结 果 经过进一步分析计算后可以得到的数据见表 1。
依图 1 中的序号,整个系统的信息处理流程为: A.数据预处 理 模 块 读 入 电 子 病 历 的 原 始 数 据 (一 般 以 数 据库表的形式储存在 HIS 系统中), 将原始电子病 历 加 工 为 XML 文件,然后储存于 XML 电子病历库中; B.索引建立模块读入 XML 电子病历库中储存的 XML 文 件,把建立好的全文索引储存于全文索引库中; C.用 户 通 过 用 户 界 面 模 块 提 出 检 索 请 求 ,用 户 界 面 模 块 调用全文检索模块使用电子病历的全文索引进行检索,将得 到的检索结果返回给用户; D. 用户 查 看 了 检 索 结 果 中 电 子 病 历 的 摘 要 后 如 果 需 要 进一步查看电子病历的全文,可以通过用户界面模块直接根 据检索结果中的文档 ID 从 XML 电子病历库中获取全文。 5 系统测试和评价 5.1 测试环境
XML 是 一 种 结 构 化 描 述 语 言 ,其 优 势 在 于 ,它 不 仅 是 一 种标识语言, 更是一种可以定义描述对象结构的元语言。 XML 采 用 了 层 次 化 的 面 向 对 象 的 结 构 描 述 方 法 , 非 常 适 合 于描述病历这样复杂的内容, 在表达能力方面优于关系数 据 库[2]。
[参考文献]
[1] 王 晓 ,罗 二 平 ,张 健. 基 于 语 义 的 电 子 病 历 智 能 全 文 检 索[J]. 医 疗 卫 生 装 备 ,2008,29(4):45-46.
[2] 薛 万 国. XML 与 电 子 病 历[J]. 国 外 医 学 :医 院 管 理 分 册 , 2002 (1):33-34.
1 前言 随着医院信息化建设的进行, 电子病历作为临床医疗
信息的基础和医院信息系统的核心构成了业务管理、 医疗 卫生决策系统的基础。 但国内目前各大医院通常并不把电 子病历管理视为一个独立的单元, 电子病历管理系统一般 都是作为医院信息系统的一个模块存在。 目前,对于病历信 息的查询浏览也只能通过查询患者的一些结构化的数据库 信 息 得 到 该 患 者 的 ID 号 ,然 后 通 过 病 历 的 存 储 规 则 来 找 到 相应的病历。 每次得到的信息都是个别的,而且无法实现全 文检索, 存在于病历文本中的大量非结构化的信息不能作 为检索条件,因而这些信息也不能为医疗工作者所利用。 因 此, 目前电子病历管理系统的检索查询机制迫切需要向满 足医生需求、科研辅助和采用全文检索的方向转变,为以后 电子病历管理正式成为医院管理的一个独立分支打下良好 的 基 础[1]。 基 于 此 ,我 们 提 出 了 基 于 Lucene 检 索 引 擎 建 立 电 子病历全文检索系统, 它以基于关键字的全文检索技术为 基础,能够提供方便快捷的方式为临床医疗、医学科研工作 及病历管理提供支持。 2 电子病历的前期预处理
表 1 系统测试结果
关键词 肥胖 腹痛 恶心
检索文档数 319
3 977 4 385
P@30 28 30 29
查准率/% 93.33 100 96.67
注:P@30 指前 30 个检索结果中符合条件的文档数
由于测试数据集过大(共约 26 000 多篇),很难通过人工 方式确定全部文档集中符合条件的文档数,所以无法有效地 计算查全率;检索出的命中文档数量也比较多,但和搜索引 擎 一 样 ,通 常 只 有 “First Page”的 结 果 会 被 用 户 关 注 ,因 此 我 们计算的查准率只基于前 30 个检索结果。 通 过 上 表 可 以 看 出,本系统的查准率较高,基本达到了系统设计的性能要求。 6 小结
从测试结果可以看出系统满足设计要求, 符合功能需 要。 但是仅仅基于关键字检索显然是不够的,下一步要实现 “智能” 全文检索还需要对系统进行基于语义的检索功能扩 展,使检索结果不仅仅满足于与用户提交的关键字进行字面 上的匹配,而是检索出与此概念有关的、用户真正想要的信 息 ,以 进 一 步 提 高 查 全 率 [3]。
使用 XML 描述病历内容,要先定义病历内容的结构。 在 此基础上实现以数据库形式存储的患者信息到病历结构的 转换,从而实现由以支持日常业务管理为目的的数据库描述 到以患者为中心的描述。 形成的 XML 文件是病历存 储 管 理 的基本单位。 3 全文检索引擎 Lucene 简介
Lucene 是 Apache 软 件 基 金 会 Jakarta 项 目 组 的 一 个 子 项目,是一个开放源代码的全文检索引擎工具包,作为一个 优秀的全文检索引擎, 其系统结构具有强烈的面向对象特 征。 首先是定义了一个与平台无关的索引文件格式;其次通 过抽象将系统的核心组成部分设计为抽象类,具体的平台实 现部分设计为抽象类的实现;此外,与具体平台相关的部分 (比如文件存储) 也封装为类, 经过层层的面向对象式的处 理,最终达成了一个低耦合高效率、容易二次开发的检索引 擎系统。 因此,Lucene 得到了非常广泛的应用。 4 系统的设计与实现
43 医疗卫生装备·2008 年 12 月第 29 卷第 12 期
Chinese Medical Equipment Journal·Vol.29 No.12 December 2008
医院数字化 Hospital Digitalization
4.1 平台和开发环境简介 本系统的平台和开发环境为: 操 作 系 统 :Windows NT/2000/XP; 开 发 语 言 :Java,JSP;
该书由多年从事医用电子仪器教学与维修工作的专家编写, 原理清楚,机型先进,内容丰富,具有先进、系统、实用的特点。 既可 以作为大专院校生物医学工程专业的教材, 也可作为医学工程技 术人员的技术培训教材及参考用书。
该书由电子工业出版社出版, 采用国际标准大16开本, 共计 328页,售价45元 (含 包 装 挂 号 邮 寄 费 ),欲 购 者 请 与 本 社 发 行 部 联 系 ,地 址 :天 津 市 河 东 区 万 东 路 106号 ,邮 编 :300161,电 话 :(022) 84656825。
Lucene-based Full-text Retrieval System of Electronic Care Record
WANG Xiao, ZHANG Jian (Tangdu Hospital, the Fourth Military Medical University, Xi'an, 710038, China) Abstract Objective To research a more effective method of full-text retrieval of electronic care record (ECR), which avails clinical work, medical research and ECR management. Methods Based on full -text retrieval by keyword, by changing the form of ECR with XML,a full-text retrieval system of ECR based on Lucene was built. Results The system testing showed that the precision ratio of ECR retrieval was raised. Conclusion The full-text retrieval system of ECR meets the design requirements and the function needs.[Chinese Medical Equipment Journal,2008,29(12):43-44] Key words ECR; full-text retrieval; XML
整个系统设计为 4 个功能模块:数据预处理模块、索引 建立模块、全文检索模块和用户界面模块。 各个模块的基本 功能和模块之间的逻辑和数据关系如图 1 所示。
电子病历原始数据 A
数据预处理模块 A
XML 电子病历库
全文索引库
C
B
索引建立模块
பைடு நூலகம்
全文检索模块 C
用户界面模块
C B
D 用户
图 1 基于 Lucene 的电子病历全文检索系统流程图
的 继 承 信 息 ;而 从 传 统 的 HIS 每 个 子 系 统 来 看 ,患 者 信 息 却 是局部的、分散的。 所以要对电子病历进行全文检索,首先要 建立一个规范的、合乎要求的电子病历描述模型,将分散于 HIS 系统中的电子病历信息读出并转换为统一形式的文件存 储于电子病历库中。 XML(eXtensible Markup Language,即扩 展标记语言)就是建立并实现该模型的一个有效手段。
相关文档
最新文档