本体信息检索情境下相关性理论研究_郝斌

合集下载

基于本体论的信息检索技术研究

基于本体论的信息检索技术研究

基于本体论的信息检索技术研究随着互联网的快速发展,信息检索成为人们获取信息的主要方式之一。

然而,传统的文本搜索技术在处理信息检索过程中存在一些问题,如结果精度低、关键词表述不全面等。

因此,人们开始探索新的信息检索技术,其中基于本体论的信息检索技术引起了广泛关注。

什么是本体论?本体论是一种描述知识、概念之间关系的形式化语言,用于描述知识组成的领域,并以图形化方式展示出这些实体之间的关系。

本体论是人工智能领域的一部分,主要应用于知识表示、信息集成、语义网等方面。

基于本体论的信息检索技术是什么?基于本体论的信息检索技术主要是通过构建本体来优化文本检索的过程。

在传统的文本搜索技术中,检索结果是基于词频和文档相似度来确定的,而在基于本体论的信息检索技术中,检索结果不仅仅基于关键词匹配,还考虑了实体之间的语义关系和关键词的上下文含义等。

基于本体论的信息检索技术如何实现?基于本体论的信息检索技术主要包括以下几个步骤:一、构建本体构建本体是基于本体论的信息检索技术的第一步。

在本体的构建过程中,需要将领域内的实体描述清楚,并定义它们之间的概念、属性和关系等。

构建本体的目的是将领域内的知识体系化,以实现对文本信息的更准确的表示和检索。

二、语义标注语义标注指的是在文本中标注实体、概念和属性等信息,以便计算机能够识别文本中实体之间的语义关系。

语义标注技术可分为基于规则和基于机器学习的方法。

三、概念扩展概念扩展是指将与搜索关键词相关的实体和概念扩展到领域本体中。

这个过程是基于本体的,可以通过本体中定义的属性和关系来进行实体的扩展。

四、查询扩展查询扩展是指用检索系统自动生成的语义关联词条来扩展查询词。

通过查询扩展,可以从查询感兴趣的实体或者名称扩展到它们的近义词、关联词,准确地提取相关文本信息。

五、检索结果排序在基于本体论的信息检索技术中,检索结果的排序是根据查询词和扩展后的查询词与领域本体中实体或者概念之间的相关度来进行的,从而提高了搜索结果的准确性。

基于本体的语义信息检索研究共3篇

基于本体的语义信息检索研究共3篇

基于本体的语义信息检索研究共3篇基于本体的语义信息检索研究1随着互联网规模的不断扩大和人们对信息获取的需求不断增加,信息检索技术的研究和发展日益受到重视。

传统的文本检索方法主要关注于词汇的匹配,然而,随着语义网络的不断发展,人们更加关注语义信息检索。

基于本体的语义信息检索即是基于本体技术实现的语义信息检索。

本体是描述认识领域概念、属性和关系的模型,常常用于知识表示和语义信息的处理和检索。

基于本体的语义信息检索有别于传统的文本检索方法,它采用了语义计算技术将词汇转换为概念,然后利用本体进行语义匹配,从而实现精准的检索结果。

与传统的文本检索方法相比,基于本体的语义信息检索具有一些显著的优点:第一,实现了概念级别的检索。

传统的文本检索方法是基于关键字的匹配,而基于本体的语义信息检索是基于概念的匹配,搜索面更加广泛,可以进行满足需求的细粒度检索。

第二,提高了检索结果的准确性。

基于本体的语义信息检索不仅可以检索到与查询意图高度相关的信息,还可以同时检索到与查询意图相关但表述方式不同的信息,大大提高了检索结果的准确性。

第三,自动化程度高,能够自动地对查询语句进行语义分析和语义推理。

这一点在处理语言表述多样化的查询时尤为重要,规避了传统文本检索方法因语言多样化而给检索过程带来的不便。

基于本体的语义信息检索技术已经在多个领域得到了广泛的应用,如谷歌、百度等搜索引擎遵循这种检索模式,通过本体挖掘信息的关联性和语义,实现了搜索引擎的智能化。

此外,基于本体的语义信息检索还被应用于知识管理、智能问答系统、智能推荐等多个领域。

尽管基于本体的语义信息检索在理论和实践中取得了许多进展,但它仍面临着一些挑战:第一,本体的建立需要大量的领域知识和专业技能,光靠静态地建立本体往往难以适应快速变化的环境。

为此,研究者可以动态调整本体,将人工干预和自动学习相结合。

第二,理解查询语句需要具备高度的自然语言处理能力,而现有自然语言处理技术的表现通常无法让人满意。

基于本体的语义搜索研究综述

基于本体的语义搜索研究综述

基于本体的语义搜索研究综述基于本体的语义搜索研究综述随着网络信息的不断增长,传统的文本检索技术已经无法满足人们对更高效、精准的信息获取需求。

因此,语义搜索技术应运而生。

基于本体的语义搜索是一种利用先进的语义分析和本体技术实现的全新搜索方式,它能够更加全面、精准地搜索出用户所需的信息。

本文将对基于本体的语义搜索技术进行详细介绍,并对其发展现状和未来趋势进行分析。

一、基于本体的语义搜索技术简介本体(Boxies)是一个构建和维护共享概念结构的框架,它可以为不同应用程序的数据集提供定义和数据交互的通用概念模型。

本体可以看作是一个概念网络,由节点(类别)、属性和关系组成,并且可以通过Web技术进行分布式创建、访问和维护。

而基于本体的语义搜索,就是利用本体技术支持语义解析,实现更加准确、全面的搜索。

基于本体的语义搜索技术的实现过程:首先,通过本体技术建立领域本体模型,将领域的相关知识、数据和概念的定义集成到本体模型中;然后,用户查询信息时,对用户输入的查询语句进行语义解析,将其转换为本体的语义表示;最后,使用本体语义数据对信息进行检索和排名,并返回查询结果。

二、基于本体的语义搜索技术的实现方法目前,基于本体的语义搜索技术主要有三种实现方法:基于本体的全文搜索、基于表达式树的搜索和基于查询扩展的搜索。

1、基于本体的全文搜索基于本体的全文搜索是通过对文本进行语义解析并生成语义三元组的方式实现的。

通过把搜索问题转化为合理的Formal Query和SPARQL脚本,可以利用本体数据之间的关联性以及它们在语义空间中的分布来提高搜索的准确性。

例如,有一个本体模型包含汽车、发动机、轮胎等术语,用户想要搜索汽车的类型,可以输入“明年年底上市的SUV”,搜索引擎可以将其解释为“基于本体的SUV类型的搜索”,然后使用本体数据对信息进行检索和排名,并返回查询结果。

2、基于表达式树的搜索基于表达式树的搜索是通过将用户查询语句转化为一个表达式树,利用表达式树结构对本体数据进行语义匹配实现的。

信息检索的索引和检索技术的研究与实现硕士论文

信息检索的索引和检索技术的研究与实现硕士论文

哈尔滨工业大学硕士学位论文信息检索的索引和检索技术的研究与实现姓名:包刚申请学位级别:硕士专业:计算机科学与技术指导教师:关毅20050601难尔滨工业大学工学钡{‘学位论文摘要在当今社会里,信息的爆炸式增长已经成为人们必须面对的问题了,人们每天都不得不从这信息的海洋中如同大海捞针般找到对自己有用的信息,以便加以利用;同时,随着计算机技术和存储技术的不断发展,将海量信息保存在计算机存储设备中已经成为现实。

因此关于借助计算机在海量信息中找到人们所需的有用信息的研究越来越受到人们的关注,而信息检索技术就足为了解决上述问题而提出的。

本文首先简要回顾了信息检索技术的发展历程,并且由此引出信息检索的定义以及当前信息检索系统存在的‘些问题。

接着,本文重点对中文信息检索系统的相关技术做了以下儿方面的研究:l、信息检索系统的组成以及各组成部分在整个系统中所起的作用。

索引、中文分词、文本自动分类以及相关度计算等中文信息检索中的一些关键技术;2、信息检索的索引分类、索引项的组织,介绍了B—Tree、哈希等关键词的组织查找方式以及常用的处理哈希冲突的方法;3、基于Cover级别的中文信息检索技术。

本文分析了众多信息检索系统的检索特点,并且为了解决查询准确定位问题而采用基于Cover级别的中文信息检索技术,提出了基于Cover级别的中文信息检索技术的相似度亡f算方法以及信息检索的评价方法。

同时,分析了基于CGver级别的信息检索技术中存在的不足,并加以改进。

最后,本文给出了基于Cover级别的中文信息检索系统的设计和实现。

关键词信息检索;相关度计算;基于Cover级别:::::::::::::堕垒鎏三些奎兰三兰竺圭茎篓篁兰:::::::::AbstractInnowadays,therapidincreaseofinformationisbecomingaproblemthatpeoplemustbefacedwith;peoplehavetOfindusefulthingsfromlargeamountofinformationeveryday,meanwhile,withthedevelopmentofcomputerscienceandstoragetechnology,itbecomestruethatpeoplestorelargeamountofinformationincomputer.Sotheresearchtofindingusefulthingsthatpeopleneedwiththehelpofcomputerismoreandmoreimportant,andtheinformationretrievaltechnologyisputforwardfortheproblemabove.Thispaperreviewsthedevelopmentofinformationretrievaltechnologybriefly,givesthedefinitionofinformationretrievalandsomedisadvantagesofcurrentinformationretrievalsystem.Thispaperfocusesonthefollowingtechnologyofinformationretrieval:1.Thecomposingofinformationretrievalsystemandthefunctionofeachpart.Indexing,Chinesewordssegment,textclassificationandsimilaritycalculating.2.Introducingtheclassificationofindexing,theformofindexitems,B—TreeandHashingmethodsandhowtohandlethecollisionofhashfunction.3.ThecoverbasedChineseinformationretrievaltechnology.Thispaperanalysesseveralinformationretrievalsystem,andusethecoverbasedtechnologyfortheorientationofuser’squery.PutforwardthemethodofsinfilaritycalculatingforcoverbasedChineseinformationretrievalandtheevaluationtoinformationretrievalsystem.Atthesametime,thispaperanalysesthedisadvantageofcoverbasedtechnologyandimprovesit.Atlast,thispapergivesthedesignandimplementationofcoverbasedChineseinformationretrievalsystem.Keywordsinformationretrieval;similaritycalculating;coverbased窒尘堡三些尘兰!兰竺.!兰兰兰兰1.1课题背景第1章绪论随着计算机技术的飞速发展和信息存取方式的重大改变,人们已经打破了先前完全依赖手工劳动来储存获取知识和信息的方式,转而利用计算机技术帮助我们完成先前的手工劳动。

基于本体语义检索技术研究

基于本体语义检索技术研究

基于本体语义检索技术研究
李勇;张志刚
【期刊名称】《计算机工程与科学》
【年(卷),期】2008(030)004
【摘要】网络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具仅提供了基于关键字的检索,而忽视了关键字本身所含的语义内容.本文提出的图书信息检索系统利用本体论中概念规范、语义丰富的特点将用户的检索要求扩充成语义集,并且将检索到的文档通过文档分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的文档.
【总页数】4页(P17-19,94)
【作者】李勇;张志刚
【作者单位】大连海事大学计算机科学与技术学院,辽宁,大连,116026;大连海事大学计算机科学与技术学院,辽宁,大连,116026
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于本体的语义检索技术研究 [J], 张继芳
2.基于本体语义检索技术研究 [J], 刘超;李伟
3.基于领域本体的语义检索关键技术研究 [J], 王璐;于超;董亚则;彭馨仪
4.基于本体的语义检索技术研究 [J], 孙成国;孟晓伟
5.基于本体的语义网检索模型技术研究 [J], 李琼
因版权原因,仅展示原文概要,查看原文内容请购买。

基于本体的语义信息检索分析

基于本体的语义信息检索分析
和查 准 率 。
1 本 体 相关 理 论
依据以上分析 , 出了基于本体 的语义检索模 型 , 提 此结构 引入了本体技术 , 充分发挥 了本体 中语义描述 的作用 , 语义预 处理技 术 、 基于本体的语义扩展技术和对w b e 资源的语义标注 等, 一改传统检索技术 , 提高了查 全率和查准率 。模型框架 , 如
图1 示 : 所
从哲学范畴说 , 本体是 客观存 在的系统解 释或说 明 , 关心 的是客观现实 的抽象本质 , 后来 随着人J 智能这一个领域 的发 二 展将本体 的概念从哲学 中借用过来 。 在人 工智能领域 , 为了减少 “ 知识工程” 中构建知识库 的代
价, 出现 了知识 复 用 技 术 , 过 复用 系 统 , 发 者 可 以更 加 专 注 通 开
专 题 研 究
T C 0L E HN 0GY A D MA ET Nhomakorabea N RK
基 于本体 的语 义信 息检 索分 析
曲佳彬
( 四川大 学 公共 管理 学 院, 四川 成 都 606) 10 5
摘 要 : 于 本体 的语 义检 索 , 知识 的表 示 、 基 在 处理 和 理 解 能力 上 有 了很 大的 改 进 , 备 了语 义推 理 的 功 能 。在 目前 的w b 具 e 环境下 , 它通 过基 于本 体 的 知识 库 实现 对信 息检 索的语 义 查询 , 用 面 向语 义 的 匹 配方 式 , 达到 快速 、 确 的 满足 检 索 采 以 准 用 户的信 息 需求 。 文介 绍 了本 体 在信 息检 索 中的运 用 , 出 了一 个基 本 体 的 语 义检 索模 型 , 本 提 并介 绍 了语 义检 索 中Tn 技 ea
于特定领域的知识构建 。本体也就是要 回答 : 或者多个领 某个 域 内, 本质上有哪些统一 的概念 、 属性和关系 以及它们之间有

《信息检索》课程报告

《信息检索》课程报告

信息检索报告2012年12月17日姓名*** 学号*** 成绩检索课题课题名称多媒体通信技术的应用与发展课题分析随着全球信息化时代的到来,多媒体通信技术已成为当今世界科技领域中最有活力、发展最快的高新信息技术,已广泛应用于社会的各个行业,各个领域,影响着人类的生活方式和生活质量。

多媒体通信技术是多媒体计算机技术与通信技术相结合,其综合了多种媒体信息间的通信,它是通过现有的各种通讯网来传输、转储和接收多媒体信息的通讯方式,几乎覆盖了信息技术领域的所有范畴,包括数据、音频和视频的综合处理和应用技术。

如果说19世纪是电报的时代,20世纪是电话的时代,那么,21世纪将是多媒体通信的时代。

多媒体通信技术的应用非常广泛,可以提供VOD视频点播、远程教学、远程办公、远程医疗、多媒体电子邮件、可视电话、桌面视频会议、数字图书馆、电子百科书等多种多样的业务。

自选课题旨在多媒体通信技术范畴内,研究多媒体通信技术的应用及发展方向,例如:多媒体会议系统、远程教育和医疗、居家办公等问题。

其所属的学科专业包括电子科学与技术、电子信息工程、计算机科学与技术等。

根据对于自选课题的主题类型与结构分析,对检索范围和要求做限定:⑴资源语种:根据选题分析以及馆藏信息资源特点,选择中文信息资源。

⑵资源年限:来自于检索主题分析提示,检索重点时限距现在5~8年。

⑶资源类型:重点检索图书(电子图书)、期刊论文、学位论文,检视检索结果,可以选择适当时机扩大检索范围到会议论文、报纸文献等。

⑷检索系统:对于信息检索系统的选择一般不超过本馆信息资源保障体系范畴,只有某些特例出现时,方可求助于馆际信息资源帮助。

①纸质图书(期刊)使用西昌学院图书馆OPAC系统全面掌控馆藏纸质书刊的收藏,结合入馆面查获取文献原文;②电子图书使用馆藏电子图书全文数据库进行检索利用;③数字化期刊使用馆藏数字化期刊全文数据库进行检索利用;④学位论文使用馆藏数字化学位论文全文库;⑤馆际信息资源只有当馆藏纸质书刊、电子资源不能全部满足自己的信息需要时启用使用流程。

本体在信息检索中的作用及实例研究

本体在信息检索中的作用及实例研究



。 -J . l . . ‘ 。 0一| , l j j l
。: . : -

本体在信息检索中的作用及实例研究
吴 丹
( 京 大 学 信 息 管 理 系 北 京 10 7 ) 北 0 8 1 摘 要 在 分 析 大量 现 有 研 究 的 基 础 上 , 出基 于本 体 的信 息检 索 系统 的 框 架 , 五 个 方 面 阐 述 了本 体 应 用 于信 息检 提 从
本体 在信 息检索 领 域 的 应 用 研 究 始 于 2 0世纪 末至 2 世 纪 l 初, 国内外 大 量学 者 都 在 此领 域 进 行 了各 种 探 索 , 大致 可 分为 三
方面 :
得本 体 在信 息检索 中的 应用不 能大 规 模展 开 。 因此 需 要开 发 出 自
动或 半 自动 的本体 学 习工具 ; b 关于本 体在 信息检 索 中的应 用有 基 于 本 体 的 念 检索 . 概 、 语 义检 索 “ 、知识 检索 ”“ 性化 检 索 内容 检 索 。 、个 、 、 自然 语 言 检 索 , 等 但都 是 希望利 用本体 来解 决语 义理 解 的问 题 ;
2 基 于 本 体 的 信 息 检 索 一 般 模 型
等 提出 了一种 用于 联 机 分 析 处 理 和信 息俭 索 的 基于 本 体 的 集 成
方法等 等。 1 2 基 于本 体 的 检 索 实验 系统 研 究 大 量研 究 集 中在 这 方 .
在 信息 检索 中使 用本体 是一种 有 效 的 方法 。 种 方法 在 查 准 这
1 基 于 本 体 的 信 息 检 索 研 究 概 述
Vn 同一个 义 本集 中将 全 文 检索 方 法 ( 星 空 间模 型 ) 潜 在 语 ' c在 l 向 、 义索 引方法 ( 1) 基 于 本 体的 方ቤተ መጻሕፍቲ ባይዱ法 进 行 对 比 研 究。综 上所 述 , LS 和 本体 在信 息检 索中 的应 用具有 如下 特点 : a用于 信 息检 索本 体 的构建 一 般都 是 通 过 人 工 提取 的 , 使 . 这
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在本文的上一节我们论证了相关理论基础 , 下 面笔者将就不同本体信息检索模式下的相关性表现 进行具体的分析研究 。
郝 斌 :本体信息检索情境下相关性理论研 究 Hao Bin:Relevance in the Ontology-Driven Information Retrieval
2 .1 本体用于分类 在这一类型的本体信息检索模型中 , 本体一般
本体(Ont ology)最初是一个哲学的概念 , 表示 事物的一种存在 , 是对客观世界真实存在的一种客 观描述[ 10] 。 后来随 着计算 机 、人工智 能领域 的发 展 , Nehces 、G ruber 、Bo rst 、S tuder 相继给出了本体 的一些定义 , 其中 1998 年 St uder 给出的定义较为 完善[ 11] 。 它体现了 O nto logy 的 4 个 含义 :即概念 模型(Concept ualizat ion)、明 确(Explicit)、形 式化 (F orm al)和共 享(Share)。 这四 个模块 中 , 核 心是 “概念模型” , 它是指特定领域中所有可能状态所包 含所有元素涉及概念及概念间的关系 。 或者说 , 通 过对领域概念化 , 从中抽象出概念 , 明确概念间的各 种关系 , 从而建立包含语义联系的领域知识库 。 同 时 , 完全意义上的本体还能够利用公理 、规则对概念 及概念间关系进行知识推理 。 因此 , 通过概念化建 模 , 利用本体能够建立反映客观世界领域知识及知 识间联系的概念模型 。
[ Abstract] A s one of the basic t heory of Inf ormat ion Science , relevance i s t he key facto r t o evaluate the ef fectiveness o f inf orm ation ret rieval .On the o ther hand , si nce t he Onto logy-Driven IR i s the hot f ield o f IR research w hich show s a promising f uture , it i s necessary to research these tw o poi nt s to get her and the paper discuss t he relevance pe rf o rm ance i n diff erent Ontol ogy-Driven IR m odel and co mpa re them w i th the Mizzaro relevance m odel . [ Key words] Relevance Ont ology info rmatio n ret riv al Onto logy
按照关注对象的不同 , 传统相关性理论研究把 相关性研究分为两个方面 :即系统角度相关性(主题 相关或算法相关)和用户角度相关性 。 其中 , 系统角 度相关性定位于一种单方向的信息处理过程 , 系统 根据用户的提问输出检索结果 , 用户是信息接受者 , 该理论是对复杂的相关性概念 采取的一种简 化处 理 , 从信息组织与检索的角度来研究相关性 。 随着 研究的发展 , 人们发现 , 用户在整个信息检索过程中 处于非常重要的地位 , 检索的目的最终是满足用户 的各种信息需求 , 所以 , 不考虑用户 , 单纯从技术角 度讨论相关性 , 就限制了相关性理论的进一步发展 。 而且 , 相对于早期信息检索系统使用人员的专业性 , 随着技术的发展 , 越来越多不具备专业信息检索知 识的普通用户加入到用户群体中来 , 这就更需要从 用户角度来对相关性进行判断 , 因此学界提出了用 户角度相关性 , 从用户角度考虑 , 由用户来判断检出 文档是否相关 , 在多大程度上相关 。但同时这又带 来了新的问题 , 因为用户相关性判断因素是极其复 杂而难以捉摸的 , 考虑用户主观因素使得相关性的 定义与衡量变得更加复杂 。
[ 作者简介] 郝斌 , 男 , 1984 年生 , 硕士生 。
域进行系统的综合研究 , 更多的只是在各类相关研 究文献中有所涉及 。成颖 、孙建军 、苏新宁等学者对 国外相关性理论发展作了一个全面的综述性研究 , 对国外相关性研究发展作了一个全面的论证[ 1-2] , 是 本文研究的理论基础之一 。Ozcan 建立了一个基于 概念的信息检索实验模型[ 3] , 其中详细分析了基于 本体的概念检索条件下 , 检索效率的提高 , 并对实现 系统的数据进行了分析 , 验证了在基于本体的概念 检索条件下查全率和查准率都有较大 改进 。 Stein L .Vallet D .等介绍了国外本体信息检索最新的一 些模型[ 4-5] , 对本体信息检索条件下检索表现进行了 定量分析 。 Nenad S to janvoic 提出了一个基于本体 信息检索模型下的相关度评价的算法[ 6] , 包括语义 相关 、内容相关和解释相关 。 这也是国外有关本体 信息检索情境下相关性定量评价的最新进展 。
1 理论基础 1 .1 相关性基本理论
在信息检索中 , “相关性” 主要是指检索系统针 对用户的信息需求从文档集合中检出的文档与用户 需求之间的一种匹配关系 。这是对“相关性”概念的 一种粗泛的描述[ 7] 。 而具体描述相关性的定义比较 多 , 但大多是侧重描述相关性内涵的不同侧面 , 因此 目前还没有哪一个定义能够全面描述相关性各方面 内涵 , 并得到广泛接受认可 。 所以 , 对于“相关性”理 论研究 , 在无法给出精确定义的情况下 , 学界更多的 是采取一种理论体系或者模型来进行概括 , 以求尽 可能准确地从某一方面描述相关性内涵 。
通过以上分析 , 我们可以看出 , 本体的应用能够 在信息源端和用户端提高相关性 , 但是仍然还有很 大不足 。 在信息源端 , 该类型系统中本体是最简单 意义上的本体 , 本体间概念间只有最基本的联系且 不具备推理能力 , 因此揭示语义知识联系的能力极 其有限 。 同时 , 本体中概念匹配的对象是文档关键 词和摘要 , 是对二次信息源进行加工 , 而不是针对原 始文献进行的直接分析 , 因此 , 关键词和摘要的质量 对检索相关性的提高程度有较大影响 。 另一方面 , 有时候文档隐含的真实内容并没有在关键词和摘要
(2)用户信息需求 :包括真实的信息需求 、感知 到的信息需求 、检索请求和查询提问 ;
(3)时间 :考虑需求的时效性 ; (4)组件 :包括主题 、任务 、情境和语境 。
68
本文将参照该模型来对本体信息检索情境下 , 对相关性问题进行定性分析 。由于时间维度是完全 与用户主观体验相关的因素 , 目前很难以对其进行 评价研究 , 因此 , 本文主要针对其他三个维度进行分 析讨论 。 1 .2 本体的基本概念
正是该项研究的复杂性和前瞻性 , 决定了其研 究具有较大价值 , 因此 , 本文试图对这一问题作一个 探讨性研究 。作为研究基础 , 本文首先论证了相关 性理论和本体理论 ;针对本体信息检索在不同表现 形式下对相关性影响进行具体分析和对比研究 ;最7 年第 6 期 图书 · 情报 · 知识
由于本体在知识表达领域中的这些优点 , 它在
信息检索领域有着广阔的应用前景 。 在文本信息检 索领域 , 通过本体 , 检索系统可以用概念对信息源进 行深层次的语义标引 , 使检索逻辑视图能更好地反 映文档真实内容[ 12] , 从而突破机械式字面匹配局限 于表面形式的缺陷 , 实现基于内容的 概念检索[ 13] , 从信息源这一维度来提高相关性 ;同时 , 普通用户可 以方便地在概念层次上描述信息需求 , 利用本体查 询语言 , 如 RD Q L[ 14] , 构造复杂的查询 , 系统根据用 户查询式 , 帮助用户准确找到真实的信息需求 。 因 此 , 基于本体的文本信息检索能够在系统和用户两 方面对相关性有所提高 。 另一方面 , 通过构建完善 的领域知识库 , 实现完全基于本体的信息检索 , 则会 给用户带来全新的检索体验 , 使相关性表现大为改 观 。具体而言 , 依据本体在检索系统中的作用与类 型 , 目前本体应用于信息检索主要有以下三种模式 : 本体用于分类 、本体用于标引和本体知识库 。 2 不同本体信息检索模式下的相关性分析
总第 120 期 2007 年 11 月
· 情报 、信息与共享 ·
图书 ·情报 · 知识
No .120 Nov ., 2007
本体信息检索情境下相关性理论研究
郝 斌
(武汉大学信息管理学院 , 武汉 , 430072)
[ 摘要] 相关性理论是情报学基础理论之一 , 是衡量信息检索效能的关键指标 , 而本体信息检索是 信息检索领域研究的前沿课题 、发展方向 。本文以米扎罗四维相关性模型为基础 , 对不同类型本体 信息检索模型式下的相关性表现进行了对比研究 , 发现在本体信息检索条件下 , 相关性得到较大提 高。 [ 关键词] 相关性 本体信息检索 本体 [ 中图分类号] G201 [ 文献标识码] A [ 文章编号] 1003-2797(2007)06-0067-05
都是基于传统叙词表 , 或者语言本体如 WordN e t[ 15] 的简单本体 , 其主要功能是分类 , 检索的对象都是文 本型 。该类 型研 究的 典型 代表 有武成 岗 、郭祥 文 等[ 16-17] , 以武成岗的研究为例 , 该研究中采用的本体 是一个基于 WordNet , 经过改进的 简单本体 , 本体 中只提供有关概念(术语)以及概念所属的领 域范 围 , 概念间的关系也只有最简单等同关系和上下位 关系 。其作用是分析文档所属领域和对用户查询式 进行最简单的规范 , 其具体过程如下 :
在信息源端 , 对文档的关键词和摘要进行分析 , 将这些关键词和摘要内容与本 体中的概念进 行匹 配 , 判断文档内容所属领域范围 , 以实现对待检文档 的优化分类 。
在用户信息需求端 , 对用户查询式进行规范 , 用 户输入某一关键字 , 利用本体 , 系统返还给用户该关 键词所属的不同领域 , 以及在不同领域的定义 , 帮助 用户理解 、定位自身真实的信息需求 , 使用户相关性 得到提高 。 如果用户在系统中输入“毛泽东” , 系统就 会在本体库中进行匹配 , 返回一系列子选项 :毛泽东 的著作 , 毛泽东介绍 , 有关毛泽东论著 …… , 这样用户 就可以根据这些选项 , 来获取真实所需的信息 。
相关文档
最新文档