信息检索相关性
信息检索知识点

信息检索知识点信息检索是指从大规模的信息资源中,通过利用各种信息检索工具和技术,准确和高效地找到用户所需要的信息的过程。
信息检索技术在现代社会中扮演着重要的角色,它不仅广泛应用于互联网搜索引擎,还在图书馆、数据库、企业信息管理等领域发挥着重要作用。
本文将介绍信息检索的定义、关键概念和一些常用技术。
一、信息检索的定义和目标信息检索是指通过计算机等工具从大规模的信息资源中,按照用户的需求进行检索,提供相关性高、准确性好的信息结果。
它的目标是帮助用户快速地找到所需的信息,提升信息搜索效率和准确性。
二、关键概念1. 查询:用户提交的检索请求,通常由一系列关键词组成。
2. 检索词:查询中使用的关键字或关键词短语。
3. 检索结果:根据查询返回的与之相关的文档或信息。
4. 相关性:衡量检索结果与查询之间相关程度的指标,通常使用相关性排序算法进行排序。
5. 文档:信息资源的基本单位,可以是网页、文章、图片、音频等形式。
三、信息检索的主要技术1. 分词技术:将文本数据按照一定规则分割成有意义的词语,是信息检索的基础步骤。
2. 索引技术:将文档中的关键词与其所在位置进行索引,以提高检索效率和准确性。
3. 倒排索引:根据关键词构建索引表,记录关键词与文档之间的对应关系,常用于搜索引擎等场景。
4. 相似度计算:根据查询和文档的相似性,为检索结果进行排序。
5. 结果评估:通过评估检索结果的质量,改进检索算法和模型。
四、常用的信息检索模型1. 布尔模型:将查询和文档转化为布尔表达式,按照布尔运算进行检索。
2. 向量空间模型:用向量表示文档和查询,通过计算向量之间的相似度进行检索。
3. 概率检索模型:基于统计方法,利用概率模型进行信息检索。
五、信息检索的挑战和发展方向1. 大规模数据处理和存储:随着互联网的快速发展,信息资源呈指数级增长,如何高效地处理和存储大规模的数据成为了一个挑战。
2. 多语言检索:不同语言的信息检索在跨语言信息检索中面临很大的难度和挑战。
简述信息检索的基本原理例子

信息检索的基本原理简介信息检索(Information Retrieval,简称IR)是指从大规模的文本集合中,根据用户的需求找到与之相关的文档或信息。
它是一个涉及多学科的领域,包括计算机科学、语言学、心理学等。
在互联网时代,信息爆炸性增长使得信息检索变得越来越重要和复杂。
本文将详细解释信息检索的基本原理,并通过例子进行说明。
基本原理1. 文档表示在信息检索中,首先需要将文档进行适当的表示,以便计算机能够处理和理解。
常用的文档表示方法有向量空间模型(Vector Space Model)和概率模型(Probabilistic Model)。
例子:假设有以下三个文档: - 文档1:“I love cats and dogs.” - 文档2:“Dogs are loyal companions.” - 文档3:“Cats are independent animals.”使用向量空间模型表示这些文档时,可以将每个文档看作一个向量。
每个维度代表一个特定的词语,在该文档中出现次数或权重。
例如,可以使用以下方式表示这三个文档:文档1:[1, 1, 0, 0, 1]文档2:[0, 1, 1, 1, 0]文档3:[1, 0, 1, 0, 1]2. 查询表示用户的查询也需要进行适当的表示,以便与文档进行匹配。
查询表示方法与文档表示方法类似。
例子:假设用户输入了查询:“I like cats.”使用向量空间模型表示这个查询时,可以将其看作一个向量,每个维度代表一个词语,在该查询中出现次数或权重。
例如,可以使用以下方式表示这个查询:查询:[1, 0, 0, 0, 1]3. 相似度计算在信息检索中,需要计算文档与查询之间的相似度,以确定哪些文档与查询最相关。
常用的相似度计算方法有余弦相似度(Cosine Similarity)和Jaccard相似系数(Jaccard Similarity Coefficient)。
例子:使用余弦相似度计算文档与查询之间的相似度时,可以通过计算它们的向量之间的夹角来衡量。
信息检索---名词解释

一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
基于文献计量的信息检索相关性分析研究

基于文献计量的信息检索相关性分析研究摘要]:本文选取 CNKI 期刊收录的近10 年我国信息检索相关性研究的论文,基于文献计量学对收集的数据进行了量化分析,从年度发文数量、主要关键词分布,文献来源分析,高产作者分析等方面对信息检索相关性的研究进展及研究概况进行了全面系统的梳理,期望为该领域进一步研究提供借鉴。
[关键词]:文献计量分析信息检索相关性Ⅰ.引言自 19 世纪 50 年代人们对信息检索相关性问题开始探讨以来,相关性一直是信息检索领域的核心研究内容之一,也是该领域一个非常重要的概念,得到了国内外研究人员的青睐,也取得了颇为丰硕的研究成果。
Ⅱ.数据来源笔者以中国知网CNKI 学术文献总库为数据统计来源,检索条件设置为:主题=信息检索并含相关性(精确匹配),或者篇名=信息检索并含相关性(精确匹配);发表时间:2007年1月1日到2016年12月31日;检索时间是 2017年 02 月 16 日。
共检索出733篇相关文献。
Ⅲ.统计结果分析3.1年度分布分析年度分布分析可以直观的反应每年在中国知网CNKI上发表的期刊数量,间接的反应出信息检索相关性这一课题领域的总体发展趋势和该领域每阶段的研究热度。
近10年来,我国对信息检索相关性的研究热度基本平衡,2008年论文发表量相对较少,2008以后呈明显上升趋势,并在2011年达到研究峰值,发表论文数量达到99篇,自2011年后,对该课题的研究热度呈逐年下降趋势,研究热度的下降可能是在信息检索技术的发展存在一定关系。
通过对发表文献的内容进行简要分析发现,基础理论介绍类文章占有一定比例,技术和实证类文献数量有待提高。
3.2 关键词统计分析基于文献计量学中的齐普夫定律,分析某一研究领域中关键词频次分布以及关键词间的关系,可以总体了解该领域的知识结构,研究热点以及作者著述特征等。
本文选取了出现频次在10次以上的关键词进行统计分析,对上述关键词进行分类梳理,发现关键词主要分为两大类。
信息检索中“相关性”的概念、类型及其不确定性

而可将 19 97年之 后 的相关 性研 究作 为第 四个 阶段 。 本 文从相 关性 研究 的各 个 阶段 人 手 , 理 相 关 性 研 梳 究 中最具 代表 性 的研 究 成 果 , 总结 已有 研 究 中相 关
性 的类 型及 其不 确 定 性 表 现 , 相关 性 的进 一 步研 为
Ce e o l r n及 其 同事指 出 , vd 相关 性评 价 中最 难 的是 对
信息检索系统的评价 , 解决这一问题 的第一步应该
自上世纪 5 0年代 M or、 ab 和 Pr oe Tu e s ey等将 r 计算机技 术应 用 于信 息 检索 之后 , 相关 性 ( e — Rl e vne 就成 了该领 域 的核心 研究 内容 J ac ) 。这 三 位学
时期 围绕相关 性 评价 标 准 的实证 研 究 也 颇 丰 , 例
性 的定 义如 下 : 个 存 储 的句 子 ( 论 是 存 储 在 系 一 无 统 内或用 户 的记忆 中 ) 逻辑 上 与 用户 的信 息需 求 在 是 相关 的 , 当且仅 当它 ( 个存 储 的句 子 ) 在于 构 这 存
各 前提 是最 小前 提 的 先辈 。换 言 之 , 果构 成 信 息 如 需 求 的最小前 提集 合 存 在 于某 一 文 献 中 , 可判 断 则
该 文献 为相关 。但 对 于最 终推 论 出所 需结 果 的最小
前 提集 合 , 须 保 证其 任 一先 辈 ( 提 ) 存 在 , 必 前 都 否
过 。19 9 7年 , z r Mi ao将相 关 性 的研 究 历史 划分 为 三 z
的角 度考 虑相 关 性 的 。在 该 定 义 中 , 关 性 被认 为 相 是系统 的属性 , 与用户基本无关 。可 以说 , 这是相关 性 研究 初见 成 效 的 开始 。然 而 , 关 性 概 念得 到普 相
检索词之间的逻辑关系

检索词之间的逻辑关系检索词之间的逻辑关系是信息检索领域中一个重要的研究方向。
在信息检索中,用户通过输入一组关键词来描述自己的信息需求,系统根据这些关键词来检索相关的文档或信息资源。
关键词之间的逻辑关系可以帮助系统更准确地理解用户的需求,提高检索结果的准确性和相关性。
在信息检索中,常见的关键词之间的逻辑关系有以下几种:1. 同义关系:指的是不同的关键词具有相同或类似的意思。
例如,当用户输入“蔬菜”时,系统可以将其与“青菜”、“蔬菜类”等具有相同意义的关键词进行同义替换,以扩展检索范围。
2. 同位关系:指的是关键词之间具有并列的关系。
例如,当用户输入“苹果”和“橘子”时,系统可以将其视为同位关系,表示用户对这两种水果都感兴趣。
3. 属性关系:指的是关键词之间存在属性或特征的关系。
例如,当用户输入“高血压”和“降压药”时,系统可以根据这两个关键词之间的属性关系,推荐一些降压药物的相关信息。
4. 逻辑关系:指的是关键词之间存在逻辑上的连接关系,如“与”、“或”、“非”等。
例如,当用户输入“手机”与“耳机”并使用逻辑操作符“与”时,系统将返回同时包含“手机”和“耳机”的相关信息。
5. 层次关系:指的是关键词之间存在上下级或包含关系。
例如,当用户输入“动物”时,系统可以自动展开到更具体的关键词,如“猫”、“狗”、“鸟”等,以提供更准确的检索结果。
6. 相关关系:指的是关键词之间存在相关性或相关程度的关系。
例如,当用户输入“足球”时,系统可以根据用户的搜索历史或兴趣偏好,推荐一些与足球相关的信息,如足球比赛、足球明星等。
在实际应用中,通过分析关键词之间的逻辑关系,可以改进信息检索系统的算法和模型,提高搜索的准确性和效果。
例如,可以利用同义关系来扩展检索词,使用属性关系来提取关键特征,使用逻辑关系来组合关键词,以及使用相关关系来个性化推荐。
关键词之间的逻辑关系在信息检索中起着重要的作用。
通过深入研究和理解这些关系,可以提高信息检索系统的性能和用户体验,为用户提供更准确、丰富的信息服务。
信息检索中的相关性

维普资讯
干 预 。面 向用 户 的相 关 性 主 要 研 究 用 户 以 及用 户 或 者
相关 性尽管并 没有被人们广泛理解 ,它却 是文献 学、 情报 学和信息检索 中的一个基础概念 。自从情报学 开始作为独立 的学科 , 在它 的前 四五十年 , 相关 性就 已 经被认为是该学科 的一个基础 的 、 核心 的概念 。 大虽 的 信息检索文献对 相关性进行 了研 究。如果不理解相关 性 的含义 。 明 白相关性 对用户的意义 , 不 很难想象一个 信息检索系统怎样 为用 户检索 出相关信息 。 1 信息检索 中的 相关性 概念 信息检索 的主要 目的是检索 相关信息 ,正 如美 国 V nRj egn定义 的“ a ibre s 检索 出所 有的相关性文献 和尽 可能少 的不 相关文献 ” 。因此 , 相关性是信息检索 系统 的功能和评估 中的一个 基础概念和关注焦点 ,它也是 信息科学领域一个重要 的研究部分。 相关性 被认 为 是信 息检索 最基础 的 一个 概念 。 也 是信息检索 中最有争议 的一个概 念。 在早期 , 信息学家 们认为 , 相关性 概念是信 息系统设计 、 开发和评价 的一 个 总概念 。然而 , 于相 关性 的具体属性 , 对 以及其 在系 统中的可操作性 和可评价 性 , 没有达成一致 的看法 。 却 后来 , 许多专 家学者对相关性 进行 了深入研究 , 并 取得 了很大 的成 果 。例如 ,美 国学者 C ar uda和 K t r ae t 研 究证 明了 广泛 的相 关性 :美 国学者 R e e s和 Sh l cut z 在 提 高 对 相 关 性 的 理 解 方 面 做 出 了 贡 献 。 美 国 Srev aaei c的一篇 关于对相关性 的分析回顾是一篇有建 设 性的文章 ,他 主要研究 了如何 理解相关性 以及过 去 是如何应 用的。 在 19 9 0年期 间 ,相关 性讨 论进 一步加 强 。美 国 Esn egS hmbr S hm e 等学者 通过 引入情境 i br 、c a e 和 c a b r e 相关 的概念 而再 次 引起 了热烈的讨论 。Sh m e 等学 ca br 者 在对 历史文献 和各种各样 的相关性 观点分 析 回顾之 后 ,从相关性 的 自然属性和它在信息行 为中的作用两 方 面 , 出了三个 主要结论 : 得 () I相关性 是一个多维度的认知概念。 含义是相 其 关性 主要 取决于 用户对信息 的看法 和他们 的信息需求 情境 。 () 2 相关性是一个动态 的概念 。 它主要是指熠户在某 特定时间对检索结果与信息需求的匹配程度的判断。 () 3 相关性是一个复杂但系统 的、 可以衡量的概念。 目前 , 对相关性 的研究主要有两个分支。 其一是来 自计算机科学界 ,他们的研究主要是 围绕信 息检索 系 统展开 , 包括 系统 的分析 、 计 、 索算法 以及 性能评 设 检
信息检索中“相关性”与“相关反馈”研究概述

p s n 。可 以对用 户不够具体 的初始查 询 ( ia n o a i) itl n i qey进 行 细 化 、 体 化 。将 已经 检 出 的 文 档 集 不 ur) 具
断缩小 , 终 得 到相关 度 最 大 的文 档 集 。 ( ) 最 2 调整 词 权 (em e ihig 。 当 用 户 的查 询 目的 并 不 十 tr rwe t ) g n 分 明确 时 , 统可 根 据 用 户 对 初 次 查 询 结 果 的 相关 系 性 判 断通 过 调整 词 权 改 变 词 语 在 询 问 中 的作 用 , 从 而改 变检 索效 果 。但 是 尽 管相 关 反馈 技 术 在 信息 检
2 0世 纪 4 0年 代 以 来 , 息 检 索 被 确 立 为 一 门 信
观 念在 8 0年代 被 融 合 于信 息检 索 过 程 中 的人 机 交
互 以及人 工智 能 中 的 问题 求 解 。直 到 今 天 , 关 性 相 的讨 论仍 在 热烈 进行 中 。 但 是 , 然对 此 的讨 论 已经很 多 , 相 关性 的定 虽 对
独立的学科一直受到广泛的关注。人们 习惯于这样 简单的描述 : 我们被淹没在大量信息中 , 获得信息的 准确 性似 乎 显得 越 来越 难 。这 样 所造 成 的结果 之 一 就是相关信息由于未被发现而被忽视。随着计算机 时代的到来 , 人们逐 渐地 把计算 机用 于提供快速 而 具智能性的信息检索系统。正是由于计算机代替人 所做 的大量工作 , 使得其在处理检索 问题 上与检索 者本身产生了一定的“ 隔阂” 即用户 的需求不能被 , 正确地了解 和满足 。伴随着诸多 问题 的产生 , 信息
但对于相关性 的研 究却与相 关反馈在 系统 中的 实际应 用存在 着脱 节。文章对相 关性与相 关反馈 的有关情 况做 了概 述 , 以期 二 者 更 大程度 的 融合 , 开发 更适合 于用 户 的信 息检 索 系统 。 关 键 词 : 息检 索 ; 关性 ; 关反 馈 信 相 相
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近十年我国信息检索相关性研究现状分析——基于共词分析的视角摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。
本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。
关键词:信息检索;相关性;共词分析前言相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。
但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart (1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。
在信息科学界Saracevic 认为Bradford是最先使用相关性一词的学者。
其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。
而此后关于“相关性”的探讨并未引起学界更大范围的关注。
直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。
至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。
足见“相关性”在信息科学中的重要地位。
当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。
1.信息检索相关性基本概念对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。
而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。
Rees认为相关性受文档所包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。
Saracevic 则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。
Cooper利用数理逻辑给相关性做了一个明确的定义。
Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。
在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相关性的概念描述也呈现出许多新的时代特征。
首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。
相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。
其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创之后又吸引了众多学者的参与。
2.信息检索相关性共词分析2.1数据收集处理本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为SCI、EI、CSSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004年至2013年,共检索文献95篇。
对其关键词进行统计分析,共有关键词202个,对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个(表1),本文的数据分析将基于这些高频关键词。
表1 高频关键词及其频次统计关键词频次关键词频次信息检索59信息系统成功模型2相关性29信息素养2搜索引擎8信息检索模型2用户相关性5相关性判据2情报学4模糊聚类2评价4模糊矩阵2检索模型4模糊方法2查准率4可视化2用户交互3检索系统2信息检索系统3检索评价2相关性判断3关联理论2相关性反馈3个性化2相关度3次序效应2系统相关性3词频矩阵2网络信息检索3查询扩展2数字图书馆3查全率2模型3测试集2跨语言信息检索3标准2检索3本体2用户需求2TEDS模型2用户行为2学术信息检索系统22.2建立共词矩阵在EXCEL表格中,删除低频关键词之后,对确定的42个关键词所在列进行两两配对,统计其在文献同时出现的频次,建立透视表,并通过Ucinet软件将42个关键词建立共词矩阵,图1为共词矩阵部分效果图。
图1 共词矩阵效果图(部分)2.3分析数据结果本文利用社会网络分析软件Ucinet6.0版本和Netdraw2.0版本对获取的关键词数据进行分析并绘制出社会网络分析图谱。
2.3.1K-core分析在本文中,首先使用Ucinet6.0软件建立共词矩阵的电子表格,然后采用Netdraw2.0软件绘制科学知识图谱,在此基础上,采用K-core 分析法进行社会网络分析,建立不同连接度k 核(最高为4)的共词网络图谱,经过处理后得到可视化结果,如图2所示,其中红色代表关联度为4的关键词,绿色为关联度为3的关键词,蓝色为关联度为2的关键词,黑色为关联度为1的关键词。
图2 K-core 分析效果图2.3.2多维尺度分析使用Ucinet6.0软件中的非量纲式多维尺度分析方法分析近十年我国信息检索相关性的关键词的数据结构,统计这些关键词坐标,统计结果如表2所示,并形成散点图,效果如图3所示。
表2 关键词分布坐标关键词 X 坐标 Y 坐标 所处象限 关键词 X 坐标 Y 坐标 所处象限 TEDS 模型 -0.794 1.984 第2象限评价 -0.234 -0.438第3象限本体 0.4 -0.145 第4象限 情报学-0.018 0.168 第2象限标准 -0.368 -0.089第3象限 数字图书馆-0.215 -0.92 第3象限测试集 -0.859 0.175第2象限 搜索引擎-0.317 0.409 第2象限 查全率 -0.048 -0.261第3象限 网络信息检索-0.716 0.905 第2象限 查询扩展 0.315 -0.505第4象限 系统相关性0.317 0.358第1象限查准率 -0.056 -0.524 第3象限 相关度0.253 0.135 第1象限词频矩阵0.676-0.556 第4象限相关性0.023-0.057第4象限次序效应-0.4490.128第2象限相关性反馈0.902-0.545第4象限个性化-0.689-0.11第3象限相关性判断-0.2310.057第2象限关联理论0.540.056第1象限相关性判据-0.485 2.055第2象限检索-0.52-0.571第3象限信息检索0.175-0.256第4象限检索模型0.127-0.858第4象限信息检索模型-0.0620.363第2象限检索评价-0.244-0.73第3象限信息检索系统0.558-0.773第4象限检索系统0.5420.268第1象限信息素养0.699-0.233第4象限可视化-1.1640.349第2象限信息系统成功模型-0.405 2.366第2象限跨语言信息检索0.389-1.334第4象限学术信息检索系统-0.803 2.397第2象限模糊方法0.111-0.689第4象限用户交互0.384-0.956第4象限模糊矩阵0.6-0.374第4象限用户相关性0.1270.471第1象限模糊聚类0.846-0.061第4象限用户行为0.057-1.102第4象限模型-0.4-0.284第3象限用户需求1.036-0.275第4象限2.62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.6-0.8-1-1.2-1.42.62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.6-0.8-1-1.2-1.4TE DS 模型本体标准测试集查全率查询扩展查准率词频矩阵次序效应个性化关联理论检索检索模型检索评价检索系统可视化跨语言信息检索模糊方法模糊矩阵模糊聚类模型评价情报学数字图书馆搜索引擎网络信息检索系统相关性相关度相关性相关性反馈相关性判断相关性判据信息检索信息检索模型信息检索系统信息素养信息系统成功模型学术信息检索系统用户交互用户相关性用户行为用户需求图3 多维尺度分析散点图分布效果图根据多维尺度分析图和表2的统计可以看出,42个关键词中,分布在第一象限的有:关联理论、检索系统、系统相关性、相关度、用户相关性,共五个;分布在第二象限的有:TEDS 模型、测试集、次序效应、可视化、情报、搜索引擎、网络信息检索、相关性判断、相关性判据、信息检索模型、信息系统成功模型、学术信息检索系统;分布在第三象限的有:标准、查全率、查准率、个性化、检索、检索评价、模型、评价、数字图书馆;分布在第四象限的有:本体、查询扩展、词频矩阵、检索模型、跨语言信息检索、模糊方法、模糊矩阵、模糊聚类、相关性、相关性反馈、信息检索、信息检索系统、信息素养、用户交互、用户行为、用户需求。
3.信息检索相关性研究分析通过核心关键词所处的象限分布情况以及K-core 分析图所示,我国信息检索相关性的研究热点主要集中在两个方面:第一,信息检索系统的相关性评价标准及模型的研究,包括查全率、查准率、相关度、TEDS 模型、学术信息检索系统、信息系统成功模型等;第二,有关用户的研究,包括用户需求、用户行为、用户相关性、信息素养等。
3.1信息检索系统的相关性评价及模型研究对于信息检索系统的相关性评价研究是这一研究领域的研究重点,也一直是研究者们关注的重点。
传统的相关性评价指标为查全率和查准率,目前系统相关性评价可用相关度作为相关性好坏的评价指标,相关度是文档表示与查询表达式间的匹配程度,相关度越高则说明文档与表达式越相近。
作为相关性的量化指标, 相关度已广为接受。
系统相关性评价的模型包括布尔模型、向量空间模型、概率模型、模糊模型、逻辑模型、概念模型、网络模型等。
信息检索系统是相关性评价的一个重要极点,检索系统性能的好坏直接影响到反馈结果质量的高低,从而影响用户相关性的判断。
从系统的角度看,提高信息检索的相关性可以从以下五个方面来考虑:①系统设计的用户观。
②信息组织的合理化。
③系统实现的智能化。
④检索功能的全面化。
⑤相关算法的最优化。
3.2与用户有关的信息检索系统相关性的关系研究信息检索的 目的是要预言信息对于用户需求的适用性,即信息能否满足用户需求或在何种程度上满足用户需求,但情报检索系统所能提供给我们的只是信息表示和查询表示之间的关系。