信息检索概念
第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索课件第2章

信息检索还可以用于学术评价与评估,通过对学术论文的 发表数量、被引次数等指标进行统计和分析,评价研究者 的学术水平和影响力。
信息检索在商业领域的应用
市场调研与竞争情报
企业通过信息检索技术收集市场和竞争对手的信息,了解市场需求、 竞争态势和行业趋势,为制定营销策略和产品开发提供支持。
品牌监测与管理
信息检索课件第2章
contents
目录
• 信息检索概述 • 信息检索技术 • 信息检索系统 • 信息检索的实践应用 • 信息检索的伦理与法律问题
01 信息检索概述
信息检索的定义
信息检索是利用计算机和人工 手段,从大量信息中查找和获 取特定信息的过程。
信息检索涉及对信息资源的组 织、标识、评价和检索等方面。
信息检索的目的是为用户提供 准确、及时和有用的信息。
信息检索的原理
信息检索基于信息需求, 通过特定的检索方式,从 信息源中获取相关信息。
信息检索的原理包括信息 标引、信息存储和信息检 索三个主要环节。
信息标引是对信息进行分 类、主题分析等处理,以 便于信息存储和检索。
信息检索是根据用户的信息需 求,利用特定的检索工具和策 略,从信息源中获取相关信息 。
网络搜索引擎、学术搜索引擎、特定领域搜索引擎等。
基于检索技术的分类
基于关键词的检索、基于内容的检索、基于知识的检索等。
信息检索系统的评价
查全率
检索系统返回的相关结果数量 与总相关结果数量的比值。
查准率
检索系统返回的相关结果中, 真正相关的结果数量与返回的 相关结果数量的比值。
响应时间
检索系统对用户查询的响应时间 ,即从用户提交查询请求到检索 系统返回结果所需的时间。
信息检索与自然语言处理

信息检索与自然语言处理信息检索与自然语言处理(Information Retrieval and Natural Language Processing)是计算机科学领域中重要的研究方向,它们的目标是帮助人们有效地获取和理解大量的文本信息。
本文将从基础概念、应用领域和研究方法三个方面对信息检索与自然语言处理进行介绍。
一、基础概念信息检索是指通过计算机系统从大规模的文本集合中获取与用户查询相关的信息。
它的核心任务是根据用户输入的查询条件在文本集合中匹配和排序。
自然语言处理则涉及对自然语言的理解和生成,以解决计算机与人类之间沟通的语言障碍。
信息检索与自然语言处理密切相关,二者通过对文本语义的分析和理解来提高检索的准确性和效率。
二、应用领域信息检索与自然语言处理在各个领域都有广泛的应用。
例如,在搜索引擎领域,信息检索技术被应用于提供准确和相关的搜索结果。
用户可以通过搜索引擎快速获取大量的在线信息资源。
在智能助手领域,自然语言处理技术被应用于语音识别、自动问答等功能,使得人机交互更加便捷和自然。
此外,信息检索与自然语言处理还被应用于文本分类、信息抽取、情感分析等任务。
三、研究方法信息检索与自然语言处理的研究方法主要包括以下几个方面。
首先是文本预处理,包括分词、去除停用词、词干提取等技术,用于将原始文本转化为机器可理解的形式。
其次是特征表示,通过表示文本的特征向量来描述其语义信息。
常用的特征表示方法包括词袋模型、TF-IDF、Word2Vec等。
然后是机器学习算法,用于从标注数据中学习模型并进行预测和分类。
常用的机器学习算法包括朴素贝叶斯、支持向量机、深度学习等。
此外,还有一些高级技术包括词嵌入、注意力机制、强化学习等。
结语信息检索与自然语言处理是现代计算机科学领域中具有挑战性和前景的研究方向。
通过合理利用和整合这两个领域的技术,我们可以构建更智能和高效的文本处理系统,为人们获取、理解和利用大量的信息提供便利。
《信息检索教案》课件

《信息检索教案》PPT课件第一章:信息检索概述1.1 信息检索的定义解释信息检索的概念和意义强调信息检索在学术研究和日常生活的重要性1.2 信息检索的类型介绍不同类型的信息检索方法,如手工检索、计算机检索等解释各种检索方法的优缺点和适用场景1.3 信息检索的流程介绍信息检索的基本步骤,如确定检索需求、选择检索工具等提供实用的检索技巧和策略,帮助学生更有效地获取信息第二章:检索工具与数据库2.1 检索工具的类型介绍不同类型的检索工具,如目录、索引、文摘等强调各种检索工具的特点和适用场景2.2 数据库的类型介绍不同类型的数据库,如文献数据库、全文数据库等解释各种数据库的优缺点和适用场景2.3 检索工具与数据库的选择提供选择检索工具和数据库的依据和方法强调选择合适的工具和数据库对信息检索的重要性第三章:网络信息检索3.1 搜索引擎的使用介绍搜索引擎的概念和原理讲解如何有效地使用搜索引擎进行信息检索3.2 学术搜索引擎的使用介绍学术搜索引擎的概念和特点讲解如何利用学术搜索引擎获取学术信息3.3 社交媒体与网络信息检索介绍社交媒体在信息检索中的应用强调社交媒体在获取实时信息和社交网络分析中的价值第四章:信息检索技巧与策略4.1 检索关键词的选择讲解如何选择合适的检索关键词提供关键词选择的方法和技巧4.2 布尔逻辑检索介绍布尔逻辑检索的概念和原理讲解如何运用布尔逻辑提高检索效果4.3 短语检索与位置算符介绍短语检索和位置算符的概念和用法强调短语检索和位置算符在精确检索中的重要性第五章:信息检索实践与应用5.1 学术研究中的应用讲解信息检索在学术研究中的重要性演示如何利用信息检索进行文献综述和实证研究5.2 日常生活中的应用讲解信息检索在日常生活中的应用案例强调信息检索对提高生活质量的重要性5.3 信息检索的道德与法律问题介绍信息检索中的道德和法律问题,如版权、隐私等强调信息检索时应注意的道德和法律规范第六章:特定信息类型的检索6.1 图像和多媒体信息的检索介绍如何检索图像和多媒体信息演示使用图像搜索引擎和多媒体数据库的技巧6.2 统计数据的检索讲解如何检索统计数据介绍使用政府统计网站和专业统计数据库的方法6.3 专利信息的检索介绍如何检索专利信息演示使用专利数据库进行检索的步骤和技巧第七章:信息评估与批判性思维7.1 信息评估的标准讲解评估信息质量的标准和原则强调批判性思维在信息评估中的重要性7.2 识别信息源的可靠性介绍如何识别和评估信息源的可靠性分析不同类型信息源的可信度和偏见7.3 信息批判性思维的实践讲解如何运用批判性思维分析信息演示通过信息检索进行批判性思维实践的案例第八章:信息素养与终身学习8.1 信息素养的概念解释信息素养的内涵和外延强调信息素养在现代社会的重要性8.2 培养信息素养的策略介绍培养个人信息素养的策略和方法强调终身学习在维持和提升信息素养中的作用8.3 信息素养的实践应用讲解信息素养在个人和专业生活中的应用演示如何利用信息素养解决实际问题第九章:信息检索的未来趋势9.1 与信息检索介绍在信息检索中的应用探讨如何改变信息检索的方式9.2 大数据与信息检索讲解大数据对信息检索的影响探讨大数据时代信息检索的新挑战和新机遇9.3 未来信息检索技术的发展趋势预测未来信息检索技术的发展方向强调终身学习的重要性以适应不断变化的技术环境第十章:综合实践与案例分析10.1 综合实践项目设计设计一个综合实践项目,要求学生应用所学信息检索技能提供项目实施步骤和评估标准10.2 案例分析与讨论提供几个案例分析,要求学生应用信息检索技能解决问题鼓励学生进行讨论,分享他们的思考和经验10.3 课程总结与展望总结整个课程的重点和难点展望信息检索领域的发展前景,鼓励学生持续学习和探索重点解析本文教案主要涵盖了信息检索的概述、检索工具与数据库的选择、网络信息检索、信息检索技巧与策略、信息检索实践与应用、特定信息类型的检索、信息评估与批判性思维、信息素养与终身学习、信息检索的未来趋势以及综合实践与案例分析等十个章节。
信息检索

确定信息检索方法
掌握获取原始信息的线索
获取原始信息
一、手工检索的技术与方法
1.手工信息检索工具
(1)目录 (2)索引 (3)文摘 (4)年鉴 (5)手册 (6)百科全书
2.手工信息检索工具的排检技术
(1)字顺排检技术 (2)分类排检技术 (3)主题排检技术 (4)时序排检技术 (5)地序排检技术
全文检索、多媒体检索、超媒体检索。
(3)按检索性质分:
定题检索和回溯检索。
(4)按检索方式的不同分:
手工检索、机械检索、计算机检索。
2.信息检索的特性
(1).信息检索的相关性
相关性表明信息集合中的一条信息与提问集合中的一个 提问的吻合程度。
(2).信息检索的不确定性
信息检索系统不直接处理原始信息和原始的用户需求, 它提供的只是信息表示和查询表示之间的匹配关系,这就 涉及到标引与检索词选用的准确度问题;而实际上,标引 和检索词的选用本身就存在不确定性。
布尔逻辑检索模型采用布尔代数的方法,用布尔表达 式表示用户提问,通过对信息标识与提问式的逻辑比较 来检索文献。 每个提问表示为标引词的布尔组配,组配符号有逻辑 “与”、逻辑“或”、逻辑“非”。 检索系统对提问的响应式输出一个包含了该提问式的 组配元,且符合组配条件的信息集合。
某一信息Infor,可表示为
(1)传统信息检索向全文文本、多媒体、多 原理等新型信息检索的发展,从深度上提高信 息的管理和组织能力; (2)信息资源的网络化与分布化,面向互联 网中海量的信息资源在广度上提高信息的管理 和组织能力。
四.信息检索的模型
最简单的检索模型——单项检索模型。
它将信息集合中的每一信息用1个或多个主题词标引, 提问式由单个主题词构成。
信息检索名词解释与简答 答案

●名词解释●信息检索●广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术。
狭义的信息检索是指从信息集合中找到所需信息的过程。
●信息素养●信息素养是指判断何时、何地需要信息,并有效地定位、获取、评价和利用信息的一系列能力的总和。
●信息意识●信息意识又称信息观念,是人们对信息需求的自觉反映,即对信息的捕捉、分析、判断和吸收的敏感性。
●信息能力●是人们有效快速的获取、加工、存储、利用和传递信息的能力。
●信息道德●是指在整个信息活动中,信息创建者、信息服务提供者和信息使用者所必须要遵守的社会法律法规和行为准则。
●零次文献●是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。
●一次文献●指以作者本人的研究成果为依据而撰写并公开发表或出版的信息。
●二次文献●是对一定范围、时间或类型的大量一次文献按其特征收集整理、压缩、加工,并按一定顺序组织编排、用于检索查找利用这些文献而编制的文献。
如书目、索引、文摘、题录、简介等。
●三次文献●三次文献是在充分利用二次文献的基础上对一次文献做出的系统整理和概括的论述,并加以分析综合编写而成的概括性文献。
●主题词●是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。
●关键词●关键词是出现在文献题名、文摘、正文中,能够表达文献主题,具有检索意义的语词。
●叙词●所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。
●查全率●查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。
●查全率=【检出相关文献量/文献库内相关文献总量】×100%●查准率●查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
计算机信息检索基本概念及理论
3.信息检索发展的历史
–手工检索阶段
• 西汉,刘向《别录》、刘歆《七略》 • 梁启超《西学书目表》 • 1949年,《全国总书目》创刊
–计算机检索阶段
• 机编文献目录阶段——起源
20世纪60年代中期,美国国立图书馆利用计算机出版 了MEDLARS ( Medical Literature Analysis and Retreived System ) 数据库
《中国图书馆分类法》22大类
主题语言
主题语言是一种选自自然(规范化)的直接性的检索语
言,包括两个内容:一是指表达文献内容特征的、经过规范 化了的名词术语(包括词组和短语);二是指把这些名词术 语按字顺排列成主体记号表或标题词表,以此作为规范化词 标引和检索文献的工具。 根据选词原则、组配方式、规范方法等, 主题语言可分为标题词语言、关键词语言、 单元词语言和叙词语言。
•
代码语言 代码语言一般只是就事物的某一方面的特征,用某种代 码系统来加以标引和排列。例如,化合物的分子式索引系统、 环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行 标注法代码系统。
引文语言 引文语言是利用文献之间的相互引证关 系而建立的一种自然语言,其标引词来自文 献的主要著录项目。这种方法提供了从被引 论文来检索引用它的全部论文的途径,从而 顺着一种科学思想的发展过程线索找到有关 信息。可以讲引文语言看作检索语言的一种 特殊类型。
信息检索原理期末重点背诵知识点
信息检索原理期末重点背诵知识点信息检索1、信息检索概念:P12、信息检索的原理⼀整节内容要⾃⼰理解:P3-P4图1-1要掌握⽂献替代和⽂献整序的概念要掌握3、信息检索在历史上的不同表现:联机检索、光盘检索、⽹络检索的区别和特征:P6-P94、信息检索的模型概念:P95、布尔模型、向量空间模型、经典概率模型要理解并掌握各⾃的优缺点:P11-P126、信息检索系统的概念:P127、检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率掌握它们的含义并懂得计算8、⽹络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、信息检索的技巧要理解尤其是要掌握及时调整检索策略:P33-P3610、搜索引擎的概念:P3711、数据库知识,实验内容,特点12、引⽂的概念13、搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念 P11312、多媒体信息检索的原理和⽅法:P110-P114其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、专利的概念:P12514、专利的类型:P126(理解⼀下各类型的区别)15、专利⽂献的概念:P12716、专利⽂献的类型:P127(理解⼀下各类型的区别)17、灰⾊⽂献的概念:P14718、会议⽂献的概念:P15819、科技报告的概念:P16320、查新的概念:P20021、科技查新的作⽤:P201(每⼀个⼩标题后⾯要⾃⼰展开⼀段)关于上课讲的那⼏个数据库⼤家⾃⼰看⼀下PPT,掌握⼀下。
以上纯属个⼈观点题型:名词解释:5*4=20简答题: 4*10=40论述题: 2*20=40考试时间:1⽉8⽇上午:9:00—11:001.信息检索的概念 (P1)信息检索有⼴义和狭义两重含义。
⼴义上说,信息检索是指将信息按照⼀定的⽅式组织和存储起来,并根据信息⽤户的需求查找相关信息的过程。
信息检索
信息检索一、名词解释:1.信息检索:狭义的信息检索概念是指在信息的海洋中选取符合需要的信息的过程称为信息检索。
而如今发展为包括信息的储存、组织、查询、提取等多个工作过程,所以广义的信息检索又称为信息储存与检索。
2.CALIS:全称为中国高等教育文献保障系统(china academic library&information system),其联合目录数据库始建于1997年。
其资源类型包括原文、图片、阴文、文摘、馆藏、相关文献等;育种覆盖中文、英语和日语。
3.引文索引:利用文献引证关系检索相关文献的索引。
引文索引以某一文献(包括作者、题名、发表年份、出处等基本数据)作为标目,标目下著录引用或参考过该文献的全部文献及出处。
它主要供用户从被引文献查找引用文献。
4.截词检索:截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。
截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。
尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。
5.科技查新:科技查新是文献检索和情报调研相结合的情报研究工作,它以文献为基础,以文献检索和情报调研为手段,以检出结果为依据,通过综合分析,对查新项目的新颖性进行情报学审查,写出有依据、有分析、有对比、有结论的查新报告。
二、填空1.文献按内容层次可分为:一次文献、二次文献和三次文献。
2.计算机信息技术中常用的检索技术是:布尔逻辑检索、截词检索、限制检索、词位检索。
3.信息素质的内涵包括:信息意识、信息技能和信息道德。
4.SCI是什么的缩写:科学引文索引(science citation index)。
5.位置算符W:这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒,3N:此算符两侧的检索词之间允许间隔最多3个其他词或字母,且两者词序可颠倒。
信息检索(北航)
信息存储
信息源 主题分析
存储标识
概念转换
目录文摘索引编制
信息集合
3 信息的检索
信息的检索过程: • 按照同样的主题词表或分类表分析检索需
求,形成检索提问标识。依据信息存储时 所形成的检索途径,从信息集合中查找与 检索提问标识匹配的信息特征标识。
光驱、数据库光盘以及相应的检索软件和 驱动软件构成,提供单个用户使用。 • 联机检索系统在光盘网络的环境下运行, 受到光盘塔和局域网的支撑,在局域网内 提供多个用户使用,由服务器管理。
网络检索
• 基于搜索引擎技术的网络检索时随着互联 网的兴起和普及而出现的。
• 网络搜索引擎是当今网络检索工具的主流, 不仅提供文本检索,还可以提供图像、图 形、音频、视频、动画等多媒体检索。
• 文献检索是一种相关性检索,检索结果是某一专 题的文献线索(文摘、题录),一般要经过阅读文摘 后才能决定取舍。文献检索主要是利用二次文献 进行,如各种载体形式的目录、题录、文摘、索 引等。文献检索是信息检索中最基本、最重要的 类型。
文献检索是信息检索的核心和和主体部分,是 最常用的一种检索。文献检索分为数目检索和全 文检索。其目标是检索出原始文献或原始文献的 替代品。
求
求
分
表
析
达
信息检索过程
词 语 转 换
数据库
词 语 转 换
检索结果
引例
例如:《车用替代燃料与生物智能》 书的信息存储过程
交通运输类U
U473/12 U473 U
汽车用燃料、润 滑料类 U473
U473/12
书的信息检索过程
2 信息的存储
信息的存储过程: • 按照检索语言(主要是主题词表和分类表)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
③操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。
④输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。
⑤融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。
(1)布尔逻辑式的构造不易全面反映用户的需求。
(2)匹配标准存在某些不合理的地方。
(3)检索结果不能按照用户定义的重要性排序输出
2.2.2向量模型
文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。
第二章信息检索模型
信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。
(3)系统科学。
(4)语言学。
(5)认知科学。
概括地讲,可以把信息检索当前正在研究的主要课题和未来发展趋势归纳如下:
(1)跨语言信息检索。
(2)多媒体信息检索。
(3)信息检ห้องสมุดไป่ตู้可视化。
(4)信息检索智能化。
(5)信息检索个性化。
(6)信息检索多样化
任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。
联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。
联机检索系统的特点是:
①检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。
1.3.1信息检索的研究内容
概括起来,信息检索的研究内容包括以下几个方面:
(1)信息检索理论研究
(2)信息检索方法研究
(3)信息检索技术研究
(4)信息检索语言研究
(5)信息检索系统研究
(6)信息检索服务研究
(7)信息检索评价研究。
与信息检索关系比较密切的相关学科和领域如下:
(1)计算机科学与技术。
(2)数学。
第一章绪论
1.1.1信息检索的概念
“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯(C.W.Mooers)提出,从1961年开始在学术界和实践领域中得到广泛的应用。
信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。
用ki表示标引词,dj表示文档,wi,j≥0为二元组(ki, dj)的权值(weight),该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目,K={k1, k2, ... , kt}是所有标引词的集合,wi,j>0是文档dj中的标引词ki的权值,对于没有出现在文档文本中的标引词,其权值wi,j =0。文档dj可以用标引词向量dj来表示:dj= (w1,j, w2,j,…, wt,j)。此外,函数gi用以返回任何t维向量中标引词ki的权值,即gi (dj) = wi,j。其中,标引词的权重通常被认为是互相独立的。
提取机理2表示机理3比较机理4判断机理符号化表示比较符号化表示判断息现求现实实信息特征提选择需求特征提的的输出检索结图12信息检索的一致性匹配作113信息检索的类型一按照信息检索的对象性质划分1文献检索2数值检索3事实检索二按照计算机检索技术划分1脱机检索offlineretrieval2联机检索onlineretrieval3光盘检索cdromretrieval4网络检索internetretrieval121信息检索系统的概念信息检索过程的实现要依靠特定的系统这个系统就是信息检索系统
网络检索系统的特点是:
①检索空间无限,检索范围覆盖了全球性、开放性Internet所能延伸到的世界各地,用户不必知道某种资源的具体地址。
②检索内容极其丰富,包括网上所有领域、各种类型、各种媒体(文本、图像、声音、视频、动画等)的信息资源,如Web、FTP、Telnet、Usenet、Gopher等。
第二节经典模型
信息检索的经典模型认为,每篇文档可以用一组有代表性的关键词即标引词集合来描述,标引词(index term)是文档中的词,其语义可以帮助理解文档的主题;因此,标引词常用于编制索引和概括文档的内容。对于文档中的标引词集合来说,在描述文档内容时它们的作用是不尽相同的,因而应当明确标引词与文档内容的密切程度。
(2)功能
(3)资源
(4)设备
(5)方法
(6)人员
由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪里。
2.2.1布尔模型
布尔模型(Boolen Model)是基于集合理论和布尔代数的一种简单的检索模型,它假定标引词在文档中要么出现,要么不出现。因此,标引词的权值全部被设为二值数据,wi,j∈{0, 1},查询q由连接词not、and、or连接起来的多个标引词所组成,如“奥运会”、“奥运会”and“中国”、“奥运会”and(“中国”or(not“体操”))等,通过对标引词与用户给出的检索式进行逻辑比较来检索文本。
②检索内容新,数据库更新及时,基本上是同步,能够检索到最新信息。
③检索功能强,一个联机检索系统中的所有数据库通常使用统一的检索命令,检索途径多、检索效率高、检索质量好。
④数据库质量高,都是经过严格加工、处理和组织的,通常是各个领域中核心的和权威的数据库。
⑤检索较复杂,专业性太强,一般用户不容易掌握检索指令、规则和方法,通常依赖于专业检索人员。
传统的信息检索模型(又称经典信息检索模型)包括布尔模型、向量空间模型和概率模型。
信息检索模型到底是什么?其描述如下:
信息检索模型是一个四元组/D,Q,F,R(qi, dj)/:
(1)D是文档集中的一组文档逻辑视图(表示),称为文档的表示;
(2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;
③超文本浏览,检索结果是完全可以直接阅读的Web页面,可以非线性地随时从一个页面跳到另一个页面。
④界面最友好,屏蔽了各个局域网之间的各种物理差异(如硬件系统、软件平台、地理位置、存储方式、通信协议等),极大地提高了系统的透明度,用户使用通用的图形窗口检索界面,即可访问和检索各种异构系统的数据库,在通过Web浏览器访问过程中,无需关心一些技术细节。
光盘网络检索系统可以分为面向特定范围对象的局域网的系统和依托Internet的面向所有用户开放的系统,其实质是将光盘资源上网,允许局域网、广域网甚至Internet上的众多用户在同一时间、不同地点同时访问一个或多个光盘数据库。其局域网系统的物理结构如图1-4所示。
光盘检索系统的特点是:
①方便快捷,不受通信线路和网络等因素的影响和限制,可以随时启动使用。
⑥检索费用高,要求熟练掌握检索技巧和经验,普通用户难以承受。
⑦人机界面比较单一、呆板。
(2)光盘检索系统的物理结构
光盘检索系统有两种类型:单机光盘检索系统和光盘网络检索系统。
单机光盘检索系统比较简单,通常由计算机、光盘驱动器、光盘数据库等硬件设备组成,自成一体,系统结构简单,数据量少,利用率低,一次只能供一个用户检索,通常供单用户、单机使用。
布尔检索模型是最早提出的一个信息检索模型,它具有简单、易理解、易实现等优点,故得到广泛的应用。1967年后,布尔检索正式被大型文档检索系统采用,并渐成为各种商业性联机检索系统的标准检索模式,服务信息情报界30多年,直到现在,大多数商用检索系统仍采用布尔检索。
尽管布尔模型有着种种的优点,但是它的缺点仍然是明显的,它存在的主要缺陷有以下几点:
信息检索的基本原理可以用下图表示:
从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中。
1.1.2信息检索的原理
从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,如图1-2所示。
基于经典向量模型的信息检索模型中,文档和查询用t维空间的向量来表示,都是建立在代数理论的基础之上,则称该类模型为代数模型,包括广义向量模型、潜语义标引模型和神经网络模型等。
基于经典概率模型的信息检索模型中,用于构建文档和查询模型的机制是基于概率论的,则称该类模型为概率模型,包括推理网络模型和信任度网络模型等。
⑥数据更新慢,周期较长,时效性差。
⑦数据量有限,受到光盘容量的限制,通常局限于专业领域,范围不够广泛。
(3)网络检索系统的物理结构
全文索引引擎是名副其实的搜索引擎网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果
⑤操作最简便,良好的交互式作业、多种导航和编辑功能、及时获得在线帮助和指导以及符合大多数用户检索习惯的用户接口使得检索简单易行,不必经过太多的培训即可操作。
⑥检索效率不高,网络信息缺乏规范和统一管理,动态性强,重复率、冗余度高,无用信息较多,查准率差。