信息检索重点
信息检索知识点

信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
信息检索复习重点1

信息检索第二章信息用户一、用户信息需求的概念1、概念:是指人们在实践活动过程为解决遇到的各种问题而产生的信息不足感与求足感2、主要特点:广泛性、社会性、发展性、多样性、主观性、客观性二、用户信息需求的基本类型1、按信息的属性分自然信息需求:对客观存在的自然物信息的不足感与求足感,强调物质属性社会信息需求:生活中的信息需求、职业活动中的信息需求、个体社会化的信息需求2、按信息需求的目标分主题需求:战略性信息需求、战术性信息需求、工作性(经营性)信息需求已知资料需求:信息查对需求3、按信息需求的表现形态分(沃格特)新信息需要:需要能及时获得、迅速传递的最新信息,强调及时性片断性信息需求:某一理论、方法、事件等的片断信息,以解决具体问题,强调准确性完整性信息需求:对特定相关信息的系统把握,强调全面性三、用户信息需求状态(Mizzaro)1、客观信息需求(Real Information Need,RIN):用户解决某特定问题所需要的信息2、意识到的信息需求(Perceived Information Need,PIN):户在问题及外界刺激下所感知到的信息需求3、表达出来的信息需求(Request):用户在一定条件下对意识到的信息用自然语言表达出来的信息需求4、信息提问(query):用户用所选择信息检索系统的检索语言相对应的语法形式描述的信息需求四、用户需求提问1.需求提问的类型划分1)、从提问的规定性上分类明确性提问:问题初始条件与目标状态清楚不确定性提问:问题初始条件或目标状态不清楚2)、从功能上分类认知性提问:咨询提问和评价提问非认知性提问2.需求提问的结构分析主题分析:描述用户信息需求的内容范畴。
包括主题概念、学科范围外部要求:描述用户信息需求的基本规定。
包括:目标:反映需求的目标状态规模:反映需求的数量指标类型:反映需求的信息形式其它:反映需求的其它要求(如年代、语种等)3.需求提问质量的评价标准相关度(pertinence/relevance):与解决问题的相关性准确度(accuracy):提问能否用一定规则准确地固定下来特定性(specificity):有关某一特定事物或主题的特殊要求4.需求提问的反馈调节反馈调节的内容:明确主题范畴、目的与动机、查寻者个人特征、预计或可接受的回答(数量要求,信息类型,语种,时间分布,等)•信息检索基本原理(检索过程,行为模型)▲一、信息检索过程1、概念狭义:从特定信息源中找出符合特定需要的信息单元基本环节概念形式的逻辑过程操作形式的技术过程广义:是从信息需求开始到信息利用结束的全过程2、信息检索的逻辑过程信息标引过程信息检索式的形成信息匹配查找3、信息检索的技术过程信息标引与标引结果的组织检索式及其制定检索匹配过程获取原始信息4、检索过程的基本假定信息单元内容可明确客观地判断且唯一表达用户信息需求也可明确客观地判断且唯一描述只要采用相同的检索语言体系和描述规则,可明确客观地判断标引式与检索式的一致性,并由此判断信息单元与信息需求的一致性5、检索过程的形式化描述信息检索过程可形式化描述为四维数组S={I,Q,F,R(ij,q)}匹配函数为实际检索过程匹配函数设K为检索状态值,则关于q检出信息集二、检索过程的用户信息状态潜在信息需求(Real Information Need) :K[I]=K[D]-K[S]意识到的信息需求(Perceived Information Need)设特定主体对特定潜在需求的意识转化系数为λ1,则有K1*I+=λ1K*I+提问(Request & Query)设特定用户对意识到信息需求准确表达系数为λ2,则有K2*I+= λ2k1*I+使用(Useness)设特定用户对检索结果信息的吸收系数为λ3,则有ΔI= λ3k2*I+当λ1λ2λ3=1时,K[D] =K[S+ΔS] 完全信息决策过程当0<λ1λ2λ3<1时,K[D] >K[S+ΔS] 有限信息决策过程当λ1λ2λ3=0时,K[S] =K[S+ΔS],零信息决策过程决策者以自身的主观知识和经验足以确定其操作要素,即K[S] =K[D]信息需求无法识别,即λ1=0信息查找过程中止,即λ2=0信息理解失败或没有新信息内容,即λ3=0▲三、信息检索行为模型信息检索行为的内涵是指在明确的信息需求基础上以各种方式获取所需信息过程所表现出来的行为信息检索行为模型对用户信息检索过程中的行为模式以某种形式表达出来的结构框架1、Dervin模型三要素模型状态(situation)特定时空中问题提出的背景差距(gap)个体认识上的不确定性使用或帮助(use/help or outcome)问题解决后获得的结果2、Ellis模型开始(starting)联接(chaining)浏览(browsing)跟踪(monitoring)区分(differentiating)采集(extracting)证实(verifying)结束(ending)3、Kuhlthau模型开始(initiation)选择(selection)探查(exploration)形成(formulation)收集(collection)结束(closure)4、Wilson模型基本主张信息需求并不信息检索行为的唯一动力,而是心理、认知与情感三方面的综合体信息获取过程中可能会遭遇各种不同背景下的干扰或障碍几个模型1981年模型及修正模型1996年模型四、信息检索的相关性原理1.相关(relevance)研究的历史性回顾1958年,ICSI(科学信息国际会议)上B.C. Vickery首次提出相关性概念60年代,研究相关性的定义、类型、相关性判断的各种可能影响因素70年代,试图建立相关性理论框架80年代,在相关研究中引入认知模型2.相关的几种典型定义1967年Cuadra与Katter的定义(系统相关)相关是信息条件叙述(即输入系统之检索问题)和文献内容间的一致性,亦即文献涵盖的内容对信息条件叙述的适合程度1971年Cooper的定义(逻辑相关)“一句子和信息需求相关的必要条件是其所属文献(以存储的句子表达)必须包含构成信息需求的最小前提组(minimal premise set)。
信息检索基础知识考点整理

信息检索基础知识考点整理●2.1 信息检索的概念与原理●2.1.1 信息检索的概念(重要)●2.1.2 信息检索的原理●信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出●信息检索的类型●1.文献检索●2.数据检索●3.事实检索●2.1.3 信息检索的意义/作用(重要)●1.信息检索是有效利用信息资源,实现其最大价值的科学方法●2.信息检索是再学习的工具,是获取知识的有效途径●3.信息检索能有效地提高科研工作的效率,节省人力、物力及时间●2.1.4 信息检索的历程●1.手工检索●2.计算机检索●2.2 信息检索系统(重要)●2.2.1 信息检索系统的概念●1.信息检索系统的含义●2.信息检索系统的工作原理●2.2.2 信息检索系统的构成●1.信息选择子系统●2.信息索引子系统●3.词表管理子系统●4.用户接口子系统●5.匹配子系统●2.2.3 信息检索系统的分类●1.手工检索系统●1.书本式的手工检索系统●2.卡片式的手工检索系统●2.计算机检索系统●1.硬件●2.软件●3.数据库●1.参考数据库●1.书目数据库●2.指南数据库●2.源数据库●1.数值数据库●2.文本—数值数据库●3.全文数据库●4.术语数据库●5.图像数据库●6.多媒体数据库●2.3 信息检索方法(重要)●1.直接浏览法●直接查找法●2.常用法●顺查●倒查●抽查●3.追溯法●4.综合法(分段查找法、循环法、交替法)●2.4 信息检索效果(重要)●2.4.1 信息检索效果评价●信息检索效果的概念●1.检索结果有效性评价●2.检索系统实用性的评价●3.检索费用—效率评价●信息检索效果评价对于信息检索系统的建设和发展的意义●信息检索效果评价的核心问题是建立一套切实可行的评价指标●1.查全率和查准率●2.误检率和漏检率●3.响应时间●其他与检索效果相关的指标●2.4.2影响信息检索效果的因素●1.标引的质量●2.检索途径的数量●3.检索策略的优劣●4.检索人员的素质。
信息技术检索期末重点复习

信息技术检索期末重点复习第一章导论1. 了解信息检索的相关研究领域,以及信息检索的应用;答:领域:数据管理,图书馆和信息科学,人工智能,自然语言处理,机器学习,软件工程计算机系统。
应用:自然语言处理,分布式计算,数据库,数据挖掘,情报学,社会学。
2. 了解相关性的定义、相关性判定的特点;答:定义:信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。
判定特点:(1)客观性(2)及时性(3)可靠性(4)能否满足客户要求。
3. 理解齐普夫定律的内容,以及齐普夫定律在信息检索中的应用。
了解齐普夫定律在网络现象中的验证。
(结合第七章)答:定律:如果有一个包含n个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现的频次f之积fr,将近似地为一个常数。
(齐普夫定律的理论基础是最省力法则)在信息管理中的应用:(1)最佳地理位置选择,使得使用者能以最省力的途径方便到达。
(2)设计图书馆、信息中心资料库的排架。
齐普夫定律应用:(1)文献自动标引(2)主题词频分析适用性:对于出现频率特别高特别低的词不能表现其分布规律。
在网络现象中的应用:(1)对网页中入度/出度数量的影响(2)对网页的长度有影响(3)对网页的点击率4. 掌握倒排文档的原理,以及在信息检索中的应用。
答:原理:将文档打散,然后找出关键词,经过还原、去重等词处理建立索引,存储这些单词在一个文档或者一组文档中的存储位置。
应用:当文章数目很大时,通过倒排文档方式建立索引可以大大节省检索时间。
5. 掌握IR系统的基本结构,了解各个关键部分的作用。
答:第一章PPT136. 理解关键词检索存在的问题及原因。
答:问题:(1)不能检索有同义词的相关文档(2)可能会检索出有歧义词的不相关文档。
原因:(1)检索出了基本的内容,但我们想要知道的更多更全(2)我们想要知道更多关于近期发展的信息(3)我们想要获得一个有效的基本的信息系统,而关键词检索做不到(4)我们更关注基本能力和算法比较系统的结果,而不是像工业模型那样允许缩放的系统数据。
信息检索初步知识点总结

信息检索初步知识点总结信息检索是指利用计算机系统来检索和获取文档或者信息资源的技术和方法。
在当今信息爆炸的时代,信息检索具有非常重要的意义。
信息检索系统可以帮助人们快速准确地获取所需要的信息资源,不仅可以提高工作和学习效率,还可以帮助人们更好地利用信息资源。
在信息检索中,有一些基本的知识点是非常重要的,下面我将对这些知识点进行总结。
1. 信息检索的概念和发展历史信息检索是指从信息库中按照一定的要求来搜索、检索信息的过程。
它主要是利用计算机技术来实现信息的存储、检索和利用。
信息检索的发展可以追溯到20世纪50年代,随着计算机技术的发展,信息检索技术也得到了很大的发展。
现代信息检索系统不仅能够实现文档的存储和检索,还可以实现自然语言处理、信息抽取、信息过滤等功能。
2. 信息检索的基本过程信息检索的基本过程包括信息需求分析、文档表示和查询处理、检索模型和算法、评价和反馈等几个方面。
其中,信息需求分析是整个信息检索过程的第一步,它包括对用户的信息需求进行分析和建模,确定用户的检索目标和检索词,为后续的检索准备工作做好准备。
文档表示和查询处理是指对文档和查询进行适当的表示和处理,以便计算机系统能够理解和利用。
检索模型和算法是指根据文档和查询的表示,计算出相关度得分,以确定文档的相关性。
最后,评价和反馈是指对检索结果进行评价和反馈,以优化检索系统的性能。
3. 信息检索的技术手段信息检索的技术手段主要包括文本索引技术、全文搜索技术、信息抽取技术、信息推荐技术等几个方面。
其中,文本索引技术是指将文档中的关键词进行索引,以便计算机系统能够快速地定位到相关的文档。
全文搜索技术是指利用全文索引进行搜索,可以实现对文档中所有内容的搜索。
信息抽取技术是指从文档中抽取出有用的信息,以便为用户提供更精确的搜索结果。
信息推荐技术是指根据用户的行为和偏好,为用户推荐相关的信息资源。
4. 信息检索的评价指标信息检索的评价指标主要包括召回率、准确率、F值、MAP值等几个方面。
信息检索复习知识点

信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
信息检索考试大一下知识点

信息检索考试大一下知识点信息检索是指从大量的信息中快速找到满足特定需求的信息过程。
在大一下学期的信息检索考试中,通常会涉及以下几个知识点:一、信息检索基础概念1. 信息检索的定义和目的信息检索是指通过使用计算机技术,在海量信息中寻找到与用户需求相匹配的信息。
其目的是快速、准确地获取到用户所需的信息。
2. 检索模型和流程信息检索基于检索模型,常见的模型包括布尔模型、向量空间模型和概率模型。
检索流程一般包括问题建模、索引构建、查询处理和结果排序等步骤。
二、关键词检索1. 关键词的选择与组合在进行信息检索时,关键词的选择和组合非常重要。
关键词应该准确描述用户需求,并且能够尽可能覆盖相关领域的信息。
2. 布尔查询与逻辑运算符布尔查询是一种基础的检索方式,通过使用逻辑运算符(AND、OR、NOT)对关键词进行组合,从而获得符合用户需求的信息。
三、索引构建与检索技术1. 逆向索引逆向索引是一种常用的索引结构,它通过将文档中的每个单词与包含该单词的文档进行关联,实现了关键词到文档的快速定位。
2. 向量空间模型向量空间模型将文档和查询都表示为向量,在向量空间中进行计算,通过计算文档与查询之间的相似度来判断文档的相关性。
3. 布尔模型的实现与优化布尔模型的实现与优化涉及到倒排索引的构建与压缩、布尔运算的优化算法等方面的技术。
四、评价与改进1. 检索结果的评价对于检索系统的性能评价,一般使用准确率、召回率、F值等指标来衡量检索的有效性和完整性。
2. 改进方法与技术为了提升检索系统的性能,可以采用词干提取、查询扩展、排名算法优化等方式进行改进。
五、实际应用与发展趋势1. 商业搜索引擎与个性化推荐商业搜索引擎通过不断改进和优化信息检索技术,提供高效准确的搜索服务。
个性化推荐则基于用户的兴趣和行为,向用户推荐符合其需求的信息。
2. 大数据与信息检索随着大数据时代的到来,信息检索面临着处理海量数据的挑战。
如何有效地利用大数据技术来进行信息检索是当前的研究热点之一。
医药信息检索作业重点归纳

医药信息检索作业重点归纳检索作业:? 基础知识1.按信息的产生次序和加工整理的程度不同,可将信息源划分为四个层次,分别是哪四个层次,并举例?按信息的产生次序和加工整理的程度不同可将信息划分为以下四个层次结构:零次信息,一次信息,二次信息,三次信息。
零次信息如比较原始的素材、底稿、手稿、书信、工作文稿、工作图纸、考察记录、调查稿、原始统计数据以及各种口头交流的知识、经验或意见论点。
平时的课堂笔记、聊天记录等就是零次信息,其特点是:直接、真实、内容新颖。
一次信息又称原始文献,包括图书、期刊和报纸、科学考察报告、研究报告、会议论文、学位论文、专利说明书、技术标准、政府出版物、产品样本等。
其特点是:经过一定的加工整理,可以大范围传播;创造性原始性和多样性。
二次信息有书目、题录、索引和文摘。
简化有序化特定范围内的一次信息,具有集中性、工具性和系统性。
三次信息包括专题述评、动态总数、系统评价、进展报告、学科年度总结、年鉴、指南和百科全书。
它通过二次信息提供的线索,选用一次信息的内容重新加工整理形成的信息。
2.按信息的出版类型划分,可将信息源分为十种类型,分别是哪十种类型?按信息的出版类型或分为以下十种类型:图书、期刊论文、科技报告、专利文献、会议文献、政治出版物、学位论文、标准文献、产品样本、科技档案。
3.在信息的存储和检索中,可采用有自然语言和人工语言,各自的优缺点有哪些?自然语言:情报检索中的自然语言是指文献作者或文摘提要的作者原来使用的语言,即出现在文献题名、摘要或正文中的语词。
优点:贴近人们的日常生活表达,按照社会约定俗成的流行用法,简便较为随意。
缺点:(1)不能简明专指表达文献及检索课题的主题概念(2)语词与概念不能一一对应(3)不能显示概念之间的关系(4)不能系统排列概念(5)检索时不能将标引用语和检索用语进行相符性比较。
人工语言:情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工和计算机化的情报检索系统,表达文献主题概念和检索课题概念。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息的基本概述一信息:1.信息的特征(5个普遍性与客观性、依存性与传递性、可知性与共享型、可扩充性与可压缩性、时效性与滞后性)2.数据信息、知识、文献、情报、智慧DIKW模型看截图3.信息检索的概念与本质(匹配过程)本质:是用户的信息需求和信息集合的匹配过程,进而满足用的信息需求的过程二信息资源(定义信息资源是人类在认识世界和改造世界过程中产生、整理、记录的有用信息的集合)1.信息资源的类型按时间的产生顺序先导信息资源、即时信息资源、滞后信息资源按传播形式口头信息资源、文献信息资源、实物信息资源按载体形式书写型、印刷型、缩微型、视听型、数字型按出版形式(十大科技情报源)图书、期刊、会议文献、学位论文、专利文献、科技报告、标准文献、技术档案、产品资料、政府出版物按加工深度(零次一次,二次)一次文献知识的首次固化期刊论文、标准、报告、文献等:是依据作者本人的科研成果而撰写的首次记录科研成果的原始文献二次文献检索工具题录,目录,书录,文摘,索引:是对分散的无组织的一次文献进行加工整理、压缩、提炼、简化、整理的产物三次文献直接提供答案百科全书,词典,手册:对大量一次文献经过综合、分析、提炼撰写而成零次文献实验数据,观察记录,手稿等:是形成一次文献之前的信息、知识、情报、即未公开记录或未公开与社会的最原始的文献,或没有正式的发表的文字材料信息资源的特点能够重复使用、具有整合性、具有流动性、共享性、实效性、动态性、不可分性、支配性信息资源的作用可以减少物质与能量的作用,从而极大提高社会劳动生产率,有利于实现国民经济的可持续发展。
信息资源已经成为了当今社会的核心资源。
信息资源的开发利用,可有效降低社会的运营成本三信息社会(概述与内容包括哪三类资源)信息素养的三个层次:基础性、自我满足性、自我实现性信息素养(IL)(定义美国图书馆协会:具有信息素养的人能够知道什么时候需要信息,能够有效的识别、获取、评价、和利用所需要的信息)信息素养的内涵:信息意识对信息的敏感程度,有效发现信息需求,是人们产生信息需求,形成信息动机和兴趣的动力和源泉信息知识信息的基本知识(相关理论、知识与方法),信息技术和知识(信息技术原理)等信息能力获取、理解、处理、表达、评价、利用、创新等信息法律与道德(又称信息伦理)了解利用信息所涉及的经济、法律和社会问题,合理、合法地获取和利用信息第二章信息检索绪论一信息检索概述信息检索概念广义:存储和查询将信息按一定的方式组织和存储,并根据信息用户需求查找所需信息的过程侠义:查询从信息集合中查询信息用户所需信息的过程(仅指从已经存贮的具有检索功能的信息集合中查询出所需要的信息的过程)信息检索原理信息需求与信息集合:匹配检索者将检索提问式与存储与检索系统的文献标引词进行匹配对比,取得一致性即为最符合要求的结果信息检索类型信息检索内容对象数据、事实、文献信息检索组织方式全文、超文本、超媒体信息检索的手段手工与计算机信息检索步骤6个分析课题明确需求、选择检索工具或数据库、确定检索方法、确定检索途径、查找文献检索、获取原始文献。
信息检索模型布尔逻辑模型只有0和1 要么有要么就没有优点:形式简洁,结构简单不足:判断文献要么相关,要么不相关,无法描述与查询条件部分匹配的情况,可能导致检出的文献过度或过少向量空间模型余弦值(cos ) 考虑索引词在文档中的词频和权重、TF-TDF 一个词的重要程度跟他在文章中出现的次数成正比,跟她在语料库出现的次数成反比优点:标引词加改进了检索效果;其部分匹配策略运行检出与查询条件接近的文献;余弦公式根据文献与查询之间的相似度对文献进行排序不足:标引词被认为在彼此之间相互独立概率模型优点:从理论上来讲,文献根据他们相关的概率按递减的顺序排列缺点:需要最初把文献分成相关的集合和不相关的集合二信息检索系统结构物理结构硬件资源、软件数据库(结构字段(最小的存储单元)...记录(很多个字段组成的)...文档.()..数据库、顺排文档、倒排文档(按文献的内外部特征等检索标识))顺排和倒排的区别:顺排是以完整的记录作为处理和检索单元倒排文档是以记录中的字段作为处理和检索单元逻辑结构系统所包括的功能或子系统及相互关系信息存储子系统标引子系统信息查询子系统三信息检索语言外部特征内容特征分类语言:国内:中图法(5、22)国外:DDC 杜威实际分类法主题语言:标题词、单元词、叙词、关键词四信息检索系统的评价(信息检索系统含义:具有信息存储和信息查询功能的一类信息服务设施类型:按照信息存储与检索的设备划分书本式、卡片式、穿孔式、缩微式、计算机化系统、网络检索系统按照检索功能划分:文献检索、数据库管理、自动问答、管理信息、决策支持)效率:时间开销、空间开销、响应速度效果:查准率、查全率、误检率、漏检率其他指标第三章信息检索方法与技术1.基本方法布尔逻辑运算and or not(not 作用可以缩小检索范围,提高查准率)优先级or>and>not>()截词符*?前中后前后截断字段如:la(language),ab(abstract)精确检索“”、‘’如:“xy”表示不可分开位置检索次序位置不变with 、nWith次序位置不限near 、nNear其他检索:扩展检索(概念对主题词或副主题词的下位词一起检索;作用扩大检索范围,提高查准率)加权检索(概念定量检索从量的方面对检索词之间的组配关系加以限制和表示;作用:缩小检索范围,提高查准率)二次检索将本次检索与上次检索进行逻辑“与”运算(缩小检索范围,提高查准率)2.主要技术全文、多媒体、超文本、智能检索、可视化、跨语言、文本聚类3.改进措施扩大当检索结果为0或检索结果太少时,就需要扩大检索范围在检索词选择方面可以使用布尔逻辑“或”连接表达某一概念的近义词,同义词或相关词减少使用布尔逻辑and,取消某些限制,使用分类号进行族性检索使用截词检索利用某些检索工具提供的“自动扩检”功能使用原搜索引擎使用信息资源整合平台检索来自于不同提供方的各种数据库缩小检索结果太多或检索不相关使用逻辑与连接更多关键词使用逻辑非把不相关的关键词排除使用位置限制检索使用字段限制检索使用短语检索进行精确检索限制查询范围利用检索工具的进阶检索功能第四章搜索引擎1.搜索引擎概述概念(是一种WEB上的软件系统,是一定策略在WEB上搜集和发现信息,并将其处理和组织后,为用户提供WEB信息查询服务)搜索引擎的系统结构:1)检索器:针对具体搜索引擎所配置的专业检索程序包2)用户接入3)索引器4)索引数据库看截图工作原理:匹配:用户需求与网络信息资源基本分类信息采集方式人工、机器人看ppt信息内容组织关键词、目录式信息资源范围综合性、专业性信息搜索功能独立性、元搜索引擎(区别,前者有独立数据库,,后者只发送命令)2.常用综合性搜索引擎国内百度国外必应谷歌3常用学术性搜索引擎国内百度、读秀国外谷歌学术(思谋学术),必应学术第五章国内重要信息检索系统(常用中文数据库)重点;电子资源概念是一种数字化的文献,以数据库形式存在服务方式、(专线方式、本地镜像方式、Internet方式)浏览与检索常见问题中文全文数据库的各自优缺点清华同方、维普、万方优点:提供·1全文字段的检索,有助于文献的查全都可以进行简单检索、二次检索、高级检索等,检索策略可以保存,编辑免去了检索书目数据库后还得费力去获取全文的麻烦缺点:计算机内必须安装全文浏览器通用的格式较少,主要是pdf,html格式常用的中文全文数据库1.中文全文数据库知网:普通检索、高级检索、出版物检索、专业检索、文献可视化分析、文献题录导出功能维普、万方2.中文全文检索系统国家图书馆(NLC)中国高等教育文献保障系统(CALIS)国家科技图书文献中心(NSTL)中国人民大学复印报刊资料第六章国外重要信息检索系统(常见外文数据库)外文全文数据库ProQuest(每年更新硕博士论文)外文题录型数据库:web of science(内容:SCI SSCI A&HCI.功能:布尔、截词、字段、位置、二次、文献题导出、文献分析基本检索、高级检索、其他检索)、医学数据库:PubMed 、图书情报专业文摘型数据库LISA 、LISTA其他数据库researchgate 、谷歌学术DOI:sci-hub第七章专利信息检索重难点:专利、商标、学位、会议论文检索1专利信息数据库国内知网、万方等国外德温特政府网站国内国家知识产权局、国家科技图书文献中心国外世界知识产权组织、美国专利商标局、欧洲专利局、日本特许厅搜索引擎国内Soopat 、知创大为innojoy国外Google3.商标数据库legal force政府网站国内中国知网产权局、中国商标局国外:全球品牌数据库、美国专利商标局4.学位及会议论文国内大陆:数据库知网、万方、中国科学院学位论文数据库政府网站CALIS 中国高等教育文献保障系统NSTL 国家科技图书文献中心NLC 国家图书馆港台:香港香港大学论文在线、香港科技大学电子学位论文数据库、博硕论文收藏台湾eThesys分布式学位论文共建共享计划、中国电子学位论文服务、台湾地区博硕论文资讯网国外ProQuest、NDLTD 网络化的博硕士论文数字图书馆第八章多媒体信息检索1.基本内涵概念CBR:对包括图像、音频、视频等在内的多媒体信息进行特征元数据提取、建立索引库,同时根据用户检索需求。
将用户的信息需求表达与多媒体索引库进行相似度或距离的匹配运算,查询和返回用户所需信息,通过与用户之间的反馈,不断优化、调整显示结果的过程流程特征提取、元数据描述、索引数据库、相似度匹配、查询与反馈、优化与调整原理(了解)2.类型基于文本的多媒体信息检索概念:用文本信息来描述图像、声音、视频等语义信息,将对对媒体信息的检索转换成为基于文本的信息检索类型:手工或自动:OCR技术,语音视频技术、信息抽取技术基于内容的多媒体信息检索概念:是指对媒体对象的听、视觉特征及其中所蕴涵的内容和语义特征进行检索,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体数据的听、视觉、语义进行自动(或半自动)的分析、表达和组织类型:基于内容的图像信息检索颜色特征、纹理特征、形状特征、空间关系和组合特征基于内容的音频信息检索语音、音乐基于内容的视频检索基于帧、基于视频语义、基于运动特征第九章开放存取1.概念广义侠义2.实现途径OA期刊与OA知识库前者基于现象层面的描述性研究,后者基于用户层面的解释性研究预印本网站:国内中国科技论文在线、NSTL、中科院国外ArXiv、生物医药类bioxiv biomedical pubmed、瑞典DOAJ机构库:国内武大、南京大学、中科院、人大、大连理工等国外麻省理工等3.意义/影响/作用:科研人员图书馆、科研机构专利文献:主要指实行专利制度的国家及国际专利组织在审理、审批、注册专利过程中产生的官方文件及出版物的总称缺点:专利文献查全资料太困难专利太多,阅读量大同族专利,重复阅读语言问题公司名称不统一专利难读商标:用来区别一个经营者的品牌或服务和其他经营者的商品或服务的标记元数据:描述数据的数据对数据及信息资源的描述信息或从信息资源中抽取出来的用于说明其特征、内容的结构化的数据,用于组织、描述、检索、保存、管理信息和知识资源使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。