信息检索复习重点1
信息检索重点复习资料

信息检索重点复习资料第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型 1浏览型模型:扁平式模型、结构导向模型、超文本模型2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS. 信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
(完整版)信息检索考试重点

新
hing at a time and All things in their being are good for somethin
(二)
1、什么是检索工具?它的主要作用是什么? 答:检索工具是用来存储、报道和检索一次文献的工具,属于二次文献。 主要作用:报导作用、累计作用、查询作用、选择作用。 2、目录、题录、索引、文摘、文献指南各有那种类型? 答:目录可以分为国家目录、馆藏目录、联合目录、出版社与书商目录和专题目录。 题录的类型一般都是用代号表示。 索引类型可分为篇目索引和内容索引 文摘按其内容的详简程度可以分为指示性文摘和报道性文摘;按其适用对象可以分为一 般性文摘和倾向性文摘;按内容性质可以分为综合性文摘和专业性文摘。 文献指南主要介绍该科学和专题的主要文献类型。 3、什么是参考工具书?它有哪些主要作用? 答:参考工具书是根据一定的社会需要,广泛汇集某一范围的知识材料,按一定方式加以 编排,专供人们解释疑惑的特定类型的出版物。 作用:查字词、查事项、查人物、查机构、查产品、查物名、查地名、查年代、查数据。 4、字典和词典、百科全书、年鉴、名录、图录有哪些主要类型? 答:字典类型一般分为两种:○1 详解词典○2 专门词典。 词典从语种文别角度分为:○1 单语言辞典○2 多语言辞典。 从词量规模角度:○1 大型词典○2 中型词典○3 小型词典。 从收录内容角度:○1 百科全书○2 语文词典○3 专门词典。 百科全书分为两种类型:一类是概括人类一切门类知识,包括哲学、社会科学、自然科学 和应用科学等所有门类知识的综合性百科全书。另一类是指内容只收内容某一学科或某个 门类、某个专业的知识信息的专科性百科全书。 年鉴类型分为综合性年鉴、专业性年鉴、统计性年鉴。 名录类型分为人名录、地名录、物名录、机构名录。 图录类型分为地图录、科学技术用图集、历史图谱、文物图谱及人物图录。 (三)
【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点第一篇:【云南大学】信息检索期末复习重点云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。
二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100% 影响检出文献的检索效果的质量。
三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。
(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。
尤其是对复杂的检索课题,不易套用布尔检索模型。
B.易造成零输出或过量输出。
检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。
C.无差别的组配元,不能区分各组配元的重要程度。
D.匹配标准存在某些不合理的地方。
由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。
E.检索结果不能按照重要性排序输出。
2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。
(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。
C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。
D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。
E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。
信息检索重点

1.信息检索(information retrieval) 定义(1)广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。
所以它的全称又叫信息存储与检索(information storage and retrieval).(2)狭义的信息检索:指广义的信息检索的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们的所说的信息查寻。
(information search)2.检索工具定义:检索工具是人们用来存储、报道和查找文献的工具。
因此,它具有存储和检索的功能。
存储是把分散、无序的文献,采用一定的检索语言使其集中,组织起来,成为有规律的检索系统,变成检索工具。
检索是人们按照有关检索语言,采用一定的方法和途径,检出自己所需的文献。
3.检索策略的定义陈光祚:所谓检索策略就是在弄清用户情报需求实质的前提下,选择检索途径、检索用词以及明确各词之间逻辑关系和查找步骤的科学安排。
赖茂生:所谓检索策赂,是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。
4.信息资源:是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
填空一.检索工具的功能(1)报道功能。
(2)标识功能。
(3)辅助检索功能。
二.检索工具的类型1 按检索方法划分检索工具可以划分为手工检索和机械检索工具两大类型,机械检索工具主要是指计算机检索。
2 按收录范围划分检索工具可分为综合性检索工具、专业性检索工具、单一性检索工具3种。
综合性检索工具收录范围广,涉及多门学科。
专业性检索工具收录的范围仅限于某一学科领域。
单一性检索工具只收录某一特种类型的文献,但学科范围可广可窄。
3 按出版形式划分检索工具又可分为书本式、卡片式、磁带式和缩微制品等形式,书本式又包括书刊式、单卷式和附录式3种。
4 按收录文献的对象和揭示方式来划分⑴目录目录是一批图书或其他单独出版的资料的系统化记载及内容的揭示。
信息检索复习知识点

信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。
使用的情况可以包括需要信息、接受信息和利用信息。
4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。
我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。
6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。
* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。
8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。
9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。
它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。
* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。
信息检索复习要点

1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。
这种附着在各种载体上的记录统称为文献。
2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。
3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。
信息是物质存在的方式、形式和运动规律的表征。
人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。
如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。
由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。
4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。
5、信息资源的构成可从不同的层次和角度来划分:一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。
二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次文献。
(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。
例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。
按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。
二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。
信息检索复习提纲一

信息检索复习提纲第一章 信息检索的基础知识1.1 信息检索的基本概念一、基本概念1、信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息 。
2、文献:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。
也可以称为固化在一定载体上的知识。
3、资料:固化在一定的实物或载体上的知识。
二、信息的传递渠道:非正式传递渠道和正式传递渠道(非正式过程、正式过程)(1)非正式过程a、科学技术工作者之间就他们从事的研究和研制进行直接对话,如交谈、参加学术会议等;b、科技工作者参观同行的实验室、科学展览等等;c、科技工作者对某些工众作口头演讲;d、交换书信、出版物欲印本和单行本;e、研究或研制成果在发表前的准备工作,包括发表形式以及发表的地点和时间的选择。
(2)正式过程a、为手稿的发表所作的编辑出版和印刷过程,包括写书评;b、科学出版物的发行过程,包括与发行过程有关的书刊商业活动;c、图书馆的书目工作和检索工作;d、信息工作本身,从搜集到检索,包括宣传工作。
三、信息检索(P2-4)(一)信息检索:就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。
它包括三个方面: 数据检索 、事实检索 、文献检索数据检索、事实检索、文献检索三者中以文献检索为主。
数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。
四、文献检索及其类型(1)定义:1、检索系统的建立及检索工具的组织和积累2、文献的查寻,利用检索工具检出与课题相关的文献。
(2)文献检索的类型1、直接检索:是从通过阅读原始文献直接获取所需信息。
(快捷、方便 漏查率高)a、直接检索原文易于掌握文献的实质内容,可直接判断其信息内容是否符合信息要求,并可能得到意外的收获;b、直接检索简便易行,并且时效高。
信息检索重点

一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。
广义的情报是信息的传递,因此,情报具有信息和知识两种性质。
三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。
零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。
五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。
八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索第二章信息用户一、用户信息需求的概念1、概念:是指人们在实践活动过程为解决遇到的各种问题而产生的信息不足感与求足感2、主要特点:广泛性、社会性、发展性、多样性、主观性、客观性二、用户信息需求的基本类型1、按信息的属性分自然信息需求:对客观存在的自然物信息的不足感与求足感,强调物质属性社会信息需求:生活中的信息需求、职业活动中的信息需求、个体社会化的信息需求2、按信息需求的目标分主题需求:战略性信息需求、战术性信息需求、工作性(经营性)信息需求已知资料需求:信息查对需求3、按信息需求的表现形态分(沃格特)新信息需要:需要能及时获得、迅速传递的最新信息,强调及时性片断性信息需求:某一理论、方法、事件等的片断信息,以解决具体问题,强调准确性完整性信息需求:对特定相关信息的系统把握,强调全面性三、用户信息需求状态(Mizzaro)1、客观信息需求(Real Information Need,RIN):用户解决某特定问题所需要的信息2、意识到的信息需求(Perceived Information Need,PIN):户在问题及外界刺激下所感知到的信息需求3、表达出来的信息需求(Request):用户在一定条件下对意识到的信息用自然语言表达出来的信息需求4、信息提问(query):用户用所选择信息检索系统的检索语言相对应的语法形式描述的信息需求四、用户需求提问1.需求提问的类型划分1)、从提问的规定性上分类明确性提问:问题初始条件与目标状态清楚不确定性提问:问题初始条件或目标状态不清楚2)、从功能上分类认知性提问:咨询提问和评价提问非认知性提问2.需求提问的结构分析主题分析:描述用户信息需求的内容范畴。
包括主题概念、学科范围外部要求:描述用户信息需求的基本规定。
包括:目标:反映需求的目标状态规模:反映需求的数量指标类型:反映需求的信息形式其它:反映需求的其它要求(如年代、语种等)3.需求提问质量的评价标准相关度(pertinence/relevance):与解决问题的相关性准确度(accuracy):提问能否用一定规则准确地固定下来特定性(specificity):有关某一特定事物或主题的特殊要求4.需求提问的反馈调节反馈调节的内容:明确主题范畴、目的与动机、查寻者个人特征、预计或可接受的回答(数量要求,信息类型,语种,时间分布,等)•信息检索基本原理(检索过程,行为模型)▲一、信息检索过程1、概念狭义:从特定信息源中找出符合特定需要的信息单元基本环节概念形式的逻辑过程操作形式的技术过程广义:是从信息需求开始到信息利用结束的全过程2、信息检索的逻辑过程信息标引过程信息检索式的形成信息匹配查找3、信息检索的技术过程信息标引与标引结果的组织检索式及其制定检索匹配过程获取原始信息4、检索过程的基本假定信息单元内容可明确客观地判断且唯一表达用户信息需求也可明确客观地判断且唯一描述只要采用相同的检索语言体系和描述规则,可明确客观地判断标引式与检索式的一致性,并由此判断信息单元与信息需求的一致性5、检索过程的形式化描述信息检索过程可形式化描述为四维数组S={I,Q,F,R(ij,q)}匹配函数为实际检索过程匹配函数设K为检索状态值,则关于q检出信息集二、检索过程的用户信息状态潜在信息需求(Real Information Need) :K[I]=K[D]-K[S]意识到的信息需求(Perceived Information Need)设特定主体对特定潜在需求的意识转化系数为λ1,则有K1*I+=λ1K*I+提问(Request & Query)设特定用户对意识到信息需求准确表达系数为λ2,则有K2*I+= λ2k1*I+使用(Useness)设特定用户对检索结果信息的吸收系数为λ3,则有ΔI= λ3k2*I+当λ1λ2λ3=1时,K[D] =K[S+ΔS] 完全信息决策过程当0<λ1λ2λ3<1时,K[D] >K[S+ΔS] 有限信息决策过程当λ1λ2λ3=0时,K[S] =K[S+ΔS],零信息决策过程决策者以自身的主观知识和经验足以确定其操作要素,即K[S] =K[D]信息需求无法识别,即λ1=0信息查找过程中止,即λ2=0信息理解失败或没有新信息内容,即λ3=0▲三、信息检索行为模型信息检索行为的内涵是指在明确的信息需求基础上以各种方式获取所需信息过程所表现出来的行为信息检索行为模型对用户信息检索过程中的行为模式以某种形式表达出来的结构框架1、Dervin模型三要素模型状态(situation)特定时空中问题提出的背景差距(gap)个体认识上的不确定性使用或帮助(use/help or outcome)问题解决后获得的结果2、Ellis模型开始(starting)联接(chaining)浏览(browsing)跟踪(monitoring)区分(differentiating)采集(extracting)证实(verifying)结束(ending)3、Kuhlthau模型开始(initiation)选择(selection)探查(exploration)形成(formulation)收集(collection)结束(closure)4、Wilson模型基本主张信息需求并不信息检索行为的唯一动力,而是心理、认知与情感三方面的综合体信息获取过程中可能会遭遇各种不同背景下的干扰或障碍几个模型1981年模型及修正模型1996年模型四、信息检索的相关性原理1.相关(relevance)研究的历史性回顾1958年,ICSI(科学信息国际会议)上B.C. Vickery首次提出相关性概念60年代,研究相关性的定义、类型、相关性判断的各种可能影响因素70年代,试图建立相关性理论框架80年代,在相关研究中引入认知模型2.相关的几种典型定义1967年Cuadra与Katter的定义(系统相关)相关是信息条件叙述(即输入系统之检索问题)和文献内容间的一致性,亦即文献涵盖的内容对信息条件叙述的适合程度1971年Cooper的定义(逻辑相关)“一句子和信息需求相关的必要条件是其所属文献(以存储的句子表达)必须包含构成信息需求的最小前提组(minimal premise set)。
”1973年Wilson的定义(情景相关)相关信息的判断不仅涉及主题,而且与用户所处的环境相关,尤其是用户的知识状态1992年Harter的定义(认知相关)相关的判断由用户知识状态的改变来量度,是一个动态变化的过程3、相关性的基本特征关系(relation)直觉的(intuitive)多维的(multidimensional)动态的(dynamical)▲4、信息检索的相关性模型(Mizzaro’s Model )第一维:信息源(Information Resource)三个层次文档(document),文档替代品(surrogate),信息(information)信息源集合InfRes={Surrogate, Document, Information}第二维:用户信息需求(User’s Information Need)四个层次真实的信息需求(RIN)感知到的信息需求(PIN)检索请求(Request)查寻提问(Query)UserIN={RIN, PIN, Request, Query}第三维:时间(Time)从RIN开始的反复迭代时间过程Time=,t(rin0),t(pin0),t(r0),t(q0),…,t(rink),…,t(qn)-第四维:组件(Components)基本成分主题(topic),任务(task),情境或语境(context)Comp=P(Topic,Task,Context)={{Topic},{Task},{Context},{Topic,Context},{Topic,Task},{Task,Context},{Topic,Task ,Context}}相关的形式化定义Relevance=InfRes×UserIN×Comp×Time▲典型的相关形式(3种)语法相关检索表达式与信息特征集合在形式(词形、词间关系)上是否匹配形式化描述Rel(Surrogate,Query,t(q0),{topic})语义相关:用户表达出来的信息需求与信息单元间的匹配关系形式化描述:Rel(Information,Request,t(q0),{topic,task,context})语用相关:用户的实际信息需求与检出信息单元间的匹配关系形式化描述:Rel(Information,RIN,T,{topic,task,context})5、影响相关性判断的因素信息与信息表示用户提问判断的环境与条件判断表达模式判断者特性五、数学模型(▲检索模型:集合模型,代数模型,概率模型)指为了某种目的,对现实世界的某一特定对象作一些必要的假设与简化,运用适当的数学工具得到的一种数据结构。
信息检索数学模型:运用数学语言与工具,对信息检索系统中的信息及其处理过程加以简化与抽象而得到的能描述信息检索实质的一种数据结构。
一、布尔检索模型(Boolean Retrieval Model)1.布尔检索的历史回顾与定义简要回顾1957年,巴.希列尔探讨了布尔逻辑在信息检索中应用的可能性1960年,在MEDLARS中成功应用造就了布尔检索的长期繁荣布尔检索模型的含义采用布尔代数的方法,用布尔表达式表示用户提问,通过信息标识与提问式的逻辑比较来检索信息的一种数学模型2.布尔检索的基本原理对信息单元用一组标引词予以表达,如信息i表示为:Ii=(T1,T2,T3,‥‥,Tm)信息提问用逻辑符号来描述概念间的关系,如某特定提问表示为:Qj=(T1×T2)+(T3×(-T4))系统以集合运算方式处理信息提问与信息单元表示间的匹配比较,响应输出一个包含有该提问式组配元且符合组配条件的信息集合检索课题Web2.0技术在交互式检索中的应用及前景分析概念,拟定检索式Web2.0(A),交互式检索(B)检索式:A×B或A+B检索实现机制集合论运算3.布尔检索模型的优点布尔逻辑式可以描述和用户思维习惯相一致的查询请求;布尔运算简单易行易于处理结构化的提问表达式,用户可通过结构化词典来扩大或缩小检索范围4.传统布尔检索模型的缺点布尔检索式的非友善性较难控制检索输出量无差别的组配元准确匹配标准不太合理检索结果不能按任何用户定义的重要性排序输出二、模糊集合模型(Fuzzy Sets Model)1.模糊集合模型的历史回顾1973年,内戈伊塔(C.V. Negoita) 尝试用模糊逻辑来解释信息检索的原理1976年,塔哈尼(V. Tahani) 建立了模糊集合检索模型,拉德基(T. Radechi) 等人提出为提问中每个词选定一个阈值来简化运算过程1991年,奥加娃(Y. Ogawa)与莫瑞塔(T. Morita)等人提出了一个更好的模糊模型2.模糊集合模型的含义概念:以模糊集合论为基础,用隶属度函数来描述信息单元,用布尔逻辑关系来描述提问并进行检索的检索模型逻辑关系的运算设A与B是两个模糊集合,AC是论域U上相对于A的补集,x为U中任一元素,则有μA∪B(x)=max(μA(x), μB(x) )μA∩B(x)=min(μA(x), μB(x) )μAC(x)=1- μA(x)3.模糊检索模型的基本原理用隶属度函数来描述信息单元与标引词间的相关程度对某一给定的信息单元i和标引词t,i对t的隶属度可以定义为:μF:I ×T→[0,1] ,(i,t) →μF(i,t)标引时,除给出标引词外,还要指出标引词与信息单元间的相关程度,如i1={(t1,0.8),(t2,o.5)} 用户提问可用布尔逻辑表达,并给出所需信息中每个标引词的隶属度检索过程中,模糊集合的运算根据扎德规则来进行,检索结果排序输出4.模糊检索模型的主要特点与传统布尔检索关系密切,保留了布尔检索功能,且使用更灵活检索结果可按用户定义的重要程度排序输出5.模糊检索模型的不足由于建立在布尔逻辑的框架上,故带有布尔模型的某些缺陷排序能力对提问式中所有词并不灵敏定义合适的隶属度函数不太容易三、扩展布尔检索模型(Extensive Boolean Retrieval Model)1.扩展布尔检索模型的原理解决问题布尔检索中的刚性处理(含少量提问词与含大量提问词同等对待)基于标准化距离函数(欧氏距离和向量范数)来匹配提问式与信息单元。