信息检索的基本原理
信息检索的原理

信息检索的原理
信息检索的原理是通过对大量文本语料进行分析和索引建立,以便在用户提出查询需求时能够快速地找到相关的文档或资源。
具体来说,信息检索的原理包括以下几个步骤:
1. 文本预处理:对原始文本进行分词、去除停用词、词干提取等处理,以减少噪音和冗余信息,并将文本转换为机器可理解的形式。
2. 建立索引:将预处理后的文本建立索引结构,例如倒排索引。
倒排索引是一种将词与其所在文档的映射关系存储起来的数据结构,可以快速地定位到包含特定词语的文档。
3. 查询处理:当用户提出查询请求时,系统会将查询语句进行与建立的索引进行匹配,例如找到包含所有查询词的文档。
查询可以采用布尔查询、向量空间模型、语义匹配等不同方法。
4. 相关度排序:根据查询结果的相关度对文档进行排序,以便用户能够优先查看最相关的文档。
排序可以使用向量空间模型中的余弦相似度、BM25等算法。
5. 结果展示:将排序后的结果展示给用户,通常包括一部分摘要或关键词高亮,以帮助用户快速浏览和判断文档的相关性。
信息检索的原理可以借助计算机算法的高效执行,为用户提供精确、快速和准确的结果。
不同的信息检索系统可能采用不同
的算法和技术,但核心思想是通过对文本的分析和索引建立,找到与用户查询相关的文档或资源。
信息检索技术

信息检索技术信息检索技术是一种用于从大量数据中获取所需要的信息的方法。
随着互联网的快速发展,信息检索技术变得越来越重要。
本文将介绍信息检索技术的定义、基本原理以及在实际应用中的重要性。
一、定义信息检索技术是一种通过对数据进行分类和组织,然后根据用户的需求来获取所需信息的方法。
它可以帮助人们快速、准确地找到所需的信息,并提高信息的利用效率。
信息检索技术广泛应用于搜索引擎、大数据分析等领域。
二、基本原理信息检索技术的基本原理包括文档处理、索引构建和查询处理三个步骤。
1. 文档处理文档处理是指将原始数据转化成计算机可识别的文本形式。
这一步骤包括数据采集、数据清洗、数据分析和文本预处理等过程。
通过文档处理,可以将原始数据转化为高质量、可供检索的文档集。
2. 索引构建索引构建是指将文档集中的信息进行分类和组织,生成用于检索的索引结构。
常见的索引结构包括倒排索引、正排索引等。
通过索引构建,可以提高信息的存储效率和检索效率。
3. 查询处理查询处理是指根据用户的查询请求,在索引结构中查找并返回与查询相关的文档。
这一步骤包括查询解析、查询优化和查询执行等过程。
通过查询处理,可以实现准确、高效的信息检索。
三、在实际应用中的重要性信息检索技术在今天的社会中扮演着重要的角色,具有以下几方面的重要性。
1. 提高信息获取效率信息检索技术能够帮助人们快速、准确地获取所需的信息,提高信息获取的效率。
通过搜索引擎,用户可以方便地找到所需的资料,而无需耗费大量的时间和精力。
2. 支持决策和分析信息检索技术可以为决策者提供可靠的数据和信息支持。
在大数据分析中,信息检索技术可以帮助分析师从庞大的数据中提取有价值的信息,进而为决策和分析提供参考。
3. 促进科学研究和知识传播信息检索技术对科学研究和知识传播起到了重要的推动作用。
科学研究者可以通过检索相关文献和研究成果,快速了解最新的研究进展;而知识传播者可以通过搜索引擎等渠道将自己的知识广泛传播。
信息检索基本原理

有效位是指标引词在匹配中的有效长度。
项目词是指具体的标引词
5.2.2 提问式的表达以及语法检查
逻辑提问式 逻辑提问式由逻辑算子以及算项即检索提问词构成 运算项是用 00—99 之间两位数字构成的, 每一个两位数字对应于一个提问检索词. 逻辑算子包括逻辑或、逻辑与、逻辑非、括号、逻辑式结束符等。
1. 2 .2 信息检索系统的逻辑构成 信息源选择采集子系统 信息源是检索系统的信息或数据来源,目前,信息 检索系统中的数据主要来自各种公开文献,如一次文献 中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文、二次文献中的文摘、索引和目录, 三次文献中的百科全书、专科词典,名录、指南、手册等,有些系统还收录各种机构的内部资料,如实验记录、 测试或观测结果、工程设计资料、统计资料等。 本功能模块任务:根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集 各种信息源,为系统提供充足而适用的数据来源。
1. 2 .2 信息检索系统的逻辑构成
标引子系统 标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(分类
号、主题词、关键词等),作为存贮与检索的依据。 标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项填入工作单,交录入员去录 入计算机中。
在规范化的记录结构中,并将所有文献记录按线性次序排列起来就构成顺排文献文档。
5.1.1 脱机批处理检索系统
脱机批处理检索系统检索过程
顺排文档
用户提问
检索处理
命中文献输出
5.1.2 联机检索系统
脱机批处理检索系统一般建立在倒排文档基础上。
5.1.2 联机检索系统
主文档及索引 MF MX
信息检索基本原理

信息检索基本原理信息检索是指通过计算机技术获取、组织和利用文本信息的过程。
它是计算机应用领域中重要的研究方向之一,也是现代社会信息化进程中不可或缺的组成部分。
1. 信息需求分析信息需求分析是信息检索的第一步,也是最重要的一步。
它涉及识别用户的信息需求、确定检索策略、选择合适的检索语言等内容。
在这一阶段,需要对用户信息需求的主题、范围、领域等进行分析,以便更准确地确定检索规则和选择检索词语。
2. 信息检索模型信息检索模型是指描述和解释信息检索过程和结果的数学模型。
信息检索模型包括传统的布尔、向量空间和概率模型等。
布尔模型是最早的信息检索模型,它将文档看作是一个集合,用布尔运算符AND、OR、NOT进行查询。
向量空间模型则把文档看作是一个向量空间,用欧几里得距离或余弦相似度来计算文档之间的相似度。
概率模型则根据贝叶斯定理来计算文档的概率。
3. 检索语言检索语言是指在信息检索过程中用来表达信息需求的语言。
常见的检索语言包括人工语言、自然语言和形式语言。
人工语言是由人工定义的符号体系,例如机构名、作者名、出版社等。
自然语言则是人们日常使用的语言,例如英语、中文等。
形式语言是计算机可识别的语言体系,例如SQL、XPath等。
4. 检索策略检索策略是指根据信息需求制定的检索规则和方法。
它通常包括查询词语、检索模型、检索路径、检索结果排序等。
查询词语是检索语言中用来表达用户信息需求的关键词或短语。
检索路径则是指检索过程中所采用的搜索引擎或数据库,并对其应用检索模型。
5. 检索结果评价检索结果评价是对检索结果的量化评估。
常见的评价指标包括查准率、查全率、F-measure、平均准确率等。
查准率是检索系统返回的结果中正确的结果所占的比例,查全率是系统返回的正确结果与所有正确结果的比例。
F-measure则是查准率和查全率的加权平均值,平均准确率则是查准率的平均数。
综上所述,信息检索基本原理包括信息需求分析、信息检索模型、检索语言、检索策略和检索结果评价等方面。
计算机信息检索基本原理及检索技术

局限性
处理复杂语言现象的能 力有限,对某些专业领 域和特定语言的处理效 果有待提高。
机器学习与信息检索
概念
机器学习是人工智能的一个分支,通过训练让计算机自动学习并改进 检索算法。
应用
利用机器学习算法对大量数据进行训练和学习,自动提取特征并分类, 提高信息检索的准确性和效率。
优点
能够自动优化和改进信息检索算法,提高检索效果。
结果评价是对检索结果进行评估,判 断其是否满足用户的信息需求。
信息检索系统
信息检索系统是实现信息检索 的工具或平台,它能够从各种 信息源中获取、存储、组织和
检索信息。
常见的信息检索系统包括图 书馆信息系统、搜索引擎系 统、学术论文数据库等。
信息检索系统的性能和效果取 决于其信息组织方式、索引技 术、检索算法等多个因素。
信息检索过程
信息检索过程包括信息需求分析、信息源选择、 信息检索策略制定、信息检索实施和结果评价 等步骤。
信息需求分析是信息检索的前提,需 要明确用户的信息需求和信息类型。
信息源选择是根据信息需求选择合适 的检索工具或数据库。
信息检索策略制定是根据信息源的特 点和信息需求制定相应的检索策略。
信息检索实施是执行检索策略,从信 息源中获取相关信息。
解决信息隐私保护的方法包括立法保护、技术手 段如加密和匿名化等。
信息检索技术的未来发展
01
信息检索技术的发展趋势包括智能化、语义化、移动化和社交化等。
02
智能化技术如机器学习和人工智能动信息检索向更深层次的知识层面发展。
04
移动化和社交化的趋势将使信息检索更加个性化和社交化,提高用户 参与度和满意度。
语义鸿沟问题
01 语义鸿沟是指用户与信息之间的理解差距,导致 用户难以找到所需内容。
简述信息检索的基本原理例子

简述信息检索的基本原理例子
信息检索是指从大量的数据中,根据用户需求,快速、准确地找到所需要的信息。
其基本原理包括以下几个方面:
1. 关键词匹配:用户在搜索框中输入的关键词,系统会将其与数据库中的文本进行匹配,找到与之最相关的文档。
例如,在搜索引擎中输入“新冠病毒”,系统会将其与相关的文章、新闻、论文等进行匹配,找到与之最相关的结果。
2. 倒排索引:将文档中出现的单词及其对应的位置建立索引,加快搜索速度。
例如,在一个包含10篇文章的数据库中,如果用户输入一组关键词,系统需要遍历这10篇文章,如果使用倒排索引,只需查找与关键词相关的文章,大大提高效率。
3. 自然语言处理:通过分析用户输入的自然语言,把用户意图转化为机器能够理解的语言。
例如,在输入“我想看一部关于历史的电影”,系统会分析出用户的意图是找历史题材的电影,并给出相关的搜索结果。
信息检索还有其他多种技术和算法,如向量空间模型、PageRank 算法等。
不同的搜索引擎会采用不同的技术和算法来提高搜索效率和准确率。
- 1 -。
信息检索的基本原理

信息检索的基本原理信息检索是指从大量的信息资源中找到用户所需的信息的过程。
它是一种通过计算机系统来获取相关信息的技术,也是现代信息社会中不可或缺的一部分。
信息检索的基本原理涉及到信息的组织、存储、检索和呈现等方面,下面我们来详细介绍一下信息检索的基本原理。
首先,信息检索的基本原理之一是信息的组织和存储。
在信息检索系统中,信息通常以文本的形式存在,因此需要对文本进行组织和存储。
这包括对文本进行索引、分类、标记等操作,以便于后续的检索和呈现。
索引是信息检索系统中非常重要的一环,它可以帮助用户快速地找到所需的信息。
同时,分类和标记可以帮助系统更好地理解和处理文本,提高检索的准确性和效率。
其次,信息检索的基本原理还包括检索和匹配。
检索是指用户通过检索词(关键词)来获取相关信息的过程,而匹配则是指系统根据用户的检索词和需求,从存储的信息资源中找到与之匹配的内容。
在信息检索系统中,通常会使用各种算法和技术来实现检索和匹配的功能,以提高检索的准确性和速度。
例如,常见的检索算法包括倒排索引、向量空间模型等,它们可以帮助系统更好地理解和处理用户的检索需求,从而提供更准确和相关的搜索结果。
另外,信息检索的基本原理还涉及到信息的呈现和推荐。
一旦系统找到了与用户需求匹配的信息,就需要将这些信息以合适的方式呈现给用户。
这包括对搜索结果的排序、摘要的生成、相关性的评估等操作,以提高用户对搜索结果的满意度。
同时,信息检索系统还可以通过推荐算法来向用户推荐相关的信息,帮助用户发现他们可能感兴趣但又不知道的信息资源,从而提高信息的利用率和用户体验。
总的来说,信息检索的基本原理涉及到信息的组织、存储、检索和呈现等方面。
通过对信息的组织和存储,系统可以更好地理解和处理文本;通过检索和匹配,系统可以帮助用户快速地找到所需的信息;通过信息的呈现和推荐,系统可以提高用户对搜索结果的满意度和信息的利用率。
信息检索技术的发展不仅可以帮助用户更方便地获取信息,也可以帮助组织更好地管理和利用信息资源,因此具有非常重要的意义。
简述信息检索的原理

简述信息检索的原理信息检索是指通过计算机技术,基于用户需求,在大规模数据集中查找并获取相关信息的过程。
在当前大数据时代,信息检索已成为人们获取信息的主要方式之一。
信息检索的原理包括以下几个方面:一、信息检索的基本原理信息检索的基本原理是将用户输入的查询词作为检索系统的输入,检索系统根据用户输入的查询词在数据集中进行匹配和筛选,最终将相关信息返回给用户。
这个过程包括以下几个步骤:1. 数据集的建立:信息检索系统需要先建立一个数据集,也就是将需要检索的信息进行分类、整理、标注和索引,以便用户能够更快地找到相关信息。
2. 用户查询:用户输入查询词,这些查询词可以是单个词、短语、问题或者其他形式的查询。
3. 检索算法:检索算法是信息检索系统的核心,它根据用户输入的查询词,对数据集中的信息进行匹配和筛选,并返回相关信息。
4. 结果展示:信息检索系统将匹配的信息按照一定的规则进行排列,以便用户能够更快地找到所需信息。
二、信息检索的技术原理信息检索技术是指通过计算机技术,对数据集中的信息进行分类、整理、标注、索引和检索的过程。
信息检索技术包括以下几个方面:1. 自然语言处理:自然语言处理是指通过计算机技术,对人类自然语言进行分析、理解和处理。
在信息检索中,自然语言处理可以帮助系统更好地理解用户查询词的含义,从而更准确地匹配和筛选相关信息。
2. 数据挖掘:数据挖掘是指通过计算机技术,对大规模数据进行分析和挖掘。
在信息检索中,数据挖掘可以帮助系统更好地理解用户需求,从而更准确地匹配和筛选相关信息。
3. 信息抽取:信息抽取是指通过计算机技术,从非结构化数据中抽取有用信息的过程。
在信息检索中,信息抽取可以帮助系统更好地获取相关信息,从而更准确地匹配和筛选相关信息。
4. 机器学习:机器学习是指通过计算机技术,对数据进行分析和学习,从而提高系统的准确性和效率。
在信息检索中,机器学习可以帮助系统更好地理解用户需求,从而更准确地匹配和筛选相关信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图书馆胡小莉目录第一节信息检索的涵义及类型第二节信息与信息源第三节信息检索途径与步骤第四节信息检索效果的评价4123学习目的和要求1、掌握信息检索的基本概念和类别2、掌握常用的布尔逻辑、截词、位置检索等检索技术3、了解信息检索的基本流程第一节信息检索的涵义及类型信息检索的涵义广义:是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。
全称为“信息存储与检索”。
狭义:是指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 相当于人们通常所说的信息查寻。
信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。
即对信息集合与需求的匹配与选择。
检索与查找的区别检索查找、搜索、搜寻英文Retrival或Retrieval search过程和方法有一定的策略,是系统的查找资料随机或更随意一些。
技能需要一定的专门知识和技能简单,任意词用途课题或专题日常生活结果检索前通常不知道会有什么结果通常知道结果效率迅速、准确一般如果不刻意区分:你完全可以认为它们没有区别!信息检索的类型根据信息检索信息形式不同,分为:分类检索内容文本检索(自然语言检索)不对文献进行任何标引,直接通过计算机以自然语言中的词语匹配查找的系统。
多媒体检索能够支持两种以上媒体的数据库检索,查找含有特定信息的多媒体文献的检索。
超文本检索用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。
我们日常浏览的网页上的链接都属于超文本。
信息检索的意义及目的1、信息检索是获取新知识的捷径,节省学习者的时间。
据估计,现在全世界每年出版的图书有80万种以上,科技期刊8万种以上;发表期刊论文大于600万篇以上;公开的专利说明书100多万件;国际会议文献1万多件;美、英、德、日等国产生的科技报告达20万件左右。
科技文献浩如烟海,具备一定的信息检索能力才能查找出有用的科技信息。
信息检索的意义及目的2、信息检索是科学研究的向导,避免重复研究或走弯路。
美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。
在科研开发领域里,重复劳动在世界各国都不同程度地存在。
据统计,美国每年由于重复研究造成的损失,约占全年研究经费的38%,达20亿美元之巨。
日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。
信息检索的意义及目的2、信息检索是终身教育的基础学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
联合国教科文组织提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。
第二节信息与信息源一、信息(一)什么是信息?(Information)信息论的奠基人,美国数学家克劳德·香农(Claude E. Shannon):“信息是用来消除不确定性的东西。
”控制论的创始人,美国科学家维纳(N. Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。
”中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。
”信息爆炸客观性载体性传递性可塑性时效性信息的使用周期越来越短可以进行加工和处理必须依附于一定的载体才能流通和传递是实现信息资源共享的基础共享性可被多个用户使用信息可被感知、获取、传递和利用(二)信息的特征二、信息源信息源,顾名思义,就是信息的来源。
联合国教科文组织出版的《文献术语》将其定义为:个人为满足其信息需要而获得信息的来源。
类型存在方式特点口语信息源交谈、聊天、授课、讨论等方式传递快、互动性强、但稍纵即逝、久传易出差异体语信息源手势、表情、姿态等方式直观性强、生动丰富、印象深刻、富有感染力实物信息源以实物如文物、产品样本、模型、碑刻、雕塑等形式表示直观性强、感受实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息文献信息源以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后、部分信息尚待证实的情况。
(一)零次信息源不借助实物媒体,通过直接交流所获得的的信息来源。
包括口头交谈、参观、现场交流、听演讲、听报告会等。
已出版的原始文献、科研人员根据科研成果撰写的文稿、第一手资料就是一次信息源。
它包括:专著、期刊论文、科技报告、会议论文、专利说明书、学位论文等,是人们检索和利用的主要对象。
通过对大量分散、无序的一次信息源进行加工、提炼、浓缩和组织,成为系统的、便于查找一次信息的工具,如收录目录、索引、文摘等的数据库与网络检索工具。
它不产生新的知识,但提供了一次信息源的线索。
信息检索主要讲的就是二次信息的编排体系和使用方法。
(四)三次信息源在利用二次信息的基础上,对检索到的一次信息进行广泛、深入的分析研究之后,再次加工出来的成果,如专题报告、综述,以及词典、手册、百科全书、年鉴等工具书。
具有综合性强、针对性强、系统性好的特点。
课堂讨论:我们是否需要了解多种文献信息源类型呢?你平时使用比较多的是哪种类型的信息源?一、了解一种就可以了;二、了解几种常用的和常见的就可以了;三、各种类型都需要了解;第三节信息检索途径与步骤 (一)信息检索的途径1、文献外部特征的检索途径(1)责任者途径(著者姓名途径)(2)题名途径(书名途径)(3)文献类型途径(4)代码途径(序号途径)以文献的编号为特征,检索文献的途径。
根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN 等作为检索点。
2、文献内容特征的检索途径(1)分类途径是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。
一般检索系统均提供数据库所使用的分类表的分类号索引。
如:《中国图书馆分类法》(2)主题途径是根据表达文献主题内容的主题词及其派生出的关键词为标识查找文献信息的途径。
(3)分类主题途径是分类途径与主题途径的结合,能够尽量避免两者的不足,取其多长。
(4)其他检索途径①出处途径②时间途径③任意词途径④专门术语途径分类途径主题途径分类途径(二)计算机检索技术1、布尔逻辑检索是应用布尔逻辑代数的原理设计的、应用于计算机信息检索系统的一种主流检索技术与方法。
三种类型:逻辑与(AND)逻辑或(OR)逻辑非(NOT)布尔逻辑得名于George Boole,他是考克大学(现爱尔兰国立考克大学)的英国数学家,他在十九世纪中叶首次定义了逻辑的代数系统。
现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。
布尔逻辑检索1)逻辑“与”运算符:AND 或*检索式:A AND B或A*B含义:检出的信息中必须同时含有“A”和“B”两个检索词。
提高查准率,增强检索专指性。
AB例:逻辑与(AND或*)计算机在图书馆的应用图书馆计算机AND 图书馆人类活动对群落多样性的影响检索概念:人类活动群落多样性影响检索式人类活动AND 群落多样性人类活动AND 群落多样性AND 影响人类活动AND 群落多样性AND 影响布尔逻辑检索2)逻辑“或”运算符:OR 或+检索式:A OR B或A+B含义: 数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。
提高查全率,扩大检索范围如:“微机+电脑+PC机”“微机or电脑orPC机”AB布尔逻辑检索3)逻辑“非”●运算符:NOT 或-●检索式:A NOT B或A -B●在含检索词A的记录中,去掉含检索词B的记录例1 查“玉米但不是甜玉米”方面的文献。
检索式=玉米-甜玉米例2 查“国外有关数字图书馆方面”的文献检索式=数字图书馆-国内AB布尔逻辑检索布尔逻辑运算符的运算顺序NOT AND OR优先级高优先级低布尔逻辑运算符号在baidu、google搜索引擎中的运用1、百度搜索引擎三种逻辑运算符的使用方法:逻辑与为空格,例如“中国最长公路桥”可以用这样的检索式进行检索:“中国最长公路桥”;逻辑或为“︱”,例如“番茄︱西红柿”;逻辑非为“-” 【注意:“-”前必须输入一个空格】,例如“马铃薯晚疫病-番茄”;2、Google搜索引擎三种逻辑运算符的使用方法:AND:有优先,逻辑与为空格(使用方法同百度);逻辑或为OR 【注意:OR必须用大写】,例如:“番茄OR西红柿”逻辑非为“-” 【注意:“-”前必须输入一个空格】,(使用方法同百度)。
百度搜索引擎逻辑或的使用方法:截词检索2、截词检索截词检索是在词干的不同位置添加截词符,以此代表词的可变部位,从而减少相同词干的检索词的输入数量,提高查全率的一种常用检索方法。
主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。
在不同的检索系统里用不同的符号,一般为:*、?、! 提高查全率,防止漏检的有力手段截词检索1)按截词的数量划分●有限截断:即一个截词符只代表0或1个字符。
如:apple? 可检出apple、applet等结果●无限截断:一个截词符可代表多个字符。
如:comput! 可检出:computer、computers,computering等结果注:不同的数据库所用的截词符不一样,使用时应先查一下各数据库的帮助加以确认。
截词检索2)按截词的位置划分1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字符串的检索;3.实质:后截断是前方一致检索后截断前截断中截断截词检索●后截断主要使用于如下几种情况:检索词的单复数的描述;如:book?同根词的表达;如:chemi*可以检索出chemical、chemistry、chemist等同根词年代的表达;如:20??(21世纪),199?(20世纪90年代) 作者如:Moyer*可以检索出所有姓Moyer的作者截词检索●前截断:又称左截断,截词符在词的左边如:输入*computer检索结果microcomputerminicomputer截词检索●中截断:截词符在检索词的中间输入:organi? ation检索结果organizationorganisation中截断主要使用于如下几种情况:检索词的拼写方式存在美式、英式之分;检索词在某个元音位置出现的单复数不同;如:man与men作用扩大检索范围,提高查全率,减少检索词的输入量位置检索3、位置检索(1)词级位置检索指在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。