InformationRetrievalandExtraction资讯检索与撷取
简述信息检索的概念及流程

简述信息检索的概念及流程Information retrieval is the process of obtaining information from a collection of sources. 信息检索是从一系列来源中获取信息的过程。
It involves the use of search techniques to find relevant informationand present it to the user in a useful and meaningful way. 这涉及使用搜索技术来查找相关信息,并以有用和有意义的方式呈现给用户。
Information retrieval can be applied to various types of data, including text documents, images, videos, and more. 信息检索可以应用于各种类型的数据,包括文本文档、图像、视频等。
The goal of information retrieval is to provide users with access to the information they need, when they need it. 信息检索的目标是在用户需要时为他们提供所需的信息。
The process of information retrieval begins with identifying the information needs of the user. 信息检索的过程始于识别用户的信息需求。
This involves understanding what the user is looking for and what they hope to gain from the information. 这涉及了解用户寻找什么以及他们希望从信息中获得什么。
信息检索---名词解释

一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
信息检索与检索工具

文献检索(Document Retrieval)--特定的文献。 狭义范围的文献检索。仅指查找相关的文献(文 章或论著等)。
二、信息检索工具
1、 概念:检索工具是指根据检索语言,将 无序的文献按一定方式有系统的组织起来, 用以报道、存储和检索文献的工具。
• (1)《中国图书馆分类法》(简称中图法) 《中图法》是在科学分类的基础上,结合图书的 特性所编制的分类法。 它将所有学科分为5个基本部类、22个( L、M、 W、Y除外)大类。采用汉语拼音字母与阿拉伯 数字相结合的混合号码,用一个字母代表一个大 类,以字母顺序反映大类的次序,在字母后用数 字作标记。为适应工业技术发展及该类文献的分 类,对工业技术二级类目,采用双字母。 R 医药卫生、R28 中药学、R5内科学、R9 药学
文献检索的方法
(1)常用法
直接利用各种检索工具查找文献的方法。如 图书目次、期刊目次、后附关键词索引、主题词 索引、著者索引等。 –顺查法: • 从远及近查,用于了解某一事物发展的全过 程。 –逆查法: • 由近及远查,重点为近期。
(2)追溯法(引文法) 利用已掌握的原始文献所附的参考文献,追 踪查找参考文献的原文获得新的“引文”,从 “引文”追溯到新的“引文”,获得更多的相关 文献。 缺点:查全率、查准率较低,易误检漏检 (3)综合法 又称循环法,将上述二种方法综合运用。 对于新的课题,一般从文献的内容特征入手, 按分类途径或主题途径查找。如果在查找过程中, 发现某著者发表的文章较多或有独创见解,便可 利用著者途径追溯该著者的文章
• 检索工具的类型
传统型 检索工具
目录 索引 文摘
电子型 检索 工具
信息检索

专业科训信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
一·按存储与检索对象划分,信息检索可以分为:1·文献检索·2数据检索 3·事实检索以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
二·按存储的载体和实现查找的技术手段为标准划分:1·手工检索 2·机械检索 3·计算机检索其中现在发展比较迅速的计算机检索是“网络信息检索”,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
按检索途径划分:(1)直接检索,(2)间接检索三·检索方法信息检索方法包括:普通法、追溯法和分段法。
1.普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。
运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。
普通法又可分为顺检法和倒检法。
顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性效果较好。
信息检索---名词解释

一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
信息检索---名词解释

一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
信息检索---名词解释
一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
文献检索
文献数据检索网络和搜索引擎的诞生曾被认为是一场声势浩大的媒介革命,因为它开辟了现代网络技术与传统检索结合的先例,而人肉搜索无疑又是这个时代最不可预测的典型产物。
虽然只有短短十年时间,却引发了来自社会各阶层的广泛关注和议论。
文献检索(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。
狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
文献检索(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。
狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
计算机信息检索是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。
与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。
文献也是有等级分类的,主要有零次文献,指未经正式发表或未形成正规载体的一种文献形式。
如:书信,手稿,会议记录,笔记等,特点:客观性,零散性,不成熟性。
网络信息的检索与利用~
第一章1.信息检索(information retrieval)是指将新鲜一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程.全称又叫信息存储于检索(information storage and retrieval).狭义的信息检索则仅指从信息集合中找出所需信息的过程.信息检索的分类:A根据检索手段的不同,可分为:手工检索、光盘检索、联机检索和网络检索。
(网络检索式信息检索的发展方向,因而本书以网络检索为主)。
B根据检索对象形式的不同,可分为:①文献信息检索:是以文献(包括题录、文摘和全文)为检索对象的检索。
②数值型信息检索:是以数值或数据为对象的一种检索,包括文献中的某一数据、公式、图表,以及某一物质的化学分子式等,数据检索分为数值型和费数值型。
③事实型信息检索:是以某一客观事实为检索对象,查找某一事物发生的时间地点及过程的检索,其检索结果主要是客观事实或为说明事实而提供的相关资料。
2.检索语言是把信息的存储与检索联系起来,把标引人员与用户联系起来,以便取得共同理解,实现交流的语言. 目前使用的检索语言包括:人工语言(分为主题语言和分类语言)和自然语言(可以为那些不懂人工语言的网络用户提供极大的便利).3.数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”. (通俗)数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。
数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源.根据载体不同可分为:联机数据库(online database),光盘数据库(CD-ROM database)和网络数据库(networked database).根据内容与功能可划分为:指南数据库(directory database),交易(执行)数据库(transactional database),全文数据库(full text database),书目数据库(bibliographic database),字(词)典数据库(dictionary database),数值数据库(numeric database)与统计数据库(statistical database)和图像数据库(image database).4.检索词是用户或检索人员给出的字,词,字符或短语,用于查找含有它们的记录.检索式也称检索提问表达式,是要求系统执行的检索语句.检索策略是就一个问题检索一个或多个数据库所输入的全部检索式的集合,是为满足信息需求所制定的一系列检索式.5.查全率(recall ratio)与查准率(precision ratio)是检索质量的两个重要的评价指标.查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例.查准率是指检出文献中合乎需要的文献数量占文献全部数量的比例.6.布尔逻辑检索的主要运算符是:①逻辑”与”,用AND(或*)表示.②逻辑”或”,用OR(或+)表示.③逻辑”非”,用NOT(AND NOT,BUT NOT)(或-)表示.7.邻近检索:又称位置算符检索,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样.位置算符检索是用一些特定的算符来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用, ,BDS拥有的国内信息库主要有:中国国防科技信息、中国军工报、网上新闻库、国防科技成果综合推广库、现代军事、中国工程院士学术报告、国防科技简讯、国内成果交流库、国防科技报告中文馆藏库、国防科技中文文摘库、中国经济信息库、中国科技期刊题录库、中国专利文摘库。
信息检索原理和技术2015
49无神论、宗教学 50自然科学 51数学 52力学 53物理学 54化学 55天文学 56地球科学 58生物科学 61医药、卫生 65农业科学 71工程技术 90综合性图书
信息检索基本技术
计算机检索式(逻辑表达式): 检索词+有关算符
逻辑算符 位置算符 截词符 基本索引字段标识符
绝大部分词在文献中出现的频率较低;
分类号-体系分类法 中国图书馆分类法 中国科学院图书馆图书分类法
中国图书馆分类法 5大部 22大类
1.马克思主义、列宁主
义、毛泽东思想、邓 小平理论
2.哲学、宗教
3.社会科学
A 马克思主义、列宁主义 毛泽东思想、邓小平理论
B 哲学、宗教
C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理
中国科学院图书馆图书分类法
(5大部共25大类)
00 马克思列宁 主义、毛泽东思想
10哲学 20 社会科学 21历史、历史学 27经济、经济学 31政治、社会生活 34法律、法学 36军事、军事学 37文化、科学、教
育、体育 41语言、文字学 42文学 48艺术
什么是主题词
一般来说,一篇文献都是论及某一方面的特定问题 的,也就是说,与论题相关的词出现的频率较大。
在文献中出现的频率既不高也不低的词,在文献 中约3-20个之间,这些词恰恰是与文献的主题相 关度较大的词,我们称之为文献的主题词或关键 词。
文献中出现频率最高的词是冠词、介词和连词等, 即其本身没有具体含义的词,如a、an、the、 this、that、or、and、in、on、with等;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
Information Retrieval
generic information retrieval system
select and return to the user desired documents from a large set of documents in accordance with criteria specified by the user
2
Detection Need
Definition
a set of criteria specified by the user which describes the kind of information desired. » queries in document search task » profiles in routing task
Document must identify a company who has the capability to produce document management system by obtaining a turnkey- system or by obtaining and integrating the basic components.
5
search vs. routing
The search process matches a single Detection Need against the stored corpus to return a subset of documents. Routing matches a single document against a group of Profiles to determine which users are interested in the document. Profiles stand long-term expressions of user needs. Search queries are ad hoc in nature. A generic detection architecture can be used for both the search and routing.
Document Management-The creation, storage and retrieval of documents containing, text, images, and graphics. Image Scanner-A device that converts a printed image into a video image, without recognizing the actual content of the text or pictures. Optical Disk-A disk that is written and read by light, and are sometimes associated with the storage of digital images because of their high storage capacity.
Preprocessing of Document Corpus
» » » » stemming a list of stop words phrases, multi-term items ...
9
Document Detection: Search(Continued)
Building Index from Stems
» key place for optimizing run-time performance » cost to build the index for a large corpus
Document Index
» » » » a list of terms, stems, phrases, etc. frequency of terms in the document and corpus frequency of the co-occurrence of terms within the corpus index may be as large as the original document corpus
6
Search
retrieval of desired documents from an existing corpus Retrospective search is frequently interactive. Methods » indexing the corpus by keyword, stem and/or phrase » apply statistical and/or learning techniques to better understand the content of the corpus » analyze free text Detection Needs to compare with the indexed corpus or a single document » ...
4
Example (Continued)
<con> Concepts: 1. document management, document processing, office automation electronic imaging 2. image scanner, optical character recognition (OCR) 3. text management, text retrieval, text database 4. optical disk <fac> Factors: <def> Definitions
15
Routing (Continued)
Information Retrieval and Extraction 資訊檢索與擷取
Chia-Hui Chang, Assistant Professor
Dept. of Computer Science & Information Engineering National Central University, Taiwan
<narr> Narrative:
To be relevant, the document must identify a turnkey document management system or components which could be integrated to form a document management system and the name of either the company developing the system or the company using the system. These components are: a computer, image scanner or optical character recognition system, and an information retrieval or text management system.
functions
» document search the selection of documents from an existing collection of documents » document routing the dissemination of incoming documents to appropriate users on the basis of user interest profiles
forms
» » » » » keywords keywords with Boolean operators free text example documents ...
3
Example
<head> Tipster Topic Description <num> Number: 033 <dom> Domain: Science and Technology <title> Topic: Companies Capable of Producing Document Management <des> Descriptied)
Convert Detection Need to System Specific Query Building Index from Queries
» similar to build the corpus index for searching » the quantify of source data (Profiles) is usually much less than a document corpus » Profiles may have more specific, structured data in the form of SGML tagged fields
12
Routing
13
Routing (Continued)
Profile of Multiple Detection Needs
» A Profile is a group of individual Detection Needs that describes a user’s areas of interest. » All Profiles will be compared to each incoming document (via the Profile index). » If a document matches a Profile the user is notified about the existence of a relevant document.