第6章信息检索与web搜索
信息检索知识点

信息检索知识点信息检索考点整理1.信息检索的概念⼴义的信息检索是指将信息按⼀定的⽅式组织、存储起来,并根据信息⽤户的需要找出有关信息的过程,包括信息的存储和检索两个过程;⽽狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索⼯具中的信息特征标识进⾏相符性⽐较,凡是信息特征标识与检索提问标识相⼀致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索⼯具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利⽤检索语⾔对⽂献进⾏标引,形成⽂献特征标识并输⼊检索⼯具,为检索提供有规律的检索途径;检索过程主要是利⽤检索语⾔对检索提问进⾏标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与⽂献特征标识进⾏⽐较。
检索过程是存储过程的逆过程。
因此,检索者只有在全⾯了解存储者是怎样把⽂献存⼊到检索⼯具中去以后,才知道怎样从检索⼯具中把所需要的信息检索出来。
4.信息检索的⽅法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)⽂献编号途径d)⽬录检索途径e)机构检索法f)引⽂检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应⽤⼴泛;(3)构成的逻辑提问式可以表达与⽤户思维习惯相⼀致的查询要求,提供⾮常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达⽤户复杂需求效果⽋佳(2)准确匹配⽆法提供定量⽐较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果⼀个检索系统对⽤户的每个检索提问的反应是以⽂献集合中的⽂献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
信息检索名词解释

1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。
狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。
相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。
如私人笔记,设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文献。
如期刊论文、科技报告、专利说明书、会议论文、学位论文等。
体现创作性。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):就是检索工具。
是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。
如文摘,目录、索引等。
它有存贮、检索、报道的功能。
体现高度的浓缩性。
其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。
三次文献是情报研究的产物和成果。
具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我们利用的文献类型。
武汉大学信息检索整理

名词解释1.信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
2.引文索引是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。
3.CALIS:China Academic Library and Information System中国高等教育文献保障系统。
4.邻近检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。
5.搜索引擎(Search Engine)是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
用户可以通过主题浏览和关键词检索的方式搜索所需信息。
6.截词检索:是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。
检索中,计算机会将所有含有相同部分标识的记录全部检索出来。
截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
7.查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
8.查全率:是指检出的文献数量占数据库中全部相关文献数量的比例。
9.文献及其要素“文献”是泛指“有历史价值或参考价值的图书资料。
”要素:1、构成文献内核的信息、知识、数据、事实.2、载体信息、知识、数据、事实的物质载体。
3、记录信息、知识、数据、事实的符号系统。
10.专利文献:专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。
11.三大检索系统:SCI(《科学引文索引》,EI是美国《工程索引》(TheEngineeringIndex)的简称,ISTP是IndextoScientific&T echnicalProceedings的缩写。
信息检索重点复习资料 2

第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索 2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索 2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型1浏览型模型:扁平式模型、结构导向模型、超文本模型 2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
2019信息检索课件第6章

? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告(2019.1 )显示,绝大多数网络信息 来自商业网站,来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价 (IT)
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主,辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章 网络信息的选 择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3
网络信息检索的原理及技术

1.1搜索引擎综合分类
(1)全文搜索引擎 (2)目录搜索引擎
(3)元搜索引擎
网络信息检索的原理及技术
全文搜索引擎的工作原理
网络信息检索的原理及技术
常用的中文搜索引擎
网易搜索引 擎
雅虎中国搜 索引擎
搜狐搜索 引擎
北大天网中英 引擎
网络信息检索的原理及技术
网页1链出个数
+ —网—页—2—级—别—...+—网—页—N—级—别—
网页2链出个数
网页N链出个数
网络信息检索的原理及技术
9.7网络信息检索的研究热点
• 9.7.1 海量数据的存储与处理
A
Group
B
Group
C
Group
(1)海量数据的 磁盘列存储技术
(2)海量数据 存储模式
• DC元数据规范最基本的内容是包含十五个元素的元 数据元素集合,用以描述资源对象的语义信息。
题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description
其他责任者Contributor 格式Format 来源Source 权限Rights 标识符Identifier
中进行存储和获取。如果提供数据元的组织同时提供描述数 据元的元数据,将会使数据元的使用变得准确而高效。用户 在使用数据时可以首先查看其元数据以便能够获取自己所需 的信息。
(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言 运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述)
• (大家可以想象下我们经常使用PPT中的那个超级链接,个人觉得和那 个很相似)
网络信息检索的原理及技术
信息检索与分析第3-5章

4.查找数值、公式、规格、条例、专业知识
• 查考数值、公式、规格、条例、专业知识的数据库主要有: • 1)中国科学数据库(http:// /) 由中国科学院创建。内容涵盖了多种学科,提供了大量具有重要 科学价值和实用意义的科学数据和资料。 • 2)贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3)物质的物理化学参数数据库 (/CUU/Constants/index. html)。 • 4)化学元素周期表(/chemistry/webelements/) 查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫 “指南”、“便览”、“须知”、“大全”;包括综合性《读者百科 词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世 界经济手册》等。此外,还有表册,如《常用数学公式大全》、《电 子学数据表与公式手册》。
• • • • • • 1.分类查询 2.关键词查询 3.多次查找 4.按照地域查询 5.查询最新信息 6.其它搜索技巧
1.Google高级检索技巧
• 1)短语检索 • 2)字段限定检索 (1) 限定网站 【实例】输入“金庸 site:”搜索中文教育科研网站() 上所有包含“金庸”的页面。 (2) 限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声 笑”。
(3)使用字段限定
• ① intitle title是网页的标题, intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② site site是限定在某类站点或某个网站内搜索。 例如“论坛搜索引擎 site: ”,是在sowang这个网站内搜索 “论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。 用法是“关键词A filetype:文件格式后缀名”。 如“个人年终总结 filetype:doc”,搜索结果全都是word文件的个人年 终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。 例如“搜索引擎 inurl:ssyq ”,是检索在url中含有ssyq的网页中关于 “搜索引擎”的信息。
第6章Internet搜索引擎-

3.元搜索引擎
这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果 是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格 式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘 蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索 结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元 搜索引擎”。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上 进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、 Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的 有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结 果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
一般的搜索引擎由于缺乏对关键词语义的理解,检索结果对用户而言往 往不够理想,主要表现在:检索结果中无关的网页过多;没有考虑用户的个 性差异。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。 一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组 织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析, 获得针对个人不同的搜索结果。今后搜索引擎将越来越懂得个人用户的特定 需求,并能提供更符合个人需求的搜索答案。或许搜索引擎将来会了解你所 在位置,或许了解你此前已进行了哪些搜索活动。
6.1.2搜索引擎的工作原理
搜索引擎优化,首先要知道搜索引擎是如何工作的,只有知道搜索引 擎是如何工作的以后,才能更好的 进行优化工作,做出对于搜索引擎更加 友好的网站,这样才会有好的排名。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词查询 布尔查询(using AND, OR, NOT) 短语查询 邻近查询 全文搜索 自然语言查询
7
信息检索模型
IR模型决定文档和查询的表示,以及文档和 用户查询关系的定义. 主要的模型:
Boolean model Vector space model Statistical language model etc
Aspects Data Operator User’s need Results IR Unstructured Read only keywords DB Structured Read/Write SQL
Similar function Exactly match
IR 基本框架
6
IR查询
Trie树
例子
36
构建索引
Easy! See the example,
37
使用倒排序索引搜索
给定一个查询q, 按照下面的步骤搜索: 1.(词搜索): 从倒排序索引中找出查询q包含的每 一词(组). 2.(结果匹配): 融合结果找出具有q包含的词(组) 的文档. 3.(排序分数的计算): 对结果中文档/页面排序,使 用
词干: use
engineer
无用的: 提高IR和文本挖掘的效率
相似词匹配 主要的作用是提高召回率 融合具有相同词根(干)词,可以降低索引40-50%的大小.
23
降低索引大小
基本的词干提取方法
使用规则集. 例如: 结尾移除法
如果一个词的结尾是辅助的s, 删除s. 如果结尾是es, 去除s. 如果结尾是ing, 删除ing, 除非剩下的仅是一个字符或th. 如果结尾是ed,在辅助符之前删除ed,除非仅剩下一个字符. …... 如果一个词结尾是 “ies”,而非“eies”或“aies”,则 “ies --> y.”
用户较少查看30页之后的页面. 原因?
查全率在Web搜索中意义不大.
30
作为巨大的IR系统——Web搜索
一个网络爬虫(robot)收集所有的网页. 服务器建立一个巨大的倒排序数据库和其 他的索引数据库 在查询(搜索)时,搜索引擎进行不同类型的 查询向量匹配.
31
倒排序索引
倒排序索引是所收集文档的一个数据结构
每一不同词(组)后面跟着包含它的文档列表. 找出包含查询词(组)的文档. 多重查询词(组)也容易处理.
在检索中,需要一定量的时间:
32
实例
下面介绍一个例子,之前要了解一下Trie 树
Trie,又称单词查找树,是一种树形结构,是一种哈希树 的变种。典型应用是用于统计和排序大量的字符串(但不 仅限于字符串),所以经常被搜索引擎系统用于文本词频 统计。它的优点是:最大限度地减少无谓的字符串比较, 查询效率比哈希表高。 它有3个基本性质: 1. 根节点不包含字符,除根节点外每一个节点都只包含 一个字符。 2. 从根节点到某一节点,路径上经过的字符连接起来, 为该节点对应的字符串。 3. 每个节点的所有子节点包含的字符都不相同。 这是一个Trie结构的例子:
基于内容的排序 基于链接的排序
38
隐式语义索引
Latent semantic indexing 在随机的词组下,隐藏着语义结构,然 后利用奇异值分解(singular value decomposition: SVD)的统计学方法,来估算这种结构并 去除噪音。
2011-4-30
南京航空航天大学 陈永洲
26
度量系统的效果:
精度—查全率曲线
27
不同的检索算法比较
28
多重查询的比较
计算所有查询的平均精度.
画出精度的召回曲线 进行F-score计算.
29
精度排序
对选出的排序位置上计算其精度. 主要用于Web搜索的估算. 对Web搜索引擎,能计算出精度为前5, 10, 15, 20, 25 和 30的返回页面
9
Boolean model (contd)
组合的查询词间逻辑关系使用Boolean操作符 AND, OR, 和 NOT.
例子, ((data AND mining) AND (NOT text)) 给定一布尔查询, 系统检索出满足布尔逻辑关系为真 的所有文档结果. 称为exact match.
39
步骤
Create the frequency matrix Frequency_Matrix. SVD construction: Compute the singular valued decomposition of Frequency_Matrix by splitting Frequency_Matrix into 3 matrices, U, S, V. Vector identification: For each document d, let vec(d) be the set of all terms in Frequency_Matrix whose corresponding rows have not been eliminated. Index creation: Store the set of all vec(d)’s, indexed by one of a number of techniques (such as TV-tree).
降低索引 (或数据)文件的大小 停用词计数占所有词计数的20-30%. 提高效率和效益 停用词对搜索和文本挖掘是无用的 停用词可能增加检索系统的负担
22
词干提取
找出词干和词根的技术. 例如:
user users used using
engineering engineered engineer
Vector space model
文档也可以作为词和词组的 “bag”. 每一个文档可以表示为一个向量. 权重不仅为0或1.基于TF或TF-IDF计算每个词 的权重. Term Frequency (TF) Scheme: dj文档中ti的 权重就是在文档dj中出现ti的次数, 用 fij表示. 归一化方法也可以使用.
8
Boolean model
每一文档或查询作为一个“bag” of words or terms. 词序不考虑. 给定文档集合D, 词集V = {t1, t2, ..., t|V|}. V 也称 为词汇表vocabulary. 权重wij > 0是文档dj ∈ D 中每一词ti 的. 在文档 dj中不出现的词, wij = 0;其中|V|所有词数目. dj = (w1j, w2j, ..., w|V|j),
13
词TF-IDF权重法
所知道的最好的权重 方法
TF: term frequency IDF: inverse document frequency. N: 总文档数 dfi: 具有ti 的文档数目.
最后的TF-IDF词权重:
14
vector space model的检索
查询q用同样或类似的方法表示. 查询q对文档di的关系: 比较查询q和文档di的 相似性. 余弦相似性(两个向量夹角间的余弦值)
文档集定义为:
如果查询是“hardware and software” 那么检索的文档结果是什么?
16
例子 (cont.)
布尔查询匹配:
将检索到 A4, A7 (“AND”) 结果: A1, A2, A4, A5, A6, A7, A8, A9 (“OR”)
q=(1, 1, 0) S(q, A1)=0.71, S(q, A2)=0.71, S(q, A4)=1, S(q, A5)=0.5, S(q, A7)=0.82, S(q, A8)=0.5, 检索的文档集 (排序)=
相似性匹配 (余弦):
S(q, A3)=0 S(q, A6)=0.5 S(q, A9)=0.5
{A4, A7, A1, A2, A5, A6, A8, A9} 17
Okapi相关度方法
另一个直接计算每一文档与查询的相关度. Okapi方法和它的变异变量都是一些流行的方法.
3
Information Retrieval (IR)
理论上IR就是要找到所需要的信息, IR帮助用户 找到匹配他们需求的信息.
表达为查询 找出用户查询的文档
IR关于文档的检索强调文档作为基本的单元.
技术上, IR是研究关于获得、组织、存储、检索 和信息的分布的.
4
IR与数据库查询的区别
余弦一般也在文本聚类中使用
15
例子
三个词表示的文档向量:
hardware, software, users the vocabulary
A1=(1, 0, 0), A4=(1, 1, 0), A7=(1, 1, 1) A2=(0, 1, 0), A5=(1, 0, 1), A8=(1, 0, 1). A3=(0, 0, 1) A6=(0, 1, 1) A9=(0, 1, 1)
Web数据挖掘
南京航空航天大学 陈永洲 yzchen@ 2011年4月30日星期六
第6章: 信息检索与Web搜索
Introduction
文本挖掘参考数据挖掘,将文本视为数据. 大部分的文本挖掘使用信息检索方法—— Information Retrieval (IR) methods来预处 理文本文档. 这些方法与传统的对关系数据库的数据处 理方法不完全相同. 网页搜索是IR的一个分支.