现代信息检索导论 王斌 计算所 课件 lecture6-tfidf

合集下载

现代信息检索ppt课件

现代信息检索ppt课件
现代信息检索
陆铭
66134922 richard.lu@ /
一、 引言
课程概况 研究历史和现状 学科框架 基本概念
2
1. 课程概况(About the course)
设课目的
市场发展的需求 用户需要信息检索技术
互联网的信息量太大,寻找信息非常不容易
11
一些重要的工具
Lemur:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写 Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发
12
2. 研究历史和现状
历史分段:
报告、电子邮件、来往公函 ... 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重
标引是主观的
标引者之间不一致, 经验统计表明标引者之间仅20% 相同 作者与标引者之间、检索者与用户之间不一致
5
信息检索的问题
语言问题
一词多意
Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems?
英国剑桥大学SparckJones (1935-2007)
概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL终身成就奖和Salton奖
22
2. 国际著名研究机构和代表人物

现代信息检索

现代信息检索

现代信息检索了解信息检索发展历史,文献的载体形式与等级结构,检索工具的类型与特点;掌握信息检索的基本概念及其研究对象,检索工具的组成以及检索工具的编制方法;重点掌握各种类型的检索工具、检索工具的质量评价标准、信息检索的基本原理与检索工具检索效率的评价指标。

第一章信息检索导论1.1信息检索及其研究对象1.2.1 信息检索的基本类型1 文献检索2 数据检索3 事实检索1.2.2 信息检索的研究内容1 有关检索语言的研究2 有关检索系统的研究3 有关检索策略的研究4 有关检索服务的研究1.2.3 信息检索的特性1 信息检索的相关性2 信息检索的不确定性3 信息检索的逻辑性1.2科技文献及其类型1.3.1 按照物质载体形式和记录手段☺1 印刷型2 缩微型3 机读型4 声像型1.3.2 按照文献中信息量1 一次文献2 二次文献3 三次文献1.3.3 按其它划分按文献的知识内容,可分为医学文献、化学文献、数学文献等。

按流通范围,科技文献又有公开,内部和保密之分,我国大致分为:公开、限国内、内部、保密几种。

按出版类型,包括科技图书、科技期刊、专利文献、科技报告、会议文献、政府出版物、学位论文、标准文献、产品样本及其它十大类。

1.3检索工具与类型1.4.1 编制检索工具的内容1 文献著录2 文献标引3 索引组织1.4.2 文献著录1 著录规则2 我国文献著录的国家标准3 著录项目与格式1.4.3 检索工具的类型检索工具的种类很多,从总体上可分为手工检索工具和机械检索工具两大类(以下简称为”手检”和”机检”)。

手工检索工具,是人直接参与检索过程所使用的检索工具,如书本式、卡片式检索工具;机械检索工具,是利用力学、光学和电子学原理,按照人们的要求,自动检索的工具,如机械穿孔卡片系统、光电检索系统和计算机检索系统等。

1.4.4 目录性检索工具目录是图书或其它单独出版的资料的系统化记载及内容的揭示(的清单或清册)。

目录多按“种”或“件”(如一本图书、一件专利等)报导,按类编排,强调有具体的收藏单位,一般不附索引,对文献的著录比较简单,与题录相近,只记述这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。

信息检索导论-王斌 第二次课后作业(6-12)

信息检索导论-王斌 第二次课后作业(6-12)

1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtf t,d, tf t,d>00, ot erwiseidf=log Ndf归一化:12+12+1.3012=1.9221/1.922 = 0.521301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。

但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。

如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。

因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。

这样高分文档更可能在倒排索引的前期出现。

4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。

系统2的返回结果中相关文档比较分散。

系统1比系统2获得较高的MAP值。

排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。

《信息检索导论》课件

《信息检索导论》课件

总结和展望
总结
信息检索是现代信息领域中最为重要的研究领域之 一,它可以帮助人们准确、高效地获取所需信息。
展望
信息检索领域仍然存在着很多值得研究和探索的问 题,如如何充分利用新技术和新数据,提高信息检 索的精度和效率。
检索结果中真正相关的结果占所有结果的比例。
MAP
平均精度指标,表示所有相关结果的平均排名。
信息检索的技术及应用
搜索引擎
应用最为广泛的信息检索技术, 例如Google、Bing等。
问答系统
利用信息检索、自然语言处理等 技术,实现智能问答。
情感分析
利用信息检索和自然语言处理技 术,分析用户对产品、服务等的 情感倾向。
利用向量空间模型、语言模型等方式将
信息的匹配
4
文本信息表示成数学模型。
将检索的查询与数据集中的文本信息进
行匹配,返回最相关的结果。
5
信息的展示与反馈
将检索结果呈现给用户,同时提供反馈 机制,优化检索结果。
信息检索的评价指标
召回率
全部相关结果中被检索到的结果数。
F1值
综合考虑召回率和准确率的结果。
准确率
信息检索的挑战与发展
1 数据量爆炸
随着互联网的高速发展,数据量呈指数级增长,如何应对数据规模的挑战成为信息检索 研究的重点。
2 多语言处理
全球范围内的信息检索需要支持多种语言的处理,而不同语言的语法和语义差异性带来 了技术上的困难。
3 个性化需求
用户对信息检索的需求越来越个性化,如何满足用户的个性化需求成为信息检索领域的 发展方向。
《信息检索导论》课件
本课程将带领您了解信息检索的各个方面,从基本概念到技术应用,从评价 指标到挑战发展,全方位展开信息检索的知识体系。

最新信息检索课件教学讲义ppt课件

最新信息检索课件教学讲义ppt课件
• 第一章 绪论 • 第二章 信息的相关知识 • 第三章 信息检索的基本知识 • 第四章 计算机信息资源检索 • 第五章 特种文献检索 • 实习
信息素养 • 信息素养:利用大量的信息工具及主要信息
源使问题得到解答的技术和技能。
本课程 的教学 目标
了解自己的信息需求 承认准确和完整的信息是制定明智决策的基础 能在信息需求的基础上系统阐述问题 能识别潜在的信息源、检索信息源,制定成功的检索策略 能利用以计算机为基础的信息技术和其它技术 具有评价信息的能力 能为实际应用而对信息进行组织 具有将新信息结合到现存的知识体现中的能力 能采用批判性思关的其它概念
§ 1.知识:人类对于客观世界的认识。 § 2.情报:人们搜集到的能为我们所用的新知
识或新信息。 § 3.文献:记录有知识的一切载体。
(人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性 认识或经验,然后对这些感性认识通过大脑进行加工处理,形成理性认识。)
现实信息源
口头信息源 体语信息源 实物信息源 文献信息源等
非文献信息源
第二节 文献的基本知识
一、文献(信息源)类型
§ 文献(信息源)类型: 1.按文献载体形式分:印刷型
微缩型:存储量高达22.5万页/平片 声像型 电子型 2.按文献加工深度分: 零次, 一次, 二次, 三次文献。
§ 一次文献:
§ 二次文献: 20061128:太湖西区公路两侧植物物种多样 性的研究/[刊]/朱晓勇,胡海波,鲁小珍/南 京林业大学学报.2006.30(3):-85~88
u 一、概念 信息检索:信息存储&信息查找
信息标引和存储过程:对大量无
信息的需求分析和检索过程。分
序的信息资源进行标引处理,使

《现代信息检索》PPT课件

《现代信息检索》PPT课件
(Chemical Abstracts Service, CAS)
CA收录范围
CA被称为“世界化学化工文献的钥 匙”,收录世界160多个国家和地区60 多种文字的化学化工方面的出版物约 16,000余种,包括期刊论文、会议录、 资料汇编、报告、新书、专利(30多个 国家和2个国际专利组织)等。
载体形式
登记号手册
分子式索引 著者索引 专利索引
文摘号
文摘
CAS来源索引
索取原文
(5) 检索实例
课题:饮料中维生素C的测定
从主题途径查找: 第一步:分析课题,确定检索词。 饮料—drink, beverage 维生素C—Vitamin C 第二步:核对主题词 《索引指南》 结果:饮料—beverage, 维生素C—L-ascorbic acid [50-81-7] 见 图例
第六步:索取原文。
《SA》检索途径示意图
《SA》检索途径示意图
主题途径 主题词
主题指南 分类号
叙词表
主题索引
著者途径 著者姓名
著者索引
其它途径
参考书目索引 图书索引 会议索引 团体著者索引
分类途径
类目名称
分类目次表
页 码
文 摘 号
文摘
来源期刊目录
索取原文
1. 文 摘
编排方式
手工检索工具要点
分类 (CA, SA)
第三步:查主题索引。 Beverage用“普通主题索引”查; L-ascorbic acid用“化学物质索引”查。 见 图例
第四步:阅读文摘,记录原文出处。 如127:259621j号文摘的原文出处为: Chem. Pharm. Bull. 1997,45(8), 1376-1378(见 图例 )。

《信息检索导论》PPT课件

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。

lecture8-evaluation 信息检索导论 王斌 PPT 课件 第8章

lecture8-evaluation 信息检索导论 王斌 PPT 课件 第8章

15
现代信息检索
评价任务的例子
两个系统,一批查询,对每个查询每个系统 分别得到一些结果。目标:哪个系统好? 系统&查询 系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2 1 d3 d1 d6 d1 2 d6 d4 d7 d2 3 d8 d7 d3 d4 4 … d10 d11 d9 d13
19
现代信息检索
评价指标分类
对单个查询进行评估的指标
在单个查询上检索系统的得分
对多个查询进行评估的指标
在多个查询上检索系统的得分
20
现代信息检索
回到例子
系统&查询
系统1,查询1 系统1,查询2 系统2,查询1 系统2,查询2
1
2
3
4
d10 d11 d9 √ d13

d3 √ d6 √ d8 d1 d4 d7 d6 √ d7 d2 d1 d2 d4
29
现代信息检索
关于正确率和召回率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 用、不用的用户可能会对两者的要求不一样。 因此,实际应用中应该考虑这点。
垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量 少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点,他不需要结果很全 就能完成任务。
23
现代信息检索
四种关系的矩阵表示
真正相关文档 RR+NR 真正不相关文档 系统判定相关 RR+RN (检索出)
RR
RN
Ret = RR+RN Precision
系统判定不相关 (未检索出)
NR
NN
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率
tf-idf权重计算 向量空间模型
13
现代信息检索
排序式检索(Ranked retrieval)
迄今为止,我们主要关注的是布尔查询
文档要么匹配要么不匹配
对自身需求和文档集性质非常了解的专家而言,布尔查询 是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条 结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练 才能撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web 搜索更是如此
10
现代信息检索
Reuters RCV1索引压缩总表
11
现代信息检索
本讲内容
对搜索结果排序(Ranking) : 为什么排序相当重要? 词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法 向量空间模型(Vector space model): 信息检索中最重要的形 式化模型之一 (其他模型还包括布尔模型和概率模型)
32
现代信息检索
常见词项所期望的权重
常见词项的信息量不如罕见词 考虑一个查询词项,它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相 关度要高 但是,这些词对于相关度而言并不是非常强的指示词 于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给 一个正的权重,但是这个权重小于罕见词权重
28
现代信息检索
课堂练习
计算下列查询-文档之间的Jaccard系数 q: [information on cars] d: “all you’ve ever wanted to know about cars” q: [information on cars] d: “information on trucks, information on planes, information on trains” q: [red cars and red trucks] d: “cops stop red cars more often”
21
现代信息检索
Paul Jaccard(1868-1944)
瑞士植物学家,ETH教授
1894年毕业于苏黎世联邦理工 学院ETH(出过包括爱因斯坦在 内的21位诺贝尔奖得主)
1901年提出Jaccard Index即 Jaccard Coefficient概念
22
提纲
❶ ❷
上一讲回顾
可变字节(VB)码
被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照 位对齐)的简单且不错的混合产物 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特,那么c 置 1,将间隔编入一个 字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的 位数采用同样的方法进行处理,最后一个字节的c置1 (表示结束)
词项 calpurnia animal sunday fly under the dft idft
1 100 1000 10,000 100,000 1,000,000
6 4 3 2 1 0
36
现代信息检索
idf对排序的影响
在某种意思上说,这种表示方法是一种“倒退”,因为 位置索引中能够区分上述两篇文档 本课程后部将介绍如何“恢复”这些位置信息 这里仅考虑词袋模型
26
现代信息检索
词项频率 tf
词项t的词项频率 tft,d 是指t 在d中出现的次数 下面将介绍利用tf来计算文档评分的方法 第一种方法是采用原始的tf值(raw tf) 但是原始tf不太合适: 某个词项在A文档中出现十次,即tf = 10,在B文档中 tf = 1,那么A比B更相关 但是相关度不会相差10倍 相关度不会正比于词项频率tf
→ 0 个结果 – 太少
在布尔检索中,需要大量技巧来生成一个可以获得合适规 模结果的查询
15
现代信息检索
排序式检索

排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多
前提:排序算法真的有效,即相关度大的文档结果会排在 相关度小的文档结果之前
14
现代信息检索
布尔搜索的不足: 结果过少或者过多
布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 查询 1 (布尔与操作): [standard user dlink 650]
→ 200,000 个结果 – 太多
查询2 (布尔与操作): [standard user dlink 650 no card found]
27
现代信息检索
一种替代原始tf的方法: 对数词频
t 在 d 中的对数词频权重定义如下:
tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等 文档-词项的匹配得分是所有同时出现在q和文档d中的词 项的对数词频之和 t ∈q∩d (1 + log tft,d ) 如果两者没有公共词项,则得分为0
授课人:王斌
/~wangbin
1
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率

b = 0.49
4
现代信息检索
Zipf定律
反映词项的分布 拟合度不是太高,但是今 本反映词项的分布规律: 高频词少,低频词多。
5
现代信息检索
将整部词典看成单一字符串 (Dictionary as a string)
6
现代信息检索
单一字符串方式下按块存储
7
现代信息检索
对间隔编码
8
现代信息检索
排序式检索

❹ ❺
词项频率tf-Biblioteka df权重计算 向量空间模型23
现代信息检索
二值关联矩阵
Anthony Julius and Caesar Cleopatra
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 1 1 1 0 1 1 1 1 1 1 1 0 0 0
19
现代信息检索
Jaccard系数的计算样例
查询 “ides of March”
文档 “Caesar died in March”
JACCARD(q, d) = 1/6
20
现代信息检索
Jaccard系数的不足
不考虑词项频率 ,即词项在文档中的出现次数 罕见词比高频词的信息量更大,Jaccard系数没有考虑这个 信息 没有仔细考虑文档的长度因素 本讲义后面,我们将使用 (即余弦计 算) 来代替 |A ∩ B|/|A ∪ B| ,前者进行的长度归一化
0 0 1 0 0 5 1 1 0 0 0 0 8 5
每篇文档可以表示成一个词频向量 ∈ N|V|
25
现代信息检索
词袋(Bag of words)模型
不考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John 的 表示结果一样 这称为一个词袋模型(bag of words model)
(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标 实际中往往计算[log N/dft ]而不是 [N/dft ] ,这可以对idf 的影响有所抑制 值得注意的是,对于tf 和idf我们都采用了对数计算方式
35
现代信息检索
idf的计算样例
利用右式计算idft:
18
现代信息检索
第一种方法: Jaccard系数
计算两个集合重合度的常用方法 令 A 和 B 为两个集合 Jaccard系数的计算方法:
JACCARD (A, A) = 1
JACCARD (A, B) = 0 如果 A ∩ B = 0
A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值
tf-idf权重计算 向量空间模型
2
提纲
❶ ❷
上一讲回顾
排序式检索

❹ ❺
词项频率词项频率
tf-idf权重计算 向量空间模型
3
现代信息检索
Heaps定律
词汇表大小M 是文档集规 模T的一个函数 图中通过最小二乘法拟合 出的直线方程为: log10M = 0.49 ∗ log10T + 1.64 于是有: M = 101.64T0.49 k = 101.64 ≈ 44
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 157 4 232 0 57 2 2 73 157 227 10 0 0 0
The Hamlet Tempest
0 0 0 0 0 3 1 0 2 2 0 0 8 1
Othello
Macbeth ...
33
现代信息检索
文档频率(Document frequency, df)
对于罕见词项我们希望赋予高权重 对于常见词我们希望赋予正的低权重 接下来我们使用文档频率df这个因子来计算查询-文档的 匹配得分 文档频率指但是出现词项的文档数目
相关文档
最新文档