第二章 信息检索模型

合集下载

第2章-信息检索模型

第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档

信息检索模型

信息检索模型

信息检索模型信息检索模型是指通过计算机系统从大规模信息中自动地检索出与用户需求相关的信息的一种技术。

它是信息检索领域的重要研究内容,旨在提高用户检索信息的效率和准确性。

一、信息检索的定义和基本原理信息检索是指根据用户输入的查询需求,在大规模信息库中自动地查找并返回与用户需求相关的信息的过程。

它基于一定的检索模型和算法,通过匹配和排序等过程,将最相关的信息呈现给用户。

信息检索的基本原理包括以下几个方面:1. 查询处理:用户输入的查询需求经过预处理和分析,提取关键词和特征,形成查询向量。

2. 文档表示:对于每个文档,通过特征提取和表示方法,将其转化为向量表示,以便与查询向量进行匹配。

3. 相似度计算:根据查询向量和文档向量之间的相似度计算方法,评估文档与查询的相关性。

4. 排序和评价:根据相似度计算结果,对文档进行排序,将最相关的文档排在前面,并根据评价指标对结果进行评估。

5. 结果呈现:将排序后的文档结果以列表或摘要的形式呈现给用户,用户可以根据需要进行浏览和选择。

根据不同的检索模型和算法,信息检索可以分为多种模型,常见的有布尔模型、向量空间模型和概率模型等。

1. 布尔模型布尔模型是最早的信息检索模型之一,它基于布尔代数,将查询和文档转化为布尔表达式,通过逻辑运算来匹配和检索文档。

布尔模型简单直观,适用于处理简单的查询需求,但不擅长处理复杂的查询语句和表达需求的语义。

2. 向量空间模型向量空间模型是一种基于向量表示的信息检索模型,它将查询和文档都表示为向量,通过计算向量之间的相似度来评估文档的相关性。

向量空间模型可以灵活地处理复杂的查询需求和语义表达,常用的相似度计算方法包括余弦相似度和欧氏距离等。

3. 概率模型概率模型是一种基于概率统计的信息检索模型,它通过建立查询和文档之间的概率模型,利用统计方法计算文档的相关性。

概率模型可以较好地处理查询的不确定性和语义的歧义,常用的概率模型包括BM25模型和语言模型等。

第二章 检索模型

第二章  检索模型


D1 = {(图书馆, .8), (自动化, .4)} D2 = {(图书馆, .5), (自动化, .6)} 提问式 = 图书馆 AND 自动化 V(D1) = MIN(.8,.4) = .4 V(D2) = MIN(.5,.6) = .5 D2 is ranked before D1 in the result set.
布尔模型的基本原理

(1)每个文献用一组标引词表示 例如,对于某一特定文献i,可表示为: Di=(T1,T2,T3,… Tm) 对于系统索引词集合的每个索引词在一篇文档中只 有两种状态:出现或者不出现,
布尔模型的基本原理

(2)提问式用3种布尔逻辑算符连接而成。 逻辑与:and 逻辑或: or 逻辑非: not
sim(Q, Di )
sim(Q, D 2)

t
t j 1
wq j wdij
2 2 ( w ) j 1 dij t
j 1 (wq j )
2
(0.4 0.2) (0.8 0.7) [(0.4) 2 (0.8) 2 ] [(0.2) 2 (0.7) 2 ] 0.64 0.98 0.42
2.3.2 向量模型的特点
2)向量模型的不足: 每篇文献主题词数量一致,反映不了文献信息量 的差异; 提问向量和文献向量一致,不符合用户检索习惯; 计算相关系数工作量大,且标引词的权值难以确 定; 标引词两两正交的假设过于僵硬等。 由于向量模型要求条件高,目前使用的并不多。
2.4 概率模型
2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表 示这些词在相关文献集合或无关文献集合中的出 现概率,然后计算某一给定文献与某给定提问相 关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值 来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型

第二章 信息检索模型

第二章  信息检索模型
(Relevance feedback)
模型构建的主要步骤பைடு நூலகம்
(1)文档向量的构造; (2)查询向量的构造; (3)查询与文档的匹配函数的选择; (4)相似度阈值的确定。
模型中的问题
怎样确定文档中哪些词是重要的词? (标引词)
怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
第二章 信息检索模型举例为您找到相关 结果493,000个
?
如何找到与查询相关的文档? 如何将与查询相关的文档进行排序?
信息检索的原理 逻辑视图
匹配规则
文档 集合
特征化 表示
特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义
太少的结果文档被返回; 很难对输出进行排序;(本质) 很难进行自动的相关反馈。
经典模型
——向量空间模型(Vector Space Model)
模型概述
Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the
Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
∨ (t1 ∧ t2 ∧ t3)
qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义
pi(dj)表示标引词ti是否在文档dj中出 现的值 ;
pi(qF)查询合取分量qF中标引词ti是否 出现的值 ;
sim(dj,q)表示文档和查询的相似度

信息检索模型

信息检索模型

例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出

第二章(1) 信息检索模型

第二章(1) 信息检索模型

布尔模型描述




文档D表示 一个文档被表示为索引项(关键词)的集合 查询项Q表示 查询项被表示为索引项的布尔组合,用“与、或、 非”连接起来,并用括弧指示优先次序 框架F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定某一文档与查询是否相关,如 果相关,则返回该文档
优点

到目前为止,布尔模型是最常用的检索模型,因 为:

由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查询 结果 相当于识别包含了一个某个特定term的文档

相当有效的实现方法


经过某种训练的用户可以容易地写出布尔查询式
问题

布尔模型被认为是功能最弱的方式

其主要问题在于不支持部分匹配,而完全匹配会导致太多或 者太少的结果文档被返回
什么是模型?


模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述 面对相同的输入,模型的输出应能够无 限地逼近现实世界的输出

举例:天气的预测模型
针对用户输入的查询,如何将文档按相关性 进行排序 如何看待文档是否与用户的查询相关

信息检索模型要解决的问题


信息检索的预备知识


方法1:对长文档进行惩罚,对短文档进行补偿 方法2:对长度进行归一化处理
由索引项构成向量空间

2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项



类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间 一个文档或查询式可以表示由n个元素组成的 向量

1第二章信息检索的数学模型(7~8学时)

1第二章信息检索的数学模型(7~8学时)

2.3.1 布尔检索模型 2.3.2 模糊集合模型 2.3.3 扩展布尔检索模型
2.3.1 布尔检索模型
布尔模型是一种简单的检索模型,它建立在经典集合论和 布尔代数的基础上。鉴于集合论中“集合”概念的直观性以及布 尔表达式所具有的准确语义,布尔模型非常容易被用户理解和 接受,在早期的大多数商业化书目检索系统中,布尔模型更是 得到了广泛关注和应用。
2.3.2.1 模糊集合论的基本知识
模糊集合论对经典集合论的推广,主要表现在它把元素属于集合 的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属 于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于 概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对 于同一集合具有不同的隶属程度,引入了隶属度(membership)的概 念。 模糊集合的严格定义可以表述如下: 论域U到实区间[0,1]的任一映射 μA:U → [0,1] 对于任意x∈U,x →μA(x)都确定U上的一个模糊集合A,μA称做A 的隶属函数,μA(x)为元素x对A的隶属度。
1960年代末期,信息处理专家、美国著名学者萨尔顿(G. Salton) 基于“部分匹配”(partial matching)策略的信息检索思想,在其开发 的试验性检索系统SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性代数的理论和方法构建出 一种新型的检索模型,这就是后来广为人知的向量空间模型(Vector Space Model,简称VSM)。
接上片
所谓“局部权值”是指第i个索引词在第j篇文档中的权值;而“全局权值” 则是指第i个索引词在整个系统文档集合中的权值。 现在,假设N为系统文档总数;ni为系统中含有索引词ki的文档数;freqij 为索引词ki在文档dj中的出现次数;idfi表示索引词ki的逆文档频率 (inverse document frequency,简称idf或IDF); maxtfj表示文档dj中所有 索引词出现次数的最大值。那么,对于文档dj中索引词ki的权值计算方法, 可以如下进行: fij = freqij / maxtfj idfi = log(N / ni) wij = fij * idfi

二、信息检索模型研究

二、信息检索模型研究

邻近节 点模型
平坦 模型
结构导 向模型
超文本 模型
10
检索模型的基本概念——8.理论研究历史
描述查询的结构化阶段
布尔检索模型
描述相关性的量化阶段
向量空间模型 概率模型
Rijsbergen 逻辑模型
1960’s
1986
11
检索模型的基本概念——理论研究历史
定性评价与定量计算相结合的阶段
逻辑模型
Rijsbergen 逻辑模型
29
布尔模型
遵循两条基本规则
每个索引词在一篇文档中只有两种状态:出现 或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接 索引词组成的布尔表达式
30
布尔模型——9. 形式化表示
任意查询都可转化为一个主析取范式DNF
例如:查询为q=ka∧(kb∨¬kc)可表示为 q=ka∧(kb∨¬kc)=kakbkc∨kakb¬kc∨ka¬kb ¬kc qbnf=(1,1,1)∨(1,1,0)∨(1,0,0) 即:每一个分量都是三元组的二值向量 (ka , kb , kc ) 任一文本可以写成所有Term的交,如 doc=a∧b∧c∧d∧e 因为doc(蕴含)q,所以相似度为1
14
布尔模型——2.集合的直观描述
具有某种属性的对象总体(通常用大写字母表 示,如A,B等),这些对象称为其元素(通常用小 写字母表示,如x,y等)
x是A的元素记为:x∈A (读作x属于A) x不是A的元素记为:x∉A (读作x不属于A)
集合的基本特性是,对于给定的集合A,任何 对象x, x∈A与x∉A中有且只有一个成立.
16
布尔模型——4.集合的表示
集合间的关系
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

根据相似度对输出结果进行排序 支持自动的相关反馈
• 有用的词项被添加到原始的查询式中 • 例如:Q database; text; information; document
模型中的问题
怎样确定文档中哪些词是重要的词?(索引 项)
怎样确定一个词在某个文档中或在整个文档 集中的重要程度?(权重) 怎样确定一个文档和一个查询式之间的相似 度?
文档的词项权重(TFIDF举例)
文本:“俄罗斯频繁发生恐怖事件,俄罗斯 的安全部门加大打击恐怖主义的力度。”
TF IDF TFIDF TF IDF TFIDF
俄罗斯 恐怖 的 频繁 发生 事件
2 2 2 1 1 1
较高 较高 非常低 较低 较低 较低
高 高 很低 低 低 低
安全 部门 加大 打击 主义 力度
基于代数论的IR模型(Algebraic models)
向量空间模型 潜性语义索引模型
基于概率统计的IR模型(Probabilistic models)
回归模型 二元独立概率模型 语言模型建模IR模型
1 布尔模型(Boolean Model)
布尔模型是建立经典集合论和布尔逻辑代数的 基础上。 优势:
匹配计算函数R
匹配函数R(dj,q)用于计算任一信息dj(dj∈D) 与任一提问q(q∈Q)形成的信息——提问对 (dj,q)之间的相似度大小。一般地,R(dj,q) 的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: • 计算方法简单,计算量小; • 函数值在取值区间均匀分布; • 针对某一提问所获取的相关文档集合,能够实 现合理的排序输出。
文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:
dj= (w1j, w2j, …,wij)
其中,向量分量wij代表第i个索引词ki在文档dj中所具有的 权重,t为系统中索引词的个数。 在Boolean模型中, wij ={0,1} 在VSM中,wij =[0,1] 一篇文档有多个索引词,如何计算每个索引词的权值?
模型的特点
基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度
• 例如:文档的统计特性
用户规定一个词项(term)集合,可以给每个词项附加权重
• 未加权的词项: Q = database; text; information • 加权的词项: Q = database 0.5; text 0.8; information 0.2 • 查询式中没有布尔条件
• 由于查询简单,因此容易理解 • 通过使用复杂的布尔表达式,可以很方便地控制查 询结果
相当有效的实现方法
• 相当于识别包含了一个某个特定term的文档
经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 • 非常刚性: “与”意味着全部; “或”意味着任何一个 很难控制被检索的文档数量 • 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 • 不考虑索引词的权重,所有文档都以相同的方式和查询 相匹配 很难进行自动的相关反馈 • 如果一篇文档被用户确认为相关或者不相关,怎样相应 地修改查询式呢?
课堂习题(2)
2 向量空间模型
向量空间模型(Vector Space Model)是康奈尔大学 Salton1970年代提出并倡导 成功应用于SMART( System for the Manipulation and Retrieval of Text)文本检索系统 这一系统理论框架到现在仍然是信息检索技术研究 的基础
1 1 1 1 1 1
中等 较低 较低 中等 较低 中等
高 低 低 高 低 高
Idf 计算示例
查询式的词项权重
如果词项出现在查询式中,则该词项在查询式 中的权重为1,否则为0 也可以用用户指定查询式中词项的权重 一个自然语言查询式可以被看成一个文档
• 查询式:“有没有周杰伦的歌?” 会被转换为: <周杰伦, 歌> • 查询式: “请帮我找关于俄罗斯和车臣之间的战争 以及车臣恐怖主义首脑的资料” 会被转换为: <俄罗斯 2, 车臣 2, 战争1, 恐怖主义1, 首脑 1> • 过滤掉了:“请帮我找”,“和”,“之间的”, “以及”,“的资料” 两个文档之间的相似度可以同理计算
索引词的权重
根据词项在文档(tf)和文档集(idf)中的频 率(frequency)计算词项的权重
• tfij = 词项j在文档i中的频率 • df j = 词项j的文档频率= 包含词项j的文档数量 • idfj = 词项j的反文档频率= log2 (N/ df j)
N: 文档集中文档总数 反文档频率用词项区别文档
• “集合”概念直观 • 容易被理解和接受
布尔模型描述
文档表示 • 一个文档被表示为关键词的集合 查询式表示 • 查询式(Queries)被表示为关键词的布尔组合,用 “与、或、非”连接起来,并用括弧指示优先次 序 匹配 • 一个文档当且仅当它能够满足布尔查询式时,才 将其检索出来 • 检索策略基于二值判定标准
பைடு நூலகம்
向量空间模型的基本原理
文档 关键字的权重矢量 提问
关键字的权重矢量
匹配
检索到文献
模型的描述
文档D(Document):泛指文档或文档中的一个片段(如文档 中的标题、摘要、正文等)。 索引项t(Term):指出现在文档中能够代表文档性质的基 本语言单位(如字、词等),也就是通常所指的检索词,这 样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检 索字的数量。 特征项权重Wk(Term Weight):指特征项tn能够代表文档 D能力的大小,体现了特征项在文档中的重要程度。 相似度S(Similarity):指两个文档内容相关程度的大小
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。 可以是一组索引词或关键词。既可以自动提取,也 可以是由人主观指定。
匹配处理框架(F)
在信息集合(D)与需求集合(F)之间建立模 型化处理的框架与规则。 不同检索模型的匹配处理的数学机制是不同的。
• 布尔模型:集合论的基本运算 • 向量空间模型:多维向量空间理论和向量线性代数 • 概率模型:集合论、概率运算和Bayes法则
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
如:提问式 q = k1 and (k2 or not k3)可写成等价的 析取范式形式: q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 ) 这里q dnf是提问式q的主析取范式。可进一步简化表 示 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0) 其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取 子项qcc,他们是一组向量,由对应的三元组(k1 , k2 , k3) 的每一个分量取0或1得到。 基于以上规则和假定,布尔模型对于任一篇文献 dj∈D,定义与用户提问q的匹配函数为:
课堂练习题(1)
课堂思考题:
• 想查关于今年超女5进4比赛的新闻,用布尔模型 怎么构造查询?
参考答案
������ (2006 OR 今年) AND (超级女声OR 超 女OR 超级女生) AND (6进5 OR 六进五OR 六AND 进AND 五) ������ 表达式相当复杂,构造困难! ������ 不严格的话结果过多,而且很多不相关; 非常严格的话结果会很少,漏掉很多结果。
例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
例如:文档总数为1000,出现关键词k1文档为100 篇,出现关键词k2文档为500篇,出现关键词k3 文档为800篇 N=1000, n1=100, n2=500, n3=800 根据公式: idfi = log(N/ni) ,可计算出 idf1= 3 - 2 = 1 idf2= 3 – 2.7 = 0.3 idf3 = 3 – 2.9 = 0.1 Idf越大,表明区别(分)文档的能力越强。
布尔模型的基本原理 布尔模型在解释信息检索处理过程时,主要遵守的两 条原则: 系统索引词集合中的每一个索引词在一篇文档中只 有两种状态:出现或不出现。每个索引词的权值 wij∈{0,1} 检索提问式q由三种布尔逻辑运算符“and”、“or”、 “not”连接索引词来构成。 根据布尔逻辑的运算规定,提问式q可以被表示成 由合取子项(conjunctive components)组成的析 取范式(disjunctive normal form,简称dnf)形式。
索引项的选择
若干独立的词项被选作索引项(index terms) or 词表
相关文档
最新文档