第二节 信息检索模型
第2章-信息检索模型

▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
信息检索模型

信息检索模型信息检索模型是指通过计算机系统从大规模信息中自动地检索出与用户需求相关的信息的一种技术。
它是信息检索领域的重要研究内容,旨在提高用户检索信息的效率和准确性。
一、信息检索的定义和基本原理信息检索是指根据用户输入的查询需求,在大规模信息库中自动地查找并返回与用户需求相关的信息的过程。
它基于一定的检索模型和算法,通过匹配和排序等过程,将最相关的信息呈现给用户。
信息检索的基本原理包括以下几个方面:1. 查询处理:用户输入的查询需求经过预处理和分析,提取关键词和特征,形成查询向量。
2. 文档表示:对于每个文档,通过特征提取和表示方法,将其转化为向量表示,以便与查询向量进行匹配。
3. 相似度计算:根据查询向量和文档向量之间的相似度计算方法,评估文档与查询的相关性。
4. 排序和评价:根据相似度计算结果,对文档进行排序,将最相关的文档排在前面,并根据评价指标对结果进行评估。
5. 结果呈现:将排序后的文档结果以列表或摘要的形式呈现给用户,用户可以根据需要进行浏览和选择。
根据不同的检索模型和算法,信息检索可以分为多种模型,常见的有布尔模型、向量空间模型和概率模型等。
1. 布尔模型布尔模型是最早的信息检索模型之一,它基于布尔代数,将查询和文档转化为布尔表达式,通过逻辑运算来匹配和检索文档。
布尔模型简单直观,适用于处理简单的查询需求,但不擅长处理复杂的查询语句和表达需求的语义。
2. 向量空间模型向量空间模型是一种基于向量表示的信息检索模型,它将查询和文档都表示为向量,通过计算向量之间的相似度来评估文档的相关性。
向量空间模型可以灵活地处理复杂的查询需求和语义表达,常用的相似度计算方法包括余弦相似度和欧氏距离等。
3. 概率模型概率模型是一种基于概率统计的信息检索模型,它通过建立查询和文档之间的概率模型,利用统计方法计算文档的相关性。
概率模型可以较好地处理查询的不确定性和语义的歧义,常用的概率模型包括BM25模型和语言模型等。
第二章 信息检索模型

根据相似度对输出结果进行排序 支持自动的相关反馈
• 有用的词项被添加到原始的查询式中 • 例如:Q database; text; information; document
模型中的问题
怎样确定文档中哪些词是重要的词?(索引 项)
怎样确定一个词在某个文档中或在整个文档 集中的重要程度?(权重) 怎样确定一个文档和一个查询式之间的相似 度?
文档的词项权重(TFIDF举例)
文本:“俄罗斯频繁发生恐怖事件,俄罗斯 的安全部门加大打击恐怖主义的力度。”
TF IDF TFIDF TF IDF TFIDF
俄罗斯 恐怖 的 频繁 发生 事件
2 2 2 1 1 1
较高 较高 非常低 较低 较低 较低
高 高 很低 低 低 低
安全 部门 加大 打击 主义 力度
基于代数论的IR模型(Algebraic models)
向量空间模型 潜性语义索引模型
基于概率统计的IR模型(Probabilistic models)
回归模型 二元独立概率模型 语言模型建模IR模型
1 布尔模型(Boolean Model)
布尔模型是建立经典集合论和布尔逻辑代数的 基础上。 优势:
匹配计算函数R
匹配函数R(dj,q)用于计算任一信息dj(dj∈D) 与任一提问q(q∈Q)形成的信息——提问对 (dj,q)之间的相似度大小。一般地,R(dj,q) 的函数值为一实数,其取值区间为[0,1] 匹配函数的特点: • 计算方法简单,计算量小; • 函数值在取值区间均匀分布; • 针对某一提问所获取的相关文档集合,能够实 现合理的排序输出。
文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:
第二章 检索模型

D1 = {(图书馆, .8), (自动化, .4)} D2 = {(图书馆, .5), (自动化, .6)} 提问式 = 图书馆 AND 自动化 V(D1) = MIN(.8,.4) = .4 V(D2) = MIN(.5,.6) = .5 D2 is ranked before D1 in the result set.
布尔模型的基本原理
(1)每个文献用一组标引词表示 例如,对于某一特定文献i,可表示为: Di=(T1,T2,T3,… Tm) 对于系统索引词集合的每个索引词在一篇文档中只 有两种状态:出现或者不出现,
布尔模型的基本原理
(2)提问式用3种布尔逻辑算符连接而成。 逻辑与:and 逻辑或: or 逻辑非: not
sim(Q, Di )
sim(Q, D 2)
t
t j 1
wq j wdij
2 2 ( w ) j 1 dij t
j 1 (wq j )
2
(0.4 0.2) (0.8 0.7) [(0.4) 2 (0.8) 2 ] [(0.2) 2 (0.7) 2 ] 0.64 0.98 0.42
2.3.2 向量模型的特点
2)向量模型的不足: 每篇文献主题词数量一致,反映不了文献信息量 的差异; 提问向量和文献向量一致,不符合用户检索习惯; 计算相关系数工作量大,且标引词的权值难以确 定; 标引词两两正交的假设过于僵硬等。 由于向量模型要求条件高,目前使用的并不多。
2.4 概率模型
2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表 示这些词在相关文献集合或无关文献集合中的出 现概率,然后计算某一给定文献与某给定提问相 关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值 来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型
第二章 信息检索模型

模型构建的主要步骤பைடு நூலகம்
(1)文档向量的构造; (2)查询向量的构造; (3)查询与文档的匹配函数的选择; (4)相似度阈值的确定。
模型中的问题
怎样确定文档中哪些词是重要的词? (标引词)
怎样确定一个词在某个文档中或在整个 文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的 相似度?
第二章 信息检索模型举例为您找到相关 结果493,000个
?
如何找到与查询相关的文档? 如何将与查询相关的文档进行排序?
信息检索的原理 逻辑视图
匹配规则
文档 集合
特征化 表示
特征化 表示
用户 需求
匹配与相似度排序
系统对文档集合与用户需求的匹配与相似度排序
数学工具---数学模型
信息检索模型的定义
太少的结果文档被返回; 很难对输出进行排序;(本质) 很难进行自动的相关反馈。
经典模型
——向量空间模型(Vector Space Model)
模型概述
Gerard Salton在上世纪60年代提出; 成功应用于SMART( System for the
Manipulation and Retrieval of Text) 文本检索系统; 目前仍是信息检索技术研究的基础。
∨ (t1 ∧ t2 ∧ t3)
qDNF=(1,1,0) ∨ (1,0,0) ∨ (1,1,1) qF表示qDNF的任意合取分量;
文档与查询的相似度定义
pi(dj)表示标引词ti是否在文档dj中出 现的值 ;
pi(qF)查询合取分量qF中标引词ti是否 出现的值 ;
sim(dj,q)表示文档和查询的相似度
信息检索模型

例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出
第二章(1) 信息检索模型

布尔模型描述
文档D表示 一个文档被表示为索引项(关键词)的集合 查询项Q表示 查询项被表示为索引项的布尔组合,用“与、或、 非”连接起来,并用括弧指示优先次序 框架F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准 算法R 根据匹配框架F判定某一文档与查询是否相关,如 果相关,则返回该文档
优点
到目前为止,布尔模型是最常用的检索模型,因 为:
由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查询 结果 相当于识别包含了一个某个特定term的文档
相当有效的实现方法
经过某种训练的用户可以容易地写出布尔查询式
问题
布尔模型被认为是功能最弱的方式
其主要问题在于不支持部分匹配,而完全匹配会导致太多或 者太少的结果文档被返回
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述 面对相同的输入,模型的输出应能够无 限地逼近现实世界的输出
举例:天气的预测模型
针对用户输入的查询,如何将文档按相关性 进行排序 如何看待文档是否与用户的查询相关
信息检索模型要解决的问题
信息检索的预备知识
方法1:对长文档进行惩罚,对短文档进行补偿 方法2:对长度进行归一化处理
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间 一个文档或查询式可以表示由n个元素组成的 向量
《信息检索模型》课件

向量空间模型
向量空间模型使用向量表示文档和查询,通过计算余弦相似度来衡量文档与查询的相关性。它能够更全面地度 量文档的相关性,但需要处理高维度的向量空间。
概率检索模型
概率检索模型基于统计方法,通过建模查询与文档的概率分布来进行信息检 索。其中,BM25算法是常用的概率检索模型算法之一。
实践应用
信息检索系统由多个组成部分构成,包括文本预处理、索引构建、查询解析 和结果排序等,这些组件协同工作以提供准确和相关的搜索结果。
信息检索模型
信息检索模型是用于描述和处理信息检索过程中的相关原理和算法。常见的 模型包括布尔模型、向量空间模型和概率检索模型。
布尔模型
布尔模型使用布尔运算符进行查询匹配,根据查询关键词的逻辑关系确定文 档是否与查询匹配。它简单而直观,但缺乏对文档相关性的度量。
《信息检索模型》PPT课 件
欢迎来到本课程关于《信息检索模型》的PPT课件。本课程将带您深入了解信 息检索的不同模型、系统以及实践应用,让您对这一领域有全面的认识。
信息检索概述
信息检索是指通过计算机系统从大量的信息资源中找到用户所需信息的过程。ห้องสมุดไป่ตู้具有悠久的历史并在诸多领域 得到广泛应用。
信息检索系统
信息检索在多个领域有着广泛的实践应用,包括搜索引擎、文本分类、推荐系统等。下面我们将通过案例分析 搜索引擎的信息检索模型。
总结与展望
信息检索领域持续发展,未来的趋势包括个性化搜索、多模态检索和语义搜索等。信息检索的进步将对我们的 生活和工作产生深远影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 信息检索模型
• 文档dj可以表示为平面上的一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y)之间的距离作为任一文档d 和提问q的相似性度量;而对于合取提问式q= kxand ky 来 说,它与文档的相似性则可以通过点(1,1)和点(x,y)之 间的距离来测度。因此,适用于析取提问式和合取提问式 的一种正规化相似度计算公式分别如下所示:
ni,nj分别表示集合D中含有索引词ki和kj的文档数,nij表示集合D中同时有ki 和kj的文档数
(1 c )
il
文档dj隶属于集合Di的程度,由dj中所含有的索引词和索引词ki的关联强度所 决定。
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (3)扩展布尔模型 在布尔模型的基础上,加入向量空间模型的局部匹配、索 引词加权等思想。 • 文档dj可以表示为dj=(wxj,wyj),其中, wxj,wdj分别表示 kx,ky在文档dj中的权重。 • 计算提问式与文档的相似度。文档dj可以表示为平面上的 一点,对于提示式q= kxor ky 可以使用点(0,0)到点(x,y) 之间的距离作为任一文档d和提问q的相似性度量;而对 于合取提问式q= kxand ky 来说,它与文档的相似性则可 以通过点(1,1)和点(x,y)之间的距离来测度。因此,适 用于析取提问式和合取提问式的一种正规化相似度计算公 式分别如下所示:
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (2)模糊集合模型 • 对元素属于集合的概念模糊化,承认论域上既不完全 属于某集合,又不完全不属于某集合的元素,即变经典的 “绝对属于”为“相对属于”。 • 集合运算由满足集合的词间关系及其隶属度值决定 词间关系距阵 c ij nij /(ni nj nij) 文档的隶属度 uij 1
第二节 信息检索模型
• 一、信息检索的形式化表达 system=(D,Q,F,R(dj,q)) 其中: D,Q,F和R(dj,q)分别表 示信息检索系统的信息资源集合、用户信 息需求集合、信息资源与信息需求处理框 架及型分类 1、基于内容的检索模型 集合论模型 代数论模型 概率论模型 2、基于结构的数学模型 非重叠链表 邻近接点 3、浏览型数学模型 平台 结构导航 超文本
第二节 信息检索模型
• 三、基于内容的检索模型 1、集合论模型 (1)布尔检索模型 • 遵循两条基本规则 : 每个索引词在一篇 文档中只有两种状态:出现或不出现, 对应权值为 0 或 1 。 • 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 • 存在问题:只有0和1,在OR方式中,包含很多查 询词的文档和包含少数词的文档是等同的;在 AND方式中,即使缺少一个词,结果也是0,等 于一个词也没有。没有排序,布尔表达非友善性。
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 文档向量的构造
第二节 信息检索模型
• 2、代数检索模型 (1)向量空间模型 词频权值计算
第二节 信息检索模型
• 2、代数检索模型 向量空间模型 匹配函数的选择及相似度域值的确定
第二节 信息检索模型
• 3、概率模型 P( B | A) P( A) P( A | B) P( B) 贝叶斯定理 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A与 B相互独立。对一篇文档而言,若文档中的各个 词相互独立,则有 P(dj)=P(k1)…P(kt) 相似度计算: sim(dj, q) P( R | dj ) / P( Rc | dj ) 根据贝叶斯公式计算为: