信息检索的概率模型-

合集下载

信息检索概率模型

信息检索概率模型
信息检索是基于概率模型的一种技术。

概率模型通常用于描述信息检索中的查询概率和查询结果的可靠性。

在基于概率模型的信息检索中,一个查询被表示为一个概率分布的向量。

例如,假设查询概率分布为 [0, 1],表示查询结果的可靠性为0%或100%。

在这种情况下,如果用户输入一个查询,系统将返回所有匹配查询的页面,其中每个页面的匹配概率不同,取决于页面中信息的质量和相关性。

概率模型还可以用于确定查询的最佳超集。

例如,如果一个查询的不确定性很高,那么系统可能需要搜索多个可能的超集来找到最佳的匹配结果。

系统可以使用概率模型来确定哪些超集是最有可能匹配查询的,并返回这些超集。

总之,基于概率模型的信息检索技术可以提高查询结果的可靠性和用户体验,使用户更容易找到需要的信息。

第2章-信息检索模型

▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如：文档总数为1000，出现关键词k1文档为100
篇，出现关键词k2文档为500篇，出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式： idfi = log(N/ni) ，可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达为： q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中： (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc，他们是一组向量，由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如：文档旳统计特征
▪ 顾客要求一种词项(term)集合，能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间，一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳，3个索引项构成一种三维空间，n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn)，其中n就代表了检
索字旳数量。
▪ 特征项权重Wk（Term Weight）：指特征项tn能够代表文档

第四章信息检索模型

向量空间模型
➢ 向量空间模型（Vector Space Model，VSM）是由G·Salton等人在1958年提出的
➢ 代表系统
SMART（ System for the Manipulation and Retrieval of Text）
➢ 这一系统理论框架到现在仍然是信息检索技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利，文档di通常由
从文档中抽取的能够表达文档内容的特征项（如索引项/检索词/关键词）来表示设K={k1, k2 , … , kn} 为系统索引项集合则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性（权值weight）
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询式
➢ 布尔模型可以通过扩展来包含排序的功能，即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式，其主要问题在于不支持部分匹配，而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词？（索引项）
➢ 怎样确定一个词在某个文档中或在整个文档集中的重要程度？（权重）
➢ 怎样确定一个文档和一个查询式之间的相似度？
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?
例如：文档的统计特性 ➢ 用户规定一个词项(key)集合，可以给每个词项附加权重

【计算机科学】_概率信息检索模型_期刊发文热词逐年推荐_20140727

2012年序号 1 2 3 4 5 6 7 8 9
科研热词概率信息检索模型条件随机场条件偏好排序属性单元事件表示事件检索事件抽取 xml
推荐指数 1 1 1 1 1 1 1 1 1
2013年序号 1 2 3 4 5 6 7 8 9 10 11
科研热词统计推断查询词权重查询分析文档生成搜索引擎分类信息检索依存句法分析主题模型 term重要性 pam
推荐指数 1 1 1 1 1 1 1 1 1 1 1
2009年序号 1 2 3 4 5
科研热词辨识确定型属性相似度概率分布型属性时变对象
推荐指数 1 1 1 1 1
2011年序号 1 2 3 4 5 6 7 8
科研热词推荐指数音乐流派分类 1 音乐标签 1 统计主题模型 1 特征选择 1 标签预测 1 标签系统 1 基于特征间相互影响的前向特征选择算法(ibffs) 1 型 1

试述布尔模型、向量空间模型及概率模型的工作原理及其优缺点

试述布尔模型、向量空间模型及概率模型的工作原理及其优缺点布尔模型：布尔模型是信息检索中一种有效的文本表示方法，它将文档表示为一系列由词语组成的集合，这些词语是从文档中提取出来的。

它不考虑文字在文档中的位置，也不考虑文字的相关性，只重视文档中是否出现这个词语。

优点：1.布尔模型可以通过词语之间的简单逻辑运算（如与、或、非等）和组合来检索出精确的信息。

2.它可以有效地处理空查询，因为它不依赖单词的排列顺序。

3.它可以快速地检索大规模的文档，因为它只需要检查文档中是否出现索引词。

缺点：1. 布尔模型不能有效地处理同义词和近义词的检索，因为它不考虑文本的上下文。

2. 布尔模型对文档的分类和排序没有任何作用，因为它不考虑文档的内容。

向量空间模型：向量空间模型是一种基于向量空间理论的文本表示方法，它将文档表示为一组“特征-值”对，其中特征是词语，值是权值，通过这种表示方法把文档转换成一个向量。

它考虑文档中词语的频率，以及这些词语在文档中出现的位置等信息，以计算出权值。

优点：1. 向量空间模型可以有效地处理同义词和近义词的检索，因为它考虑了文本的上下文。

2. 向量空间模型可以根据文档的内容对文档进行分类和排序，因为它考虑了文档的内容。

缺点：1. 计算复杂度较高，因为它需要计算每个词语的权值。

2. 向量空间模型无法处理空查询，因为它依赖于单词的频率和排列顺序。

概率模型：概率模型是一种基于概率理论的信息检索模型，它根据文档内容计算出词语的概率。

它考虑文档中词语的频率，以及这些词语在文档中出现的位置等信息，以计算出概率。

优点：1. 概率模型可以有效地处理同义词和近义词的检索，因为它考虑了文本的上下文。

2. 概率模型可以根据文档的内容对文档进行分类和排序，因为它考虑了文档的内容。

缺点：1. 计算复杂度较高，因为它需要计算每个词语的概率。

2. 概率模型无法处理空查询，因为它依赖于单词的频率和排列顺序。

信息检索

信息检索
信息检索与信息组织信息组织：描述信息资源或信息对象。信息检索：发现适当的信息资源或信息对象。互逆的过程：

存储、收藏-----标引
提取、利用-----检索
目录
1. 2. 3.
信息检索的沿革与发展信息检索的职能与范围信息检索的技术与方法
信信性信信息息息息检检检检索索索索的的的的模发类涵型展型义历与程特
信息检索的沿革与发展：4.信息检索的模型

q = 病毒 AND （计算机 OR 电脑）AND NOT医
d1:
…据报道，计算机病毒近日猖獗… d2: …小王虽然是学医的，但对研究电脑病毒也很感兴趣，最近发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径…

哪些文档会被检索出来？

进行抽象描述，用于信息检索过程。
用户提问匹配？信息集文档
信息检索的沿革与发展：4.信息检索的模型

信息检索模型决定于：
从什么样的视角
去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度
信息检索的沿革与发展：4.信息检索的模型

布尔逻辑检索模型：Boolean Retrieval Model, BRM 文档表示：一个文档被表示为关键词的集合查询式表示：查询式(Queries)被表示为关键词的布尔组合用“与或非”连接起来，并用括弧指示优先次序匹配
பைடு நூலகம்
与：AND，* 或：OR，+ 非：NOT，—，

一个文档当且仅当它能够满足布尔查询式时，才将其检索出来

信息检索模型

例子：
q = 病毒 AND （计算机 OR 电脑）AND NOT医 d1: …据报道，计算机病毒近日猖獗… d2: …小王虽然是学医的，但对研究电脑病毒也很感兴趣，最近发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来？
布尔模型的优点
到目前为止，布尔模型是最常用的检索模型，因为：
信息检索模型
信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关系、模型框架构成的四元组。四元组：System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的模型框架（Frame） R(dj ，qi) 给出Query qi和Document dj 的评分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and （k2 or not k3）的匹配函数值是1,即d1与提问q是相关的; d2与提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示布尔逻辑模型向量空间模型概率模型其他检索模型
什么是模型？
模型是采用数学工具，对现实世界某种事物或某种运动的抽象描述面对相同的输入，模型的输出应能够无限地逼近现实世界的输出

1第二章信息检索的数学模型(7~8学时)

2.3.1 布尔检索模型 2.3.2 模糊集合模型 2.3.3 扩展布尔检索模型
2.3.1 布尔检索模型
布尔模型是一种简单的检索模型，它建立在经典集合论和布尔代数的基础上。鉴于集合论中“集合”概念的直观性以及布尔表达式所具有的准确语义，布尔模型非常容易被用户理解和接受，在早期的大多数商业化书目检索系统中，布尔模型更是得到了广泛关注和应用。
2.3.2.1 模糊集合论的基本知识
模糊集合论对经典集合论的推广，主要表现在它把元素属于集合的概念模糊化，承认论域上存在既不完全属于某集合、又不完全不属于某集合的元素，即变经典集合论“绝对的”属于概念为“相对的”属于概念；同时，又进一步把属于概念数量化，承认论域上的不同元素对于同一集合具有不同的隶属程度，引入了隶属度（membership）的概念。模糊集合的严格定义可以表述如下：论域U到实区间[0，1]的任一映射 μA：U → [0，1] 对于任意x∈U，x →μA（x）都确定U上的一个模糊集合A，μA称做A 的隶属函数，μA（x）为元素x对A的隶属度。
1960年代末期，信息处理专家、美国著名学者萨尔顿（G. Salton）基于“部分匹配”（partial matching）策略的信息检索思想，在其开发的试验性检索系统SMART（System for Mechanical Analysis and Retrieval of Texts）中最早提出并采用线性代数的理论和方法构建出一种新型的检索模型，这就是后来广为人知的向量空间模型（Vector Space Model，简称VSM）。
接上片
所谓“局部权值”是指第i个索引词在第j篇文档中的权值；而“全局权值” 则是指第i个索引词在整个系统文档集合中的权值。现在，假设N为系统文档总数；ni为系统中含有索引词ki的文档数；freqij 为索引词ki在文档dj中的出现次数；idfi表示索引词ki的逆文档频率（inverse document frequency，简称idf或IDF）； maxtfj表示文档dj中所有索引词出现次数的最大值。那么，对于文档dj中索引词ki的权值计算方法，可以如下进行： fij = freqij / maxtfj idfi = log（N / ni） wij = fij * idfi

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索的概率模型一、综述一、信息检索技术由于以因特网为主体的信息高速公路的不断普及和发展，信息技术已经渗透到我们社会生活的各个角落，正以前所未有的速度和能力改变着我们的生活的工作方式，我们真正处于一个“信息爆炸”的时代。

一方面，因特网上面蕴含的海量信息远远超过人们的想象；另一方面，面对信息的汪洋大海，人们往往感到束手无策，无所适从，出现所谓的“信息过载”和“信息迷向”的现象。

于是一个极富挑战性的课题：如何帮助人们有效地选择和利用所感兴趣的信息，尽量剔除不相关的信息。

同时保证人们在信息选择方面的个人隐私权利？成为学术界和企业界所十分关注的焦点。

随着在线文本的日益增多，其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。

如此众多的信息，仅仅依靠大脑来收集和整理所需要的信息显然是不够的。

所以，自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。

根据不同的应用背景和不同的使用目的，信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。

由于目前网上信息的表现形式大多数为文本，而且文本也是广大用户所习惯接收的形式。

因此我们在下面主要讨论中文文本检索和相关的评价方案。

1、信息检索技术的发展信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程。

信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务项目。

1945年，Vannevar Bush的论文《就像我们可能会想的……》第一次提出了设计自动的，在大规模的存储数据中进行查找的机器的构想。

这被认为是现在信息检索技术的开山之作。

进入50年代后，研究者们开始为逐步的实现这些设想而努力。

在50年代中期，在利用电脑对文本数据进行检索的研究上，研究者取得了一些成果。

其中最有代表性的是Luhn在IBM公司的工作，他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索的方法，这种方法就是目前常用的倒排文档技术的雏形。

在著名的国际文本检索会议(Text Retrieval Conference,TREC)上，有两个最重要的研究方向：Routing Task和Ad Hoc Task。

其热点问题包括从早期的文本检索、文本过滤到当前的问题回答。

文本信息检索就是根据用户提出的具体查询，在大量相对稳定的文本源中，检索出符合用户查询条件的文本，并按其满足查询的程度排序列出。

文本检索技术的发展已经有四十多年的历史，取得了很大的成就，产生了大批实用的检索系统，积累了很多成熟的技术。

1992年，NIST(美国国家标准和技术研究所)与DARPA联合赞助了每年一次的TREC，对于文本检索和文本过滤和问题回答等专题倾注了极大的热忱。

目前随着因特网的迅速发展，需求的不断增加，文本检索以及相关技术方面取得了长足的进展，成为信息产业新的增长点。

2、信息检索技术的简介信息检索系统流程大致如下图所示：总体上，系统可分为四个部分：数据预处理，索引生成，查询处理，检索。

下面我们分别对各个部分采用的技术加以介绍。

1. 数据预处理目前检索系统的主要数据来源是Web，格式包括网页、WORD 文档、PDF 文档等，这些格式的数据除了正文内容之外，还有大量的标记信息，因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。

此外，众所周知，中文字符存在多种编码，比如GB2312、BIG5、Unicode（CJK 区），而原始数据集往往包含多种编码，因此要正确地检索到结果必须进行统一编码转换。

研究者们对预处理部分要提取哪些信息并没有共识，这与后续处理所需的信息密切相关，一般来说，正文、锚文本和链接地址都是要提取出来的。

2. 索引生成对原始数据建索引是为了快速定位查询词所在的位置，为了达到这个目的，索引的结构非常关键。

目前主流的方法是以词为单位构造倒排文档表，其结构大致如下图所示：每个文档都由一串词组成，而用户输入的查询条件通常是若干关键词，因此如果预先记录这些词出现的位置，那么只要在索引文件中找到这些词，也就找到了包含它们的文档。

为了进一步提高查询的速度，在组织索引时还可以采用一些更复杂的方法，比如B树、TRIE 树、哈希表等。

这个阶段还需要对预处理之后的文档进行词法分析，这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。

例如，中文里的词与词之间不存在分隔符，因此必须先进行分词，而英文中的词存在很多变形，比如“compute”就存在“computes”、“computing”、“computed”等多种变形，应先进行词根还原。

此外，有些词虽然出现频率很高，但对于查询没有任何帮助，比如“的”、“了”等，就无需放入索引，为此需要预备一个停用词表（stop word list）对这类词进行过滤。

3. 查询处理用户输入的查询条件可以有多种形式，包括关键词、布尔表达式、自然语言形式的描述语句甚至是文本，但如果把这些输入仅当作关键词去检索，显然不能准确把握用户的真实信息需求。

很多系统采用查询扩展来克服这一问题。

各种语言中都会存在很多同义词，比如查“计算机”的时候，包含“电脑”的结果也应一并返回，这种情况通常会采用查词典的方法解决。

但完全基于词典所能提供的信息有限，而且很多时候并不适宜简单地以同义词替换方法进行扩展，因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。

4. 检索最简单的检索系统只需要按照查询词之间的逻辑关系返回相应的文档就可以了，但这种做法显然不能表达结果与查询之间的深层关系。

为了把最符合用户需求的结果显示在前面，还需要利用各种信息对结果进行重排序。

目前有两大主流技术用于分析结果和查询的相关性：链接分析和基于内容的计算。

许多研究者发现，WWW 上超链结构是个非常丰富和重要的资源，如果能够充分利用的话，可以极大地提高检索结果的质量。

基于这种链接分析的思想，Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法，同年J.Kleinberg 提出了HITS 算法，其它一些学者也相继提出了另外的链接分析算法，如SALSA，PHITS，Bayesian等算法。

这些算法有的已经在实际的系统中实现和使用，并且取得了良好的效果。

而基于内容的计算则沿用传统的文本分类方法，多采用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度（相关性）。

两者各有优缺点，而且恰好互补。

链接分析充分利用了Web 上丰富的链接结构信息，但它很少考虑网页本身的内容，而直观上看，基于内容的计算则较为深入地揭示了查询和结果之间的语义关系，但忽略了不同网页之间的指向关系，因此现在很多系统尝试把两者结合起来，以达到更好的性能。

3、信息检索技术的模型信息检索模型可形式化地表示成为一个四元组< D, Q, F, R(qi,dj) >，D是一个文档集合，Q是一个查询集合，F是一个对文档和查询建模的框架，R(qi,dj) 是一个排序函数，它给查询qi和文档dj 之间的相关度赋予一个排序值。

3.1、布尔模型所谓布尔检索, 就是采用布尔代数的方法, 用布尔表达式表示用户提问, 通过对文本标识与用户给出的检索式进行逻辑比较来检索文本。

设文本集D 中某一文本i, 该文本可表示为:Di = ( t1 , t2, ⋯, tm) ,其中, t1 , t 2, ⋯, t m 为标引词, 用以反映i 的内容。

另设用户某一检索式如下:Qj = ( t1 ∧t 2) ∨( t3 ∧( t4) ) .对于该检索式, 系统响应并输出的一组文本应为: 它们都含有标引词t1 和t2 , 或者含有标引词t 3, 但不含有标引词t 4。

布尔检索具有简单、易理解、易实现等优点, 故得到广泛的应用。

1967年后, 布尔检索模型正式被大型文献检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式, 服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。

尽管布尔检索有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点。

( 1) 布尔逻辑式的构造不易全面反映用户的需求。

用标引词的简单组配不能完全反映用户的实际需要, 用户需要那一方面内容的文本, 需要到多大程度, 这是检索式无法表达清楚的, 如对上述检索式, t1 和t2 , 究竟用户希望能得到更多地反映t1 内容的文本还是反映t2 内容的文本, 传统的布尔检索无法解决此问题。

( 2) 匹配标准存在某些不合理的地方。

例如, 在响应某个用“∧”连接的检索时, 系统把只含有其中一个或数个但非全部检索词的文本看作与那些根本不含有其中一个检索词的文本一样差, 同样加以排除; 另一方面, 用响应某个用“∨”连接的检索式时, 系统都不能把含有所有这些检索词的文本看作比那些只含有其中一个检索词的文本更好一些。

( 3) 检索结果不能按照用户定义的重要性排序输出。

系统检索输出的文本中, 排在第一位的文本不一定是文本集中最适合用户需要的文本, 用户只能从头到尾浏览才能知道输出文本中那些更适合自己的需要。

针对于标准的布尔模型中文献表达形式过于简单、检索条件过于严格而出现的问题，人们对其采取了扩充和修改，提出了扩展的布尔模型。

如Salton 于1983年提出的一种所谓的扩展布尔检索模型, 它是将向量检索模型与布尔检索模型融为一体, 并克服了传统希尔模型的一些缺陷, 下面我们用矢量的方法来讨论布尔检索。

设文本集中每篇文本仅由两个标引词t1 和t2 标引, 并且t1、t2允许赋以权值, 其权值范围为[ 0, 1] , 权值越接近1, 说明该词越能反映文本的内容, 反之, 越不能反映文本的内容, 在Salton 模型中, 上述情形用平面坐标系上某点代表某一文本和用户给出的检索式, 如图：图中的横、纵坐标用t1、t2 表示, 其中A( 0, 1) 表示词t1 权值为0, 词t 2 权值为1 的文本, B( 1, 0) 表示词t 1权值为1, 词t 2 权值为0 的文本, C( 1, 1) 表示词t 1、t 2 的权值均为1 的文本, 文本集D 中凡是可以用t 1、t 2 标引的文本可以用四边形OACB 中某一点表示, 同样, 用户给出检索式后, 也可用四边形OACB 中某一点表示。

下面我们来看看Salton 模型中是如何构造相似度计算式的。

对于由t1 和t2 构成的检索式q = t1 ∨ t2 , 在图1中只有A 、B 、C 3点所代表的各文本才是最理想的文本, 对于某一文本D 来说, 当D 点离A 、B 、C 3点越接近时说明相似度越大，或者说，当D 点离O 点越远时，相似度越大。