现代信息检索第3章-IR模型(再次再次修正版)

合集下载

2019-2020年人教统编信息检索课件第3章课件

3.1.1因特网基础
1997年—今，是Internet在我国最为快速发展的阶段。国内Internet用户数97年以后基本保持每半年翻一番的增长速度。
2010年7月15日，中国互联网络信息中心（CNNIC）在京发布了《第26次中国互联网络发展状况统计报告》（以下简称《报告》）。《报告》数据显示，截至 2010年6月，我国网民规模已达4.2亿，互联网普及率进一步提升，达到31.8%。我国手机网民半年内新增 4334万，达到 2.77亿人，增幅为18.6%。手机上网已成为我国互联网用户的新增长点。
3.1.1因特网基础
手机网民成为拉动中国总体网民规模攀升的主要动力。《报告》显示，截至2010年6月底，手机网民用户达到 2.77亿，在整体网民中的占比攀升至 65.9%，相比2009年底增加了4334万人，增幅达18.6%，其中，大约有4914万的网民只使用手机上网，占网民总数的11.7%。移动互联网展现出了巨大的发展潜力。
3.1.1因特网基础
1994年—1996年，起步阶段。1994年4月，中关村地区教育与科研示范网络工程进入Internet，从此中国被国际上正式承认为有Internet的国家。之后， Chinanet、CERnet、CSTnet、Chinagbnet等多个 Internet网络项目在全国范围相继启动，Internet开始进入公众生活，并在中国得到了迅速的发展。至 1996年底，中国Internet用户数已达20万，利用 Internet开展的业务与应用逐步增多。
如Medical World Search、Medical Matrix等。
3.1.3 Web通用检索工具
2.工作原理
定期运行搜索软件,收集信息。利用索引软件进行自动标引,建立数据库。在Web上建立检索界面，由用户输入检索式。通过检索软件进行检索，给出结果。

现代信息检索教程第三章(中文10春)

返回目录
检索方法全国报刊索引》编排方式是按类编排，《全国报刊索引》编排方式是按类编排，同时每期后面附有著者索引，面附有著者索引，因此该检索工具的检索途径主要有分类途径和著者途径。类途径和著者途径。检索有关国内“音乐事业”的文献。例：检索有关国内“音乐事业”的文献。检索工具《全国报刊索引》哲社版2008 12期 2008第 ①检索工具《全国报刊索引》哲社版2008第12期检索途径： ②检索途径：分类途径检索过程：查分类目录，一级类艺术J ③检索过程：查分类目录，一级类艺术J，二级类为 J6音乐，其下又有三级类J69音乐事业，页码P295，翻 J6音乐其下又有三级类J69音乐事业页码P295，音乐，音乐事业，到该处浏览， P295得篇文献是切题的。到该处浏览，在P295得3篇文献是切题的。检索结果：篇相关文献，顺序号为：081217152、 ④检索结果：得3篇相关文献，顺序号为：081217152、 081217153、 081217154。 081217153、 081217154。
返回目录
4．其它重要百科全书钱伯斯百科全书》《钱伯斯百科全书》、《美国学术百科全世界图书百科全书》书》、《世界图书百科全书》、《计算机科学与技术百科全书》、《柯克-奥斯莫化科学与技术百科全书》柯克工大全》）、《布罗克豪斯百科全书》工大全》）、《布罗克豪斯百科全书》、拉鲁斯大百科全书》《拉鲁斯大百科全书》、《苏联大百科全书》等。
返回目录
百科全书（Encyclopedia）二、百科全书（Encyclopedia）百科全书是汇总浓缩人类所有知识门类或某一知识门类的全部知识、识门类的全部知识、按辞典形式编排的大型参考工具书。以其知识广博、资料精确、释文严谨、工具书。以其知识广博、资料精确、释文严谨、文字简明、体例严密，文字简明、体例严密，以及兼具多种参考工具书功能的特质，被称为“工具书之王” 功能的特质，被称为“工具书之王”、“精简的没有围墙的大学” 图书馆” 图书馆”、“没有围墙的大学”，是参考工具书中最重要的类型，中最重要的类型，已成为衡量一个国家科学文化发展的尺度之一。发展的尺度之一。

信息检索与利用-第三章

中国古代字书（字典、词典）

以字形为系——《说文解字》系统继（东汉）许慎《说文解字》后，主要有晋吕忱《字林》、北魏江式《古今文字》、南北朝梁顾野王《玉篇》、宋司马光的《类篇》、明梅膺祚的《字汇》、清张自烈的《正字通》和张玉书等奉敕编纂的《康熙字典》等。以字音为系——韵书系统韵书的特点是对汉字审音辨韵，依韵编排。主要有三国魏李登的《声类》、晋吕静的《韵集》、南北朝梁周颙的《四声切韵》和沈约的《四声谱》、隋陆法言的《切韵》、宋陈彭年等人的《广韵》和丁度等人的《集韵》、金王文郁的《平水新刊礼部韵略》、元熊忠的《古今韵会举要》、明乐韶风的《洪武正韵》、清李光地的《音韵阐微》等。以字义为系——雅类系统相传汉初学者缀辑周汉诸书旧文而成《尔雅》，是按事物性质将汉字分门别类加以解释的字书，晋代郭璞和宋代邢昺为之注疏。有汉孔鲋《小尔雅》和刘熙的《释名》（《逸雅》）、三国魏张揖《广雅》、宋陆佃的《埤雅》和罗愿的《尔雅翼》、明朱谋玮的《骈雅》和方以智的《通雅》、清吴王搢的《别雅》和史梦兰的《叠雅》等。
一、书目
（二）书目的类型
古典书目：有官修书目、史志目录、私家书目、版本目录、推
荐书目等。汉朝刘向在典校古籍时，撰有《别录》。后来，他的儿子刘歆以《别录》为基础撰成《七略》，这是我国第一部分类目录。
一、书目
现代书目：
1. 登记书目、通报书目、新书目录、推荐性书目、书目之书目 2. 综合性书目、专题（学科）书目、地方文献书目、个人著述目录 3. 馆藏目录、联合目录 4. 现行书目、回溯性书目、新书预告目录、古籍目录 5. 图书目录、报纸目录、期刊目录、丛书目录、方志目录、乐谱目录、非书资料目录 6. 印刷型书目、机读目录、网络版书目

《信息检索模型》PPT课件

索引词（标引词，关键祠）:可以用于指代文档内容的预选词语,一般为名词或名词词组.
词干提取（英文中）
countries => country，interesting => interest
组合词: 北京大学
中文分词（word segmentation），或称切词，主要在中文信息
处理中使用，即把一句话分成一个词的序列。如，“网络与分
任何命题公式的主析取范式都是存在的，并且是唯一的。
精选课件ppt
18
布尔检索模型
首先，将查询转化为一个析取范式DNF
范式存在定理任一命题公式都存在着与之等值的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式定义形如A＝A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项记为：∑（m1m2……m2n-1)
极小项在n个变元的简单合取式中，若每个变元与其否定不同时存在，而二者之一必出现且仅出现一次，这种合取式叫做极小项
检索: 用特别检索户过滤任务
浏览
布尔模型向量模型概率模型
结构化模型非重叠链表模型邻近结点模型
代数模型广义向量模型潜语义标引模型神经网络模型
概率模型推理网络模型信任度网络模型
浏览
扁平式模型结构导向模型超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型向量空间模型经典概率模型
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型，它建立在经典的集合论和布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为 0或1。

IR 计算模型

• 设 – N 所有文档个数 – ni 包含标记词 ki 的文档个数 – freq(i,j) dj 中标记词 ki 出现的个数 • 范式化的 tf 定义为 – tf(i,j) = freq(i,j) / max(freq(l,j)) – 其中max(freq(l,j)) 是文档dj 中出现最高频率词的频率。 – idf 定义为 – idf(i) = log (N/ni) – 使用 log 主要为了更好地使 tf 和 idf 匹配，因为N可能很大。

文本

词汇集合

Image

文本+image 的特征（feature)
图像帧序列以及音频

Video

文本文档逻辑视图
• D是一个文档集合，通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取，也可以是由人主观指定。
倒排文档表示方法
Inverted Files
Word-Level Inverted File
文档的向量空间模型
• •词典, ∑={k1,k2,…kt} • •d=<w1,w2,…wt > • –此时，变量wi称为权值，非负；表示对应词项ki对于判断d和查询q相关性的重要程度（注意，这里的q是一般的，而d是具体的） • •q=<v1,v2,…vt> • –变量vi的含义类似于wi • •两个基本问题：如何定义wi和vi；如何计算 R(d,q)？

如用利用文档关键词集合的交集与并集的比。

相似度往往被用做作为相关度的近似，因为计算机难以理解文档的内容。
经典的信息检索

基本假设：

每篇文档都可以用一组有代表性的关键词（标引词index term)表示。 =>每个文档可以用集合或向量表示出来标记词一般是名词，因为名词含有语义。但实际上很多情况下是文档的所有非停用词都作为标记词。问题词频的影响？

信息检索模型

例子：
q = 病毒 AND （计算机 OR 电脑）AND NOT医 d1: …据报道，计算机病毒近日猖獗… d2: …小王虽然是学医的，但对研究电脑病毒也很感兴趣，最近发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来？
布尔模型的优点
到目前为止，布尔模型是最常用的检索模型，因为：
信息检索模型
信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关系、模型框架构成的四元组。四元组：System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的模型框架（Frame） R(dj ，qi) 给出Query qi和Document dj 的评分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and （k2 or not k3）的匹配函数值是1,即d1与提问q是相关的; d2与提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示布尔逻辑模型向量空间模型概率模型其他检索模型
什么是模型？
模型是采用数学工具，对现实世界某种事物或某种运动的抽象描述面对相同的输入，模型的输出应能够无限地逼近现实世界的输出

现代信息检索简明教程第三章PPT课件

第三章计算机信息检索概述
本章的主要内容为：计算机信息检索的发展过程、计算机信息检索系统的组成和工作原理、计算机检索的策略。
1
第一节计算机信息检索的发展过程
计算机信息检索的发展过程主要内容包括：
计算机信息检索技术的发展计算机信息检索技术的特征
2
一、计算机信息检索技术的发展
14
数据库类型
(1) 参考数据库(reference database)
数目数据库(bibliographic 指南数据库(referral
database)
database)
15
(2) 源数据库(source database)

数值数据库(numeric database) 文本—数值数据库(textual-numeric database)
辅助功能完善
4
第二节计算机信息检索系统的组成和工作原理
一、计算机信息检索系统的组成
(一) 计算机信息检索系统
一个完整的信息检索系统，通常由信息源、信息组织管理、系统功能、用户接口和系统支持技术等几个有机部分组成。
5
1. 信息源
信息源是指计算机检索系统信息或数据的来源。信息检索系统中的数据主要来自各种公开文献，如一次文献中的期刊、图书、研究报告、会议论文、专科文献、政府出版物、学位论文；二次文献中的摘要、索引和目录；三次文献中的百科全书、专科词典、名录、指南、手册等。

23
4. 传输环节
传输子系统的功能主要是通过计算机与通信线路的连接，完成信息编码的传递、转接、接收与处理等工作。
12
联机系统软件构成的示意图
通讯管理程序

现代信息检索第3章-IR模型(再次再次修正版)

中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF：Term在文档中出现的次数，TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化：将一篇文档中所有Term的TF值归一化到[0,1]之间。通常可以采用以下三种方式之一：
Maximum Normalization
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展，也提出了很多公式，下面是一个最常用的公式：
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A，可以定义函数：
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度，当隶属度为1时， x属于A，当隶属度为0时，x不属于A，该函数是二值函数例子：“大于1的实数”用集合表示为 A={x|x>1, x∈R}

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索模型分类
从所使用的数学方法上分：
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
TFdoc TFq IDF
公式(1)
长度规整
中国科学院研究生院课程2006
向量空间模型(9)
优点：
简洁直观，可以应用到很多其他领域(文本分类、生物信息学)。支持部分匹配和近似匹配，结果可以排序检索效果不错
缺点：
理论上不够：基于直觉的经验性公式标引项之间的独立性假设与实际不符：实际上， Term的出现之间是有关系的，不是完全独立的。如：“王励勤” “乒乓球”的出现不是独立的。
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
i
t1 d
i
d •q Cosine: Sim( d , q ) = = || d || × || q ||
∑ (a
i i i
× bi )
q
2 i i
∑a ×∑b
2 i
t2
Dice:
Sim( d , q ) =
2×d •q = || d ||2 + || q ||2
2∑ (ai × bi ) ai 2 + ∑ bi 2 ∑
中国科学院研究生院课程2006
向量空间模型(6)
权重计算(4)
对TF进行缓冲：1+log(TF), 1+log(1+log(TF)) 对DF进行缓冲：1+log(N/DF) log的作用：将值域拉平，使得函数的变化更平缓
中国科学院研究生院课程2006
向量空间模型(7)
相似度计算
Dot: Sim( d , q ) = d • q = ∑ (ai × bi )
中国科学院研究生院课程2006
布尔模型匹配的集合表示
2006 世界杯
2006 AND 世界杯 AND NOT 小组赛
小组赛
中国科学院研究生院课程2006
布尔模型(3)
形式化表示：
任一布尔查询都可以写成析取范式(DNF)：如 q=a∧(b∨¬c)=abc∨ab ¬ c∨a ¬ b ¬ c
qbnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0) 任一文本可以写成所有Term的交，如 doc=a ∧ b ∧ c ∧ d ∧ e 因为doc q，所以相似度为1
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展，也提出了很多公式，下面是一个最常用的公式：
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
布尔模型(1)--Boolean Model
布尔变量：只有“真”、“假”取值的变量
如：命题一篇文档中存在“世界杯”这个词的结果变量就是一个布尔变量。计算机中常常用1表示“真”，0表示“假”
布尔操作(关系)：
布尔模型回顾
查询为布尔表达式，每个文档也是布尔表达式，相似度计算的过程实际是布尔表达式的匹配过程，结果要么是1要么是0。缺点：不能对结果进行排序，不支持部分匹配和模糊匹配。以下讲到的基于模糊集的IR模型和扩展布尔模型都是针对上述缺点对原始布尔模型进行改进。
中国科学院研究生院课程2006
查询q：2006 世界杯举办地文档d1：2006 世界杯在德国举行，本届世界杯的冠军是意大利队。文档d2：2002 世界杯在韩国和日本举行，最后的冠军得主是巴西队。
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分：
基于集合论的IR模型(Set Theoretic models)
N IDF = DF
向量空间模型中通常采用TF*IDF的方式计算权重。
中国科学院研究生院课程2006
向量空间模型(长，d1包含一个主题A，d2包含多个主题A、B、C，对于主题A，两篇文档中出现的词频率信息相似，那么Cosine归一化之后d2中和A相关的词权值偏低(分母较大)，因此，检索时，短文档d1优先。 Pivoted Normalization：对短文档进行惩罚，对长文档进行补偿，保持公平性。
现代信息检索 Modern Information Retrieval
第三章信息检索模型(IR models) 授课人：王斌 wangbin@ /~wangbin/ 2006年9月
中国科学院研究生院课程2006
提纲
模型定义及分类布尔模型向量空间模型概率模型统计语言建模IR模型
中国科学院研究生院课程2006
布尔模型(4)
课堂思考题：
想查关于今年超女 5进4 比赛的新闻，用布尔模型怎么构造查询？
中国科学院研究生院课程2006
我的解答
(2006 OR 今年) AND (超级女声 OR 超女 OR 超级女生) AND (6进5 OR 六进五 OR 六 AND 进 AND 五) 表达式相当复杂，构造困难！不严格的话结果过多，而且很多不相关；非常严格的话结果会很少，漏掉很多结果。
只能严格匹配(得分不是0就是1)，不能近似或者部分匹配，多个结果无法排序一般用户构造查询不是很容易，构造不利可能造成结果过多或者过少
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分：
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A，可以定义函数：
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度，当隶属度为1时， x属于A，当隶属度为0时，x不属于A，该函数是二值函数例子：“大于1的实数”用集合表示为 A={x|x>1, x∈R}
中国科学院研究生院课程2006
查询和文档进行向量的相似度计算：夹角余弦或者内积
向量空间模型(2)
标引项(Term)的选择：
标引项必须是能代表文档的特征单位可以是字、词、短语、N-gram或者某种语义单元(比如：所有同义词作为1维)，最简单的是采用全文标引(full text indexing)，即用文档中出现的所有的字或者词作为标引词。采用全文标引，向量的维数很大(以中文词索引为例，向量维数会上10万)，而且引入了很多噪音。因此，实际应用中，会采用一些降维策略(如：去停用词、对英文进行词干还原、只选择名词作为Term、 Term组等等)
文档表示成多个Term的集合通常用词来表示，但是也可以用其他语言单位来表示 Term可以看成关键词 (key words)
标引项的权重(Weight)
不同标引项作用是不同的通过权重加以区分
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分：
基于集合论的IR模型(Set Theoretic models)
中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF：Term在文档中出现的次数，TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化：将一篇文档中所有Term的TF值归一化到[0,1]之间。通常可以采用以下三种方式之一：
Maximum Normalization
中国科学院研究生院课程2006
布尔模型(2)
布尔模型：查询和文档均表示为布尔表达式，其中文档表示成所有词的“与”关系。
例子：
查询： 2006 AND 世界杯 AND NOT 小组赛文档1： 2006年世界杯在德国举行。文档2： 2006年世界杯小组赛已经结束。
相似度计算：查询布尔表达式和所有文档的布尔表达式进行匹配，匹配成功得分为1，否则为0。类似于传统数据库检索，是精确匹配
中国科学院研究生院课程2006
信息检索模型
信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。
原始查询查询表示文档表示原始文档
相关度计算
中国科学院研究生院课程2006
相关概念
标引项(Index Term)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
向量空间模型(1)
向量空间模型(Vector Space Model)是康奈尔大学 Salton 1970年代提出并倡导，原型系统SMART 查询和文档都转化成标引项(Term)及其权重组成的向量表示，都可以看成空间中的点