现代信息检索第3章-IR模型(再次再次修正版)
合集下载
2019-2020年人教统编信息检索课件第3章课件

3.1.1因特网基础
1997年—今,是Internet在我国最为快速发展的阶 段。国内Internet用户数97年以后基本保持每半年翻 一番的增长速度。
2010年7月15日,中国互联网络信息中心(CNNIC)在 京发布了《第26次中国互联网络发展状况统计报告》 (以下简称《报告》)。《报告》数据显示,截至 2010年6月,我国网民规模已达4.2亿,互联网普及率 进一步提升,达到31.8%。我国手机网民半年内新增 4334万,达到 2.77亿人,增幅为18.6%。手机上网已 成为我国互联网用户的新增长点。
3.1.1因特网基础
手机网民成为拉动中国总体网民规模攀升的主要动力。 《报告》显示,截至2010年6月底,手机网民用户达到 2.77亿,在整体网民中的占比攀升至 65.9%,相比2009年 底增加了4334万人,增幅达18.6%,其中,大约有4914万 的网民只使用手机上网,占网民总数的11.7%。移动互联 网展现出了巨大的发展潜力。
3.1.1因特网基础
1994年—1996年,起步阶段。1994年4月,中关村地区 教育与科研示范网络工程进入Internet,从此中国被 国际上正式承认为有Internet的国家。之后, Chinanet、CERnet、CSTnet、Chinagbnet等多个 Internet网络项目在全国范围相继启动,Internet开 始进入公众生活,并在中国得到了迅速的发展。至 1996年底,中国Internet用户数已达20万,利用 Internet开展的业务与应用逐步增多。
如Medical World Search、Medical Matrix等。
3.1.3 Web通用检索工具
2.工作原理
定期运行搜索软件,收集信息。 利用索引软件进行自动标引,建立数据库。 在Web上建立检索界面,由用户输入检索式。 通过检索软件进行检索,给出结果。
现代信息检索教程第三章(中文10春)

返回目 录
检索方法 全国报刊索引》编排方式是按类编排, 《全国报刊索引》编排方式是按类编排,同时每期后 面附有著者索引, 面附有著者索引,因此该检索工具的检索途径主要有分 类途径和著者途径。 类途径和著者途径。 检索有关国内“音乐事业”的文献。 例:检索有关国内“音乐事业”的文献。 检索工具《全国报刊索引》哲社版2008 12期 2008第 ①检索工具《全国报刊索引》哲社版2008第12期 检索途径: ②检索途径:分类途径 检索过程:查分类目录,一级类艺术J ③检索过程:查分类目录,一级类艺术J,二级类为 J6音乐,其下又有三级类J69音乐事业,页码P295,翻 J6音乐 其下又有三级类J69音乐事业 页码P295, 音乐, 音乐事业, 到该处浏览, P295得 篇文献是切题的。 到该处浏览,在P295得3篇文献是切题的。 检索结果: 篇相关文献,顺序号为:081217152、 ④检索结果:得3篇相关文献,顺序号为:081217152、 081217153、 081217154。 081217153、 081217154。
返回目 录
4.其它重要百科全书 钱伯斯百科全书》 《钱伯斯百科全书》、《美国学术百科全 世界图书百科全书》 书》、《世界图书百科全书》、《计算机 科学与技术百科全书》、《柯克-奥斯莫化 科学与技术百科全书》 柯克工大全》)、《布罗克豪斯百科全书》 工大全》)、《布罗克豪斯百科全书》、 拉鲁斯大百科全书》 《拉鲁斯大百科全书》、《苏联大百科全 书 》 等。
返回目 录
百科全书(Encyclopedia) 二、百科全书(Encyclopedia) 百科全书是汇总浓缩人类所有知识门类或某一知 识门类的全部知识、 识门类的全部知识、按辞典形式编排的大型参考 工具书。以其知识广博、资料精确、释文严谨、 工具书。以其知识广博、资料精确、释文严谨、 文字简明、体例严密, 文字简明、体例严密,以及兼具多种参考工具书 功能的特质,被称为“工具书之王” 功能的特质,被称为“工具书之王”、“精简的 没有围墙的大学” 图书馆” 图书馆”、“没有围墙的大学”,是参考工具书 中最重要的类型, 中最重要的类型,已成为衡量一个国家科学文化 发展的尺度之一。 发展的尺度之一。
检索方法 全国报刊索引》编排方式是按类编排, 《全国报刊索引》编排方式是按类编排,同时每期后 面附有著者索引, 面附有著者索引,因此该检索工具的检索途径主要有分 类途径和著者途径。 类途径和著者途径。 检索有关国内“音乐事业”的文献。 例:检索有关国内“音乐事业”的文献。 检索工具《全国报刊索引》哲社版2008 12期 2008第 ①检索工具《全国报刊索引》哲社版2008第12期 检索途径: ②检索途径:分类途径 检索过程:查分类目录,一级类艺术J ③检索过程:查分类目录,一级类艺术J,二级类为 J6音乐,其下又有三级类J69音乐事业,页码P295,翻 J6音乐 其下又有三级类J69音乐事业 页码P295, 音乐, 音乐事业, 到该处浏览, P295得 篇文献是切题的。 到该处浏览,在P295得3篇文献是切题的。 检索结果: 篇相关文献,顺序号为:081217152、 ④检索结果:得3篇相关文献,顺序号为:081217152、 081217153、 081217154。 081217153、 081217154。
返回目 录
4.其它重要百科全书 钱伯斯百科全书》 《钱伯斯百科全书》、《美国学术百科全 世界图书百科全书》 书》、《世界图书百科全书》、《计算机 科学与技术百科全书》、《柯克-奥斯莫化 科学与技术百科全书》 柯克工大全》)、《布罗克豪斯百科全书》 工大全》)、《布罗克豪斯百科全书》、 拉鲁斯大百科全书》 《拉鲁斯大百科全书》、《苏联大百科全 书 》 等。
返回目 录
百科全书(Encyclopedia) 二、百科全书(Encyclopedia) 百科全书是汇总浓缩人类所有知识门类或某一知 识门类的全部知识、 识门类的全部知识、按辞典形式编排的大型参考 工具书。以其知识广博、资料精确、释文严谨、 工具书。以其知识广博、资料精确、释文严谨、 文字简明、体例严密, 文字简明、体例严密,以及兼具多种参考工具书 功能的特质,被称为“工具书之王” 功能的特质,被称为“工具书之王”、“精简的 没有围墙的大学” 图书馆” 图书馆”、“没有围墙的大学”,是参考工具书 中最重要的类型, 中最重要的类型,已成为衡量一个国家科学文化 发展的尺度之一。 发展的尺度之一。
信息检索与利用-第三章

中国古代字书(字典、词典)
以字形为系——《说文解字》系统 继(东汉)许慎《说文解字》后,主要有晋吕忱《字林》、北魏江 式《古今文字》、南北朝梁顾野王《玉篇》、宋司马光的《类篇》、明 梅膺祚的《字汇》、清张自烈的《正字通》和张玉书等奉敕编纂的《康 熙字典》等。 以字音为系——韵书系统 韵书的特点是对汉字审音辨韵,依韵编排。主要有三国魏李登的 《声类》、晋吕静的《韵集》、南北朝梁周颙的《四声切韵》和沈约的 《四声谱》、隋陆法言的《切韵》、宋陈彭年等人的《广韵》和丁度等 人的《集韵》、金王文郁的《平水新刊礼部韵略》、元熊忠的《古今韵 会举要》、明乐韶风的《洪武正韵》、清李光地的《音韵阐微》等。 以字义为系——雅类系统 相传汉初学者缀辑周汉诸书旧文而成《尔雅》,是按事物性质将汉 字分门别类加以解释的字书,晋代郭璞和宋代邢昺为之注疏。有汉孔鲋 《小尔雅》和刘熙的《释名》(《逸雅》)、三国魏张揖《广雅》、宋 陆佃的《埤雅》和罗愿的《尔雅翼》、明朱谋玮的《骈雅》和方以智的 《通雅》、清吴王搢的《别雅》和史梦兰的《叠雅》等。
一、书 目
(二)书目的类型
古典书目:有官修书目、史志目录、私家书目、版本目录、推
荐书目等。 汉朝刘向在典校古籍时,撰有《别录》。后来,他的儿子刘歆以 《别录》为基础撰成《七略》,这是我国第一部分类目录。
一、书 目
现代书目:
1. 登记书目、通报书目、新书目录、推荐 性书目、书目之书目 2. 综合性书目、专题(学科)书目、地 方文献书目、个人著述目录 3. 馆藏目录、联合目录 4. 现行书目、回溯性书目、新书预告目 录、古籍目录 5. 图书目录、报纸目录、期刊目录、丛 书目录、方志目录、乐谱目录、非书资料目 录 6. 印刷型书目、机读目录、网络版书目
《信息检索模型》PPT课件

索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分
任何命题公式的主析取范式都是存在的, 并且是唯一的。
精选课件ppt
18
布尔检索模型
首先,将查询转化为一个析取范式DNF
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
检索: 用 特别检索 户 过滤 任 务
浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。
IR 计算模型

• 设 – N 所有文档个数 – ni 包含标记词 ki 的文档个数 – freq(i,j) dj 中 标记词 ki 出现的个数 • 范式化的 tf 定义为 – tf(i,j) = freq(i,j) / max(freq(l,j)) – 其中max(freq(l,j)) 是文档dj 中出现最高频率词的频 率。 – idf 定义为 – idf(i) = log (N/ni) – 使用 log 主要为了更好地使 tf 和 idf 匹配,因为N可 能很大。
文本
词汇集合
Image
文本+image 的特征(feature)
图像帧序列以及音频
Video
文本文档逻辑视图
• D是一个文档集合,通常由文档逻辑视图来表示。可以 是一组索引词或关键词。既可以自动提取,也可以是由 人主观指定。
倒排文档表示方法
Inverted Files
Word-Level Inverted File
文档的向量空间模型
• •词典, ∑={k1,k2,…kt} • •d=<w1,w2,…wt > • –此时,变量wi称为权值,非负;表示对应 词项ki对于判断d和查询q相关性的重要程度 (注意,这里的q是一般的,而d是具体的) • •q=<v1,v2,…vt> • –变量vi的含义类似于wi • •两个基本问题:如何定义wi和vi;如何计算 R(d,q)?
如用利用文档关键词集合的交集与并集的比。
相似度往往被用做作为相关度的近似,因为计算 机难以理解文档的内容。
经典的信息检索
基本假设:
每篇文档都可以用一组有代表性的关键词(标 引词index term)表示。 =>每个文档可以用集合 或向量表示出来 标记词一般是名词,因为名词含有语义。但实 际上很多情况下是文档的所有非停用词都作为 标记词。 问题词频的影响?
信息检索模型

例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出
现代信息检索简明教程第三章PPT课件

第三章 计算机信息检索概述
本章的主要内容为:计算 机信息检索的发展过程 、计 算机信息检索系统的组成和工 作原理、计算机检索的策略 。
1
第一节 计算机信息检索的发展过程
计算机信息检索的发展过程主要内容 包括:
计算机信息检索技术的发展 计算机信息检索技术的特征
2
一、计算机信息检索技术的发展
14
数据库类型
(1) 参考数据库(reference database)
数目数据库(bibliographic 指南数据库(referral
database)
database)
15
(2) 源数据库(source database)
数值数据库(numeric database) 文本—数值数据库(textual-numeric database)
辅助功能完善
4
第二节 计算机信息检索系统的组成和工作原理
一、计算机信息检索系统的组成
(一) 计算机信息检索系统
一个完整的信息检索系统,通常由信息源、 信息组织管理、系统功能、用户接口和系统支 持技术等几个有机部分组成。
5
1. 信息源
信息源是指计算机检索系统信息或数据 的来源。信息检索系统中的数据主要来自各 种公开文献,如一次文献中的期刊、图书、 研究报告、会议论文、专科文献、政府出版 物、学位论文;二次文献中的摘要、索引和 目录;三次文献中的百科全书、专科词典、 名录、指南、手册等。
23
4. 传输环节
传输子系统的功能主要是通过计算机与通 信线路的连接,完成信息编码的传递、转接、 接收与处理等工作。
12
联机系统软件构成的示意图
通 讯 管 理 程 序
本章的主要内容为:计算 机信息检索的发展过程 、计 算机信息检索系统的组成和工 作原理、计算机检索的策略 。
1
第一节 计算机信息检索的发展过程
计算机信息检索的发展过程主要内容 包括:
计算机信息检索技术的发展 计算机信息检索技术的特征
2
一、计算机信息检索技术的发展
14
数据库类型
(1) 参考数据库(reference database)
数目数据库(bibliographic 指南数据库(referral
database)
database)
15
(2) 源数据库(source database)
数值数据库(numeric database) 文本—数值数据库(textual-numeric database)
辅助功能完善
4
第二节 计算机信息检索系统的组成和工作原理
一、计算机信息检索系统的组成
(一) 计算机信息检索系统
一个完整的信息检索系统,通常由信息源、 信息组织管理、系统功能、用户接口和系统支 持技术等几个有机部分组成。
5
1. 信息源
信息源是指计算机检索系统信息或数据 的来源。信息检索系统中的数据主要来自各 种公开文献,如一次文献中的期刊、图书、 研究报告、会议论文、专科文献、政府出版 物、学位论文;二次文献中的摘要、索引和 目录;三次文献中的百科全书、专科词典、 名录、指南、手册等。
23
4. 传输环节
传输子系统的功能主要是通过计算机与通 信线路的连接,完成信息编码的传递、转接、 接收与处理等工作。
12
联机系统软件构成的示意图
通 讯 管 理 程 序
现代信息检索第3章-IR模型(再次再次修正版)

中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF:Term在文档中出现的次数,TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化:将一篇文档中所有Term的TF值归 一化到[0,1]之间。 通常可以采用以下三种方式之一:
Maximum Normalization
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展,也提出了 很多公式,下面是一个最常用的公式:
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A,可以定义函数:
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度,当隶属度为1时, x属 于A,当隶属度为0时,x不属于A,该函数是二值函数 例子:“大于1的实数”用集合表示为 A={x|x>1, x∈R}
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
TFdoc TFq IDF
公式(1)
长度规整
中国科学院研究生院课程2006
向量空间模型(9)
优点:
简洁直观,可以应用到很多其他领域(文本分类、生 物信息学)。 支持部分匹配和近似匹配,结果可以排序 检索效果不错
缺点:
理论上不够:基于直觉的经验性公式 标引项之间的独立性假设与实际不符:实际上, Term的出现之间是有关系的,不是完全独立的。 如:“王励勤” “乒乓球”的出现不是独立的。
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
i
t1 d
i
d •q Cosine: Sim( d , q ) = = || d || × || q ||
∑ (a
i i i
× bi )
q
2 i i
∑a ×∑b
2 i
t2
Dice:
Sim( d , q ) =
2×d •q = || d ||2 + || q ||2
2∑ (ai × bi ) ai 2 + ∑ bi 2 ∑
中国科学院研究生院课程2006
向量空间模型(6)
权重计算(4)
对TF进行缓冲:1+log(TF), 1+log(1+log(TF)) 对DF进行缓冲:1+log(N/DF) log的作用:将值域拉平,使得函数的变化更平 缓
中国科学院研究生院课程2006
向量空间模型(7)
相似度计算
Dot: Sim( d , q ) = d • q = ∑ (ai × bi )
中国科学院研究生院课程2006
布尔模型匹配的集合表示
2006 世界杯
2006 AND 世界杯 AND NOT 小组赛
小组赛
中国科学院研究生院课程2006
布尔模型(3)
形式化表示:
任一布尔查询都可以写成析取范式(DNF):如 q=a∧(b∨¬c)=abc∨ab ¬ c∨a ¬ b ¬ c
qbnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0) 任一文本可以写成所有Term的交,如 doc=a ∧ b ∧ c ∧ d ∧ e 因为doc q,所以相似度为1
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展,也提出了 很多公式,下面是一个最常用的公式:
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
布尔模型(1)--Boolean Model
布尔变量:只有“真”、“假”取值的变量
如:命题 一篇文档中存在“世界杯”这个词 的结果 变量就是一个布尔变量。 计算机中常常用1表示“真”,0表示“假”
布尔操作(关系):
布尔模型回顾
查询为布尔表达式,每个文档也是布尔表达 式,相似度计算的过程实际是布尔表达式的匹 配过程,结果要么是1要么是0。 缺点:不能对结果进行排序,不支持部分匹配 和模糊匹配。 以下讲到的基于模糊集的IR模型和扩展布尔模 型都是针对上述缺点对原始布尔模型进行改 进。
中国科学院研究生院课程2006
查询q:2006 世界杯 举办地 文档d1:2006 世界杯 在 德国 举行,本 届 世界杯 的 冠军 是 意大利 队。 文档d2:2002 世界杯 在 韩国 和 日本 举行,最后 的 冠军 得主 是 巴西 队。
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
N IDF = DF
向量空间模型中通常采用TF*IDF的方式计算权重。
中国科学院研究生院课程2006
向量空间模型(长,d1包含一个主题A,d2包含多 个主题A、B、C,对于主题A,两篇文档中出现的词频 率信息相似,那么Cosine归一化之后d2中和A相关的词权 值偏低(分母较大),因此,检索时,短文档d1优先。 Pivoted Normalization:对短文档进行惩罚,对长文档进 行补偿,保持公平性。
现代信息检索 Modern Information Retrieval
第三章 信息检索模型(IR models) 授课人:王斌 wangbin@ /~wangbin/ 2006年9月
中国科学院研究生院课程2006
提纲
模型定义及分类 布尔模型 向量空间模型 概率模型 统计语言建模IR模型
中国科学院研究生院课程2006
布尔模型(4)
课堂思考题:
想查关于今年超女 5进4 比赛的新闻,用布 尔模型怎么构造查询?
中国科学院研究生院课程2006
我的解答
(2006 OR 今年) AND (超级女声 OR 超女 OR 超级女生) AND (6进5 OR 六进五 OR 六 AND 进 AND 五) 表达式相当复杂,构造困难! 不严格的话结果过多,而且很多不相 关;非常严格的话结果会很少,漏掉很 多结果。
只能严格匹配(得分不是0就是1),不能近似或者部分匹 配,多个结果无法排序 一般用户构造查询不是很容易,构造不利可能造成结果过 多或者过少
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A,可以定义函数:
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度,当隶属度为1时, x属 于A,当隶属度为0时,x不属于A,该函数是二值函数 例子:“大于1的实数”用集合表示为 A={x|x>1, x∈R}
中国科学院研究生院课程2006
查询和文档进行向量的相似度计算:夹角余弦或者内积
向量空间模型(2)
标引项(Term)的选择:
标引项必须是能代表文档的特征 单位可以是字、词、短语、N-gram或者某种语义单 元(比如:所有同义词作为1维),最简单的是采用全 文标引(full text indexing),即用文档中出现的所有 的字或者词作为标引词。 采用全文标引,向量的维数很大(以中文词索引为 例,向量维数会上10万),而且引入了很多噪音。因 此,实际应用中,会采用一些降维策略(如:去停用 词、对英文进行词干还原、只选择名词作为Term、 Term组等等)
文档表示成多个Term的集合 通常用词来表示,但是也可以用其他语言单位来表 示 Term可以看成关键词 (key words)
标引项的权重(Weight)
不同标引项作用是不同的 通过权重加以区分
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF:Term在文档中出现的次数,TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化:将一篇文档中所有Term的TF值归 一化到[0,1]之间。 通常可以采用以下三种方式之一:
Maximum Normalization
中国科学院研究生院课程2006
布尔模型(2)
布尔模型:查询和文档均表示为布尔表达式, 其中文档表示成所有词的“与”关系。
例子:
查询: 2006 AND 世界杯 AND NOT 小组赛 文档1: 2006年世界杯在德国举行。 文档2: 2006年世界杯小组赛已经结束。
相似度计算:查询布尔表达式和所有文档的布 尔表达式进行匹配,匹配成功得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
中国科学院研究生院课程2006
信息检索模型
信息检索模型是指如何对查询和文档进行表 示,然后对它们进行相似度计算的框架和方 法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
原始查询 查询表示 文档表示 原始文档
相关度计算
中国科学院研究生院课程2006
相关概念
标引项(Index Term)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
向量空间模型(1)
向量空间模型(Vector Space Model)是康奈尔大学 Salton 1970年代提出并倡导,原型系统SMART 查询和文档都转化成标引项(Term)及其权重组成的向量 表示,都可以看成空间中的点