《信息检索模型》PPT课件
合集下载
第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。
第2章-信息检索模型

▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档
信息检索 ppt 第1章 绪论

信息需求集合
当人们为完成某一任务时,经常觉得缺少的某些知识,即信 息需求。
匹配与选择
需要一种匹配机制。 匹配机制的主要功能:能够把信息需求集合与信息资源集合 依据某种相似性标准进行比较与判断,选择出符合用户需要 的信息。
第 1章 概
1.1 1.2 1.3 1.4 1.5 1.6
述Hale Waihona Puke 信息、知识、文献 信息的特征及类型 信息检索概念和原理 信息检索类型 信息检索的主要研究问题 信息检索的发展历史
信息检索类型
按检索内容不同
文献检索
以文摘、题录、全文 为检索对象。
数据检索
以数据为检索对象
事实检索
以事实、概念、思想、 知识等非数值信息为 检索对象
文献检索
以文献(包括文摘、题录或全文)为检索对象的 一类信息查询活动。是一种相关性检索,不直接回答 用户所提的问题本身,只是提供有关的文献供参考。 典型的文献检索
二次文献
(书目文献、索引、文摘)
是以一次文献为依据加工整理而形成的信息,是对一次信息的浓缩 或有序化产物。如:目录、文摘、索引等。 特点:为查找一次文献提供线索,具有系统性、工具性特点。
三次文献
对零次文献、一次文献、二次文献进行分析研究,加工提炼和概括 综合而形成的信息。如:综述、述评、进展报告、学科年度总结等。 特点:信息量大、综合性强、系统性好。
查找某出版社2008年出版图书的信息; 查找某公司在全球哪些地区设立了分公司、分公司地址、员工 数、主要负责人等。
数据检索
是指查找用户所需特定数据的检索。可以利用专门的数据 库进行检索。例如: 我国第五次人口普查中全国汉民族的人数。
狭义的信息检索仅指信息的查找,是指从信息集
信息检索 ppt课件

详细描述
社交网络信息检索技术主要针对社交网络中 海量、动态更新的信息进行处理和检索。特 点包括实时性、个性化和社会化等。同时, 也面临一些挑战,如信息过载、隐私保护等
。
案例四:社交网络信息检索技术实践分享
总结词
社交网络信息检索技术的创新与应用
详细描述
介绍一些创新性的社交网络信息检索技术,如基于内 容的推荐算法、情感分析技术等。同时,分享一些成 功应用案例,如微博搜索、微信小程序等,说明这些 技术在社交网络中的实际应用和效果。
云服务和移动化 借助云服务和移动通信技术,实 现信息检索服务的移动化和云端 化,方便用户随时随地获取信息 。
个性化推荐和定制化服务 通过数据分析和挖掘,实现个性 化推荐和定制化服务,满足用户 多样化的信息需求。
多模态信息检索 融合文本、图像、音频和视频等 多种类型的信息,实现多模态信 息检索,提高信息检索的全面性 和多样性。
04
信息检索的应用领域
搜索引擎
搜索结果相关性
提高搜索结果与用户查询的关联 度,减少无关信息的展现。
语义分析和理解
对用户查询进行深度解析,识别关 键词的语义,提高搜索的准确性。
实时更新
对互联网上的新信息进行实时跟踪 和更新,确保用户获取最新、最相 关的信息。
数字图书馆
资源数字化
将传统图书馆的资源进行数字化 处理,方便用户在线阅读和下载
关联规则挖掘
挖掘信息之间的关联规则,帮 助用户发现隐藏的信息需求。
信息检索的评价指标
查全率
评估检索系统找全满足用户需求的信息的能 力。
响应时间
评估检索系统响应用户请求的速度。
查准率
评估检索系统找准满足用户需求的信息的能 力。
信息检索模型PPT

特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程 度。
相似度S(Similarity):指两个文档内容相关程度的 大小
17
模型的特点
基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度
例如:文档的统计特性
11
示例
文档集包含两个文档:
文档1:a b c f g h 文档2:a f b x y z 用户查询:文档中出现a或者b,但一定要出现z。
将查询表示为布尔表达式q(ab)z,并转换成 析取范式 q D N F ( 1 ,0 ,1 ) (0 ,1 ,1 ) ( 1 ,1 ,1 )
文档1和文档2的三元组对应值分别为(1,1,0)和 (1,1,1)
13
问题
布尔模型被认为是功能最弱的方式,其主要问题在于 不支持部分匹配,而完全匹配会导致太多或者太少的 结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个
很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回
很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和 查询相匹配
查询式Q表示 查询式(Queries)被表示为关键词的布尔组合,用 “与、或、非”连接起来,并用括弧指示优先次序
匹配F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准
算法R 根据匹配框架F判定相关
9
举例
Q=病毒AND(计算机OR电脑)ANDNOT医 文档:
代数 扩展的向量空间 隐性语义索引
神经网络
人工智能
概率
基于本体论的模型
语言模型
推理网络
信念网络
相似度S(Similarity):指两个文档内容相关程度的 大小
17
模型的特点
基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度
例如:文档的统计特性
11
示例
文档集包含两个文档:
文档1:a b c f g h 文档2:a f b x y z 用户查询:文档中出现a或者b,但一定要出现z。
将查询表示为布尔表达式q(ab)z,并转换成 析取范式 q D N F ( 1 ,0 ,1 ) (0 ,1 ,1 ) ( 1 ,1 ,1 )
文档1和文档2的三元组对应值分别为(1,1,0)和 (1,1,1)
13
问题
布尔模型被认为是功能最弱的方式,其主要问题在于 不支持部分匹配,而完全匹配会导致太多或者太少的 结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个
很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回
很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和 查询相匹配
查询式Q表示 查询式(Queries)被表示为关键词的布尔组合,用 “与、或、非”连接起来,并用括弧指示优先次序
匹配F 一个文档当且仅当它能够满足布尔查询式时,才将 其检索出来 检索策略基于二值判定标准
算法R 根据匹配框架F判定相关
9
举例
Q=病毒AND(计算机OR电脑)ANDNOT医 文档:
代数 扩展的向量空间 隐性语义索引
神经网络
人工智能
概率
基于本体论的模型
语言模型
推理网络
信念网络
《信息检索模型》PPT课件

文档集中的索引项
精选ppt
18
索引项的选择
这些索引项是不相关的 (或者说是正交的) ,形成一个 向量空间vector space
“计算机” “科学” “商务”
计算机科学文档集
该文档集中的全部重要词项
实际上,这些词项是相互关联的
当你在一个文档中看到 “计算机”, 非常有可能同时看到“科 学”
当你在一个文档中看到 “计算机”, 有中等的可能性同时看到 “商务”
索引项t(Term):指出现在文档中能够代表文档性质
的基本语言单位(如字、词等),也就是通常所指的
检索词,这样一个文档D就可以表示为D(t1,t2,…,tn), 其中n就代表了检索字的数量。
特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程
精选ppt
23
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
di = 0, 0 (一个索引项也不包含) dj = 0, 0.7 (包含其中一个索引项) dk = 1, 2 (包含两个索引项)
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间
信息检索模型
哈工大信息检索研究室 2007
精选ppt
1
这一部分将讲述
布尔模型,向量空间模型,扩展的布尔 模型
概率模型和基于语言模型的信息检索模 型的区别和联系
基于本体的信息检索模型和基于隐性语 义索引的信息检索模型
精选ppt
2
信息检索模型的概述
精选ppt
3
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述
文档表示 一个文档被表示为关键词的集合
精选ppt
18
索引项的选择
这些索引项是不相关的 (或者说是正交的) ,形成一个 向量空间vector space
“计算机” “科学” “商务”
计算机科学文档集
该文档集中的全部重要词项
实际上,这些词项是相互关联的
当你在一个文档中看到 “计算机”, 非常有可能同时看到“科 学”
当你在一个文档中看到 “计算机”, 有中等的可能性同时看到 “商务”
索引项t(Term):指出现在文档中能够代表文档性质
的基本语言单位(如字、词等),也就是通常所指的
检索词,这样一个文档D就可以表示为D(t1,t2,…,tn), 其中n就代表了检索字的数量。
特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程
精选ppt
23
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
di = 0, 0 (一个索引项也不包含) dj = 0, 0.7 (包含其中一个索引项) dk = 1, 2 (包含两个索引项)
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间
信息检索模型
哈工大信息检索研究室 2007
精选ppt
1
这一部分将讲述
布尔模型,向量空间模型,扩展的布尔 模型
概率模型和基于语言模型的信息检索模 型的区别和联系
基于本体的信息检索模型和基于隐性语 义索引的信息检索模型
精选ppt
2
信息检索模型的概述
精选ppt
3
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述
文档表示 一个文档被表示为关键词的集合
第四章 信息检索模型

向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
第2章--信息检索PPT课件

信息(information)
是物质存在的一种方式,一般指数据、消息中
所包 含的意义。
普遍性、差异性、特征性 可传递性、可存储性
医学文献信息的作用
记录、保存、传递医学信息 科研和临床实践借鉴、交流的重要载体 评价科研水平与成果的主要依据 推动促进科研发展的资源动力
第一节 信息检索基础
信息 存储 收集 选择 著录 加工 标引 加工 存储 标识
存储与检 索系统进 行匹配
检索 语言
信息 检索 分析 需求 检索 提高 提供 标识
输出
检索 标识
信息检索原理示意图
信息的检索过程
用户利用检索工具获取所需信息的过程。
用户在分析待检内容范围的基础上,将检索需求
转换成检索提问标识,利用相应的检索系统,查
文献检索特殊意义
一是确定有无类似的研究成果,是否要立项?
二是参考其他文献,理清思路,搞清楚要做的研
究是什么?
三是取长补短,推陈出新,设立新论题,取得新
成果。
文献检索在课程设计、毕业设计、开题立项、成
果查新方面都具有重要作用。
第一节 信息检索基础
二、信息检索原理
信息检索系统由文献的存储和检索两个部分组成。
LOGO
第二章 信息检索
掌握信息检索的概念;
掌握信息检索的原理; 了解信息检索的类型,以及信息检索类型的几种 划分方法; 掌握检索语言的种类,及检索语言的作用; 掌握信息检索的方法、途径与步骤。
第一节 信息检索基础 一、信息检索概念
二、信息检索原理 三、信息检索的类型 第二节 信息检索语言 一、检索语言的定义和作用 二、检索语言的种类 第三节 信息检索的方法、途径与步骤 一、信息检索方法 二、信息检索途径 三、信息检索步骤与策略 四、检索效果的评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分
任何命题公式的主析取范式都是存在的, 并且是唯一的。
精选课件ppt
18
布尔检索模型
首先,将查询转化为一个析取范式DNF
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
检索: 用 特别检索 户 过滤 任 务
浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。
查询是由三种布尔逻辑运算符 and, or, not 连接索 引词组成的布尔表达式。
用连词∨把几个公式连接起来所构成的公 式叫做析取,而此析取式的每一组成部 分叫做析取项。 p或q,记作“p∨q”
非p ┐p
精选课件ppt
16
离散数学相关概念
析取范式: 仅由有限个简单合取式构成的析取式
A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q) 合取范式:
仅由有限个简单析取式构成的合取式 A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)
精选课件ppt
12
经典信息检索模型
经典的信息检索模型有三个:布尔模型、向量 模型和概率模型。
每篇文档可以用一组有代表性的关键词即索引 词集合来描述。索引词是文档中的词,其语义 可以帮助理解文档的主题;因此,索引词常用 于编制索引和概括文档的内容。
索引词通常由名词构成,因为名词本身具有语 义,人们能够比较容易地理解它的意思。形容 词、副词、连词很少作为索引词,因为它们主 要起补充作用,不能单独表示语义。
精选课件ppt
1
IR的两种形式: Ad Hoc and Filtering
Ad hoc retrieval (特别检索: 文档集合保持不变)
Q1 Q2
Q3
Collection “Fixed Size”
Q4 Q5
精选课件ppt
2
IR的两种形式: Ad Hoc and Filtering
Filtering(过滤: 用户需求不变)
基于内容的信息检索模型有
集合论模型:布尔模型、模糊集合模型、扩展 布尔模型
代数模型: 向量空间模型、广义向量空间模型、 潜在语义标引模型、神经网络模型
概率模型: 经典概率论模型、推理网络模型、 置信(信念)网络模型
精选课件ppt
10
信息检索模型的分类 集合论模型 模糊集合论模型
可扩展布尔模型 经典模型
User 2 Profile
Docs Filtered for User 2
User 1 Profile
am
精选课件ppt
3
相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并 无太大意义的词。例如在英文中常用的停用词有the,a, it等; 在中文中常见的有“是”,“的”,“地”等。
F是一个框架,用以构建文档,查询以及它 们之间关系的模型
R(qi,dj) 是一个排序函数,它给查询qi和文 档 dj 之间的相关度赋予一个排序值
即: IR模型由上述四个要素组成
< D, Q, F, R(qi,dj) >
精选课件ppt
9
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型检索模型.
精选课件ppt
7
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。文档 逻辑视图可以是一组索引词或关键词。也可以用n-gram 方式表示。既可以自动提取,也可以是由人主观指定。 (从全文到一组标引词)
精选课件ppt
8
信息检索模型
Q是一个查询集合,用户任务的表达,由 查询需求的逻辑视图来表示。
布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验
室/”。
精选课件ppt
4
信息检索模型
精选课件ppt
5
信息检索模型的概述
精选课件ppt
6
信息检索模型
信息检索模型(IR model),依照用户查询, 对文档集合进行相关排序的一组前提假设和算 法。IR模型可形式地表示为一个四元组
< D, Q, F, R(qi,dj) > 其中D是一个文档集合,Q是一个查询集合,F 是一个对文档和查询建模的框架,R(qi,dj) 是一 个排序函数,它给查询qi和文档dj之间的相关度 赋予一个排序值
信息检索
信息检索(information retrieval,IR),将 信息按一定的方式组织和存储起来,并根 据用户的需要找出有关信息的过程。
发展的几个阶段
手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s)
根据布尔逻辑的运算规定,提问式q可以被表示 成由合取子项(conjunctive component)组成的 析取范式(disjunctive normal form,简称DNF) 形式。
精选课件ppt
15
离散数学相关概念
用连词∧把几个公式连接起来而构成的公 式叫做合取,而此合取式的每个组成部 分叫做合取项。p并且q,记作“p∧q”