IR信息检索模型
特征词抽取与查询扩展融合的信息检索系统模型

摘 要
பைடு நூலகம்冰
5 02 ) 3 0 3
将 特 征 词 抽 取 和 查 询 扩 展 技 术 应 用 于信 息 捡 索 , 出一 种 特 征 词 抽 取 与 查 询 扩 展 技 术 融 合 的 信 息 检 索 系 提
统模型 及其算 法。在详细论述模型的设计 思想 、 各模块 的功能基 础 上, 点 阐述模 型 实现 的关键技 术及其 检 索算 重
法。 实验结果表明 , 该模 型有效 , 能提 高信息检 索性能 , 具有较 高的理论 价值和 广阔的应 用前景 。
关 键 词 特 征 词 查 询 扩 展 信 息检 索
中图分类号
T 31 P 9
文献标识 码 A
文章编号 10 — 9 5 2 1 ) 0 6 — 4 0 2 16 (0 1— 12 0 1 1
HUAN G ig a M n xu n
( p r n o t adC m ue Sine G ag i olg f dct n Nann 5 02 ) Dea met f h n o p tr cec , un x C l eo uai , n ig 3 0 3 t Ma e E o
I f r a i n Re re a y tm o e s d o so fFe t e n o m to t iv lS se M d lBa e n Fu i n o a ur
T r xr cin a dQu r x a s n e ms ta t n ey E p n i E o o
0 引 言
术 l应用 r 信息检索 , 出一种特 征词抽 取 与查 询扩展 提
技术融合的信息检索系 统模 型 及其算法 , 该模 型包括
个性化网络信息检索模型及其应用研究

【 关键 词】 :搜 索引擎; 个性化服 务 ; 个性化检 索; 个性化检 索模型 ; 代理技 术
1 .引言
Y ho 的 目录更 具 有 科 学 性 。 ao ! 网站 收 录 丰 富 , 索 结果 精 确 度 较 检
在 众 多 检索 工 具 中 .搜 索 引 擎是 一 种 被 众 多 网 站所 推 崇 的 也是 深受 广 大 网 民喜 爱 的 网络 检 索 工 具 某 种 角度 而 言 . 索 从 搜 引擎的出现确实使广大 网民在 繁杂 的网络信息 中能够方便 、 快 捷的查找到 自己所需要 的信息 , 并且 目前也被广泛应用。 但是 由 于 目前 多 数搜 索 引 擎 都 通 过 对 WWW 页 面 进行 索 引 和关 键 词 匹 配来满 足用户的检索请求 , 于克服 以下两个缺点 : 难 其一 , 何 任 个 搜 索 引 擎 的索 引也 无 法 覆 盖 整 个 网络 资 源 . 即其 检 全 牢 是 不 完 全 的 ; 二 。 于 采 用 简单 的关 键词 匹 配 方 法 , 索 引 擎 对 其 由 搜 条 检 索 请求 可能 返 回数 以千 计 的 结 果 .而 且 有 一 大 部 分 是 与 检 索 主题 无关 的链 接 . 需要 用 户 在这 个 基 础 上 再一 次进 行 筛 选 , 增 加 了 用 户 的上 网时 间 与 处 理 效 率 。 因而 . 建立 新 一 代 的 网络 信 息个 性 化 检索 系统 是 人 们 所 期 待 的
提 供 域 名检 索 、 闻 搜 索 等 检 索服 务 。 度 另一 个 相 当 有 特 色 的 新 百
功能是能够 根据用户的检索结果 , 自动 地生成一份 关键词表 . 用 网络信息个性化检索系统实现个性化检索服务 .关键是进 户 可 以 借此 选 择 自己所 需 或 不 需 要 的关 键 词 . 以此 来 提 高 检 索
1信息检索概述武大黄如花 ppt课件

SCIENTIFIC SOLUTIONS
《中图法》等级分明的科学系统
O
一级类目
数、理、化
O1 O3 O4 O6 O7 …… 二级类目
数学 力学 物理 化学 晶体
O11 O12
O13 ……
三级类目
古典数学 初等数学 高等数学
O121 O122
O123 O124
四级类目
算术 初等代数 初等几何 三角 2020/12/12
信息检索的常用术语
• 检索词:用户输入的字、词、字符或短语 • 检索式:检索提问表达式 • 检索策略:是对查询的全面策划,在操作上主要指数据库的选择和检索
式的编制 • 前者选择数据库资源,后者实现检索目标 • 一般也直接将检索式视为搜索策略
2020/12/12
武汉大学信息管理学院 黄如花
SCIENTIFIC SOLUTIONS
武汉大学信息管理学院 黄如花
精品资料
SCIENTIFIC SOLUTIONS
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你是
否会认为老师的教学方法需要改进? • 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,
没有学问无颜见爹娘 ……” • “太阳当空照,花儿对我笑,小鸟说早早早……”
1 信息检索的含义
• 广义的信息检索
• information storage • information retrieval
SCIENTIFIC SOLUTIONS
• 狭义的信息检索
• information retrieval
2020/12/12
武汉大学信息管理学院 黄如花
基于数据前端分析的图书管理信息检索模型

一
、
引 言
新的信息检索模 型T作 流程图如陶2 所示 。其 _ 『 作过程 如下
随 着 数字 化 I 冬 _ l 书馆 的快速 发展 , 越 来 越 多 的 用 户在 利 用 数 字 化 图
董 屹 李 佳 王 昆鹏 ( 1 . 西华 师范 大学 图书馆 2 . 西华 师范 大学计 算机 学 院 )
[ 摘 要] 针对现 有的数 字化 图书馆数据 库 系统的信 息检 索引擎存在检 索时其时 间花 费代 价大和服务 器资 源 占用较 高等 问题 , 本文 在 用户信息检 索行 为的基础之上 , 提 出了一种基 于数据 前端分析 的信息检 索模型。数据 测试结果表 明, 相比 于传统 的信息检 索模
如下 表 所示 :
新 的信息 检索 引擎利朋 月 j 户借『 蒯证 号码 来确定 J { j 户的学科背 景 , 并根据学科背 景生成对应的信息 检索优先级数组 P R I 最后在 信息 检 索时, 利用 P R I 数 组的优 先级排序 , 乍成对应 的 S O L查 询} 措法 , 完成 相 应的信息检索 . 检索结果异步回传显示 部分代码 如下 所示 :
P i r v a t e v o i d G e t s u b j e e t ( )
{
s t l  ̄ j e e t =S t u d e n l l D . S u b s l r i n g ( 4 。 2 ) :
Ma k e P R1 0 :
)
P i r v a t e v o i d S e a r , h ( s t r i n g s t r 1 { i f a ' e a c h( v a t V A RI A B L E i n P RI ) { s t r i n g s q l =” S e l e c t F r o m t a b l e wh e r e s u b j e c t = ”+V AR I AB I E+
新型信息检索模型发展研究

中图分类号 : G 2 5 2 . 7
文献 标 识 码 : A
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 5 — 8 0 9 5 . 2 0 1 3 . 0 4 . 0 2 3
Re s e a r c h o n De v e l o p me n t o f Ne w I n f o r ma t i o n Re t r i e v a l Mo d e l s
( 三 峡 大 学 图 书馆 湖 北 宜 昌
摘
4 4 3 0 0 0 )
要: 介 绍 了 3个 新 型 信 息 检 索 模 型 —— 信 念 网 络 模 型 、 粗 糙 集 理 论 检 索 模 型 和 遗 传 算 法 检索 模 型 。 认 为 信 念 网 络模 型 以
概率推理为基础 , 推理结果说服力强 , 并 采用 图形 化 网络 结 构 直 观 地 表 达 变 量 的 联 合 概 率 分 布 及 其条 件 独 立性 , 能 大 量 节 约 概 率 推理计算 ; 粗糙集理论检索模型通过不可分辨关系确定问题的近似域 , 对 问题 不 确 定 性 的 描 述 和 处理 具有 客 观 性 ; 遗 传 算 法 检 索
s h i p , S O t h a t i t c a n d e s c i r b e a n d h nd a l e w i t h he t u n c e r t a i n t y o b j e c t i v e l y ; g e n e t i c a l g o i r t h m m o d e l s i m u l a t e o r g a n i s m’ S g e n e t i c nd a e v o -
vsm原理

vsm原理
VSM原理。
VSM(Vector Space Model)是一种用于信息检索和文本分类的数学模型,它
将文档表示为向量,通过计算向量之间的相似度来实现相关文档的检索和分类。
VSM原理是信息检索和文本分类领域的重要理论基础,下面将从VSM的基本原理、应用场景和优缺点三个方面来进行介绍。
首先,VSM的基本原理是将文档表示为向量。
在VSM中,每个文档都可以用
一个向量来表示,向量的每个维度对应一个特征或者词项,在文档中出现的词项对应的维度取非零值,未出现的词项对应的维度取零值。
通过这种方式,可以将文档表示为高维空间中的一个向量,从而方便进行相似度计算和文本分类。
其次,VSM的应用场景非常广泛。
在信息检索领域,VSM被广泛应用于搜索
引擎中,通过计算查询向量与文档向量之间的相似度,来实现相关文档的检索。
在文本分类领域,VSM可以用于将文档进行向量化表示,然后利用机器学习算法来
训练模型进行分类。
除此之外,VSM还可以应用于自然语言处理、推荐系统等领域。
最后,VSM也存在一些优缺点。
其优点在于简单、直观、易于实现,并且在
一些场景下取得了较好的效果。
然而,VSM也有一些缺点,比如无法处理词序信息、无法处理语义信息、维度灾难等问题,这些问题限制了VSM在一些复杂场景
下的应用。
综上所述,VSM作为一种用于信息检索和文本分类的数学模型,具有重要的
理论意义和实际应用价值。
通过对VSM的基本原理、应用场景和优缺点的了解,
可以更好地理解和应用VSM模型,为信息检索和文本分类领域的研究和实践提供
理论支持和技术指导。
【计算机科学】_概率信息检索模型_期刊发文热词逐年推荐_20140727
2012年 序号 1 2 3 4 5 6 7 8 9
科研热词 概率信息检索模型 条件随机场 条件偏好 排序 属性单元 事件表示 事件检索 事件抽取 xml
推荐指数 1 1 1 1 1 1 1 1 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11
科研热词 统计推断 查询词权重 查询分析 文档生成 搜索引擎 分类 信息检索 依存句法分析 主题模型 term重要性 pam
推荐指数 1 1 1 1 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5
科研热词 辨识 确定型属性 相似度 概率分布型属性 时变对象
推荐指数 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8
科研热词 推荐指数 音乐流派分类 1 音乐标签 1 统计主题模型 1 特征选择 1 标签预测 1 标签系统 1 基于特征间相互影响的前向特征选择算法(ibffs) 1 型 1
网络不良信息检索特征模型的研究
Ke r s n t r a f r ain;b d if r ain m o e ;b d if r ain te ywo d : ewo k b d i o m to n a n o m to d l a n o m t r e o
随 着 网络 技术 、 计算 机 技术及 通讯 技术 的发 展 ,
t i p p rp e e t h a f r to d lb s d o e s n l n e e t. I h sm eh d h a awih h s a e r sn st eb d i o ma in mo e a e n p r o a tr s s n t i t o ,t e d t t n i
发 现用 户 的搜 索 意 图 , 些搜 索 引 擎 没有结 合 用 户 这 的个性 化兴趣 模 型 , 因此 , 所 有 用 户 的 同一 输 入 , 对
返 回的结果 也相 同 , 用 户 的人 性 化 服务 不 够 。也 对
互联 网在人们生活中的地位越来越重要 , 为 E常 成 l
生 活不 可缺少 的一种 工 具 , 们 可 以通 过互 联 网进 人 行 信息 检索 、 浏览 、 习等 _ , 学 1 互联 网的上 网人数 、 ] 网 络 信息 资源 数量 、 务 供应 商提 供 的服 务 种类 等 均 服
第 2 卷第 2 6 期
21年 6 02 月
黑
龙
江
工
程
学
院
学
报( 自然科 学版 )
Vo . 6 № . 12 2
J u n l f i n j n si t o e h oo y o r a o l gi gI t ue f c n lg He o a n t T
信息检索模型相关研究现状及分析
向量 空间模型 的优缺点分 析 : 优点 上讲 , 洁直观 , 以 从 简 可 应用 到很 多其他领域 ( 文本分类 、 生物信息学 )支持部分 匹配 和 ,
近似 匹配 , 结果可以排序检索效果不错。从缺 点上来说 , 理论 上 不够 基于直觉的经验性公式 ,并且标 引项 目之 间的独立 性假 设 与实际不符。 基于概率统计 的 I R模型 1 回归模型:为 了求 Q和 D相关 的概率 P R I , , ) ( = I D)通过 Q 定义 多个特 征 函数 f QD)认 为 P R I , 是 这些 函数 的组 i , , ( ( = I D) Q
义 Tr e m和文档之间的关 系 ; 最后 , 定义查询和文档之 间的关 系 , 查询对应一个模糊集合 , 求每个 文档 的隶属度 。 基于模糊集的模型 的优缺点:从优点上讲 ,克服原始布尔
模 型不 能部分 匹配 的缺点。 从缺点来说 , 常在模糊集研究领域 通 涉及 , I 在 R领域不 流行 , 且缺乏大规 模语料 上的实验 证实其 并
技 经 济市 场
信 息检索模 型相关研 究现状及分析
鲁 屹 华
( 宁学 院计 算机科 学与技 术 学院 , 成 湖北 成 宁 470 ) 3 10
摘 要 : 文对信 息检 索模 型相关研究现状进行 了描述 , 出了几种常用 的信息检 索模 型 , 本 给 分析 了他 们的优缺点及存在 的 问题 , 并且对全 文检 索工具包 Lc n ue e的检 索模 型进行 了探讨 , 最后总结 了信息检 索模型 的研究现状和发展 趋势 。 关键词 : 信息检索模 型;u e e Lc n
首先可算得 fln r i d om分别 为 032 ,.,.1 5 e .15 05O3 2 注意 nF on在实现时只用了 1 字节 表示 , l 个 故误 差较 大。
多模态智能信息检索技术设计及分类模型设计
多模态智能信息检索技术设计及分类模型设计⼀、多模态智能信息检索技术设计1.设计检索的框架流程,设计检索评估⽅法完成的任务:⽤户搜索“苹果”,在限定性语境中,如何做到⽤户是需要找“苹果⼿机”,⽽不是⽔果“苹果”系统输⼊:⼀个关键词输出:同输⼊词相关的若⼲词汇(可能是⽤户需要的敏感词汇)预计出现的问题:1)输出相似或相关词汇由于模型的误判并不是⽤户需要的,精度过低这种情况肯定存在,⼀定要分析产⽣的原因,在实际情况中如何解决2)待搜索数据源是否固定。
a.数据固定在本地,可以构建本地关键词数据特征中⼼(或者构建三元组数据库),在检索是可以⽤spark streaming等⼤数据处理⽅式解决实时性问题b.待检测数据随任务变化⽽变化,⽂本特征需要在搜索时构建,如何解决实时检索效率3)返回的结果是否具有联想能⼒,如何提升联想能⼒,⽐如输⼊“苹果”,输出“苹果公司”、“乔布斯”、“上市公司”、“跨国企业”、“IPhone”等技术⽅法:1)⽂本转化为词汇单元:分词技术,利⽤现有模块能初步实现分词,如果要求实时处理数据,则效果⼀般,根据以往经验来看性能不会有多快实体识别技术,能够很好地识别出实体并可转化为关键词,精度较⾼效果较好,但实时处理性能⾮常慢构建关键词词库,缩⼩数据范围,结合业务领域收集聚焦关键词,⽽不是通⽤领域数据(如公安案件领域、安全领域等),是的词库不会那么⼤,应⽤也成为可能可以⽤NER技术离线处理领域数据,可以通过⼈⼯挑选或⾃动分类⽅法,扩充关键词词库最终构建的关键词词库(不⼀定只是关键词)也可能会很⼤,如果影响单机存储,还需要考虑较优的序列化技术,占⽤空间不⾄于过⼤(如转化为⼆进制),也要能快速IO操作,这应该是影响性能操作的第⼀个部分2)词表征技术:让上部分构建的词汇含有语义信息,就必须利⽤词嵌⼊表征技术,如word2vec,能够很好的反映词与词之间的关系或者是相关性,通过夹⾓余弦、欧⽒距离等指标衡量知识图谱技术也能够通过构建SPO形成语义信息,通过语义⽹络表征词于词之间的关系,对⼀个实体的⼀跳或多跳查询⽅式获得⽬标实体,但实际使⽤起来难度较⼤,RQL的查询⽅式可能并不适合本任务(S,P,?)同时,KG的弊端也逐渐显现,描述客观事物的能⼒同现今的BERT、GPT等超级模型有很⼤差距,劲头有减弱趋势。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索模型刘挺哈工大信息检索研究室2004年秋提纲信息检索模型的概述布尔模型向量空间模型(VSM)扩展的布尔模型潜在语义索引模型(LSI)概率模型基于统计语言模型的信息检索模型 基于本体论的信息检索模型信息检索模型的概述什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型模型和实现的区别一个模型可以用多种方法实现例如:布尔模型可以用倒排文档(inverted file)实现,也可以用B-tree实现信息检索模型四元组[D, Q, F, R(q i, d j)]D: 文档集的机内表示Q: 用户需求的机内表示F: 文档表示、查询表示和它们之间的关系的模型框架(Frame)R(q i, d j): 给query q i和document d j评分信息检索模型决定于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度模型分类布尔模型(Boolean Model)布尔模型文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来不同的系统可以使用:不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息不同的实现方法强调到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”,怎么表示?不可能企望用户自己规定m值系统可以从m=n开始,然后逐渐减少m,但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型统计模型基于关键词(一个文本由一个关键词列表组成)根据关键词的出现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=〈database; text; information 〉加权的词项: Q = 〈database 0.5; text 0.8; information 0.2 〉 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Q ⇒〈database; text; information; document〉统计模型中的问题怎样确定文档中哪些词是重要的词?怎样确定一个词在某个文档中或在整个文档集中的重要程度?怎样确定一个文档和一个查询式之间的相似度?在WWW中,什么是文档集(collection),链接、文档结构以及其它形式特征(如字体、颜色等)对统计模型有何影响?向量空间模型若干独立的词项被选作索引项(index terms) or词表vocabulary 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项向量空间模型向量空间模型实际上,这些词项是相互关联的 当你在一个文档中看到“计算机”, 非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”向量空间模型2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项d i= 〈0, 0 〉(一个索引项也不包含)d j= 〈0, 0.7 〉(包含其中一个索引项)d k= 〈1, 2 〉(包含两个索引项)类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合图示文档集相似度计算相似度是一个函数,它给出两个向量之间的相似程度 查询式和文档都是向量,各类相似度存在于:两个文档之间两个查询式之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。
通过计算查询式和文档之间的相似度,可以: 可以根据预定的重要程度对检索出来的文档进行排序通过强制设定某个阈值,控制被检索出来的文档的数量检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。
(例如:将文档向量和查询式向量进行结合)相似度度量–内积(Inner Product)文档D 和查询式Q 可以通过内积进行计算:sim ( D , Q ) = (d ik •q k )d ik 是文档d i 中的词项k 的权重,q k 是查询式Q 中词项k 的权重对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和k t=∑1内积a l s e c t u r e e r m e n t a t i o n内积的属性内积值没有界限不象概率值,要在(0,1)之间对长文档有利内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。
余弦t其它相似度度量方法二值化的相似度度量文档和词项的权重根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重tf ij= 词项j在文档i中的频率df j= 词项j的文档频率=包含词项j的文档数量idf j= 词项j的反文档频率=log2(N/ df j) N: 文档集中文档总数反文档频率用词项区别文档词项权重一种典型的词项重要性指示器w ij= tf ij•idf j= tf ij•log(N/ df j)2一个在当前文档中频繁出现,但是在剩余的其它文档中很少出现的词项获得较高的权重tf ij•idf j直接正比于一个词项在文档中出现的次数 还有使用归一化词项频率的例子:w ij= (tf ij/max l{tf lj})·idf j= (tf ij/max l{tf lj})·log2(N/ df j) max l{tf lj} 是文档j 中最高频率的词项的频率还有很多其它衡量词项权重的方法TFIDF查询式词项权重如果词项出现在查询式中,则该词项在查询式中的权重为1,否则为0也可以用用户指定查询式中词项的权重一个自然语言查询式可以被看成一个文档查询式:“有没有周杰伦的歌?”会被转换为:<周杰伦, 歌>查询式:“请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖主义首脑的资料”会被转换为:<俄罗斯2, 车臣2, 战争1, 恐怖主义1, 首脑1>过滤掉了:“请帮我找”,“和”,“之间的”,“以及”,“的资料”两个文档之间的相似度可以同理计算向量空间向量模型的优点在于:术语权重的算法提高了检索的性能部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序扩展的布尔模型布尔模型扩展的布尔模型Extended Boolean Model先“布尔”,后“排序”存在的问题: 如果“与”应用于布尔查询式, 结果集可能太窄,因而影响了后面的排序过程如果“或”应用于布尔查询式,就和纯向量空间模型没有区别了在第一步,如果最佳地应用布尔模型呢?扩展布尔模型中的扩展布尔模型中的观察观察一个词项的存在将对“或”关系查询式提供0.707的增益值,但对“与”关系查询式仅提供0.293的增益值一个词项不存在,将给“与”关系的查询式提供0.707的罚分 当x和y有权值0.5, sim(q and, d) = sim(q or, d) = 0.5在一个“与”关系查询中,两个词项的权重均为0.5,则相似度为0.5。
其中一个权重为1,另一个为0,相似度为0.293。
在“或关系”查询中,情况恰好相反在“与关系”查询中,如果一个词项的权重低于0.5,将给相似度贡献一个较大的罚分p-norm 模型扩展布尔模型可以被泛化为m个查询项:sim(q or,d) = [ (x12+ x22 + ... + x m2 ) / m]0.5sim(q and,d) = 1 −{ [ (1−x1)2+ (1−x2)2+ ... + (1−x m)2] /m}0.5它可以被进一步地泛化为p-norm model:sim(q or,d) = [ (x1p+ x2p+ ... + x m p) / m] 1/psim(q and,d) = 1 −{ [ (1−x1) p+ (1−x2) p+ ... + (1−x m) p] / m}1/p当p= 1时, sim(q or,d) = sim(q and,d) = (x1+ x2+ ... + x m)/ m和向量空间中的内积相似当p= ∞, sim(q or,d) = max(x i); sim(q and,d) = min(x i) 模糊逻辑模型(Fuzzy logic model)隐性语义索引(LSI)问题引出自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点.由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西;处理什么地方处理旧家具?你去把那个叛徒处理了处理自然语言很难由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西.“互联网”,“万维网”,“因特网”,“国际互联网”等词汇-文档矩阵设Doc1, Doc2, Doc3是三个文件. 一些术语在这三个文件中的出现情况如下表:Doc1Doc2Doc3------------------------------------------------------access X document X retrieval X X information X*X*theory X database X indexing X computer X*X*------------------------------------------------------假定用"information" 和"computer"作为主题词进行检索, 那么Doc2和Doc3与之精确匹配, 因而中选.然而, Doc2是用户并不想要的文件, Doc1才是想要的查不出来, 不想要的倒查了出来. 这说明精确匹配不能很好地反映用户的意图.词汇-文档矩阵LSI将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。