基于Indri的检索模型

合集下载

基于普适计算技术的数字图书馆检索模型设计

基于普适计算技术的数字图书馆检索模型设计
的 个性 化 搜 索结 果 。
关键词 : 适计算; 普 数字图书馆 ; 索; 型设计 检 模
Ab t a tMa y s u c s o no main u h a h n en t a e d f c l t e r h t r u h sr c : n o r e f if r t .s c s t e l tr e r i iu t o s a c h o g .E it g tos c n b f s ai g fr ma y o xsi o l a e r t t o n n ur n p o l.S a u e f tc nq e a e b e r p s d t ov s r o in e ou i n .T e p o lm e s ra e o e e t i — e p e o fr a n mb r o e h i u s h v e n p o e o s le u e- r t d s l t s h r b e r — u f c s h w v r wi n a u o e o h
1 概 述
现 在 的数字 图 书馆 技术 只 允许 它 的用 户通 过 P 笔记 本 与 c、 之 交互 , 即使 是简单 的查 找资 源或者 管理 书签 也需如 此 。 以在 所 学 术会 议上 或者其 他场 合 , 带笔 记本 的用 户 比 比皆是 。可是 , 携 笔 记本对 于经 常移 动办 公 的用 户来 说 , 尺寸 毕竟 还是 有些 大 , 尤 其 是 电池 的续 航能 力 只有 数小 时 , 常不 能满 足人们 的需要 。 常 而 且, 人们通 常 只是执 行一 些简 单 的操 作 , 比如 浏览 一下 数字 图 书 馆, 发送 电子 邮件 , 或者 发 送一 些 短信 而 已 , 不 需要 笔 记本 那 并 样强 大 的计算 能力 。 立 了一个 基 于智 能手机 的检索 模型 , 建 该模 型依 托 于真实 的数 字图 书馆 , 支持全 文搜 索 和协 同过 滤技 术 , 立 足 于用 户设 备 , 能够 提 供给 用 户 高效 、 精确 、 成本 的个性 化 搜 低 索结 果 。我们 希望 基于该 模 型在 不远 的未 来能 实 现一个 基 于智 能手 机 的普适 数字 图书馆 检索 系统 , 支持 用户 查 找资 源 、 理 自 管 己的信息 、 管理朋 友 的信息 、 管理 书签 的信息 【' 。 l。 ’1 2等 在第 二部 分 , 我们介 绍 了信 息管 理 的生命 周期模 型 ; 三部 第 分 ,分析 了基 于普 适计 算 的搜索 模 型将要 面 临 的挑 战 ;第 四部 图 1基 于普适计算的检索原型系统 分 , 出 了一 个原 型系统 ; 五部分 对进 行 了总 结 。 给 第 2 信 息管理 生命周 期 在 过 去 的数十 年 间 , 了满足 广 大用 户充 分利用 互联 网 、 后 ,就 采用模 糊 匹 配技术 从浩 如烟 海 的数据 集合 中筛 选 出那些 为 快 捷 获取 信息 的需求 , 信息 检索 技术 研究 风 生水起 , 引 了许 多研 字 面上 相关 的页 面 。 而世 界是 动态 的 , 联 网上 的服 务器 也是 吸 然 互 究 人员 , 并产 生 了大量信 息检 索产 品, og 。G ol e搜索 引擎 的出现 改 动态 的 , 昨天 它们 还 在提 供服 务 , 今天 就 可能 已经 下 线休 息 了。 变 了大 众使 用 网络 的方 式 , 采用 了最 新 的检 索技术 , 其 为具 有不 再 加上 搜索服 务器 更新 能力 太 慢 ,不能把 下线 的服务 器 中相关 同检索 需求 的 网络 用户 提供 了一个 统一 的检 索人 口。 可是 , 正如 的信息 清理掉 , 就使得 搜索 结果 中有很 多死链 接 。 而且 简单 的模 我 们所 了解 的 ,为 了使用 户能 够精 确地 找 到 自己确 实想要 的东 糊 匹配 功能 ,会使 得本 来 风马 牛不 相及 的 内容 也被 搜 罗到 检索 西, 我们需 要做 得更 进一 步 。 义 网络能 够使用 户很 好地 了解信 结果 中。 语 息 处理 的过程 , 社交 网络 拉近 了专 家和初 学 者之 间 的距离 , 使得 查 询优 化是 现代 信 息检 索 系统 的一 个重 要特 征 ,它 通常 采 后 者有 直接 的渠道 , 从而 能够 更容 易地 理解 和处 理知 识 流 , 能更 用 基于 语义增 强 的搜 索技 术实 现 。通过采 用基 于关 键 字的 消歧 好 地理 解 自己想要 的东 西 。 技 术 , 询 优化 能 够减 小或 扩 大查 询结 果 ; 查 通过 采 用 排名 方 法 , 建 立一 个信 息获 取 和管理 系统 ,首 先需 要 回答 的 问题 不是 可 以对查 询结 果进 行排 序 ;某些 团体 维护 的分 类方 法标 准能 够 “ 样做 ” 怎 而是 “ 什么这 样做 ”J 为 _。只有 理解 了用户 搜索 的 目标 , 提 供丰 富的语 义信 息 , 4 可被 用 于查 询扩展 和 消歧『。 6 _ 搜 索引擎 才 能有针 对性 地 予 以响应 ,提 供更符 合用 户 个性 化需 22 操 作查 询结果 . 求 的检索 结果 。 R sad L v sn [ oen ei o 5 n 1 户 目标 分成 了三 类 : 把用 早期 的导 航 技 术[(ae d nvgt n 采 用 分 面导 航 或 者分 7 fct ai i ) l e ao a查 找收集 资源 ( . 只关 注资源 本身 , 而不去 发掘 它 的内在 ) 面浏 览技 术 。分 面 浏览 是一种 在 图书馆 学 领域 中常 用 的正交 多 ; b .查 找 导 航 页 ( 道 资 源所 在 的 网站 ,但 不愿 意 去 输 入 维划 分信 息空 间 的分类 体系 ,是一 种基 于 分面 理论 的在结 构化 知 U L; R ) 数据 集上 的探索 性 的搜 索技术 。分 面导 航 的基 本规 则是从 信息 c获取 信息 ( 过 阅读 网页 内容 获取 信息 ) . 通 。 空 间中抽象 出实 例数 据 的属性 ,利 用逻 辑运 算符 组合 不 同的属 这三类 目标 是 与信 息获 取和 管理 的不 同 阶段相 一 致 的 。用 性 面 , 询 满足 逻辑 表达 式 的实例 数据 。分 面导航 可 分为 3 个 查 户可 以查 找 某个 特 定 的资 源( 某个 电子地 图 ) 在 某个 导 航 页 过 程 : e oeig( 找 , h t p nn 提供 信 息空 间 的全 局 视 图 )te md l gm 、 id a e h e 中查找 相关 信息 , 获取 自己想要 的信 息等 。 信息 管理 生命 周期 映 ( 细化查 询请求 ) t ed gm ( 和 h n a e 获取 准确查 询结果 ) e 。分面导 航 射到具 体操 作上 ,可以体 现在 三种 行 为上 :用搜 索 引擎 搜索信 技 术根 据分 类方 法学 ,允 许用 户一 步一 步选择 不 同 的搜 索关 键 息, 在搜 索结 果 中找 到想 要 的页面 , 阅读相 关页 面获取 知识 。 字 , 大类 到 小类 , 步缩 小导 航 范 围 , 近用 户 真正 需要 的结 从 逐 逼 21搜索 信息 . 果。

信息检索中常用的索引模型

信息检索中常用的索引模型

信息检索中常用的索引模型
在信息检索中,常用的索引模型包括:
1. 布尔模型(Boolean Model):将文档和查询表示为逻辑运算的布尔表达式,通过对文档和
查询进行逻辑运算得到匹配结果。

该模型适用于简单的查询,但不考虑查询词的相关性和权重等因素。

2. 向量空间模型(Vector Space Model):将文档和查询表示为向量,在向量空间中计算文档
和查询的相似度。

该模型将文档和查询表示为多维向量,考虑了查询词的权重和相关性等因素。

3. 概率检索模型(Probabilistic Retrieval Model):基于概率理论,通过统计方法对文档和查询
进行建模,计算文档与查询的相关性概率。

常见的概率检索模型包括布尔概率模型、随机模型和语言模型等。

4. 基于语言模型的检索(Language Model Retrieval):将文档和查询看作是语言模型,计算文
档与查询的概率分数来衡量相关性。

该模型考虑了文档语言模型的平滑和查询中的词重要性等因素。

5. PageRank模型:基于超链接分析,通过网页之间的链接关系构建网页的重要性排序。

该模
型将网页看作图中的节点,通过计算节点之间的链接关系和转移概率来评估网页的重要性。

这些索引模型各有特点,适用于不同的检索场景和需求。

在实际应用中,可能会选择或结合多个索引模型来进行信息检索。

Medline数据库检索(共31张PPT)

Medline数据库检索(共31张PPT)
例5 哮喘治疗的英文综述文献
例6 细胞凋亡(主题词的动态性)
例7 阿司匹林治疗心血管疾病(主题词的组配性)
索引词表辅助检索
数据库将非限制字段中所有可检索的词和带有破折号的词组按照字母顺 序排列形成索引词表。
主要功能:
1、检查词的拼写
2、查到与输入词词根相同的词等。 例:infect*
3、查对作者姓名、期刊名
Van,
De,
Du
W糖i尿llia病m并M发ar泌tin尿→道M感ar染tin(-英W文文例献):De-Long-A-G
例3 23761 carcinomas
#6 #4 and#5 and #2
胃肠道疾病的诊断
医学主题词表
Medical Subject Headings, MeSH
(美国国立医学图书馆)
#3 “Computer-Simulation”/ all subheadings
#4 model?
#5 stress
#6 pressure
#7 wall #8 parameter? #9 diameter #10 length #11 rupture
[#1 and #2 and (#3 or #4)] OR [#1 and #2 and (#5 or #6) and #7] OR
Medline设有26个字段
字段限止检索方法:
in ab,ti,so,au,cp……. 逻辑运算
and, or, not
(aids or acquired immunodeficiency syndrome) and therapy trace elements not zinc
举例
#11 rupture 例1 中国研究者发表的有关Aids治疗的文献

基于量子的交互式信息检索模型分析

基于量子的交互式信息检索模型分析

[] 安应 民. 游 学概论 [ . 京 : 国旅游 出版社 , 4 旅 M] 北 中
21 0 2年 1月
徐 连 杰 等 : 于 量 子 的交 互 式 信 息 检 索 模 型 分 析 基
Байду номын сангаас
第 1 ( 11 ) 期 总 7 期
布 尔 模 型 是 以 简 洁 易 懂 的 方 式 表 示 查 询 和 文
出版 社 . 9 4:3 4 19 4 — 7
『 ] 宋 玉华 . 界 经 济 周 期 理 论 与 实 证 研 究 [ . 京 : 7 世 M] 北 商 务 印书 馆 ,o 7 2 3 2 o :— [] 徐 大均. 助 级怎样 解决 耕地 作业上 的矛盾 [ . 8 互 M] 福 州 : 建 人 民 出 版社 ,9 5 2 3 福 15 :— [ ] 薛 荣 久 . 界 贸 易 组 织 概 论 [ . 京 : 等 教 育 出 9 世 M] 北 高
关 键 词 : 索 模 型 量 子 物 理 交 互 式信 息检 索 搜 索 引擎 检 中 图分 类 号 : 3 4 G 5 文献标识码 : A d i1 . 6 ̄.s. 0 — 0 52 1.1 0 o:03 9 i n1 5 8 9 .0 2 . 8 9 s 0 00
随着互 联 网技术 的发 展 以及 网络 信息 的快 速 膨 胀 ,人 们 在 日常 生活 中对 网络信 息 的 获取 也 日益 倚 重 。 是 , 联 网上在 给人 们 带来 前所 未有 的海 量 信 但 互 息 源 的 同时 ,也 给人 们在 浩 如 烟海 的 网络 信 息 中找 到最 合 适 、 准 确 的信息 带来 了巨大 困难 。 时 , 最 此 搜 索 引擎 的 出现 ,大 大缓 解 了人们 对 网络信 息 快速 .

ai dify原理

ai dify原理

ai dify原理摘要:一、AI Dify 概述1.AI Dify 的定义2.AI Dify 的应用场景二、AI Dify 原理简介1.数据预处理2.特征提取3.模型训练与优化4.预测与结果评估三、AI Dify 在各领域的应用1.医疗领域2.金融领域3.教育领域4.其他领域四、AI Dify 的发展前景与挑战1.发展前景2.面临的挑战正文:随着人工智能技术的飞速发展,AI Dify 作为一种基于深度学习的智能分析方法,正逐渐成为各个领域关注的热点。

本文将对AI Dify 进行简要介绍,包括其原理、应用场景及其在各领域的应用,并展望其发展前景与挑战。

一、AI Dify 概述AI Dify,即“AI” + “Dify”,指的是通过深度学习技术,对大量数据进行分析、挖掘,从而实现对未知数据的预测和分类。

AI Dify 可以广泛应用于各种场景,例如医疗、金融、教育等。

二、AI Dify 原理简介AI Dify 的原理主要包括四个步骤:数据预处理、特征提取、模型训练与优化、预测与结果评估。

首先,对原始数据进行预处理,例如清洗、去重、标准化等操作,使数据满足模型训练的需求。

接着,进行特征提取,从预处理后的数据中提取对问题有用的特征。

然后,使用提取的特征进行模型训练与优化,选择合适的算法和模型,并通过调整参数,使模型在训练集上取得较好的性能。

最后,利用训练好的模型进行预测,并对预测结果进行评估。

三、AI Dify 在各领域的应用1.医疗领域:AI Dify 在医疗领域的应用包括疾病预测、辅助诊断、药物研发等。

通过对患者的病历、影像资料等数据进行分析,AI Dify 可以辅助医生进行诊断,提高诊断的准确性和效率。

2.金融领域:AI Dify 在金融领域的应用主要集中在风险控制、信用评估、投资建议等方面。

通过对客户的消费行为、信用记录等数据进行分析,AI Dify 可以帮助金融机构识别潜在风险,优化服务质量。

3.教育领域:AI Dify 在教育领域的应用包括智能推荐、学习成果预测等。

基于用户兴趣模型的数字图书馆智能检索系统

基于用户兴趣模型的数字图书馆智能检索系统
Key words: user interest model; digital library; intelligent retrieval
0 引言
数字图书馆是结合现代化互联网技术对数据的处理功 能,构建的可存储多元化信息数据的图书馆 [1]。传统检索无 法识别用户自身对信息的兴趣变化,缺乏个性化检索方式及 友好的检索页面,仅结合用户的浏览历史为用户提供检索导航 或相关信息推送,无法良好地利用群体的兴趣共同点为用户精 准提供信息。针对上述存在的问题,构建用户兴趣模型,结合 分布式检索技术,可以满足用户的个性化检索需求。以下设计 的系统均采用常用的硬件设备,此次设计仅开发软件功能。
关键词:用户兴趣模型;数字图书馆;智能检索 中图分类号:TP393 文献标识码:A 文章编号:1003-9767(2019)23-184-02
Digital Library Intelligent Retrieval System Based on User Interest Model
Ni Guiling
WEB站点 …… WEB站点 WEB统框架
2 智能检索系统软件功能设计
2.1 网页特征化模块设计 首先,构建友好的用户登录页面,为用户提供特征化信
作者简介:倪桂灵 (1964—),女,河北泊头人,本科,副研究馆员。研究方向:图书与情报。
— 184 —
2019 年第 23 期
网络与通信技术
信息与电脑 China Computer & Communication
2019 年第 23 期
基于用户兴趣模型的数字图书馆智能检索系统
倪桂灵 (兰州文理学院 图书馆,甘肃 兰州 730010)
摘 要:针对传统数据检索系统存在的无法根据用户兴趣为其提供精准检索的缺陷,笔者提出基于用户兴趣模型的 数字图书馆智能检索系统设计。根据软件系统设计要求,结合互联网技术为用户提供的多元化数据处理技术,进行智能 检索系统整体框架设计;通过设置数据库的方式实现对数据的管理及归类。实验结果表明,该设计系统检索匹配程度更高, 更具实用性。

基于本体的关联知识可视化检索模型

基于本体的关联知识可视化检索模型

中 分 号t P06 圈 类 3. T 1
基 于本体 的关联知 识 可视( 浙江大 学计算机科 学与技术学院 ,杭州 302) 07 1
摘 要 :本体作为共享概念体 系的形 式化描 述 , 知识检 索方面可解决海量知识利用 问题 。为 此,在 已有研究成果 的基础 上,提 出一种 基 在
[ ywod lk o e g te a; noo y o tlg nt c o ;ea dk o e g ; i a zt n Ke r s wl er r vlo tlg ;noo yc s ut n rlt n wl e vs l a o n d ei o r i e d ui i DOI 1 . 6 /is. 0 —4 82 1 . .1 : 03 9jsn1 03 2 . 11 0 8 9 . 0 0 6
于本体 的关联知识 可视化检索模 型。该模型从 实用角度出发 ,关注知识源 之间的关联性和知识检索 的用户体验 ,改进传统 的本体构建及 维 护方法 ,提 出新 的知识检索 方法 。应 用实例 结果表明 ,该模型能够提升 用户获取 知识 的效率和质量 。 关健 两:知识检索 ;本体 ; 本体 构建 ;关联知识 ;可视化
O n o o y b s d Re a e n wl d eViu l a i n Re re a o e t l g - a e l t d K o e g s a i to t iv l z M dl
JA I NG ioj n L h hpn , I i i X a - , I a -ig L U S- u S y
l 概述
随着知识经济时代 的到来 ,各领域 的知识资源库越来越 大 ,与此 同时新知识 的创造速度也越来越快 ,如何有效地 利
如各学科领域 的主题词表、分类表 ,在此基础上确定领 域知 识本体的主要概念和概 念间的各种关系 ,构筑领域本体 的概

基于本体的信息检索

基于本体的信息检索

基于本体的信息检索吴素坤(东华大学图书馆上海图书馆)摘要:近年来,本体论(ontology)成为信息领域一个新的研究热点,国内外大量文献进行了本体在信息检索上的应用研究。

本文通过国内外基于本体的信息检索的相关文献分析,试图描绘本体论可能或已经带给信息检索模式的改变。

1.引言随着信息时代的到来以及互联网的迅速普及和应用,每天都会产生出大量的、具有反复利用价值的信息。

面对信息海洋,如何最快地查全查准所需要的信息成为我们共同关心的问题。

目前的信息检索,不论是网络检索还是在特定数据库内检索,其搜索机制往往是基于关键词或主题内容的检索。

传统信息检索模型可示意如下图:图1 传统的信息检索模型[1]从图1上可以看出,传统的信息检索是基于关键字的检索技术,需要用户将要寻找的事件以关键词的形式较准确地描述出来,并最终以检索表达式的形式提交给查询系统。

由于字义本身与其概念的延伸不在同一级上,造成利用传统信息检索所寻找的信息可能仅仅是字面本身的信息,但往往人们想要的是这个信息的概念及相关的成分,而不仅仅是字面所表达的信息。

换言之,传统信息检索只是关注词的模式匹配,而没有能够关注与处理词的语义概念本身及其相关关系。

理想的智能信息检索系统的目标是:提供友好的用户检索交互界面;基于自然语言或实例的查询;依据用户浏览和检索的习惯信息,熟悉用户的兴趣爱好,建立一定的用户描述,主动向用户提供相关的信息;针对用户查询请求自动向用户提供相关文档页面,不需用户重复发现知识;综合利用个性化检索和集中浏览的优势;检索速度快,能够快速地返回查询结果;高检索率(多)和高检索精度(准)。

因此已有的信息检索系统与理想的智能信息检索系统相比,存在着很多不足。

这就需要在现有信息检索系统的理论和技术的基础上,设计并实现符合特定领域需要的智能信息检索系统和该系统的体系架构,从而实现分布式异构信息的预处理和远程信息的自动获取。

有学者提出,基于本体的信息检索模式是一种最有前途的检索方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Indri 的检索模型研究王莉军(渤海大学辽宁锦州121013)摘要:基于Indri 是开源的检索工具,针对以往单纯的语言模型无法支持结构化查询的目的,我们采用推理网络模型和语言模型两种模型相结合的方法,结合推理网络模型支持比较复杂的结构化查询(结构化通常指查询语言中的用来表达检索文档中词与词之间联系的operators ),和语言模型及平滑技术对推理网络中的一些节点进行有效的预估的优势使查询得到比较好的效果,提出了一套Indri 检索模型。

关键词:Indri ;检索;模型;查询中图分类号:N3文献标识码:A文章编号:1674-6236(2012)24-0005-03Indri -based retrieval modelWANG Li -jun(Bohai University ,Jinzhou 121013,China )Abstract:Based on Indri is open source search tools ,according to the previous simple language models cannot support structured query purposes ,we use the inference network model and language model two kinds of model combining method ,combined with the inference network to support more complex SQL (structured query language usually refers to the expression of words and word retrieval document links between operators ),and the language model and smoothing technology to inference network in some node evaluate advantages make the query to get better effect ,put forward a set of Indri retrieval model.Key words:Indri ;search ;model ;query收稿日期:2012-08-18稿件编号:201208081基金项目:辽宁省教育厅项目(2008005)作者简介:王莉军(1975—),女,辽宁锦州人,硕士,讲师。

研究方向:计算机教育教学。

Indri 是开源的信息检索工程Lemur 的一个子项目。

Indri是一个完整的搜索引擎,支持各种不同格式文本的索引创建,提出了优秀的文档检索模型,支持结构化查询语言,在研究和实际应用领域都有比较高的价值。

Indri 系统采用C++语言编写,提供了方便的API 供使用者调用,由于项目本身开源,对于开发者而言,也可以方便的对其进行二次开发。

1Indri 检索模型Indri 结合了推理网络模型(Inference net )和语言模型(language modeling )的优点,提出了一套检索模型,其利用推理网络模型的优势来支持比较复杂的结构化查询(结构化通常指查询语言中的用来表达检索文档中词与词之间联系的operators ),又利用语言模型及平滑技术对推理网络中的一些节点进行有效的预估,从而使查询得到比较好的效果[1]。

这之前,单纯的推理网络模型节点的预估采用的是规格化的tf.idf (这个值与词在文档中出现的频率称正比,与包含该词的文档数成反比)权重,而单纯的语言模型则无法支持结构化查询。

所以Indri 检索模型采用了两种模型相结合的方式[2]。

推理网络模型网络图如图1所示,实际上是一个贝叶斯网络(Bayesian networks )。

贝叶斯网络是一个有向,无环图。

网络中每个节点代表一个事件,有一个连续或者离散的结果集。

每个非根节点存储了一个条件概率表,这个条件概率表完全描述了与给定父节点的情况下该节点出现相关联的结果集的概率。

每个与根节点相关联的结果集被指派了一个先验概率。

这样在已知网络图,先验概率,条件概率表和节点代表的事件之后,就可以通过网络计算出检索文档中出现查询的概率,并按照这个概率值的大小进行排序输出。

主要包含有以下几类节点[3]:电子设计工程Electronic Design Engineering第20卷Vol.20第24期No.242012年12月Dec.2012图1推理网络模型网络图Fig.1Inference network network diagram《电子设计工程》2012年第24期1)文档节点D(Document Node);2)平滑参数节点alpha,beta(Smoothing parameter nodes);3)模型节点θ(Model nodes);4)特征表示节点r(Representation concept nodes);5)查询节点q(Belief nodes);6)信息需求节点I(Information need node)。

文档节点(Document Node):文档节点是文档表示的一个随机值。

Indri采用二进制特征向量集对文档进行表示,而不是一般模型中单纯的term序列,文档的特征向量表示可以挖掘出更多的文本的信息,例如短语,是否是大写字母词等。

文档中每个term的位置被一个特征向量表示,向量中的元素表示特征的有无。

如此一来可以将文档看作一个多伯努利分布(Multiple-Bernoulli distribution)的抽样。

举一个文档表示很简单的例子,假设文档是由5个词组成的,则我们用下面12个特征组成的特征序列来表示文档,如下[4],Document:A B C A B假设特征序列是[A B C AA AB AC BA BB BC CA CB CC]D={[100010000000],[010*********],[001000000100],[100010000000],{{[001000000000]}}}平滑参数节点:是为模型节点提供平滑参数。

模型节点Model nodes(M):模型节点代表所谓的特征语言模型。

在Indri框架中,它们是平滑过的多伯努利分布,该分布是对文档表示的一个建模。

网络中可能会有不止一个模型节点,与同一文档的不同表示相关联,如上图所示,模型节点包括title,body,h1等3个模型节点,分别为文档的title,body,h1部分的表示,这样就允许模型通过不同的文档表示来进行预估,合并。

这里需要计算P(M|D),P(M|D)=P(D/M)P(M)乙P(D/M)P(M)d M特征表示节点Representation concept nodes(r):特征表示节点是与上述文档表示中提到的特征向量直接相关的二进制随机值。

这里,同样的特征节点可能会在网络中出现多次,因为每个相同的特征节点可能会有一个不同的父节点。

P(r|D)=乙P(r|M)P(M|D)d M经过化简,可得到下式,tf r,D表示特征在文档中出现的次数P(r|D)=tfrzD+μP(r|C)|D|+μ查询节点Belief nodes(q):查询节点是用来合并特征节点或者其他查询节点的二进制随机值。

每个查询节点关联到不同的条件概率表,允许节点以多种不同的方式合并。

查询节点是根据Indri的结构化查询动态的添加到网络中,因此网络拓扑是随着每次查询改变的。

这使得网络很强大,根据不同的查询式,使用不同的打分方法。

信息需求节点Information need node(I):信息需求节点可以看作一个简单的查询节点,将所有的查询节点合并到一个节点,这个节点作为rank的基础[5]。

也就是说rank的依据是P(I=1|D,alpha,beta)。

例如一个查询:#weight(2.0#or(#1(north korea)iraq)1.0policy),查询的意思大概是“包含韩国或者伊朗以及policy的文档,并且包含north korea或者iraq所占的比重系数为2.0,而包含policy的比重系统为1.0”。

推理网络如图2所示。

再例如一个查询:#combine(#uw8(hurricane wind).(title)damage),这个查询的大概意思是“文档题目域中包含一个8个词的窗口,窗口中可以无序的包含hurricane和wind两个词,并且文档中包含damage这个词”。

推理网络如图3所示。

2Indri查询语言为了充分利用上面提到的检索模型,Indri提供了一套查询语言可以表达复杂的概念。

Indri查询语言是一种结构化查询语言,是由一些operation组成的,每个operation代表了推理网络中的一个查询节点(即q节点)[6]。

Operation可以分为以下几类:图3推理网络Fig.3Inference network图2推理网络Fig.2Inference network1)Basic operationIndri 查询语言的基本操作是继承Inquery 结构化查询语言的,举一些简单的例子:#uwN (t1t2…)包含N 个单词的无序窗口#odN (t1t2…)包含N 个单词的有序窗口#combine (q1q2…)合并查询q1和q2#weight (w1q1w1q2…)合并查询q1和q2并且设置了每个查询的权重#filrej (c s )当c 不满足的情况下计算表达式s #filreq (c s )当c 满足的情况下计算表达式s 2)Field operation这类操作符是为了支持结构化文档设计的。

最简单的形式,比如term.field ,意思是term 只有出现在field 时才是与查询相关的。

域可以是文档中的任何打了标签的信息。

例如可以是文档的一大段(如一个章节),一小段(如一个自然段),或者只有几个句子(如名词短语等)。

一个域也可以多次出现在文档中。

例如wash.np 就可以用来实现这样的查询,“查找出现在名词短语中的wash ”。

3)Extent retrievalIndri 也支持用域来在某一区域中打分。

例如查询#combine[field](q1,…qn ),在field 指定的区域中对(q1,…qn )进行打分和排序。

这样可以方便地支持类似段落查询或者语句查询等这样的需求。

4)Date and numeric retrievalIndri 来识别数字相关的性质,包括日期等。

为了查询数字相关的性质,Indri 提供了#less ,#greater 和#equal 等操作。

相关文档
最新文档