基于数据融合的web元搜索模型比较研究

合集下载

元搜索引擎

元搜索引擎

元搜索引擎随着科学技术的发展,元搜索引擎技术应运而生。

元搜索引擎是基于搜索引擎之上的搜索引擎。

如今已逐渐成为了社会的热点话题,它已经渐渐地融入到人们的日常生活中。

A元搜索引擎定义:通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,它是是对分布于网络的多种检索工具的全局控制机制。

B元搜索引擎核心理论:元搜索引擎就是一个具有双层客户机/服务器机构的系统,一般由检索请求提交、检索接口代理、检索结果显示3部分组成。

(1)请求提交。

负责实现用户的检索设置要求,包括调用哪些独立搜索引擎、是否有最长检索时间设置、是否提供高级检索服务、设置每个搜索引擎返回的检索结果数量、在线帮助是否有效等。

若用户选择个性化检索,则推理机制将根据用户基本信息与动态知识库进行分析推理用户的当前意向,进行查询求精处理,并根据用户对返回结果的行为使用反馈机制动态更新知识库。

(2)检索接口代理。

负责将用户的检索请求“翻译”成能够满足不同搜索引擎“本地化”要求的格式,包括是否支持布尔检索、短语检索、自然语言检索等高级检索特性,是否能够实现检索请求的“本地化”转换。

它是元搜索引擎的一个重要指标。

(3)结果显示。

负责所有来源搜索引擎检索结果的去重、合并、输出处理等。

元搜索引擎如何将独立搜索引擎的检索结果以统一的格式显示给用户,是评测其检索性能的重要手段。

C元搜索引擎代表性文献:i 《元搜索引擎结果生成技术研究》张卫丰徐宝文等著ii 《中外元搜索引擎的比较研究》晏一平岳泉著D元搜索引擎主要模型:数学模型作为一个信息检索系统,元搜索引擎可以形式化的通过一个六元组来描述:MSE-System=(SEn,Qn,Hn,Fn,Rn,Tn)其中SEn、Qn、Hn、Fn、Rn和Tn分别表示待选择搜索引擎集合,信息检索需求集合,信息检索需求交换集合,待选择搜索引擎集合和信息检索需求集合之间的匹配处理框架,排序算法以及查询结果集筛选标准。

信息检索中的检索模型比较分析

信息检索中的检索模型比较分析

信息检索中的检索模型比较分析信息检索是指用户在面对大量信息时,通过使用一定的检索模型和技术方法,从中找到对自己有用的信息。

在信息爆炸的时代,信息检索变得非常重要和必要。

在进行信息检索时,使用不同的检索模型可以对用户的需求有不同的体现和处理方式。

因此,本文将比较分析信息检索中常见的检索模型,包括布尔模型、向量空间模型和概率模型。

首先,布尔模型是信息检索中最简单和最早的一种模型。

它使用布尔运算符(AND、OR、NOT)来表达检索的需求。

布尔模型的优点是逻辑简单,可以精确地描述用户的需求,使得检索结果更加准确。

然而,布尔模型的缺点也很明显,即无法对文本进行有关键词排名和排序,只能返回文档是否与查询匹配的结果。

由于信息检索系统中文档数量庞大,使用布尔模型检索的结果可能会非常庞杂,给用户带来困扰。

其次,向量空间模型是一种基于向量空间的检索模型。

该模型将文档和查询都表示为向量,并计算它们之间的相似度来判断文档与查询的相关性。

向量空间模型的优点在于可以对检索结果进行排序和排名,使得结果更加合理和有序。

此外,向量空间模型还可以使用权重来表示文档中关键词的重要程度,从而进一步提高检索的准确性。

然而,向量空间模型也存在一些问题,例如需要对文档和查询进行向量表示,需要对文档中的关键词进行权重计算,这些都需要消耗大量的计算资源和时间。

最后,概率模型是一种基于统计学概率的检索模型。

它通过计算文档与查询之间的相关性概率来进行检索。

概率模型的优点在于可以通过统计学方法来估计查询与文档之间的相关性概率,从而更好地处理查询的需求。

此外,概率模型还可以使用反馈机制来进一步提高检索的准确性。

然而,概率模型也存在一些问题,例如需要对文档集合进行训练,需要估计相关性概率,这些都需要大量的计算资源和大规模的文档集合。

综上所述,信息检索中的检索模型比较分析主要包括布尔模型、向量空间模型和概率模型。

布尔模型逻辑简单,可以精确地描述用户的需求,但无法对检索结果进行排序和排名;向量空间模型可以对检索结果进行排序和排名,但需要对文档和查询进行向量表示和权重计算;概率模型可以通过统计学方法估计查询与文档的相关性概率,但需要大量的计算资源和训练集合。

基于语义Web服务的信息检索模型研究

基于语义Web服务的信息检索模型研究
L iq a g IZh — in
(nom t nC n r Taj oy cncU i ri , i j 0 10 C ia Ifr a o et , in nP l ehi n esy Ta i 3 0 6 , h ) i e i t v t nn n
Ab t a t n o d rt e ov h a k o e ni no main o a i o a e 'o d b s d i o ain s a c t o sr c :I r e rs l e t e lc f ma t i r t ft d t n l y r - a e n r t e r h me h d,t i p p r O s cf o r i k w f m o h s a e D t o w r h no main s a c d l a e n s ma t e e vc si it b t d n t r n i n n ,o eb i o e u Sf r ad t ei fr t e r h mo e s do e n i W b s r ie n d s i u e ewok e vr me t n t a s ft o b c r o h s h d s r t n o e e h oo iso e n i W e e vc s e c p i n k y tc n l ge f ma t b s r ie .Th o g n lsso ef n t n ft emo e ,i p o o e e i o ma i o s c r u h a ay i ft ci so d l t r p s st n r — h u o h h f
l to n o d rt c e e a tm ai nd i tHie no a in s a c u in i r e O a hiv uo t a n e g nti r to e r h. c f m K e o ds s ma tc W e e ie ; if r ain e r h mo l e a i i l rt smu ae x e me t y w r : e n i b s r c s r o v r m to s a c de ;s m ntc smia y; i lt d e p r i i n

基于文本和视觉信息融合的Web图像检索的开题报告

基于文本和视觉信息融合的Web图像检索的开题报告

基于文本和视觉信息融合的Web图像检索的开题报告一、研究背景随着Web技术的快速发展,Web上的图像存储量不断增加,图像搜索问题也日益重要。

如何通过用户提供的查询词在大规模的图像数据中快速、有效地定位所需图像,成为了当前Web图像检索的一个重要研究方向。

在Web图像检索中,传统的基于文本的检索方法往往只能利用图像的标记信息,而不能充分利用图像本身的视觉特征。

基于视觉信息的检索方法可以通过对图像进行颜色、纹理、形状等特征的提取和匹配,更准确地描述图像的内容。

然而,基于视觉信息的检索方法也存在一些问题,如特征的维度较高、匹配过程耗时等。

因此,近年来,文本和视觉信息融合的Web图像检索方法备受关注。

这种方法可以充分利用图像的视觉信息和标记信息,提高检索效果。

同时,基于深度学习的图像特征提取方法的出现,也为文本和视觉信息融合的Web图像检索提供了新的思路和技术基础。

二、研究内容及目标本文将研究基于文本和视觉信息融合的Web图像检索方法,主要包括以下内容:1.基于深度学习的图像特征提取方法。

深度学习在图像特征提取方面取得了巨大的成功,本文将探讨基于深度学习的图像特征提取方法,包括卷积神经网络(CNN)和循环神经网络(RNN)等。

2.基于标记信息的文本检索方法。

本文将对基于标记信息的文本检索方法进行探讨,包括传统的向量空间模型(VSM)和基于词向量(Word2Vec)的检索方法等。

3.基于视觉信息的图像检索方法。

本文将研究基于颜色、纹理、形状等视觉特征的图像检索方法,包括传统的Bag of Visual Words(BoVW)方法和深度学习的卷积神经网络(CNN)方法等。

4.文本和视觉信息融合的Web图像检索方法。

本文将研究文本和视觉信息融合的Web图像检索方法,探讨不同特征融合的方式,并提出一种基于深度学习的文本和视觉信息融合模型。

本文的目标是提出一种高效、准确的基于文本和视觉信息融合的Web图像检索方法,并进行实验验证。

基于Web服务的异构数据源统一检索系统的研究

基于Web服务的异构数据源统一检索系统的研究

的结果记 录元数据模型 以及相应的算 法, 实现 了一个统一检索 系统 , 上海市委 党校数 字图书馆 系统中获得应 用。 并在 [ 关键词 ] b服务 数字图书馆 检 索 结果融合 We
引 言
次处理 。
数字 图书馆组织数字化 信息 及其技术提供有效服务 ,将分散 于不 同载体 、 同地域 的异构化信息 资源 以网络化方式相互联结 , 不 实现 资源 共享 。 数字 图书馆系统对文献信息的加工 、 存储 、 询、 查 利用等方面有 了 新的要求 。系统所包含的数据资源各式各样 , m于资源表示的不统 , 资源存储 的分布性等问题使得资源 之间的互操作困难 ,进而导致资 源 得不 到有效利用 。因此 , 数宁 图书馆需要 一个统一检索平 台, 使用户 能 够快速查找数字化资源。统一检索系统能够整合已有的资源 , 将不 同类 型 、不 同结构 、不同环境和不 同用 法的异构数据库纳入统一 的检索平 台,用户可以在统一的界面和检索环境下 对不同数据源的信息进行查 询,并 以统一的界面显示不 同数据 源的信息 ,节省用户获取资料 的时 间, 高效率 。 提 1数 字 图 书 馆 的 统 一检 索 现状 . 数字 图书馆的统一检索本质就 是异构数据源统一检索—— 以多个 分布式异构数据源为对象 , 向用户提供统一 的检索接 口, 将用户的检索 要求转化为不同数据 源的检索表达式 ,并发地榆索 网络 上的多个分布 式异构数据源 , 并对检索结果 加以整合 , 以统一 的格式将 结果呈现给用
户。
2基于 We . b服务的统一检索 We b服务是 用标准 的 、 规范 的可扩 展标 记语 言(Xe s l Mak p e tni e ru b L nu g , agae XML描述 的一些操作的接 口f ) 1 ] 。该接 口隐藏了实现服务的细 节 ,允许独立于硬件或软件平 台 、编程语 言使用服务 这就使得基于 We b服务 的应用程序 可 以面 向组件 和跨技 术实 现成为 松散耦 合的系 统 。We b服务技 术经多年 的发展 , 存走 向成熟 , 正 井因其独有 的良好封 装性 、 松散耦合 、 使用 协议 的规范性 、 高度 可集成能力等特点 , 使其非常 适合 Il n t ne e 的发展 ,在异构数据 源统 一检索领域 得到广泛 应用 。将 r We b服务应用于异构数据源统一检索 , 能够 实现 系统跨 网络 、 跨平台数 据通信和系统问的灵活集成。 基 于 We 务 的数 字 图书 馆 统 一 检 索 系 统 设 计 思 想 如 下 : b服 () 1部署 检索服 务注册 和反馈 代理 : 该代 理遵循现 有 We 务通 b服 Hj 述 、 描 发现 和集成 ( i r l ee pinDi oe a dlt r i , D— Unv s sr t s vw n ne a a U e aD t o c g tn D) I 规范 , 负责各数据 源检索服务 的注册 以及各 数据源检索服 务辅 助信 息和反馈信息的统一 维护 ,是联系统一检索 系统 中各个功 能服务 的纽 带。 ( )}We 2 J b服务技术对各节点数据源的检索接 口进行封装 : We L J 用 b 服 务 统 一描 述 语 言 ( b evcs e(itnL nu g, DL, 过 We 一 We ri sr i agae WS 】通 S eD ・ o p b 服务机制在 检索服 务注册和 反馈代理 上注册 , DI文 档中需要包 含 WS 数据 检索源 的个性化信息 , 包括 服务分发和结果融合 的辅助信息。 ( 部署 负责检索源 服务调度和查询转换的检索分发 服务 : 服务 3) 该 利用检索服务注册 和反馈代理 中的各数据检索 源对应的 WS L D ,对客 户端 的用 户检索请求进 行预处理 ,将其转化为若干个检索 源服务 能够 处理 的格式 , 然后分发给各个数据检索源 。 () 4 部署结果融合服 务: 该服务 根据 各检索数据源对应 WS L 件 D 文 中的辅 助信 息, 对各检索 源服务的结果进行后处理 , 包括组合各个 检索 源 服 务 返 回 的 检索 结 果 、 除重 复项 、 结 果 进 行 排 序 等 。 消 对 () 5 以统 一的格式 向客户端返 回经过组合和处理后的检索结果 。 基 于上述思想 没计 的统一检索 系统框架如下 图所示

基于半完全图在数据融合中的元搜索研究

基于半完全图在数据融合中的元搜索研究
或 者全文 。元搜 索 引擎通 过 自己定制 的检 索界 面 , 收并 处 理用户 的查询 提 问 , 进行 实 际的查询 时 接 在
调用一个或者多个独立搜索引擎的数据库 , 搜索结果来 自独立搜索引擎 的检索结果或者是集合的综 合, 结果呈现既可以是引用原始的独立搜索引擎的页面 , 也可 以是由元搜索引擎重新定制后 的形 式, 如图 1 所示。元搜索引擎一般会采用品牌知名、 检索效果较好的主流搜索引擎 的数据库 , 一次提问同 时检索多个数据库 , 提高 了检 索 的效率。不 同的元搜索引擎 , 所使用 的搜 索机制 和算 法是有差异
会 网络分析等思想 , 究 W b 的搜 索 引擎中的应 用, 社会 选择 理论 提 出了基 于半 完全 图的融合 模 在研 e上 从 型, 并结合堆排序给 出了一个高效的元搜 索融合算 法, 并且和 其他 融合 算 法做 了一 定 比较 , 现半 完全 图 发
融合这一方法的性能 ; 半完全图
高、 覆盖面不广等弱点 , 因此研究元搜索引擎是必要的。 从 2 世纪 6 0 0年代以来 , 信息检索领域在索引模型、 文档 内容表示 、 匹配策略等方 面取得了许多 研究成果。将传统 的全文检索系统搬上网络, 利用搜索程序 ( r l ) Ca e 进行信息 的搜集 , 中的核心 wr 其
引擎与网上信息挖掘学术研讨会” 。目前最著名系统为北京大学 的天 网以及上海交通大学的叶允 明 等研究的 Io 纯 Jv 分步式 C we 系统 , g l aa a r r l 哈尔滨工程大学 的张国印等分析 了搜索引擎 的技术。韩
家炜 、 孟小峰等介绍了 We 挖掘的现状和概念 ; b 中国科技大学 的汪晓岩等采用智能 A et gn 研究个性 化的信息检索系统 ; 南京大学的王继成等采用多 A et gn 技术将多维文本分析 与文本 挖掘这两种技术 结合起来进行 We 文本挖掘。范焱等采用 N ieBys b av ae 进行网页分类 , i 上海交通大学的张亮、 叶允明

一种基于Web的模糊矢量相关检索模型

一种基于Web的模糊矢量相关检索模型

一种基于Web的模糊矢量相关检索模型吴应良;韦岗【期刊名称】《华南理工大学学报(自然科学版)》【年(卷),期】2001(029)011【摘要】矢量相关模型(VCM)是当前流行的信息检索模型之一.本文将模糊集理论和方法引入基于Web的信息系统检索模型的构造,提出了一种模糊矢量相关模型(FVCM),从而对其理论结构及用户检索模式的表达作了模糊化改进.初步实验结果表明,新模型克服了原模型的一些固有缺陷,有利于提高系统查准率和查全率.%The VCM (Vector-Correlative Model) is one of the currently popular models for information searching under the Web environment. In this paper, the authors inducted fuzzy sets theory and approach to construct information searching model, and a new VCM is presented, that is called FVCM (Fuzzy Vector-Correlative Model). So, its theory structure and user's searching quizzing mode have been dimming improved. It has been shown with some fringe experimentation that the new model has overcome some intrinsic defects of the exciting ones, and has raised the precision rate and recall rate of information search system.【总页数】5页(P27-31)【作者】吴应良;韦岗【作者单位】华南理工大学工商管理学院,广东,广州,510640;华南理工大学电子与信息工程学院,广东,广州,510640【正文语种】中文【中图分类】TP391.3【相关文献】1.医学信息检索中一种基于概念的查询相关模型 [J], 李纲;毛进;芦昆2.一种矢量数据的双层次多尺度表达模型与检索技术 [J], 程昌秀;陆锋3.基于多相关本体的模糊信息检索模型 [J], 俞扬信4.一种模糊矢量相关信息检索模型 [J], 吴应良;韦岗;金连文;李海洲5.一种古籍汉字图像的多属性模糊检索模型 [J], 齐艳媚;田学东;张充;李亚康因版权原因,仅展示原文概要,查看原文内容请购买。

基于本体的WEB语义检索系统研究

基于本体的WEB语义检索系统研究

整体的、全面的分析。这种整体的思想在各个方面都有体现, 而设计又是整体系统的一个基础环节,十分重要,是整体性 思维的直接体现。然而在目前计算机网络化的大环境下,尽 管部分技术人员编写的具体程序十分优秀,却没有考量把各 个分散的程序综合起来的整体,那么对用户的使用就会造成 很大的困难,检索出的信息都很分散,没有一个系统的逻辑 把信息串联起来,造成了很大的阅读困难。
作者简介:张伟疆(1984-),男,福建厦门人,硕士研究生,助教。研究方向:软件工程技术。 — 139 —
软件开发与应用
ቤተ መጻሕፍቲ ባይዱ
信息与电脑 China Computer&Communication
2018 年第 12 期
和技术支持,导致了检索系统缺乏资金支持。
2.3 系统具体设计方案不完善
系统程序的编写,是检索的基础。具体设计方案的质量, 也就决定了系统能否达到检索的效果。设计主要存在以下几 个方面的问题,例如,面向具体对象的可视化设计不够清晰、 缺乏基础的信息库、数据基数大难以管理。这些都是由于技 术人员在编写程序的过程中出现了知识盲区,忽略了相关方 面的建设造成的。其他问题基本上都可以从别的方面解决, 但是设计方案的缺陷是系统运行面临的基础问题,无法规避, 而且会随着用户使用时间的增加而越发凸显出来 [1]。
意识灌输到他们的头脑里。或者是进行系统化的培训,提高 编写整体性程序的水平 [2]。
3.2 建立健全质量监督体系
除了要加强系统设计的整体性外,质量监督体制的建设 也十分重要。质量监督体制在建设完善投入使用后,会很大程 度上减少维护人员的工作量,为系统的开发研究企业节约大量 的人力、物力、财力。具体的建设需要国家先制定相关的法律 条文,而后企业严格执行。质量监督制度也是依附于检索系统 本身而存在的,这也就是说参与制度制定的人,是既具有很高 的计算机操作水平,同时具有相应监管知识的人 [3]。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

它基于将问题的多个答案集成为一个更好、 有 效 的 答 案。 !!! 上的文档资源和搜索引擎正好符合上述情况, 元搜索 引擎利用数据融合技术将不同的搜索引擎联合起来满足用 户的需要。 元搜索引擎 ( 5"2- > ?"-%’@ A+3(+") 对于一用户查 询 ( B="%C) , 通过将 , 个搜索引擎的 , 个排序队列融合为一个 排序队列, 希望能够取得比单个搜索引擎更好的性能, 图0 显示了元搜索引擎的组成方式, 数据融合是元搜索的核心技 术。 元搜索引擎不应该简单地将各搜索引擎的结果混合起 来, 而是要依据一定的数学规则; 并能够取得比各搜索引擎 性能更佳的方案。 目前在国际上有关元搜索引擎策略的研究 引起了很多学者的重视, 但都还不是很完善。 现有的元搜索 引擎比如 /+D=(%=)、 /ED=(’F、 5"2-4%-G."%、 &%*<=)(*+ 等, 它们
如 !"# 上文档词汇量比较大、 其长度范围比较广等。 在文献 [H, K] 中提出的 5(+、 5-E -+$ ?=L 模型利用各个搜索引擎返 回 的 %". ( $) 值 来 进 行 文 档 的 相 关 度 评 价: !(, ( ") 5 !(,( ( ) , / - 0, …, ,, 函数 5 分别取函数 L(+、 L-E 和 )=L。 / ") 其扩展的权值模型为: !(, ( ") -( 2 " )5 !(,( , 其中 / ")
( (
第 !* 卷 (
第 "* 期
计(
算(
机(
仿(

!""+ 年 "* 月 ( (
文章编号: %""# & ,’*( !""+ ) "* & "%!" & "*
基于数据融合的 !"# 元搜索模型比较研究
丁 一, 杨朋英
( 湖北师范学院计算机科学与技术系, 湖北 黄石 *’)""! ) 摘要: 没有一个搜索引擎系统在任何情况下所表现出来的性能都比其他的搜索引擎要好, 因此研究元搜索引擎是必要的。 文 中提出了三种元搜索中的传统数据融合方法: 基于线性组合的相似度融合、 基于排序的 ./012345 和 612345 & 62743 融合。 其 中相似度融合通过分析部分 840 文档的内容来产生线性组合的参数, ./012345 则将各搜索引擎的结果表均衡地融合在一 起, 612345 & 62743 则利用了 9:; 的分类服务和 62743 概率模型来计算文档的相关度。 通过实验证明它们是行之有效的融合 方法, 比较传统的方法的性能有一定提高, 在效率上比纯粹分析所有文档的内容来进行融合的方法更好。 关键词: 网上数据挖掘; 网页搜索; 信息检索; 数据融合 中图分类号: <;’%% ( ( 文献标识码: =
[%]
户输入一些关键词 ( 描述他感兴趣的信息) , 搜索引擎回复一 系列排列好的 .WT 或文档, 如 @GGBM4、 =ME2O13E2 等。 搜索引擎
[!] 一般由四部分组成 : 数据库 ( :2E20234)保存搜索引擎得到
的 840 文档的有意义信息; 840 $D2QM4D 的任务就是不断从 >/E4D/4E 中 下 载 网 页, 并 更 新 数 据 库 中 的 信 息; 用户界面 ( .34D >/E4DH2K4)提供用户查询接口和显示结果; 排列算法 ( W2/P1/B =MBGD1ELF)则是当接受到用户查询申请后, 从数据 库中获取相适应的文档, 根据一定的排列原则计算排序值并 将它们排列后给用户界面显示。 搜索引擎返回的一条查询结果的形式化描述为 ( !, "!#, !$#) , ! % %, …, &; 其中 ! 为 W2/P1/B =MBGD1ELF 对返回文档记 录的排列值, IDM 为文档的 840 .WT 值, D4M 为返回文档与用
[H] 采用结果组合如简单地查询单词出现频率排序 ; 逻辑斯蒂
5 5 !
: ; -0
/ <7 ; ・< ; :
8 / 8 ( <7 ; )・5 ( < ; ) ; -0
(H) 其中 < , < 分别为查询和文档的权重值, 定义如下: < /; - #5 /; ・.*3 ( = > ? 2 ;> )和 <7 ; 7 ; / ;
, 并提高查准率。
基金项目: 湖北师范学院资助科研项目 ( !""#$%" ) 收稿日期: !""# & "’ & %#( 修回日期: !""# & ") & !’
户查询的相关度赋值, 一般 " * !$# * % 。 有些搜索引擎不返回 !$# 值, 如 @GGBM4、 %#’R KGF 等, 因为 ! 就可以表示此 840 文档
4*L#?P5、 4*L#5MN 互有优劣。 R-%2"..,S*32 等 提 出 的 线 性 组 合 模 型 试 图 引 入 权 重
[T] : !(, ( ") ( G"(3@2)采用线性模型来综合各相关度值
5
/
!"
数据融合
数据融合 ( ;-2- <=)(*+) 是一种解决问题的方法和技巧,
, 它需要通过训练的方法来确定每个引擎的 ! / 值。 ! / !(,( / ") 尽管在某些特定情况下取得了较好的实验结果 , 但没有证 明它能够比其它模型有可靠的性能提高, 而且还需要大量的 实例来进行训练。 !$ #" 线性相似度融合模型 线性组融合模型中的权重值在训练后就固定下来了, 而 根据不同的查询主题来设置不同的权值是最可行的方法。 文 档 " / 和查询 7 之间的相似度关系可以很方便地用作权重计 算; 相似度定义为查询向量 8 和文档向量 9 / 的内积: 0/: 40: ( 7, " / ) - 8 ・9 / : ; -0
பைடு நூலகம்
CD
引言
840 上的搜索引擎部分地解决了资源发现问题, 比如
ED
元搜索引擎
搜索引擎 ( J42DKL V/B1/4)提供给用户一个简单模式: 用
@GGBM4、 =ME2O13E2 等, 它们已经索引了大约近 %) 亿页面; 尽管 搜索引擎效率和性能比过去有了很大提高, 但没有一个系统 在所有的情况下表现得比其他的每一个系统都好。 同时它们 由于精度不高、 覆盖面不广等原因, 其效果远不能使人满意: 另外它们索引的范围还只是整个 888 的一小部分, 而且由 于网络资源的分布广泛, 有相当一部分网页不可能被某些搜 索引擎索引; 最后由于网络资源的动态特征, 搜索引擎的查 找内容很大部分将是过时的连接。 因而可以考虑多个搜索引 擎组成元搜索来提高查全率
— %!" —
的重要程度, 即越相关的文档 ! 值越小 ( 排在前面) 。 对于一 !"# 文档 $, 记( ! ")为该搜索引擎系统所赋予的 % 值。 由于 !"# 文档的海量特征以及各搜索引擎返回的结果 数目不一致, 查准率 ( &%"’()(*+)与查全率 ( ,"’-..)不能简单 评价搜索引擎的性能, 因此我们采用平均值来衡量 /, 系统。 定义 0 查准率 1 查准率定义为检索到的目标类的样例 集中所包含的属于检索正确的样例所占比例的大小。 对目标 类 2-%3"24 模型 5 的查准率可用公式来估计: 7 "24) ( 0 ) &%"’()(*+ ( 5, 2-%3"24) 6 & ( # -%3"2 $ % # -%3 定义 8 查全率 1 查全率定义为在一个检索结果中所包 含的检索正确的对象数目占实际存在的满足查询要求的对 象数目的比例的大小。 对目标类 #&#’(#$, 模型 ) 的查全率可 用公式来估计: . (#$ % # -%3 (#$) *(+&,, ( ),#&!’(#$) - & ( 2 &!’ 0 % *% (8) 定义 &% (+/0/12 / 为在排列 ( 的文档 &%"’()(*+ 值, 同时有系 统 的 平 均 &%"’()(*+ ( 9:"%-3" &%"’()(*+) : 3 &4’
图 #" 元搜索引擎
$ 的搜索引擎系统相关度的平均值; 当 % 6 O 时, 记为 4*L#?P5 模型, 其 %". ( $)为所有返回 $ 的搜索引擎系统相关度的总和;
[Q] 当 % 6 0 时, 记为 4*L#5MN 模型。 在文 的实验中,
5
"- *
% * *( ! ") % , 其中 , 为所有相关文档的集合, * *( ! ") ! ")为排在( ( ! ") 和它之 前 的 相 关 文 档 数 量,我 们 主 要 关 注 系 统 的 平 均 &%"’()(*+ 参数。
/ !
2 " 为返回文档 " 的搜索引擎数; 当 ! - 6 0 时, 记为 4*L#9MN 模型, 其 %". ( $) 为所有返回
— 080 —
! " )的平均值作为引擎 # 的 ! # 值。 !# $
9: . 7*8%+ 模型有一定的缺陷, 它对于所有的查询采用 相同的排列比较, 其性能完全依赖于学习得到的概率估计。 (#) 而实际中各搜索引擎的结果排列还是比较依赖查询类别的。 我们提出一种有偏差的概率模型 ( 7)*+%, . 7*8%+) , 除了考 虑搜索引擎返回的文档 * 值外, 同时还要考虑到查询本身对 A B%; C AB [ B%; D L, B! ,B5 ,…,B! ]以及 A )BB C 相关度的影响: AB [ )BB D L, B! ,B5 ,…,B! ]为给定的 $%& 文档相关和不相关 在查询 L 下对应排序值 B! ,B5 ,…,B ; 所得到的条件概率。 应用贝叶斯法则得到: A B%; C AB [ L, B! , B5 , …, B! D B%;] ・ AB [ B%;] H AB [ L, B! , B5 …, B! ]以及 A )BB C AB [ L, B! , B5 , …, B! D )BB] ・AB [ )BB] H AB [ L, B! , B5 …, B! ] F B%; C A B%; H A )BB C AB [ L, B! , B5 , …, B! D B%;]・ AB [ B%;] H {AB [ L, B! , B5 , …B! D )BB] ・AB [ )BB] } 9 7*8%+ 独 查询 L 的向量 M C {L! , …, L+ } ; 同样基于 78,’+ 立性假设得到: F B%; C
相关文档
最新文档