P2P网络搜索技术的研究

合集下载

非结构化P2P网络搜索技术研究

非结构化P2P网络搜索技术研究

对现有的非结构化 PP网络的改进 2
直到收到响应 ,或者达 到了最大 的泛洪步 拓扑 自适应
考虑到网络的异构和各节 点处理能力 低的节点离能力高的节点很近。
i三一 2 |i ; 维普资讯| || 0 = j _0 j 三 l
研究与发展
f | l三 I j _ 三 i。 l
[7 2 2 2  ̄
维普资讯

7 2
Байду номын сангаас
研究与发展
非结构化 P 2 P网络搜索技术研究
■文 / 李晓娟 徐远超 张树东 张聪霞 (loig Fodn )发现 和随机转 发机制 。 P P文件共享首先要解决文件定位的 为了控制搜索消 2 问题 。理论上 ,P P搜索技术 的搜索范 围 息 的传 输 ,通 过 2
对流量的分析和控制能力将直 接决定整个网 络的交通状况
非结构化P P 网络解决 了网络结构中 2 这种 洪 泛方 式定 位对 等 点 的方 法 心化的问题 ,扩展性和容错性 较好 。但是
它采用应用层 广播 的协议 , 导致消息量 过 将造成网络流量 急剧增加 ,从而导致 网络 的不 同,用节 点每秒 能处理 的查询量来表 大 ,网络负担过重 ,无法得 知整个网络的 中部分低带宽节点 因网络资源过载而失效, 示节 点的能力 。通 过计算,获得各节 点的 拓扑 结构或组成 网络 的各对 等点 的身份 , 甚至存在 比较严重的分区 、断链现象 。导 处理 能力 ,进而避免 任何节 点过 载以处理 新的对等点进入网络时 ,系统必须 向这个 致一个查询访问只能在网络的很小一部分 更多的查询 ,适应不断增大的系统规模 。
UP R的比较结果。 为了实现这一目标,所有节点都将各 居 节点问建 立 连接 时相互交 换信 息获得 , 和 S E 自 算出 自己的关联度 。关联度不仅决定 并周期性进行增量更新。这样,当一个节 计

P2P网络搜索技术研究

P2P网络搜索技术研究
P P网络可分 为 2类 : 构 化 网络 和 非 结 构 化 网 2 结
络。在结构化网络中每个结点存储的信息与网络 拓扑结构 有 关 , 过 映 射 完成 , 找采 用 基 于 通 查
D T分 布 式散 列路 由搜 索算 法 ; 非结 构 化 网络 H 而
图 1 B S查 找 过 程 F
居, 并将 查 询消息 发 给它们 , 这些 邻 居接下 去进 行
1 非结构化 P P搜 索算法 2
11 广 度优 先搜 索 .
1 1 1 有 向广度优 先搜 索 . .
同样 的操作或广度优先搜索操作 , 这样使得查询 的成本 大大 降低 。 为了更有效地选择邻居 , 每个节点存储 了其 邻居 的一些简单统计信息, 如以前 的查询通过每 个邻居得到所需结果的数量 , 或者邻居 的连接延 时等 。通过这些统计信息, 可以通过 以下方法有

则与网络拓扑无关 , 其结点可任意存储信息 , 查找
采用基于广度优先 的搜索算法及 改进算法 。这 2种 不 同结构 的网络所采取 的搜索技术是 完全不 同的。
种 改 进 的有 向广 度 优 先 搜 索 策 略 的基
本思想是 , 源节点利用过去 的查询信息和统计结 果, 通过一些算法 , pgr k gsp和 IM等启 如 ae n .os a , i S 发式算法挖掘一些能够快速返 回高质量结果的邻
效地选 择 最好 的邻 居节 点 : ( ) 择在 以前 的查 询 中返 回结 果 数 量最 多 1选 的邻 居 。
G mea】 n l _是一个 典 型 的完全 分 布式 系 统 , l 采 用 广度优 先搜 索技术 。广度优 先 搜索算 法 过程如
下: 源节点 s 首先查询其所有 的邻居节点 , 询问是 否含有 目 标文件或数据 , 如果 s 的邻居 中有邻居 存储 了 目标 文 件 或数 据 , 将 目标 文 件 或数 据 返 则 回给源节点; 如果没有邻居含有 目 标文件或数据 , 则所有的邻 居将 查询继续传递给各 自的邻居节

基于P2P技术的网络信息检索的探讨

基于P2P技术的网络信息检索的探讨

交 流 、 件 交 换 、 布 计 算 、 同 、 度 检 索 等 方 面应 用 十 分 广 文 分 协 深 泛 。一 般 来 说 .2 P P有 两个 层 面 的基 本 含 义 : P P通 信 模 式 。这 种 模式 区别 于传 统 的 客户 机 , 务 器 或 2 服 者 主, ( s Sae 模 式 , 个 通 信 方 都 具 有 相 同 的能 力 。 从 Mat l ) m/ v 每 并 且 每个 通 信 方 都 可 以 发 起 一 个通 信过 程 . P P网 络 。P P 网络 是 运 行 在 互 联 网上 的动 态 变 化 的 逻 2 2 辑 网络 。这 个 网络 是 由一 些 运 行 同 一 个 网 络 程 序 的 客 户 端 彼 此 互 连 而 构 成 的 .客 户 端 彼 此 间 可 以 直 接 访 问 存 储 在 对 方 驱 动 器 上 的文 件 。 ’P P使 得 网 络 上 的 沟 通 变 得 更 容 易 、用 户 可 以直 接 共 享 和 2 交互而不必借助 中间商 .不用像过去那样必须连接到服务器才 能 浏 览 与下 载 。P P 另 一 个 重 要 特 点 是 改 变 了 互 联 网 以太 网站 2

要建立 在分布式 Hah表之上 。 s 在给定 资源的索引情况 下 . 能够
在 01 跳 之 内定 位 到 索 引对 应 的 节点 。 ( 即) 2P P的概 念和 结构 模 式 .2
21P P的 概 念 . 2
P P是 p -o pe 2  ̄rt— er的缩 写 。 目前 P P 技 术 在 加 强 网 络 上 2
挖 掘 网 络 边缘 资 源 , 可 提 供 个 性 化 的 信 息服 务 。 本 文 从 P P技 术 的 基 本 原 理 入 手 , 并 2 围绕 P P技 术 的基 本 概 念 、 用 范 围和 2 应

基于P2P搜索技术的研究

基于P2P搜索技术的研究

及 P P信 息检 索的 原理 ; 2 系统 的 阐述 了 p p搜 索技 术 的种 类及 其应 用 。 其 特 点和 综 合 性 能进 行 分析 。 2 对 评价 。 并得
到 了相 应 的 结 论 .
关 键 词 : 2 原 理 : 索 : 合 性 能 P P: 搜 综
中图分类号 : P9 . T 3 13
c mp h n ie f n t n A o cu in h n e i d n t e p p r o r e sv u c o s e i c n lso e c s ma e i h a . e Ke wo d : P P; r c pe S a c y rs 2 p n i l ; e r h;C mp h n ie f n t n i o r e sv u ci e o
维普资讯
第 4卷
第 3期
邵 阳学 院学 报 ( 自然 科 学 版 )
V 0. O 3 1 N . 4 S p.2 0 e 。0 7
20 0 7年 9月
J un lo h o a gUn es y aua c n e E i n) o ra f a y n i ri (N trl i c d i S v t S e t o
统 治 的局面被 逐渐 打破 , 出现 了越来越 多 的对 等 pe t pe, 2 ) ero erP P 的通信 模式 .2 P P通 信指 的 是 参与 通信 的每个 节点既 是服 务器 , 又是客 户
端 , 点 间 自组 织 地 形 成 对 等 的 逻辑 网 络 . 节
是 资源 ( 务 和 内容 ) 供 者 ( e e) 又 是 资 服 提 Sr r , v
d f i o fP P d s r e t p o e t s a d t e p n i l f P P s a c ig. u t e mo e t e p p r ea o ae e k n f P P e n t n o 2 e c b s i r p ri n h r c pe o 2 e r hn F r r r h a l b r ts t id o 2 i i i s e i h e h s a c ig n i a p i a o .Th P P e r h e h oo y r e a n d n e au td n he e ms f t er f au e a d e r h n a d t p l t n s ci e 2 sa c tc n lg R e x mie a d v l ae i t tr o i e tr h s n

P2P资源搜索技术调研

P2P资源搜索技术调研

P2P资源搜索技术调研陈海宁(信息科学与工程学院信息0801)摘要 :资源搜索机制作为 P2P应用的核心技术 ,其目标是在 P2P这种分布式动态环境中以最快的速度找到最多的满足用户要求的系统节点资源。

对 P2P网络中种类型搜索机制的原理与性能进行了分析与比较。

关键词:计算机系统,P2P,搜索机制所有的计算机系统可分为集中式和分布式两类集中式系统,主要指IBM、HP等小型机以上档次的系统,一个主机带多个终端。

终端没有数据处理能力,运算全部在主机上进行。

现在的银行系统,大部分都是这种集中式的系统,此外,在大型企业、科研单位、军队、政府等也有分布。

集中式系统,主要流行与上个世纪。

现在还在使用集中式系统的,很大一部分是为了沿用原来的软件,而这些软件往往很昂贵。

分布式系统是把各地不同地理位置的计算机集中起来形成一个系统.例如DNS服务器就是一个典型的例子.他把全世界的DNS 服务器通过internet连接起来,全世界共有13台根DNS服务器,但并不是存储有全世界的域名的.而是分配存储.例如.cn的域名服务器在中国.当外国客户机要访问中国域名时先在本地服务器查(没有查到)---然后在本地主查到是中国的域名就到中国主服务器查.得到对应的IP地址,然后去访问. 分布式系统,一般采用客户机/服务器模式、多层、服务器集群等技术。

是现在的主流分布式可进一步划分为C/S和P2P 模式C/S模式可划分为扁平:所有的客户端仅仅和单个服务器(含重复服务器)通信,如传统的中间件分层:提高可扩展性,某层的服务器又作为更高层的客户端:如DNS服务器和文件系统一、什么是 P2P?为说明问题我们先打个比方:如果说局域网中的“网络邻居”是乡里乡亲,那么互联网中的“P2P”则是“天涯比邻”。

P2P是peer-to-peer的缩写,peer在英语里有“(地位、能力等)同等者”、“同事”和“伙伴”等意义。

这样一来,P2P也就可以理解为“伙伴对伙伴”的意思,或称为对等联网。

P2P技术及其发展研究

P2P技术及其发展研究

l 引 言
则必 须 提 起 互 联 网 震 动 的 , 非 也 只 有 交 流 方 式 的 变 革 本 身 。 如 今 , 方式 下如要提高 搜 索 的命 中 和 降低 搜 索 的冗余 , 无 增 在 在 基 于 网络 的 各 种 技 术 充 斥 于 我 们 周 围 之 时 , 怕 只 有 很 高结点对 服务器 的请 求次 数 , 加 了服务器 资源 的 消耗 ; 恐 少人不知 道 P P的概念 了 , 2 即便您没有 深入探 究 , 您每 日 但
中图分类号 :P T 文献标 识码 : A 文 章 编 号 :6 23 9 ( 0 0 0 —2 30 1 7 —1 8 2 1 )80 8 —3
建 立 比 较 固 定 的 关 系 , 得 在 此 平 台 上 开 发 进 一 步 的 应 用 使 更 加 易 于 推 广 ; 这 种 方 式 对 服 务 器 性 能 要 求 也 很 高 , 用 但 应 互 联 网 能 够 发 展 至 今 , 本 原 因 在 于 其 布 建 的 任 何 一 根 系统 功 能 越 强 大 , 服 务 器 的 要 求 就 越 高 , 如 搜 索 , 此 对 比 在 根 血 脉 都 是 为 人 与 人 之 间 的 交 流 而 设 置 的 。而 现 在 能 够 引

要 : P P技 术诞生 , 自 2 它的应 用立刻以迅猛 的速度传播 、 发展 。应用 的普 及程度 , 令人 赞叹 。通过 回顾 P P技 术 的 2
发展 历史 , 合 P P构架、 结 2 工作 原 理 、 法 、 索 方 式 等 内容 , P P这 一 时 下 炙 手 可 热 的技 术 进 行 详 细 讨 论 。 算 检 对 2 关键 词 : 史; 架; 历 构 念 2

2 1 P P的 构 架 . 2

国内P2P网络热点技术研究

国内P2P网络热点技术研究
时 ,存储 在其 上的数 据就变得 不可用 ,为 了进 一步提 高数据 的可获取性 ,减 少数 据定位 的延迟 ,那么 网络 中的资 源就 必须存在 多个副 本 ,从而推动 了资
源 复制 策略 的研 究 。
扑 结构松散无 关 ,著 名的例 子有 G u elI和 Ka a ,它们 在文件 共享方 n tl ‘ aI Z Al
面取得 了巨大 成功 。 结构化 P P网络是 完全分布 式的对 等 比较 著名 的有 CAN I C o d , 2 h r P s r {和 Ta et y I a ty I p sr  ̄ 。在这种 结构 中,资源的分 布有一定 的规则 :每个节 点对应某个 空间的唯 一的哈 希值 p e i ,每 个资源也对 应该 空间中唯 一的哈 er d 希值 k yd,该资源 就被存储到 p e i ei er d距离 k y d在数值上最 接近 的节 点上 。 ei 当查询资 源时 ,根据 此资源 的哈希 值就能 定位到 某个节 点上 ,因此 ,结构 化
层 ,所 以就出现 了逻辑 网络拓扑 与物理 网络拓 扑不 匹配的问 题。这项技 术的 研究 大大 提高 了搜 索效 率 ,减少 了不 必要 的路 由 ,降低 了网络 开销 。
1 2 体 系结构介绍 2 P P
P P网络根据 体系结构 的不 同可 以分为 两类 :非结构 化 P P网络 和结构 2 2
对于非 结构化 P P网络 ,主 要有以 下两种 资源 复制 策略 。 2 () 基于流 行度的副本 策略 。论 文II 1 ! 中提 出了一种基 于流行度 的层次式 副本 创建 策略 P S P R。该策略 充分考 虑文件 的异 质性 ,利用 文件流 行度辅助 副 本创 建 ,使得 文件 副 本数量 和 分布 更加 合 理 ,充 分利 用 了 当前 非 结构化

P2P技术的应用及其研究现状图解

P2P技术的应用及其研究现状图解

P2P技术的应用及其研究现状摘要自1999年以来,对等网络(P2P)技术因其充分利用网络资源和网络带宽等诸多优点而受到国内外学术界和商业组织的广泛关注。

美国《财富》杂志更称之为改变因特网发展的四大新技术之一,甚至被认为是无线宽带互联网的未来。

文中首先介绍P2P的概念及其四种网络模型:集中目录式、纯分布式、混合式和结构化,并将P2P模型与C/S模型进行对比,结果表明:在有效利用网络中的大量闲置信息、存储空间、处理器周期等资源、避免服务器带来的瓶颈问题、降低服务器成本等方面,P2P有着明显的优势;然后介绍P2P文件交换、对等计算、协同工作等应用模型及其研究现状;最后讨论P2P网络存在的问题。

关键字对等网络(P2P)技术客户端∕服务器(C/S)模型模型引言随着Internet网络的广泛普及、网络带宽的大幅增加以及基于Internet的端系统计算能力迅速增强,在客户端∕服务器(C/S)模式(通常只有服务器节点资源得到利用)中被忽略的且广泛存在的用户端设备成为一种宝贵的计算资源。

因此,“充分利用网络边缘资源”成为新的研究和应用目标之一,其中“网络边缘资源”是指那些在传统应用模式中作为客户端而往往被忽略的计算设备。

而对等网络(P2P)技术正是在这样的形势下迅猛兴起,如今P2P技术研究的涉及面已十分广阔,包括网络拓扑、分布式存储、安全性和可靠性等。

P2P技术应用更是涵盖诸多方面,商业和民用领域的文件与数据共享和存储、、科研领域的协同和并行计算等。

然而P2P也同样在其发展历程中存在着许多或难以克服或存在缺陷的问题,比如版权问题、安全问题等。

尽管问题如此之多,不置可否,P2P技术正不断变革着网络,并且改变人们的生活。

1P2P的概念及其网络模型目前在学术界以及商业组织上对于P2P 没有一个统一的定义,下面有三种定义:1 P2P是一种通信模型,其中每个参与者都有相同的能力。

在Internet上,P2P是一种网络类型,它允许相同网络程序的计算机相互建立连接,直接访问对方的硬盘上的文件。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2005201201;修返日期:2005204206基金项目:国家自然科学基金(60474072,60174050);广东省自然科学基金(04009465,010059);广东省高校自然科学研究资助项目(Z03024);广东省哲学社会科学规划项目(03/04J02)P2P 网络搜索技术的研究3贾杏丹,张立臣(广东工业大学计算机学院,广东广州510090)摘 要:分布式存储系统以其分布式控制、自组织性和普遍的适应性而受到越来越多的关注。

搜索是所有存储系统的重要组成部分,而对终端用户的反应时间是衡量一个搜索引擎优良的重要指标。

讨论了目前几种流行的P2P 网络搜索技术及特点,并比较其优劣,然后对基于分布式哈希表的搜索技术的几种改进方法进行了分析。

关键词:P2P;分布式哈希表;B l oom Filter;Cache中图法分类号:TP30116 文献标识码:A 文章编号:100123695(2006)0120071202Research on Search Technol ogy of P2P Net w orkJ I A Xing 2dan ,ZHANG L i 2chen(Faculty of Co m puter ,Guangdong U niversity of Technology,Guangzhou Guangdong 510090,China )Abstract:I nterest in distributed st orage syste m is fueled for its decentralized contr ol,adap tati on and self 2organizati on .Searchis an i m portant technol ogy f or all st orage syste m,and end 2user latency is the most i m portant perfor mance metric f or a search engine .D iscusses several recent popular search technol ogies of P2P syste m s and characterizes of this technol ogies,and com 2pares their advantages and disadvantages,then analyzes several i m p r oved ways for DHT 2based st orage syste m.Key words:P2P;DHT;B l oom Filter;Cache 分布式存储系统以其分布式控制、自组织性和普遍的适应性而受到越来越多的关注。

但是高级搜索技术仍是一个亟待解决的问题,而在一个搜索引擎中对终端用户的反应时间是最重要的性能指标。

在分布式搜索引擎中对最终用户的反应时间多由网络传输时间决定。

因此最小化要发送的比特数和发送花费的时间单元数是很重要的。

在实际的搜索中,包含有多个关键词需由多台主机协同工作才能完成的查询占大多数,它们决定了网络的负载,因此对它们进行优化对缩短终端用户反应时间是很重要的。

1 P2P 网络中常用的搜索技术的分析具有集中式的目录服务器的搜索机制(如Nap ster ),在集中式的目录服务器上存放对等节点的地址信息、元数据和文件的关键词信息。

它可以对请求的查询进行快速地查找并返回最合适的目的节点。

但是随着网络规模的增大,目录服务器必然成为服务瓶颈,而且会造成单点失败,同时还存在扩展性问题。

采用洪泛查找机制的P2P 网络,如Gnutella[2],Freenet 等。

可以把这种完全分布式的网络看成是一组对等节点之间的自组网络。

节点在进行查找时,首先传播到它的所有相邻节点,然后在传播到相邻节点的所有相邻节点,直至到达预先确定的层次为止。

这种查询机制造成网络通信负担较大,也存在扩展性较差的问题。

在文献[9]中提出了针对Gnutella 的利用搜索相近关键词的一组节点构造节点存储的路由表进行组播来减少洪泛查找所造成的网络流量的失控。

基于分布式哈希表的查找机制,如Chord [3],CAN [4],Pas 2try[5],Tapestry [6]等。

在Chord 中每个关键字都保存在它的后继节点上,查找过程就是不断接近它的后继节点最终到达目的节点或查找失败。

C AN 基于虚拟的d 维笛卡儿坐标实现其数据组织和查找功能。

Pastry 使用最长共同前缀进行匹配查找。

Tapestry 使用邻居映射表进行最长前缀匹配查找,并可把消息传递到最近的存放所要求的对象拷贝的节点。

以上介绍的四种基于分布式哈希表的查找机制有很多相似之处。

下面对它们进行简单的比较如图1所示。

由此可知在Nap ster 和Gnutella 中使用的关键词查询的方法,在基于分布式哈希表的P2P 系统中由于关键词经哈希函数后成为唯一的关键值,就是说基于分布式哈希表查找系统通过一个不透明的关键值来对文件进行查询。

关键值选择的方法由构筑在DHT 之上的应用程序所决定,它缺少有效的关键词查询的功能。

然而经改进后,可以不把关键词的查询直接映射在存有相应哈希值的节点上。

而是映射在一个哈希表上,节点再映射到此哈希表上来提供高效的关键词查询。

在实际的搜索中,包含有多个关键词需由多台主机协同工作才能完成的查询占大多数,它们决定了网络的负载,所以以下的改良方法针对多关键词查询。

・17・第1期贾杏丹等:P2P 网络搜索技术的研究 2 对现有的基于分布式哈希表查找机制的改进方法211 B l oom Filter算法B l oom Filter[1]是一种表示集合的方法,并可简洁地测试一个元素是否在该集合中,它基于哈希函数建立,所存储的比特数远少于它所表示的集合。

P2P网络传输一个基于集合A的B l oom Fiter而非集合A本身,可以减少需要传输的信息量以降低网络流量。

但B l oom Fiter会导致可预算的错误定位率。

B l oom Fiter的错误定位率随它尺寸的增大而呈指数降低。

集合S的B l oom Filter F(S)=S∪ε(S),ε(S)是错位定位数。

Pf p 为错误定位率,则P f p=(1-e-kn/m)K,(k为哈希函数的个数,m为B l oom Fil2 ter的尺寸,n是集合中元素的个数)哈希函数选择最优化时,错误定位率为f=0.6185m/n(1)所以若要保持一定的错误定位率,m必须与n成一定的比例[7]。

下面是关于B l oom Filter的集合操作把集合S转换为它相应的B l oom Filter:F(S)←SB l oom Filter的交集运算:F(X∩Y)←F(X)∩F(Y)B l oom Filter的并运算:F(X∪Y)←F(X)∪F(Y)B l oom Filter和集合的运算:(X+ε(X))∩Y←F(X)∩YF(X)∩X=X优化多关键词搜索重点是降低所用的网络带宽。

例如,若服务器SA 存放所有含关键词KA的文件集合A,SB存放所有含关键词KB的文件集合B。

|A|和|B|分别表示集合A和B的大小(即它们包含的文件数目)。

A∩B是即包含关键词KA 又含关键词KB的文件集合。

若一个节点C查询搜索既包含关键词KA 又含关键词KB的文件即A∩B。

一个直接的方法是:SA 发送集合A给集合B所在的节点SB。

SB计算出A∩B然后直接发送A∩B给查询节点C。

若使用B l oom Filter,SA发送集合A的B l oom Filter F(A)给集合B所在的节点SB 。

SB计算并发送F(A)∩B给SA,S A通过计算A∩(F(A)∩B)(与A∩B等价)去除错误定位的文件,然后发送给节点C。

S A虽可通过计算A∩(F(A)∩B)在最后去除错误定位的文件,但浪费了带宽。

如上,节点SA 和节点SB的例子中,共需传递的比特数为m+Pf p|B|j+|A∩B|j(j是文件标识符的比特数)。

|A∩B|j是所要求的交集本身,不能优化。

所以可优化的比特数为m+Pf p|B|j与式(1)联合可得可优化比特数为m+f|B|j=m+016185m/|A||B|j(2)当式(2)取值最小时m=|A|l og016185(21081|A||B|j)(3)由上可知当A,B和j固定时,优化m才能得到最小的传输比特数,所以要合理的选择B l oom Filter的尺寸大小。

而且当|A|和|B|不同时优化的性能是非对称的且当|A|≤|B|时传输的比特数更少。

B l oom Filter交集处理多关键词查询的技术可以推广到任意多个关键词,如下所示:S rq是请求查询的节点,求A∩B∩…∩ZS rq→S A:query f or A∩B∩…∩ZS A→S B:F(A)S B→S C:F(F(A)∩B)=F(A∩B)┇S Y→S Z:F(F(A∩…∩X)∩Y)=F(A∩B∩…∩Y)S Z→S Y:F(A∩B∩…∩Y)∩ZS Y→S X:F(A∩B∩…∩Y)∩Z∩Y┇S B→S A:F(A∩B∩…∩Y)∩Z∩Y…∩BS A→S rq:F(A∩B∩…∩Y)∩Z∩Y…∩B∩A而且当|A|≤|B|≤|C|≤…≤|Z|时可以最优化传输的比特数。

212 缓存使用缓存若SB在本地已经存储有F(A)或A则可以避免S A继续发送。

缓存F(A)而非A本身的话,相同的空间可以存储更多数据的B l oo m Filter。

因为关键词出现的概率呈非对称分布(Zi pf分布),所以这就意味着即使很小的Cache都可以有很高的命中率。

平均地看,一个B l oo m Filter已存储在另一个节点的概率p与该节点Cache的命中率相等。

此时式(2)可优化为(1-r)m+0.6185m/|A||B|j(4)优化m后得m=|A|l og0.6185[(1-r)2.081|A||B|j]发送比特数的减少和Cache命中率的提高近似成线性关系。

213 结果的处理请求查询并不需要返回搜索出的所有结果。

如果只传输返回所要求的查询结果,可以在很大程度上减少所要传输的信息量。

查询结果的数量与网络中存储的文件的数目成比例,所以用于返回查询结果的带宽和网络规模的增大呈线性增长,因而从系统的可扩展性来说,对结果进行整理是很有必要的。

而B l oom Filter和Cache都不能减少这种线性的增长,所以截去部分结果是唯一的方法。

因为B l oom Filter如果被分割就没有任何实际意义,所以S A把本地存储的文件分块,发送一个块的B l oom Filter给S B, S B返回相应块的搜索结果(在此期间S A和S B,保持通信),直至达到查询所要求的文件的数目。

相关文档
最新文档