P2P网络搜索技术的研究

合集下载

非结构化P2P网络搜索技术研究

对现有的非结构化ＰＰ网络的改进２
直到收到响应，或者达到了最大的泛洪步拓扑自适应
考虑到网络的异构和各节点处理能力低的节点离能力高的节点很近。
ｉ三一２｜ｉ；维普资讯｜｜｜０＝ｊ＿０ｊ三ｌ
研究与发展
ｆ｜ｌ三Ｉｊ＿三ｉ。ｌ
［７２２２￣
维普资讯
■
７２
Байду номын сангаас
研究与发展
非结构化Ｐ２Ｐ网络搜索技术研究
■文／李晓娟徐远超张树东张聪霞（ｌｏｉｇＦｏｄｎ）发现和随机转发机制。ＰＰ文件共享首先要解决文件定位的为了控制搜索消２问题。理论上，ＰＰ搜索技术的搜索范围息的传输，通过２
对流量的分析和控制能力将直接决定整个网络的交通状况
非结构化ＰＰ网络解决了网络结构中２这种洪泛方式定位对等点的方法心化的问题，扩展性和容错性较好。但是
它采用应用层广播的协议，导致消息量过将造成网络流量急剧增加，从而导致网络的不同，用节点每秒能处理的查询量来表大，网络负担过重，无法得知整个网络的中部分低带宽节点因网络资源过载而失效，示节点的能力。通过计算，获得各节点的拓扑结构或组成网络的各对等点的身份，甚至存在比较严重的分区、断链现象。导处理能力，进而避免任何节点过载以处理新的对等点进入网络时，系统必须向这个致一个查询访问只能在网络的很小一部分更多的查询，适应不断增大的系统规模。
ＵＰＲ的比较结果。为了实现这一目标，所有节点都将各居节点问建立连接时相互交换信息获得，和ＳＥ自算出自己的关联度。关联度不仅决定并周期性进行增量更新。这样，当一个节计

P2P网络搜索技术研究

ＰＰ网络可分为２类：构化网络和非结构化网２结
络。在结构化网络中每个结点存储的信息与网络拓扑结构有关，过映射完成，找采用基于通查
ＤＴ分布式散列路由搜索算法；非结构化网络Ｈ而
图１ＢＳ查找过程Ｆ
居，并将查询消息发给它们，这些邻居接下去进行
１非结构化ＰＰ搜索算法２
１１广度优先搜索．
１１１有向广度优先搜索．．
同样的操作或广度优先搜索操作，这样使得查询的成本大大降低。为了更有效地选择邻居，每个节点存储了其邻居的一些简单统计信息，如以前的查询通过每个邻居得到所需结果的数量，或者邻居的连接延时等。通过这些统计信息，可以通过以下方法有
一
则与网络拓扑无关，其结点可任意存储信息，查找
采用基于广度优先的搜索算法及改进算法。这２种不同结构的网络所采取的搜索技术是完全不同的。
种改进的有向广度优先搜索策略的基
本思想是，源节点利用过去的查询信息和统计结果，通过一些算法，ｐｇｒｋｇｓｐ和ＩＭ等启如ａｅｎ．ｏｓａ，ｉＳ发式算法挖掘一些能够快速返回高质量结果的邻
效地选择最好的邻居节点：（）择在以前的查询中返回结果数量最多１选的邻居。
Ｇｍｅａ】ｎｌ＿是一个典型的完全分布式系统，ｌ采用广度优先搜索技术。广度优先搜索算法过程如
下：源节点ｓ首先查询其所有的邻居节点，询问是否含有目标文件或数据，如果ｓ的邻居中有邻居存储了目标文件或数据，将目标文件或数据返则回给源节点；如果没有邻居含有目标文件或数据，则所有的邻居将查询继续传递给各自的邻居节

基于P2P技术的网络信息检索的探讨

交流、件交换、布计算、同、度检索等方面应用十分广文分协深泛。一般来说．２ＰＰ有两个层面的基本含义：ＰＰ通信模式。这种模式区别于传统的客户机，务器或２服者主，（ｓＳａｅ模式，个通信方都具有相同的能力。从Ｍａｔｌ）ｍ／ｖ每并且每个通信方都可以发起一个通信过程．ＰＰ网络。ＰＰ网络是运行在互联网上的动态变化的逻２２辑网络。这个网络是由一些运行同一个网络程序的客户端彼此互连而构成的．客户端彼此间可以直接访问存储在对方驱动器上的文件。 ’ＰＰ使得网络上的沟通变得更容易、用户可以直接共享和２交互而不必借助中间商．不用像过去那样必须连接到服务器才能浏览与下载。ＰＰ另一个重要特点是改变了互联网以太网站２
－
要建立在分布式Ｈａｈ表之上。ｓ在给定资源的索引情况下．能够
在０１跳之内定位到索引对应的节点。（即）２ＰＰ的概念和结构模式．２
２１ＰＰ的概念．２
ＰＰ是ｐ－ｏｐｅ２￣ｒｔ— ｅｒ的缩写。目前ＰＰ技术在加强网络上２
挖掘网络边缘资源，可提供个性化的信息服务。本文从ＰＰ技术的基本原理入手，并２围绕ＰＰ技术的基本概念、用范围和２应

基于P2P搜索技术的研究

及ＰＰ信息检索的原理；２系统的阐述了ｐｐ搜索技术的种类及其应用。其特点和综合性能进行分析。２对评价。并得
到了相应的结论．
关键词：２原理：索：合性能ＰＰ：搜综
中图分类号：Ｐ９．Ｔ３１３
ｃｍｐｈｎｉｅｆｎｔｎＡｏｃｕｉｎｈｎｅｉｄｎｔｅｐｐｒｏｒｅｓｖｕｃｏｓｅｉｃｎｌｓｏｅｃｓｍａｅｉｈａ．ｅＫｅｗｏｄ：ＰＰ；ｒｃｐｅＳａｃｙｒｓ２ｐｎｉｌ；ｅｒｈ；Ｃｍｐｈｎｉｅｆｎｔｎｉｏｒｅｓｖｕｃｉｅｏ
维普资讯
第４卷
第３期
邵阳学院学报（自然科学版）
Ｖ０．Ｏ３１Ｎ．４Ｓｐ．２０ｅ。０７
２００７年９月
ＪｕｎｌｏｈｏａｇＵｎｅｓｙａｕａｃｎｅＥｉｎ）ｏｒａｆａｙｎｉｒｉ（ＮｔｒｌｉｃｄｉＳｖｔＳｅｔｏ
统治的局面被逐渐打破，出现了越来越多的对等ｐｅｔｐｅ，２）ｅｒｏｅｒＰＰ的通信模式．２ＰＰ通信指的是参与通信的每个节点既是服务器，又是客户
端，点间自组织地形成对等的逻辑网络．节
是资源（务和内容）供者（ｅｅ）又是资服提Ｓｒｒ，ｖ
ｄｆｉｏｆＰＰｄｓｒｅｔｐｏｅｔｓａｄｔｅｐｎｉｌｆＰＰｓａｃｉｇ．ｕｔｅｍｏｅｔｅｐｐｒｅａｏａｅｅｋｎｆＰＰｅｎｔｎｏ２ｅｃｂｓｉｒｐｒｉｎｈｒｃｐｅｏ２ｅｒｈｎＦｒｒｒｈａｌｂｒｔｓｔｉｄｏ２ｉｉｉｓｅｉｈｅｈｓａｃｉｇｎｉａｐｉａｏ．ＴｈＰＰｅｒｈｅｈｏｏｙｒｅａｎｄｎｅａｕｔｄｎｈｅｅｍｓｆｔｅｒｆａｕｅａｄｅｒｈｎａｄｔｐｌｔｎｓｃｉｅ２ｓａｃｔｃｎｌｇＲｅｘｍｉｅａｄｖｌａｅｉｔｔｒｏｉｅｔｒｈｓｎ

P2P资源搜索技术调研

P2P资源搜索技术调研陈海宁（信息科学与工程学院信息0801）摘要 :资源搜索机制作为 P2P应用的核心技术 ,其目标是在 P2P这种分布式动态环境中以最快的速度找到最多的满足用户要求的系统节点资源。

对 P2P网络中种类型搜索机制的原理与性能进行了分析与比较。

关键词:计算机系统，P2P，搜索机制所有的计算机系统可分为集中式和分布式两类集中式系统，主要指IBM、HP等小型机以上档次的系统，一个主机带多个终端。

终端没有数据处理能力，运算全部在主机上进行。

现在的银行系统，大部分都是这种集中式的系统，此外，在大型企业、科研单位、军队、政府等也有分布。

集中式系统，主要流行与上个世纪。

现在还在使用集中式系统的，很大一部分是为了沿用原来的软件，而这些软件往往很昂贵。

分布式系统是把各地不同地理位置的计算机集中起来形成一个系统.例如DNS服务器就是一个典型的例子.他把全世界的DNS 服务器通过internet连接起来,全世界共有13台根DNS服务器,但并不是存储有全世界的域名的.而是分配存储.例如.cn的域名服务器在中国.当外国客户机要访问中国域名时先在本地服务器查(没有查到)---然后在本地主查到是中国的域名就到中国主服务器查.得到对应的IP地址,然后去访问. 分布式系统，一般采用客户机/服务器模式、多层、服务器集群等技术。

是现在的主流分布式可进一步划分为C/S和P2P 模式C/S模式可划分为扁平：所有的客户端仅仅和单个服务器（含重复服务器）通信，如传统的中间件分层：提高可扩展性，某层的服务器又作为更高层的客户端：如DNS服务器和文件系统一、什么是 P2P？为说明问题我们先打个比方:如果说局域网中的“网络邻居”是乡里乡亲,那么互联网中的“P2P”则是“天涯比邻”。

P2P是peer-to-peer的缩写，peer在英语里有“（地位、能力等）同等者”、“同事”和“伙伴”等意义。

这样一来，P2P也就可以理解为“伙伴对伙伴”的意思，或称为对等联网。

P2P技术及其发展研究

ｌ引言
则必须提起互联网震动的，非也只有交流方式的变革本身。如今，方式下如要提高搜索的命中和降低搜索的冗余，无增在在基于网络的各种技术充斥于我们周围之时，怕只有很高结点对服务器的请求次数，加了服务器资源的消耗；恐少人不知道ＰＰ的概念了，２即便您没有深入探究，您每日但
中图分类号：ＰＴ文献标识码：Ａ文章编号：６２３９（０００ —２３０１７ —１８２１）８０８ —３
建立比较固定的关系，得在此平台上开发进一步的应用使更加易于推广；这种方式对服务器性能要求也很高，用但应互联网能够发展至今，本原因在于其布建的任何一根系统功能越强大，服务器的要求就越高，如搜索，此对比在根血脉都是为人与人之间的交流而设置的。而现在能够引
摘
要：ＰＰ技术诞生，自２它的应用立刻以迅猛的速度传播、发展。应用的普及程度，令人赞叹。通过回顾ＰＰ技术的２
发展历史，合ＰＰ构架、结２工作原理、法、索方式等内容，ＰＰ这一时下炙手可热的技术进行详细讨论。算检对２关键词：史；架；历构念２
一
２１ＰＰ的构架．２

国内P2P网络热点技术研究

时，存储在其上的数据就变得不可用，为了进一步提高数据的可获取性，减少数据定位的延迟，那么网络中的资源就必须存在多个副本，从而推动了资
源复制策略的研究。
扑结构松散无关，著名的例子有ＧｕｅｌＩ和Ｋａａ，它们在文件共享方ｎｔｌ ‘ ａＩＺＡｌ
面取得了巨大成功。结构化ＰＰ网络是完全分布式的对等比较著名的有ＣＡＮＩＣｏｄ，２ｈｒＰｓｒ｛和ＴａｅｔｙＩａｔｙＩｐｓｒ￣。在这种结构中，资源的分布有一定的规则：每个节点对应某个空间的唯一的哈希值ｐｅｉ，每个资源也对应该空间中唯一的哈ｅｒｄ希值ｋｙｄ，该资源就被存储到ｐｅｉｅｉｅｒｄ距离ｋｙｄ在数值上最接近的节点上。ｅｉ当查询资源时，根据此资源的哈希值就能定位到某个节点上，因此，结构化
层，所以就出现了逻辑网络拓扑与物理网络拓扑不匹配的问题。这项技术的研究大大提高了搜索效率，减少了不必要的路由，降低了网络开销。
１２体系结构介绍２ＰＰ
ＰＰ网络根据体系结构的不同可以分为两类：非结构化ＰＰ网络和结构２２
对于非结构化ＰＰ网络，主要有以下两种资源复制策略。２（）基于流行度的副本策略。论文ＩＩ１！中提出了一种基于流行度的层次式副本创建策略ＰＳＰＲ。该策略充分考虑文件的异质性，利用文件流行度辅助副本创建，使得文件副本数量和分布更加合理，充分利用了当前非结构化

P2P技术的应用及其研究现状图解

P2P技术的应用及其研究现状摘要自1999年以来，对等网络（P2P）技术因其充分利用网络资源和网络带宽等诸多优点而受到国内外学术界和商业组织的广泛关注。

美国《财富》杂志更称之为改变因特网发展的四大新技术之一，甚至被认为是无线宽带互联网的未来。

文中首先介绍P2P的概念及其四种网络模型：集中目录式、纯分布式、混合式和结构化，并将P2P模型与C/S模型进行对比，结果表明：在有效利用网络中的大量闲置信息、存储空间、处理器周期等资源、避免服务器带来的瓶颈问题、降低服务器成本等方面，P2P有着明显的优势；然后介绍P2P文件交换、对等计算、协同工作等应用模型及其研究现状；最后讨论P2P网络存在的问题。

关键字对等网络（P2P）技术客户端∕服务器（C/S）模型模型引言随着Internet网络的广泛普及、网络带宽的大幅增加以及基于Internet的端系统计算能力迅速增强，在客户端∕服务器（C/S）模式（通常只有服务器节点资源得到利用）中被忽略的且广泛存在的用户端设备成为一种宝贵的计算资源。

因此，“充分利用网络边缘资源”成为新的研究和应用目标之一，其中“网络边缘资源”是指那些在传统应用模式中作为客户端而往往被忽略的计算设备。

而对等网络（P2P）技术正是在这样的形势下迅猛兴起，如今P2P技术研究的涉及面已十分广阔，包括网络拓扑、分布式存储、安全性和可靠性等。

P2P技术应用更是涵盖诸多方面，商业和民用领域的文件与数据共享和存储、、科研领域的协同和并行计算等。

然而P2P也同样在其发展历程中存在着许多或难以克服或存在缺陷的问题，比如版权问题、安全问题等。

尽管问题如此之多，不置可否，P2P技术正不断变革着网络，并且改变人们的生活。

1P2P的概念及其网络模型目前在学术界以及商业组织上对于P2P 没有一个统一的定义，下面有三种定义：1 P2P是一种通信模型，其中每个参与者都有相同的能力。

在Internet上，P2P是一种网络类型，它允许相同网络程序的计算机相互建立连接，直接访问对方的硬盘上的文件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2005201201;修返日期:2005204206基金项目:国家自然科学基金(60474072,60174050);广东省自然科学基金(04009465,010059);广东省高校自然科学研究资助项目(Z03024);广东省哲学社会科学规划项目(03/04J02)P2P 网络搜索技术的研究3贾杏丹,张立臣(广东工业大学计算机学院,广东广州510090)摘　要:分布式存储系统以其分布式控制、自组织性和普遍的适应性而受到越来越多的关注。

搜索是所有存储系统的重要组成部分,而对终端用户的反应时间是衡量一个搜索引擎优良的重要指标。

讨论了目前几种流行的P2P 网络搜索技术及特点,并比较其优劣,然后对基于分布式哈希表的搜索技术的几种改进方法进行了分析。

关键词:P2P;分布式哈希表;B l oom Filter;Cache中图法分类号:TP30116 文献标识码:A 文章编号:100123695(2006)0120071202Research on Search Technol ogy of P2P Net w orkJ I A Xing 2dan ,ZHANG L i 2chen(Faculty of Co m puter ,Guangdong U niversity of Technology,Guangzhou Guangdong 510090,China )Abstract:I nterest in distributed st orage syste m is fueled for its decentralized contr ol,adap tati on and self 2organizati on .Searchis an i m portant technol ogy f or all st orage syste m,and end 2user latency is the most i m portant perfor mance metric f or a search engine .D iscusses several recent popular search technol ogies of P2P syste m s and characterizes of this technol ogies,and com 2pares their advantages and disadvantages,then analyzes several i m p r oved ways for DHT 2based st orage syste m.Key words:P2P;DHT;B l oom Filter;Cache 分布式存储系统以其分布式控制、自组织性和普遍的适应性而受到越来越多的关注。

但是高级搜索技术仍是一个亟待解决的问题,而在一个搜索引擎中对终端用户的反应时间是最重要的性能指标。

在分布式搜索引擎中对最终用户的反应时间多由网络传输时间决定。

因此最小化要发送的比特数和发送花费的时间单元数是很重要的。

在实际的搜索中,包含有多个关键词需由多台主机协同工作才能完成的查询占大多数,它们决定了网络的负载,因此对它们进行优化对缩短终端用户反应时间是很重要的。

1　P2P 网络中常用的搜索技术的分析具有集中式的目录服务器的搜索机制(如Nap ster ),在集中式的目录服务器上存放对等节点的地址信息、元数据和文件的关键词信息。

它可以对请求的查询进行快速地查找并返回最合适的目的节点。

但是随着网络规模的增大,目录服务器必然成为服务瓶颈,而且会造成单点失败,同时还存在扩展性问题。

采用洪泛查找机制的P2P 网络,如Gnutella[2],Freenet 等。

可以把这种完全分布式的网络看成是一组对等节点之间的自组网络。

节点在进行查找时,首先传播到它的所有相邻节点,然后在传播到相邻节点的所有相邻节点,直至到达预先确定的层次为止。

这种查询机制造成网络通信负担较大,也存在扩展性较差的问题。

在文献[9]中提出了针对Gnutella 的利用搜索相近关键词的一组节点构造节点存储的路由表进行组播来减少洪泛查找所造成的网络流量的失控。

基于分布式哈希表的查找机制,如Chord [3],CAN [4],Pas 2try[5],Tapestry [6]等。

在Chord 中每个关键字都保存在它的后继节点上,查找过程就是不断接近它的后继节点最终到达目的节点或查找失败。

C AN 基于虚拟的d 维笛卡儿坐标实现其数据组织和查找功能。

Pastry 使用最长共同前缀进行匹配查找。

Tapestry 使用邻居映射表进行最长前缀匹配查找,并可把消息传递到最近的存放所要求的对象拷贝的节点。

以上介绍的四种基于分布式哈希表的查找机制有很多相似之处。

下面对它们进行简单的比较如图1所示。

由此可知在Nap ster 和Gnutella 中使用的关键词查询的方法,在基于分布式哈希表的P2P 系统中由于关键词经哈希函数后成为唯一的关键值,就是说基于分布式哈希表查找系统通过一个不透明的关键值来对文件进行查询。

关键值选择的方法由构筑在DHT 之上的应用程序所决定,它缺少有效的关键词查询的功能。

然而经改进后,可以不把关键词的查询直接映射在存有相应哈希值的节点上。

而是映射在一个哈希表上,节点再映射到此哈希表上来提供高效的关键词查询。

在实际的搜索中,包含有多个关键词需由多台主机协同工作才能完成的查询占大多数,它们决定了网络的负载,所以以下的改良方法针对多关键词查询。

・17・第1期贾杏丹等:P2P 网络搜索技术的研究 2　对现有的基于分布式哈希表查找机制的改进方法211　B l oom Filter算法B l oom Filter[1]是一种表示集合的方法,并可简洁地测试一个元素是否在该集合中,它基于哈希函数建立,所存储的比特数远少于它所表示的集合。

P2P网络传输一个基于集合A的B l oom Fiter而非集合A本身,可以减少需要传输的信息量以降低网络流量。

但B l oom Fiter会导致可预算的错误定位率。

B l oom Fiter的错误定位率随它尺寸的增大而呈指数降低。

集合S的B l oom Filter F(S)=S∪ε(S),ε(S)是错位定位数。

Pf p 为错误定位率,则P f p=(1-e-kn/m)K,(k为哈希函数的个数,m为B l oom Fil2 ter的尺寸,n是集合中元素的个数)哈希函数选择最优化时,错误定位率为f=0.6185m/n(1)所以若要保持一定的错误定位率,m必须与n成一定的比例[7]。

下面是关于B l oom Filter的集合操作把集合S转换为它相应的B l oom Filter:F(S)←SB l oom Filter的交集运算:F(X∩Y)←F(X)∩F(Y)B l oom Filter的并运算:F(X∪Y)←F(X)∪F(Y)B l oom Filter和集合的运算:(X+ε(X))∩Y←F(X)∩YF(X)∩X=X优化多关键词搜索重点是降低所用的网络带宽。

例如,若服务器SA 存放所有含关键词KA的文件集合A,SB存放所有含关键词KB的文件集合B。

|A|和|B|分别表示集合A和B的大小(即它们包含的文件数目)。

A∩B是即包含关键词KA 又含关键词KB的文件集合。

若一个节点C查询搜索既包含关键词KA 又含关键词KB的文件即A∩B。

一个直接的方法是:SA 发送集合A给集合B所在的节点SB。

SB计算出A∩B然后直接发送A∩B给查询节点C。

若使用B l oom Filter,SA发送集合A的B l oom Filter F(A)给集合B所在的节点SB 。

SB计算并发送F(A)∩B给SA,S A通过计算A∩(F(A)∩B)(与A∩B等价)去除错误定位的文件,然后发送给节点C。

S A虽可通过计算A∩(F(A)∩B)在最后去除错误定位的文件,但浪费了带宽。

如上,节点SA 和节点SB的例子中,共需传递的比特数为m+Pf p|B|j+|A∩B|j(j是文件标识符的比特数)。

|A∩B|j是所要求的交集本身,不能优化。

所以可优化的比特数为m+Pf p|B|j与式(1)联合可得可优化比特数为m+f|B|j=m+016185m/|A||B|j(2)当式(2)取值最小时m=|A|l og016185(21081|A||B|j)(3)由上可知当A,B和j固定时,优化m才能得到最小的传输比特数,所以要合理的选择B l oom Filter的尺寸大小。

而且当|A|和|B|不同时优化的性能是非对称的且当|A|≤|B|时传输的比特数更少。

B l oom Filter交集处理多关键词查询的技术可以推广到任意多个关键词,如下所示:S rq是请求查询的节点,求A∩B∩…∩ZS rq→S A:query f or A∩B∩…∩ZS A→S B:F(A)S B→S C:F(F(A)∩B)=F(A∩B)┇S Y→S Z:F(F(A∩…∩X)∩Y)=F(A∩B∩…∩Y)S Z→S Y:F(A∩B∩…∩Y)∩ZS Y→S X:F(A∩B∩…∩Y)∩Z∩Y┇S B→S A:F(A∩B∩…∩Y)∩Z∩Y…∩BS A→S rq:F(A∩B∩…∩Y)∩Z∩Y…∩B∩A而且当|A|≤|B|≤|C|≤…≤|Z|时可以最优化传输的比特数。

212　缓存使用缓存若SB在本地已经存储有F(A)或A则可以避免S A继续发送。

缓存F(A)而非A本身的话,相同的空间可以存储更多数据的B l oo m Filter。

因为关键词出现的概率呈非对称分布(Zi pf分布),所以这就意味着即使很小的Cache都可以有很高的命中率。

平均地看,一个B l oo m Filter已存储在另一个节点的概率p与该节点Cache的命中率相等。

此时式(2)可优化为(1-r)m+0.6185m/|A||B|j(4)优化m后得m=|A|l og0.6185[(1-r)2.081|A||B|j]发送比特数的减少和Cache命中率的提高近似成线性关系。

213　结果的处理请求查询并不需要返回搜索出的所有结果。

如果只传输返回所要求的查询结果,可以在很大程度上减少所要传输的信息量。

查询结果的数量与网络中存储的文件的数目成比例,所以用于返回查询结果的带宽和网络规模的增大呈线性增长,因而从系统的可扩展性来说,对结果进行整理是很有必要的。

而B l oom Filter和Cache都不能减少这种线性的增长,所以截去部分结果是唯一的方法。

因为B l oom Filter如果被分割就没有任何实际意义,所以S A把本地存储的文件分块,发送一个块的B l oom Filter给S B, S B返回相应块的搜索结果(在此期间S A和S B,保持通信),直至达到查询所要求的文件的数目。