基于P2P的分布式主题爬虫系统的设计与实现

合集下载

基于度排序的P2P IPTV分布式爬虫系统设计与实现

基于度排序的P2P IPTV分布式爬虫系统设计与实现王海舟;陈兴蜀;王文贤;吴小松【期刊名称】《四川大学学报（工程科学版）》【年(卷),期】2014(046)003【摘要】为了开发一款面向P2P网络电视主动测量研究的高性能爬虫系统,提出了一种基于节点度排序的节点信息爬行算法.该算法首先使用类似广度优先遍历的策略对网络电视覆盖网进行节点信息的初始爬行,然后对爬行结果获得的节点列表进行基于节点度大小的排序,最后将排序后的结果作为输入提供给分布式爬虫以实施节点信息的实时采集.实验结果表明,基于度排序的分布式爬虫系统相比现有的其他爬虫具有更快的爬行速度,该爬虫可以在30 s左右完成对一个拥有7 200左右用户规模的流行节目的爬行,为采集准确的PPTV节点信息快照并实施主动测量研究提供了解决方案.【总页数】7页(P109-115)【作者】王海舟;陈兴蜀;王文贤;吴小松【作者单位】四川大学计算机学院网络与可信计算研究所,四川成都610065;四川大学计算机学院网络与可信计算研究所,四川成都610065;四川大学计算机学院网络与可信计算研究所,四川成都610065;四川大学计算机学院网络与可信计算研究所,四川成都610065【正文语种】中文【中图分类】TP393.02【相关文献】1.基于用户行为的P2P IPTV可行性研究 [J], 甘露;姜秀艳;刘新;叶德建2.一种基于Redis的分布式爬虫系统设计与实现 [J], 罗娇敏;耿茜3.基于网状P2P的IPTV快速启动优化方案 [J], 周鑫;4.基于P2P流媒体技术的IPTv网络电视系统应用探析 [J], 邱茗5.基于P2P网络电视的IPTV技术分析与设计 [J], 杨宛楠;赵君因版权原因，仅展示原文概要，查看原文内容请购买。

分布式聚焦网络爬虫系统的设计与实现的开题报告

分布式聚焦网络爬虫系统的设计与实现的开题报告一、选题背景随着互联网信息的爆炸式增长，信息检索和挖掘技术的需求也越来越迫切。

在大量的数据来源中，网络编程不仅是面对数据源最常见的方式，也是最有效的方式之一。

因此，网络爬虫技术应运而生，具有自动化地抓取、处理、存储网络上的大量数据的特点。

同时，随着云计算、虚拟化、分布式系统等大数据相关技术的发展，将数据爬取、处理任务分布到多台计算机上处理，也成为提高爬虫系统性能的关键。

二、研究目的本文旨在研究并实现一个基于分布式聚焦网络爬虫技术设计的Web爬虫系统，该系统可实现爬取全网或指定部分网址内容，解析HTML、XML等相关结构体文档，对爬取到的数据进行抽取、清洗、存储，并以分布式处理数据的方式来使其更高效和灵活。

三、研究内容1. 针对目标站点和数据抓取需求进行系统需求分析。

2. 设计并实现分布式聚焦网络爬虫系统的整体架构。

3. 实现分布式任务调度与管理。

4. 实现数据爬取、解析、抽取、清洗，并存储相关数据。

5. 解决分布式聚焦网络爬虫系统中的反爬机制问题。

四、预期成果1. 具有高效灵活的爬虫系统，具有高效的采集、抽取、清洗、存储能力，并具有良好的可拓展性和可维护性。

2. 支持自适应反爬策略，能够自行识别并规避页面反爬虫，保证系统的正常运行。

五、研究意义1. 提高数据采集、抽取、清洗、存储的效率和精确度，同时降低了人力成本和时间成本。

2. 提高Web应用程序性能和用户体验，利于商业应用的发展。

3. 对分布式计算、数据挖掘和大数据分析等领域的研究具有重要的借鉴作用。

四、研究方法1. 整理相关技术文献，对分布式聚焦网络爬虫系统的技术架构和实现方法进行综合研究。

2. 使用Python语言开发实验平台，对系统进行实现与测试。

3. 对系统进行性能测试，并根据测试结果进行优化和改进。

五、进度安排1. 第一阶段：文献综述、需求分析、系统设计和技术选型。

2. 第二阶段：基于Python语言开发分布式聚焦网络爬虫系统的实验平台，完成基础功能测试。

基于P2P的分布式主题爬虫系统的设计与实现

情报学报　ＩＳＳＮ１０００－０１３５第２９卷第３期４０２－４０７，２０１０年６月ＪＯＵＲＮＡＬＯＦＴＨＥＣＨＩＮＡＳＯＣＩＥＴＹＦＯＲＳＣＩＥＮＴＩＦＩＣＡＮＤＴＥＣＨＮＩＣＡＬＩＮＦＯＲＭＡＴＩＯＮＩＳＳＮ１０００－０１３５Ｖｏｌ．２９　Ｎｏ．３，４０２－４０７Ｊｕｎｅ　２０１０收稿日期：２００８年１２月１８日作者简介：朱学芳，男，１９６２年生，毕业于北京大学应用数学专业、博士，南京大学博士后，教授，博士生导师。

主要研究领域：计算机图像桙信号处理、模式识别、信息检索自动化理论与技术及应用、信息资源管理等。

Ｅ－ｍａｉｌ：ｘｆｚｈｕ＠ｎｊｕ．ｅｄｕ．ｃｎ。

韩占校，男，１９８１年生，毕业于河北大学信息管理与信息系统专业，硕士生，主要研究领域：网络信息检索技术、图像处理应用技术等。

ｄｏｉ：１０．３７７２桙ｊ．ｉｓｓｎ．１０００－０１３５．２０１０．０３．００３基于Ｐ２Ｐ的分布式主题爬虫系统的设计与实现朱学芳　韩占校（南京大学信息管理系、多媒体信息处理研究所，南京２１００９３）摘要本文详细叙述了一个用于信息检索的基于Ｐ２Ｐ的分布式爬虫系统的设计和实现过程。

系统基于锚文本上下文进行主题相关性判定，采用Ｐ２Ｐ式的分布式结构，充分利用其动态增加新结点的特性来动态地扩展系统的规模，提高系统的整体吞吐能力，以满足现在和将来的用户对日益增长的大数据量检索需求。

实验结果表明，可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径，能够有效地获取相关主题信息。

关键词网络爬虫　对等网络　分布式计算　信息检索　主题爬虫ＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＤｉｓｔｒｉｂｕｔｅｄＴｏｐｉｃＣｒａｗｌｅｒＢａｓｅｄｏｎＰ２ＰｆｏｒＩｍａｇｅＲｅｔｒｉｅｖａｌＺｈｕＸｕｅｆａｎｇａｎｄＨａｎＺｈａｎｘｉａｏ（ＩｎｓｔｉｔｕｔｅｏｆＭｕｌｔｉｍｅｄｉａＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，Ｄｅｐｔ．ｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ２１００９３）ＡｂｓｔｒａｃｔＴｏｐｉｃａｌｃｒａｗｌｅｒｓｏｒｆｏｃｕｓｅｄｃｒａｗｌｅｒｓａｄａｐｔｉｎｇｔｏｔｈｅｓｐｅｃｉｆｉｃｔｈｅｍｅａｎｄｐｅｒｓｏｎａｌｉｚｅｄｓｅａｒｃｈａｒｅｒｅｑｕｉｒｅｄｉｎｏｒｄｅｒｔｏｍｅｅｔｔｈｅｎｅｅｄｓｏｆｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆｗｅｂｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈｓｕｐｐｌｉｅｓｍｏｒｅａｃｃｕｒａｔｅａｎｄｍｏｒｅｃｏｍｐｒｅｈｅｎｓｉｖｅｉｎｆｏｒｍａｔｉｏｎａｎｄｓｅｒｖｉｃｅｓｉｎｔｈｅｓｈｏｒｔｅｓｔｔｉｍｅ．Ｔｈｅｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａｄｉｓｔｒｉｂｕｔｅｄｗｅｂｃｒａｗｌｅｒｉｓｐｒｏｐｏｓｅｄｉｎｔｈｅｐａｐｅｒ．ＩｔｉｓｂａｓｅｄｏｎＰ２Ｐ－ｄｉｓｔｒｉｂｕｔｅｄａｒｃｈｉｔｅｃｔｕｒｅａｎｄｍａｋｅｓｆｕｌｌｕｓｅｏｆＰ２Ｐ－ｓｔｙｌｅｄｙｎａｍｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆａｄｄｉｎｇｎｅｗｎｏｄｅｓｔｏｉｎｃｒｅａｓｅｔｈｅｓｃａｌｅａｎｄｉｍｐｒｏｖｅｔｈｅｏｖｅｒａｌｌｃａｐａｃｉｔｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｅｄｔｈａｔｔｈｉｓｓｙｓｔｅｍｃｏｕｌｄｅｆｆｉｃｉｅｎｔｌｙｐｒｏｖｉｄｅｕｓｅｒｓｗｉｔｈｒｅｌｅｖａｎｔｆｉｌｅｓｏｒｗｅｂｐａｇｅｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｔｏｐｉｃ（ｓ）ｔｈｅｙｄｅｆｉｎｅｄ．ＫｅｙｗｏｒｄｓＷｅｂｃｒａｗｌｅｒ，ｐｅｅｒｔｏｐｅｅｒ，ｄｉｓｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇ，ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ，ｔｏｐｉｃａｌｃｒａｗｌｅｒ１　引　言众所周知，Ｗｅｂ应用日益趋于多样化，其中的数据规模越来越庞大，使得海量数据的检索处理变成了研究者关注的问题。

分布式网络爬虫的设计与实现

分布式网络爬虫架构设计
Internet Crawler Node
Thread Poll
Thread2 Thread1
Internet Crawler Node
Thread Poll
Threadn-1 Threadn
„„
Peer to Peer
Thread2 Thread1
„„
Threadn-1 Threadn
virtual bool filter(url * u) = 0; virtual bool filter(const char * url_text) = 0;
实现接口
实现接口
实现接口
自由增删过滤实现
URL数据流入口
基于robots.txt的过滤类 robotsFilter
后缀名过滤类 suffixFilter
robots.txt包含的基本规则如下：
1、User-agent ：爬虫名字的 2、Disallow：不允许爬取的 3、Allow：允许爬取的 4、Crawl-delay：爬取时间间隔 5、#：注释 6、通配符使用：“$”匹配行结束符，“*”匹配0或多个任意字符。
举例：
User-agent: * 这里的*代表的所有的搜索引擎种类，duspider的网络爬虫 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 Disallow: /abc/*.htm 禁止访问/abc/目录下的所有以".htm"为后缀的URL(包含子目录)。 Disallow: /*?* 禁止访问网站中所有的动态页面 Disallow: /mp3$ 禁止抓取网页所有的以.mp3后缀结尾的资源文件 Allow: .htm$ 仅允许访问以".htm"为后缀的URL Allow: .gif$ 允许抓取网页和gif格式图片 Crawl-delay: 10在对本主机服务器上次访问结束后需要等待10秒钟才可以进行下一次的访问请求

基于P2P网络的分布式计算模型设计与实现

基于P2P网络的分布式计算模型设计与实现一、背景介绍随着大数据和人工智能等技术的迅速发展，传统的计算模型已无法胜任应用的要求，分布式计算模型成为了越来越多领域的选择。

P2P网络作为一种典型的分布式计算模型，其优秀的去中心化、高可扩展性、高效性、安全性等特点得到越来越广泛的应用。

二、P2P网络的特点P2P网络是点对点网络的缩写，它采用点对点的方式共同完成某一项任务，其涉及到节点的搜索、通信、数据传输、负载均衡等问题，具有以下特点：1. 去中心化P2P网络指的是在无中心服务器的情况下，所有节点都可以互相连接，通信和协同完成计算任务。

2. 高伸缩性P2P网络一般具有高伸缩性，因为网络中每个节点都可以充当客户端和服务器，可以随着网络规模的增大而自动增加计算资源。

3. 高效性P2P网络具有较高的效率，因为它能够充分利用各个节点之间的计算和存储资源。

同时，P2P网络可以通过多条路径进行数据传输，从而避免单独路径上的瓶颈问题。

4. 安全性P2P网络具有较高的安全性，因为它采用去中心化的方式，分布式计算可以避免单个节点出现故障或遭到攻击时影响整个网络系统的安全性，而且因为P2P网络的节点数量比较多，每个节点只存储一部分数据，不会像集中式网络那样存在敏感数据泄漏的问题。

三、基于P2P网络的分布式计算模型设计与实现1. 系统结构设计基于P2P网络的分布式计算模型，需要明确计算模型的结构、数据结构、节点的角色和任务划分等方面。

系统结构分为三层：应用层、通信层和底层数据传输层。

（1）应用层应用层包含着整个分布式计算模型的实际实现，主要逻辑代码在应用层实现。

其中主要分为三个部分：任务分配模块、计算节点模块和结果收集模块。

（2）通信层通信层负责把应用层的数据及任务分配到各个节点中，同时接收各个节点的计算结果反馈，确保整个任务能够顺利执行。

通信层的主要职能是实现节点之间的通信以及节点的状态管理。

（3）底层数据传输层底层数据传输层为网络的物理实现，主要包括节点互联的网络拓扑结构中所采用的路由算法和数据传输算法。

一种基于P2P原理的良性蠕虫的研究的开题报告

一种基于P2P原理的良性蠕虫的研究的开题报告题目：一种基于P2P原理的良性蠕虫的研究一、研究背景随着信息化的发展，互联网的普及，网络安全问题成为越来越受关注的话题。

蠕虫病毒是网络安全领域中的一个重要问题，它不像病毒需要用户主动启动来传播，而是利用系统漏洞自动传播，从而造成严重的网络安全威胁。

现有的防范措施主要是通过杀毒软件等技术手段进行防范和治理，但是这些手段都是针对恶意蠕虫的，对于良性蠕虫的防范却相对薄弱。

而P2P技术是一种基于分布式网络的通信方式，它能够充分利用各个节点之间的带宽和存储资源，提高网络传输效率和可靠性。

因此，利用P2P原理设计一种良性蠕虫成为了可行的解决方案。

二、研究内容本文主要研究基于P2P原理的良性蠕虫的设计和实现，具体内容包括：1. 分析现有蠕虫病毒的传播方式和攻击方式，探讨良性蠕虫传播方式的设计方案。

2. 研究P2P网络的通信方式和协议，设计和实现良性蠕虫的通信和数据交换方式。

3. 分析良性蠕虫的运行环境和安全问题，设计和实现相应的安全机制和防范措施。

4. 实验验证良性蠕虫的传播效果和性能，评估其与现有防范措施的比较。

三、研究意义本研究将探索一种新的蠕虫传播方式，具有以下重要意义：1. 利用良性蠕虫的传播特性，扩大P2P网络的覆盖范围，提高资源利用效率，从而为大规模分布式计算和存储提供支持。

2. 对于网络空间安全保卫工程来说，将良性蠕虫应用于网络安全研究和攻防演练，有助于提高网络安全攻防的对抗关系和技术水平。

3. 为实现互联网的智能化和自动化，提出一种新的软件生态系统，具有重要的理论和实践意义。

四、研究方法本文主要采用如下研究方法：1. 对现有的蠕虫攻击和传播分析，并针对良性蠕虫进行设计思考。

2. 基于P2P网络的通信模型，设计良性蠕虫的数据通信方案。

3. 通过模拟实验和实际测试，验证良性蠕虫的传播效果和性能。

五、预期成果本文拟达到如下预期成果：1. 深入理解现有蠕虫病毒的传播方式和攻击形式，对良性蠕虫传播方式进行设计和规划。

基于分布式的网络爬虫系统的研究与实现

基于分布式的网络爬虫系统的研究与实现随着大数据时代的到来,数据的价值越来越受到人们的重视。

海量的网络新闻数据具有巨大的商业价值和研究价值,可以通过网络爬虫爬取网络新闻数据。

传统的单机网络爬虫不能爬取每天新增的大量网络新闻。

现有的爬虫框架大多数不支持分布式爬取,已有的分布式爬虫框架通常是为搜索引擎设计的,难以修改框架满足特定的需求。

因此本文设计并实现了一个基于分布式的网络爬虫系统,用于爬取新闻网站上的新闻数据。

本文的主要工作如下:(1)结合Storm流计算框架和Scrapy爬虫框架,设计并实现分布式网络爬虫系统。

Scrapy爬虫框架不支持分布式爬取,本文在Storm分布式平台上运行Scrapy 爬虫进程,实现网络爬虫的分布式爬取。

Trident是对Storm的高级抽象,不仅支持以数据流的方式处理数据,而且支持以批处理的方式处理数据。

本文采用Trident框架实现Storm分布式平台,以流处理和批处理的方式处理URL。

(2)提出基于多布隆过滤器的URL去重算法。

布隆过滤器是由一个很长的二进制位数组和一系列随机均匀分布的哈希函数组成,可以检测一个元素是否存在于集合中。

布隆过滤器具有误识别率,将不属于集合的元素判定为属于。

本文通过使用多个布隆过滤器降低误识别率,对URL进行去重处理。

通过测试表明误识别率随着本算法使用的布隆过滤器个数的增加而下降。

(3)提出基于优先级的广度优先爬行策略。

广度优先爬行策略将新闻网站上的网页分为不同的层次,爬取完同一层的所有网页后,才爬取下一层的网页。

该策略实现比较简单,主要采用一个先进先出(FIFO)结构的URL队列。

本文将URL的类型分为三种,对不同类型的URL设定不同的优先级,设计一个同时具有优先级和先进先出性质的URL队列,实现基于优先级的广度优先爬行策略。

(4)以递归爬取方式提取非结构化数据。

提取非结构化数据的技术有三种:正则表达式,BeautifulSoup和Xpath表达式。

分布式网络爬虫技术的研究与实现

分布式网络爬虫技术的研究与实现一、本文概述Overview of this article随着互联网的飞速发展，网络爬虫技术成为了获取、处理和分析海量网络数据的关键工具。

特别是在大数据和的背景下，分布式网络爬虫技术因其高效、可扩展的特性受到了广泛关注。

本文旨在深入研究分布式网络爬虫技术的核心原理、实现方法以及实际应用，为相关领域的研究者和开发者提供有价值的参考。

With the rapid development of the Internet, web crawler technology has become a key tool to obtain, process and analyze massive network data. Especially in the context of big data, distributed web crawler technology has received widespread attention due to its efficient and scalable characteristics. This article aims to delve into the core principles, implementation methods, and practical applications of distributed web crawler technology, providing valuable references for researchers and developers in related fields.本文将首先介绍分布式网络爬虫的基本概念、特点和发展历程，为后续研究奠定理论基础。

接着，将重点分析分布式网络爬虫的关键技术，包括任务调度、数据通信、负载均衡、去重策略等，并探讨这些技术在实现高效、稳定爬虫系统中的作用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主要研究领域：计算机图像桙信号处理、模式识别、信息检索自动化理论与技术及应用、信息资源管理等。

Ｅ－ｍａｉｌ：ｘｆｚｈｕ＠ｎｊｕ．ｅｄｕ．ｃｎ。

韩占校，男，１９８１年生，毕业于河北大学信息管理与信息系统专业，硕士生，主要研究领域：网络信息检索技术、图像处理应用技术等。

实验结果表明，可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径，能够有效地获取相关主题信息。

如何在存储和处理海量数据以及传递给用户更直接有效的结果三者之间达到平衡，成为未来Ｗｅｂ应用要解决的一个难点问题。

目前大多数搜索引擎都是将世界上的各个网站的数据汇集到一起再进行处理，这种方式要求拥有大量的计算机和网络资源，一般单位或部门难以负担得起这种运行成本［１］。

考虑到网络数据的分布式特性，人们希望利用分布于全球的其他普通ＰＣ来获取网络数据，即借助于普通ＰＣ用户提供的空闲运算能力，形成比较经济的运行方式。

更为重要的是，爬虫系统之间的资源共享，可以大量减少网络的负载，可以获得比较高的更新频率，并且不对网络造成负担［２，３］。

提高检索效率的另一方面考虑是，有效确定—２０４—检索范围。

相对通用搜索引擎，主题搜索引擎的检索范围相对小，而查准率和查全率不受影响。

主题爬虫是主题搜索引擎的核心与基础，它试图收集与预先给定主题相关的网页，对于Ｗｅｂ上与主题无关的区域都不予访问，所以能大大减少网络信息的访问流量和文档下载量，可以减少计算机资源开销。

为了高效地获取与主题相关的网络资源，研究者提出了许多主题定制爬行策略和相关算法，尽可能地确保获取的网页的质量。

例如，由ＤｅＢｒａ等［４］提出的ＦｉｓｈＳｅａｒｃｈ方法，该类爬虫通常采用最相似优先的算法，最先访问与主题相似度最高的页面。

其他较为相似的有ＢｅｓｔＦｉｒｓｔＳｅａｒｃｈ算法、基于Ｗｅｂ超链图评价的方法和基于分类器预测的方法等，它们采用的是基于分类模型来描述用户感兴趣的主题和预测网页的主题相关度［５］。

Ｃｈａｋｒａｂａｒｔｉ等［６］还提出了分别基于两种不同的模型来计算网页主题相关性和ＵＲＬ访问次序的方法。

在我国也进行了面向机械、民航、刑侦等网页的信息抽取与主题爬虫的实验研究［７～９］。

本文详细叙述一个用于信息检索的基于ＪＸＴＡ①的对等（ｐｅｅｒｔｏｐｅｅｒ，Ｐ２Ｐ）网络分布式主题爬虫系统的设计和实现过程。

在系统中，我们采用链接的锚文本及其上下文作为用于主题匹配的对象，以引导爬虫的爬行路径；采用Ｐ２Ｐ式的分布式结构，充分利用其动态增加新结点的特点，动态地扩展系统的规模，提高了系统的整体吞吐能力，能满足现在和将来的用户对日益增长的大数据量的检索需求。

实验结果表明，本系统可根据用户给定的主题，能够有效地抓取相关主题的文件。

本文的结构为：第１和第２节分别叙述用于信息检索的，基于ＪＸＴＡ的，Ｐ２Ｐ分布式爬虫系统的体系结构与核心技术；第３节为实验结果及分析；第４节为结束语。

２　体系结构对于网络主题爬虫设计来说，一个单机系统的能力提升毕竟有限，为此，我们设计的目标是利用低廉的ＰＣ来扩展面向主题信息检索性能的爬虫系统，采用Ｐ２Ｐ技术，对系统进行扩展，设计成为一个架构如图１所示的分布式系统。

基于Ｐ２Ｐ的分布式主题爬虫系统由各个子结点组成，其中上半部分与下半部分形成对称结构，每一部分架构图主要包括一个爬行管理器（ＳｐｉｄｅｒＭａｎａｇｅｒ，ＳＭ）、多个下载线程（Ｄｏｗｎｌｏａｄｅｒ）和一个ＤＮＳ转换器等。

在整个架构中，爬行管理器是爬行系统的核心部件，它先由应用层启动，并将其他组件（如ＤＮＳ解析器、下载线程等）注册进来，然后由它同各个Ｄｏｗｎｌｏａｄｅｒ通信，分发ＵＲＬ。

对于各个下载线程来说，只有ＳＭ是可见的。

ＳＭ对从应用层得到的ＵＲＬ按照一定的策略进行排队，并在一定的时机分发。

在得到ＵＲＬ之后，ＳＭ先同ＤＮＳ解析器进行交互，将域名转换为相应的ＩＰ地址。

在此利用一个缓冲ＩＰＣａｃｈｅ，存储域名及相应的ＩＰ地址。

具体转换过程是，先根据ＵＲＬ得到的主机域名从ＩＰＣａｃｈｅ中查找相应的ＩＰ地址，若存在则返回ＩＰ地址；否则请求ＤＮＳ解析器，将ＤＮＳ解析器的返回值即ＩＰ地址存放到ＩＰＣａｃｈｅ中去，并将ＩＰ地址返回。

ＳＭ能控制爬虫的运行状态（运行、暂停、终止）、爬行速度，以及爬虫对同一域名访问的间隔（本文系统实验中的时间间隔设置为３０ｓ）。

Ｄｏｗｎｌｏａｄｅｒ是基于ＨｔｔｐＣｌｉｅｎｔ［１０］的线程实现。

ＨｔｔｐＣｌｉｅｎｔ是ＡｐａｃｈｅＪａｋａｒｔａＣｏｍｍｏｎ下的子项目，可以用来提供高效的、最新的、功能丰富的、支持ＨＴＴＰ协议的客户端编程工具包，并且支持ＨＴＴＰ协议最新的版本和建议。

Ｄｏｗｎｌｏａｄｅｒ根据ＵＲＬ将网页下载、存储，并将下载状况反馈给应用层。

应用层对ＵＲＬ下载情况进行记录和跟踪，ＳＭ对Ｄｏｗｎｌｏａｄｅｒ的运行状态和数量进行控制。

在应用层中，关键是如何判断网页中的内容（如图片等）是否与主题相关。

考虑到网页爬虫是一个沿着存在于Ｗｅｂ页面之间的超链接遍历Ｗｅｂ的过程，大多数Ｗｅｂ页面因为内容相关才会有联系，通常借助于ＨＴＭＬ锚标签链接联系在一起。

ＨＴＭＬ锚标签周围的文本往往精练地描述了目标网页的内容，用于指导链接所指向的Ｗｅｂ页面的主题内容，不仅可以提高用户浏览网页的效率，而且网页爬虫可借助这些文本信息，来指导网页爬虫的爬行。

本论文描述的爬虫系统，就是以图像链接的锚文本及—３０４—基于Ｐ２Ｐ的分布式主题爬虫系统的设计与实现①ＪＸＴＡ是Ｓｕｎ微系统对等网络（Ｐ２Ｐ）的标准。

这是一个努力的方向，以它来促进和探究分布式计算的新方法。

ＪＸＴＡ这个名字既用来指代这个标准，也用来指代研究出来的技术，这种技术处于传输平台和Ｐ２Ｐ通信协议的环绕之中。

ｈｔｔｐ：桙桙ｂａｉｋｅ．ｂａｉｄｕ．ｃｏｍ桙ｖｉｅｗ桙６６８５７畅ｈｔｍ，２００８－１２－１５图１　分布式爬虫系统结构图　其周围的上下文作为主题相似度判断的依据。

为了提高访问网页的主题相关性，我们在用户给定主题内容的相关性判定基础之上，对网页的主题相关性也进行判定。

在此过程中，应用层初始化一些ＵＲＬ种子，并发送给ＳＭ。

应用层对下载的网页分析，进行ＵＲＬ提取，然后将满足条件的ＵＲＬ放到一棵红黑树中。

当该红黑树生长到一定规模后，将由一个独立线程对该红黑树的ＵＲＬ进行检测，去掉已有的ＵＲＬ，将新的ＵＲＬ存储到硬盘上，并告诉ＳＭ存储文件名，以备在适当的时机由ＳＭ将其载入，分发给各个Ｄｏｗｎｌｏａｄｅｒ。

与此同时，应用层会生成一个新的红黑树，接收新分析出的ＵＲＬ。

在试验中，我们采用每个结点按Ｎ＝２００个下载线程、１个ＤＮＳ解析器、２个应用层、１个ＳＭ进行配置。

扩展了单机系统后，Ｐ２Ｐ系统就可以流畅地运行。

３　核心技术３畅１　分布式系统设计本文的爬虫系统是一种基于ＪＸＴＡ的Ｐ２Ｐ式分布式系统［１１～１３］。

ＪＸＴＡ架构可以分为３个层面：①核心层。

包含Ｐ２Ｐ应用的关键机制的构建模块，包括发现、传输（包括防火墙处理）、对等体和对等组的创建以及相关安全等。

②服务层。

包括对于Ｐ２Ｐ网络不是必需的、但很通用的功能，如查找、共享、索引、代码缓存和内容缓存的机制。

③应用层。

包括应用ＪＸＴＡ服务开发出来的完整的Ｐ２Ｐ应用程序，如Ｐ２Ｐ即时消息、Ｐ２Ｐ电子邮件系统等应用程序。