网络爬虫技术的概述与研究

合集下载

网络爬虫技术的概述与研究

网络爬虫技术的概述与研究

网络爬虫技术的概述与研究
网络爬虫(Web crawler)是一种自动化程序,用于在互联网上收集、抓取网页数据。

网络爬虫技术是信息检索和数据挖掘中的重要技术之一,
具有广泛的应用领域,例如引擎、数据分析和大数据应用等。

本文将从网
络爬虫的基本原理、应用领域、常用算法以及研究方向等方面进行概述。

网络爬虫的基本原理是通过HTTP协议从互联网上抓取网页数据,并
将其存储到本地或远程服务器。

其主要包括以下几个步骤:
1.确定起始URL:网络爬虫通过指定起始URL来开始抓取过程。

2.发送HTTP请求:爬虫向目标URL发送HTTP请求,获取相应的网页
数据。

3.解析HTML:爬虫对获取的网页数据进行解析,提取出需要的信息,例如链接、文本等。

基于Python的网络爬虫技术研究

基于Python的网络爬虫技术研究

基于Python的网络爬虫技术研究作者:胡正雨来源:《科技风》2020年第20期摘;要:计算机网络不断发展的今天,网络用户越来越多,人们在生活中也越来越依赖网络,通过网络获取各类信息,借助网络来搜索自己想要的资料和信息,通过网络来浏览各类平台,其中,网络爬虫是一种比较常见的获取信息的方法。

网络爬虫还有另外一个称呼,即网络机器人,在编程过程中所使用的语言主要为Python,对浏览器中的各类信息进行搜索与获得,常见的有URL地址以及HTTP超文本协议等信息,在信息获取的过程中,不必作业人员持续工作,只需要网络自动爬取即可。

对此,本文就Python的网络爬虫进行探讨,以期为相关研究提供参考。

关键词:技术研究;python语言;网络爬虫作为一种面向对象的解释性计算机程序设计语言,python语言由于其操作简单和门槛低,特别是由于其在数据挖掘上的优势,已经成为目前最受欢迎的程序设计软件之一。

而python 语言最为公认的优势是在获取目标网络数据功能上的强大,这种数据获取方式又被业内称之为网络爬虫,相应的python语言的网络数据挖掘技术又被称为网络爬虫技术。

1 网络爬虫技术的主要内容概述1.1 网络爬虫技术的分类从整体上来看,网络爬虫可以分为两类,即聚焦网络爬虫和通用网络爬虫两种。

我们先来看一下通用网络爬虫,这种爬虫方法在使用过程中,主要是对搜索引擎进行信息获取,采集网页中的信息,并对其进行分析,将其保存到本地,实现信息备份。

一般来说,这一过程可以分为三个步骤,其一,获取网站的URL信息,并分析主机的地址,同时,下载所获取的信息。

其二,存储所获取的网页信息,同时通过浏览器获取原始页面,并将其与用户中的数据进行对比,进而判断是否需要再次爬行相关数据。

其三,对浏览器所获取的数据进行分析和处理,这些处理可以通过一些脚本来操作,实现文字提取等需求。

我们再来看一下另外一种网络爬虫——聚焦网络爬虫,这种方法相对复杂,其操作难度更高,在抓取信息时有一定的主题,而且在信息获取时,还能够对数据进行初步处理,如信息筛选等操作,将一些和主题不相符的信息筛选出来,聚焦网络爬虫是建立在通用网络爬虫的基础之上的。

实习报告爬虫

实习报告爬虫

一、实习背景随着互联网的快速发展,数据已成为当今社会的重要资源。

为了从海量的网络数据中获取有价值的信息,爬虫技术应运而生。

本人在实习期间,学习了爬虫技术,并进行了实践操作,以下是对实习过程和成果的总结。

二、实习内容1. 理论学习实习初期,我通过查阅资料、观看教程等方式,学习了爬虫的基本概念、原理和常用技术。

主要包括以下内容:(1)爬虫概述:了解爬虫的定义、分类、应用场景等。

(2)网络爬虫原理:学习HTTP协议、网页结构、URL编码等基础知识。

(3)Python爬虫开发:掌握Python语言基础,学习使用requests、BeautifulSoup等库进行网页抓取和解析。

(4)数据存储:学习使用MySQL、MongoDB等数据库存储爬取的数据。

2. 实践操作在理论学习的基础上,我选择了以下项目进行实践:(1)项目一:新闻网站爬虫目标:爬取某新闻网站的新闻内容,包括标题、作者、发布时间、正文等。

实现步骤:1. 使用requests库获取新闻网站首页的HTML内容。

2. 使用BeautifulSoup解析HTML内容,提取新闻列表中的新闻标题、链接等。

3. 遍历新闻列表,对每个新闻标题进行爬取。

4. 使用BeautifulSoup解析新闻详情页面的HTML内容,提取新闻正文等。

5. 将爬取的新闻数据存储到MySQL数据库中。

(2)项目二:电商网站商品信息爬虫目标:爬取某电商网站的商品信息,包括商品名称、价格、描述、图片等。

实现步骤:1. 使用requests库获取电商网站首页的HTML内容。

2. 使用BeautifulSoup解析HTML内容,提取商品列表中的商品名称、链接等。

3. 遍历商品列表,对每个商品链接进行爬取。

4. 使用BeautifulSoup解析商品详情页面的HTML内容,提取商品价格、描述、图片等。

5. 将爬取的商品数据存储到MongoDB数据库中。

三、实习成果通过本次实习,我掌握了爬虫技术的理论知识,并成功完成了两个实际项目。

基于Python的网络爬虫技术综述

基于Python的网络爬虫技术综述

基于Python的网络爬虫技术综述【摘要】本文介绍了基于Python的网络爬虫技术综述。

在我们从研究背景、研究目的和研究意义三个方面进行了介绍。

在分别对网络爬虫概述、Python在网络爬虫中的应用、网络爬虫技术发展现状、常用的网络爬虫框架以及网络爬虫的优缺点进行了详细分析。

在我们对文章进行了总结,并展望了未来的发展方向,为相关研究提供了展望。

通过本文的阐述,读者可以全面了解基于Python的网络爬虫技术在当前的应用情况,为相关领域的研究和实践提供了参考。

【关键词】网络爬虫技术、Python、概述、应用、发展现状、框架、优缺点、总结、展望、研究展望、研究背景、研究目的、研究意义。

1. 引言1.1 研究背景网络爬虫技术的发展源远流长,早期的网络爬虫主要用于搜索引擎的建设,随着互联网的发展,网络爬虫的应用领域也在不断扩大。

从搜索引擎的爬虫到数据分析的爬虫再到商业竞争情报的爬虫,网络爬虫已经深入到各个行业的数据挖掘和分析领域。

深入研究网络爬虫技术的应用和优化,对于提高数据采集的效率和准确性具有重要意义。

随着Python语言在科学计算和数据分析领域的流行,结合Python的网络爬虫技术在数据采集和处理中有着独特的优势,因此对于Python在网络爬虫中的应用也是我们研究的重点之一。

1.2 研究目的1. 深入探讨网络爬虫的基本概念和原理,帮助读者建立起对网络爬虫技术的全面认识;2. 分析Python在网络爬虫中的优势和应用场景,探讨其在实际项目中的具体应用方法;3. 综述当前网络爬虫技术的发展现状,总结常用的网络爬虫框架,以及它们的特点和适用范围;4. 分析网络爬虫在实际应用中可能面临的挑战和局限性,以及如何解决这些问题,提高网络爬虫的效率和可靠性。

通过以上研究,期望为网络爬虫技术的进一步研究和应用提供参考和借鉴,推动其在各个领域的广泛应用。

1.3 研究意义网络爬虫技术在当今信息时代具有重要的意义。

随着互联网的快速发展,信息量呈指数级增长,人们需要更快速、更有效地从海量信息中获取所需的内容。

大数据背景下依托于Python的网络爬虫技术研究

大数据背景下依托于Python的网络爬虫技术研究

TECHNOLOGY 技术应用摘要:网络爬虫在网络数据收集与分析上发挥了重要的作用。

在大数据背景下,依托于Python的网络爬虫技术具有操作简单、应用便捷、第三方库功能齐全以及文本字符串处理效果好等优势。

论文利用爬虫技术进行网页抓取具有广度最先、深度最先以及相似最先三种检索方案,包含了URL管理器模块、网页下载器模块与网页解析器模块。

关键词:Python;网络爬虫;技术研究大数据时代,数据和各个行业领域之间的联系越来越密切,也逐渐成为了行业领域不断发展和进步的重要基础。

怎样从庞大的数据资源中获取自身需要的数据,成为当下众多行业共同关注的问题。

从数据搜索层面来看,现在使用的搜索引擎较之前也有非常大的进步,做出了许多优化和改进,然而面临某些特别的数据以及难度大的搜索,还是难以达到理想的效果,得到的数据信息已经无法达到实际的使用标准。

不管是互联网安全,还是产品市场调查,这些都要有大量的数据资源作支撑,但是在互联网环境中并没有可以直接使用的数据资源,工作人员必须要手动进行搜索、分析以及挖掘等工作,并将获得的数据信息格式转化成需要的数据。

手动操作不仅难以获得全面的数据信息,同时也会造成工作效率低下,浪费时间和精力,而通过网络爬虫就可以轻松、便捷地完成网络数据信息的收集和分析工作,很好的改善了工作效率。

为此,本文探究了大数据背景下依托于Python的网络爬虫技术,为进一步提高网络数据分析和整合效果提供帮助。

一、依托于Python实现网络爬虫技术分析(一)网络爬虫概述网络爬虫也被叫做网页蜘蛛,能够依照设定的规则,实现万维网数据信息的程序以及脚本的自动抓取[1]。

现阶段网络爬虫技术越来越成熟,在互联网搜索引擎以及许多相关网站上都有着非常深入的应用,在促进网站发展上发挥了重要的作用。

网络爬虫可以便捷获得关联网站的内容以及检索途径,并且能够将网站的各个访问数据以及内容自动收集起来,为搜索引擎不断优化和改进提供支持,让使用者在进行信息检索时可以快速、便捷地检索到需要的数据信息。

写一段简单的爬虫

写一段简单的爬虫

写一段简单的爬虫1.引言概述部分的内容应该是对于爬虫的简要介绍和概念说明。

下面是一个参考版本:1.1 概述网络爬虫(Web Crawler)是一种自动化程序,用于在互联网上收集各种信息。

它可以模拟人类用户浏览网页的行为,自动访问指定网站,并将网页内容提取出来进行处理、分析或保存。

爬虫在互联网时代发挥着重要的作用。

通过爬虫,我们可以获取大量的数据,进行数据挖掘、信息提取、舆情监测等工作。

爬虫还可以用于搜索引擎的建立和维护,以及各类网站的信息抓取与更新。

一个基本的爬虫流程包括以下几个步骤:1. 发送HTTP请求:在爬虫程序中,我们需要指定要访问的URL,并发送HTTP请求获取网页内容。

2. 解析HTML:获取到网页内容后,需要使用HTML解析器对网页进行解析,提取出我们需要的数据。

3. 数据处理与存储:解析出的数据可以进一步进行处理、分析或保存。

我们可以将数据保存到数据库中,或者导出为其他格式的文件。

4. 遍历链接:爬虫还可以自动遍历网页上的链接,继续获取更多的数据。

在编写爬虫时,我们需要了解HTML、HTTP协议以及一些基本的编程知识。

同时,我们也需要遵守网络爬虫的合法性规定,尊重网站的robots.txt 文件,避免给服务器带来过大的负载。

爬虫技术在各行各业都有广泛的应用。

例如,电商网站可以使用爬虫获取竞争对手的价格信息;新闻媒体可以使用爬虫自动抓取新闻内容;金融机构可以使用爬虫进行数据监控和风险预警等。

通过学习爬虫技术,我们可以有效地获取并利用互联网上的各种信息资源,为我们的工作和研究提供更多的支持和帮助。

1.2文章结构文章结构部分的内容可以从以下几个方面进行描述:1. 文章的整体组织结构:在这一部分,可以介绍整篇文章的结构和大纲的设计。

说明每个部分的内容以及它们之间的逻辑关系,让读者能够清晰地了解文章的整体脉络。

2. 引言部分的设置:引言是一篇文章的开篇部分,它的作用是引出文章的主题并吸引读者的兴趣。

网络爬虫课件ppt

网络爬虫课件ppt

BeautifulSoup库的使用
安装BeautifulSoup库
解析HTML文档
使用pip install beautifulsoup4命令进行 安装。
使用BeautifulSoup的解析方法,如find() 、find_all()等,查找HTML元素。
提取数据
解析XML文档
通过BeautifulSoup的extract()方法提取 HTML元素中的数据。
网络爬虫课件
目录
• 网络爬虫概述 • 网络爬虫的基本原理 • Python网络爬虫实战 • 网络爬虫的道德与法律问题 • 网络爬虫技术进阶 • 网络爬虫案例分析
01 网络爬虫概述
定义与特点
定义
网络爬虫是一种自动化的程序,用于从互联网上抓取数据。
特点
高效性、自动化、数据抓取和存储。
网络爬虫的分类
遵守法律法规和隐私保护
相关法律法规
各国政府都有相关的法律法规,规范 网络爬虫的行为。例如,欧盟的通用 数据保护条例(GDPR)规定了对个 人数据的处理和保护措施。
隐私保护的重要性
在抓取数据时,必须严格遵守隐私法 规,确保不会泄露用户的个人信息。 此外,未经授权的爬取行为可能侵犯 版权,导致法律纠纷。
监控竞争对手的网站动态,获取行业情报和 趋势分析。
02
01
个人使用
用于个人兴趣爱好,如收集特定主题的资料 、图片等。
04
03
02 网络爬虫的基本原理
HTTP协议基础
HTTP协议定义
HTTP协议是互联网的基础,用于从服务器请求和发 送网页内容。
HTTP请求方法
GET、POST、PUT、DELETE等是常见的HTTP请求 方法,用于不同的数据请求和操作。

基于大数据的招聘信息爬虫技术研究与实现

基于大数据的招聘信息爬虫技术研究与实现

基于大数据的招聘信息爬虫技术研究与实现作者:张婷姚仿秋来源:《中国新通信》2020年第02期摘要:网络招聘中信息量巨大,数据冗余较多,导致很多求职者在浏览招聘信息时往往不知道如何选择。

网络爬虫,一种基于python语言的专有性搜索工具,能够将网络上的信息下载保存到本地,还能将网页爬取到的大量信息用于数据分析和大数据研究。

本文实现了Scrapy爬虫对招聘网站的数据爬取,通过搭建Flask框架对采集的数据进行可视化分析。

其分析结果可以帮助求职者在浏览招聘信息时更好地评估工资水平,有效地判断招聘信息是否合理,进而有效提高求职者在寻求招聘岗位时的效率。

关键词:网络爬虫;Scrapy框架;网络招聘信息随着互联网的高速发展和大数据时代的来临,网络招聘已经成为企业之间人才竞争的主要手段。

相对于传统的线下招聘而言,网络招聘成本低、覆盖面广、易于发布信息、招聘信息种类众多[1],通过网络平台求职者还可以更快地与招聘者进行沟通联系,节约了彼此之间的时间成本。

同时由于“互联网+”经济的蓬勃发展,使得网络招聘成为我国招聘市场的主流趋势[2]。

招聘信息本身存在不同时段的时效性,不同政策的工资变化不同,冗余度大,成效低,让求职者很难匹配到自己心仪的工作。

本文使用网络爬虫技术爬取三个招聘网站的招聘信息,将爬取下来的招聘数据进行智能可视化分析,发掘数据中隐藏的价值,摸索网站招聘规律。

通过得出结论,可以更有效地帮助求职者找到适合自己的工作。

一、网络爬虫技术概述随着大数据时代的来临,互联网上的数据容量爆炸性地增长,高性能的网络搜索引擎以及定向的信息获取的需求,使得网络爬虫技术逐渐成为人们研究的对象。

网络爬虫就是通过模拟浏览器发出网络请求,获取网站服务器返回的响应,并按照一定需求爬取数据的脚本程序。

网络爬虫可以分为两类:通用爬虫和聚焦爬虫。

1.1 通用爬虫概述通过用户初始规定的一个待爬取URL地址列表,爬虫从中按顺序爬取URL地址,通过DNS解析获得到主机网页的ip地址,然后交给下载器去下载网页,将采集成功的网页保存到本地磁盘中,并且将已爬取的URL地址做出标志防止二次爬取,保存到磁盘中的网页又存在许多链接信息,再从中抓取URL地址放入待爬取列表中去进行分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络爬虫技术的概述与研究Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】网络爬虫技术的概述与研究摘要网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。

搜索引擎 (Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问web的入口和指南。

但是,这些通用性搜索引擎也存在着一定的局限性。

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。

聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。

本文将对网络爬虫技术及其原理进行简单的介绍,并且给出实例。

关键词网络爬虫聚焦爬虫网页抓取搜索策略 URL一、网络爬虫的简介1、URL在介绍网络爬虫之前,先引入URL的相关知识。

URL是URI的一个子集。

它是Uniform Resource Locator的缩写,译为“统一资源定位符”。

通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是着名的Mosaic。

采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

URL的格式由三部分组成:·第一部分是协议(或称为服务方式)。

·第二部分是存有该资源的主机IP地址(有时也包括端口号)。

·第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的,第三部分有时可以省略。

用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。

有时可以省略目录和文件名,但“/”符号不能省略。

例如爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。

2、传统爬虫与聚焦爬虫网络爬虫是一个自动提取网页的程序,它为搜索引擎从web上下载网页,是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

搜索引擎是基于传统爬虫技术建立的,但其存在着一定的局限性,例如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决以上问题,定向抓取网页的聚焦爬虫应运而生。

聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取URL的队列。

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

二、网络爬虫的工作原理在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。

控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。

解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。

资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:(1) 对抓取目标的描述或定义;(2) 对网页或数据的分析与过滤;(3) 对URL的搜索策略。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。

而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。

这两个部分的算法又是紧密相关的。

1、抓取目标描述现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。

根据种子样本获取方式可分为:(1)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例,分为:a) 用户浏览过程中显示标注的抓取样本;b) 通过用户日志挖掘得到访问模式及相关样本。

其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。

2、网页搜索策略网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。

深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。

1)广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。

该算法的设计和实现相对简单。

在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。

也有很多研究将广度优先搜索策略应用于聚焦爬虫中。

其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。

另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。

这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。

2)最佳优先搜索策略最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。

它只访问经过网页分析算法预测为“有用”的网页。

存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。

因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。

将在第4节中结合网页分析算法作具体的讨论。

研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。

3)深度优先搜索策略深度优先搜索策略从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。

如此一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条路线。

深度优先策略设计较为简单。

然而门户网站提供的链接往往最具价值,PageRank也很高,但每深入一层,网页价值和PageRank 都会相应地有所下降。

这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。

同时,这种策略抓取深度直接影响着抓取命中率以及抓取效率,对抓取深度是该种策略的关键。

相对于其他两种策略而言。

此种策略很少被使用。

3、网页分析算法网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

1)基于网络拓扑的分析算法基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。

又分为网页粒度、网站粒度和网页块粒度这三种。

a、网页(Webpage)粒度的分析算法PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。

PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。

针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。

基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。

文献[21]提出了一种基于反向链接(BackLink)的分层式上下文模型(Context Model),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。

b、网站粒度的分析算法网站粒度的资源发现和管理策略也比网页粒度的更简单有效。

网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。

SiteRank 的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按IP地址划分两种。

文献[18]讨论了在分布式情况下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。

同时,根据不同文件在各个站点上的分布情况,构造文档图,结合 SiteRank分布式计算得到DocRank。

文献[18]证明,利用分布式的SiteRank计算,不仅大大降低了单机站点的算法代价,而且克服了单独站点对整个网络覆盖率有限的缺点。

附带的一个优点是,常见PageRank 造假难以对SiteRank进行欺骗。

c、网页块粒度的分析算法在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性。

但是,在PageRank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。

在网页块级别(Block level) 进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立page to block和block to page的链接矩阵,分别记为Z和X。

于是,在 page to page图上的网页块级别的PageRank 为 W p=X×Z;在block to block图上的BlockRank为 W b=Z×X。

已经有人实现了块级别的PageRank和HITS算法,并通过实验证明,效率和准确率都比传统的对应算法要好。

2)基于网页内容的网页分析算法基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价。

网页的内容从原来的以超文本为主,发展到后来动态页面(或称为Hidden Web)数据为主,后者的数据量约为直接可见页面数据(PIW,Publicly Indexable Web)的400~500倍。

另一方面,多媒体数据、Web Service等各种网络资源形式也日益丰富。

相关文档
最新文档