网络爬虫学习笔记笔记

合集下载

网络爬虫学习笔记

网络爬虫学习笔记

网络爬虫学习笔记你知道百度、Google 是如何获取数以亿计的网页并且实时更新的吗?你知道在搜索引擎领域人们常说的Spider 是什么吗?本文章只限帮助读者快速入门,不到之处,敬请谅解。

既然百度、Google 这些搜索引擎巨头已经帮我们抓取了互联网上的大部分信息,为什么还要自己写爬虫呢?因为深入整合信息的需求是广泛存在的。

在企业中,爬虫抓取下来的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源。

甚至有人为了炒股,专门抓取股票信息。

既然从美国中情局到普通老百姓都需要,那还等什么,让我们快开始吧。

学习前准备:eclipse软件,Java语言学习,后续学习准备:Linux操作系统,基本Linux操作指令,hadoop集群,Linux版eclipse 参考资料:虾皮博客园1.了解URL网络爬虫的基本操作是抓取网页,本文将从URL 开始讲起,然后告诉大家如何抓取网页。

抓取网页的过程其实和读者平时使用 IE浏览器浏览网页的道理是一样的。

比如,你打开一个浏览器,输入猎兔搜索网站的地址,如图“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。

更进一步,可以通过浏览器端查看“抓取”过来的文件源代码。

选择“查看” |“源文件”命令,就会出现从服务器上“抓取”下来的文件的源代码,如图在上面的例子中,我们在浏览器的地址栏中输入的字符串叫做 URL。

那么,什么是 URL呢?直观地讲, URL就是在浏览器端输入的 这个字符串。

下面我们深入介绍有关 URL的知识。

在理解 URL之前,首先要理解 URI的概念。

什么是 URI?Web上每种可用的资源,如HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal ResourceIdentifier,URI)进行定位。

URI通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身的名称,由路径表示。

小爬虫知识点总结归纳

小爬虫知识点总结归纳

小爬虫知识点总结归纳随着互联网的飞速发展,网络上的信息量呈现爆炸性增长。

想要获取大规模的网络数据,传统的手工采集方式显然已经无法满足需求。

而爬虫技术的出现,则为我们提供了一种高效、自动化地获取网络数据的方法。

爬虫,顾名思义,就是像蜘蛛一样在网络上“爬行”,获取网页上的各种信息。

通过爬虫技术,我们可以自动化地获取网页上的文本、图片、视频等数据,然后进行分析、处理,实现我们的数据需求。

在学习爬虫技术的过程中,有一些基本知识点是必须要掌握的。

下面,我将对小爬虫知识点进行总结归纳,希望能够帮助读者对爬虫技术有更加全面的了解。

1. HTTP协议HTTP(HyperText Transfer Protocol)是指超文本传输协议,是一个简单的请求-响应协议,它使得客户端和服务器之间可以进行通信。

在编写爬虫的过程中,要了解HTTP协议的基本工作原理,了解HTTP请求和响应的相关内容,这对于编写爬虫程序是非常重要的。

2. HTML基础HTML(Hyper Text Markup Language)是一种用于创建网站的标准标记语言。

在爬虫中,我们通常需要从网页中抽取信息,而了解HTML基础知识对于爬虫程序的开发是非常重要的。

包括HTML标签、属性、元素等基础知识,都是编写爬虫时必须要了解的内容。

3. 爬虫框架爬虫框架是指一种用于构建网络爬虫的软件工具。

目前比较流行的爬虫框架有Scrapy、Beautiful Soup、urllib等等。

掌握一种爬虫框架,可以大大提高爬虫程序的开发效率和功能完善度。

4. 数据解析在爬虫程序中,我们通常需要从网页中抽取特定的信息,比如文本、链接、图片等。

数据解析技术对于爬虫程序是非常重要的,包括正则表达式、XPath、CSS选择器等技术都是用于数据解析的常用工具。

5. 爬虫策略在进行爬虫程序开发时,我们需要考虑一些爬虫策略,比如爬虫速度控制、爬虫深度控制、反爬虫手段等等,这些都是编写高效、稳定的爬虫程序所必须要考虑的内容。

爬虫知识点总结

爬虫知识点总结

爬虫知识点总结一、概述爬虫(web crawler)是指一类能够自动抓取网页内容的程序,也叫网络爬虫、网络蜘蛛、网页蜘蛛等。

爬虫可以自动从互联网上下载网页,并且进行内容的提取、存储和分析。

爬虫在搜索引擎、数据采集、信息监测等应用中有着广泛的应用。

爬虫通常由以下几个步骤组成:发送HTTP请求,获取网页内容;解析网页内容,提取所需信息;存储所提取的信息;处理抓取过程中的错误和异常情况。

这些步骤涉及到许多爬虫知识点,下面将逐一介绍。

二、发送HTTP请求1. URL格式URL(Uniform Resource Locator)是统一资源定位符,用于指定互联网上的资源。

URL包括协议部分、主机部分、路径部分、查询部分和片段部分。

常见的协议有HTTP、HTTPS、FTP等。

2. HTTP协议HTTP(HyperText Transfer Protocol)是一种用于传输超文本(如HTML)数据的协议。

爬虫发送的HTTP请求需要遵循HTTP协议的规定,包括请求方法(GET、POST等)、请求头部、请求体等。

3. 请求头部请求头部包括一系列键值对,用于描述请求的相关信息,如User-Agent(用户代理)、Accept(接受的内容类型)、Referer(引用页)、Cookie(HTTP Cookie)等。

爬虫需要根据实际情况设置合适的请求头部,以模拟浏览器的行为。

4. Cookie处理Cookie是由服务器发送给客户端的一小段信息,客户端在以后发送请求时会带上该信息。

爬虫需要处理Cookie,以维持会话状态。

5. 代理为了避免被目标网站封禁IP,或者访问国外网站时的限制,爬虫通常会使用代理服务器来隐藏自身的IP地址。

6. SSL/TLS当目标网站采用HTTPS协议进行加密通信时,爬虫需要支持SSL/TLS协议,以确保安全的数据传输。

三、获取网页内容1. 域名解析域名解析是将域名转换为IP地址的过程,爬虫需要将目标网站的域名解析为IP地址,以便发送请求。

网络爬取知识点总结

网络爬取知识点总结

网络爬取知识点总结网络爬虫的基本原理网络爬虫的基本原理是通过HTTP协议访问网站,并解析网页内容获取所需数据。

网络爬虫按照一定的规则自动访问网页,提取信息,并将信息保存到本地或者上传到服务器。

网络爬虫通常从指定的起始网页开始,依次遍历所有链接,直到遍历完所有页面或者达到指定条件为止。

常见的网络爬虫技术1. URL管理:网络爬虫需要管理待访问的URL列表,通常采用队列或者集合的方式进行管理。

当爬虫从一个网页中获取到新的链接时,会将这些链接添加到待访问的URL列表中。

2. 网页下载:网络爬虫需要下载网页的内容,通常使用HTTP库(如requests、urllib)进行网页的下载。

3. 网页解析:网络爬虫需要解析网页的内容,通常使用HTML解析库(如BeautifulSoup、lxml)进行网页内容的解析。

4. 数据存储:网络爬虫需要将获取到的数据进行存储,通常使用数据库、文件或者其他存储介质进行数据的存储。

网络爬虫的应用场景1. 搜索引擎:搜索引擎通过网络爬虫定期抓取全网的网页,建立网页索引,并为用户提供便捷的搜索服务。

2. 数据挖掘:网络爬虫可以用于抓取网站上的数据,用于数据挖掘、分析及统计。

3. 价格监控:许多电商网站使用网络爬虫技术来监控竞争对手的价格,并及时调整自己的价格。

4. 舆情监控:政府、企业及个人可以使用网络爬虫技术对网上舆情进行监控。

5. 网站镜像:网络爬虫可以用于建立网站的镜像,以备网站宕机时提供备份。

网络爬虫的应用注意事项1. 网络爬虫需要遵守网站的robots.txt文件,尊重网站的爬取规则。

2. 网络爬虫需要遵守相关法律法规,尊重个人隐私,不得用于非法用途。

3. 网络爬虫需要设置合理的爬取速度,避免对网站造成过大的负担。

4. 网络爬虫需要处理网页中的动态内容、验证码以及反爬虫技术。

网络爬虫的技术难点1. 反爬虫技术:许多网站会采用反爬虫技术来阻止爬虫程序的访问,包括网站认证、验证码、IP封锁等技术。

网络爬虫de基础知识

网络爬虫de基础知识

相对于通用网络爬虫,聚焦爬虫还需 要解决三个主要问题:
(1)对抓取目标的描述或定义; (2)对网页或数据的分析与过滤; (3)对URL的搜索策略。 抓取目标的描述和定义是决定网页分析 算法与URL搜索策略如何制订的基础。而网 页分析算法和候选URL排序算法是决定搜索 引擎所提供的服务形式和爬虫网页抓取行为 的关键所在。这两个部分的算法又是紧密相 关的。
另外一种方法是将广度优先搜索与网 页过滤技术结合使用,先用广度优先策略抓 取网页,再将其中无关的网页过滤掉。这些 方法的缺点在于,随着抓取网页的增多,大 量的无关网页将被下载并过滤,算法的效率 将变低。
3.1.2 最佳优先搜索策略
最佳优先搜索策略按照一定的网页分析 算法,预测候选URL与目标网页的相似度, 或与主题的相关性,并选取评价最好的一个 或几个URL进行抓取。它只访问经过网页分 析算法预测为“有用”的网页。
Abiteboul
设计了一种基于OPIC(在线页面重要指数)的抓取战略。 在OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均 分给它所指向的页面。这种算法与PageRank相似,但是它的速度很 快,并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面, 实验在10万个幂指分布的模拟页面中进行。但是,实验没有和其它策 略进行比较,也没有在真正的WEB页面测试。
后期Google的改进主要有: (1)采用自有的文件系统(GFS)和数据库系统 (Big Table)来存取数据; (2)采用Map Reduce技术来分布式处理各种数 据的运算。
4.2 Mercator
康柏系统研究中心的AIlan Heydon和 Marc Najork设计了名叫Mercator的爬行器。 系统采用Java的多线程同步方式实现并行处 理,并加入了很多优化策略如DNS缓冲、延 迟存储等以提升爬行器运行效率。它采用的 数据结构可以不管爬行规模的大小,在内存 中只占有限的空间。这些数据结构的大部分 都在磁盘上,在内存中只存放有限的部分, 伸缩性很强。

网络爬虫知识点总结

网络爬虫知识点总结

网络爬虫知识点总结一、网络爬虫概述网络爬虫是一种自动化程序,能够浏览互联网并收集信息。

网络爬虫通过访问网页的超链接来获取数据,分析数据并存储到本地数据库或文件中。

网络爬虫在搜索引擎、数据挖掘、信息检索等领域有着广泛的应用。

二、网络爬虫的工作原理1. 发送HTTP请求网络爬虫首先发送HTTP请求到指定的网页,获取网页的HTML代码。

2. 解析HTML爬虫将获取到的HTML代码进行解析,提取其中的链接、文本、图片等信息。

3. 存储数据爬虫将提取到的数据存储到本地数据库或文件中,方便后续的分析和处理。

三、网络爬虫的技术1. HTTP协议网络爬虫通过HTTP协议来发送请求和获取数据。

爬虫需要了解HTTP的各种状态码、请求头和响应头等内容。

2. 页面解析爬虫需要使用解析库来解析网页,如BeautifulSoup、lxml、pyQuery等。

3. 数据存储爬虫需要将获取到的数据存储到本地数据库或文件中,常用的数据库包括MySQL、MongoDB等。

4. 反爬机制许多网站为了防止爬虫的行为,采取了一些反爬措施,如验证码、IP封锁、User-Agent检测等。

四、常见的网络爬虫框架1. ScrapyScrapy是一个使用Python编写的强大的网络爬虫框架,可以用来快速开发和部署爬虫。

Scrapy提供了丰富的API,支持并发、异步IO等功能。

2. BeautifulSoupBeautifulSoup是一个方便的解析HTML和XML的库,可以用来提取网页中的数据。

3. RequestsRequests是一个Python第三方库,用来简化发送HTTP请求的过程,是网络爬虫中常用的库之一。

五、网络爬虫的应用1. 搜索引擎搜索引擎如Google、百度等使用网络爬虫来收集互联网上的数据,建立索引并提供检索服务。

2. 数据挖掘网络爬虫可以用来收集互联网上的大量数据,用于数据挖掘和分析。

3. 信息检索爬虫可以用来抓取特定网站上的信息,如新闻、论坛、电商平台等,用于信息的检索和监控。

python爬虫知识点总结

python爬虫知识点总结

python爬虫知识点总结
Python爬虫是一个强大的工具,它能够自动地获取和解析网页数据。

以下
是Python爬虫的一些关键知识点:
1. 网络请求库:Python有很多库可以用来发送网络请求,如requests、urllib等。

这些库可以用于获取网页的源代码,这是爬虫获取数据的基础。

2. HTML解析:Python有很多库可以用来解析HTML,如BeautifulSoup 和lxml。

这些库可以帮助你从HTML代码中提取出你需要的数据。

3. CSS选择器和XPath:CSS选择器和XPath是用于定位HTML元素的方法。

它们可以帮助你准确地找到你需要的数据所在的HTML元素。

4. 自动化工具:Python有很多自动化工具,如Selenium和Pyppeteer,这些工具可以帮助你模拟用户在浏览器中的行为,如点击按钮、填写表单等。

5. 代理IP:在进行爬虫抓取时,可能会遇到IP被封禁的问题。

使用代理IP 可以有效地解决这个问题。

6. 反爬虫策略:网站可能会使用各种方法来防止爬虫的访问,如检测请求头、检查User-Agent、限制访问频率等。

因此,了解和应对这些策略是必要的。

7. 法律与道德问题:在进行爬虫抓取时,需要遵守法律法规和网站的使用协议,尊重网站的数据所有权。

8. 数据存储:抓取到的数据需要存储起来,Python有很多库可以用来存储
数据,如CSV、JSON、MySQL、MongoDB等。

以上就是Python爬虫的一些关键知识点,希望对你有所帮助。

网络爬虫期末总结

网络爬虫期末总结

网络爬虫期末总结一、引言网络爬虫作为一种自动化获取互联网上信息的工具,在我们日常的生活和工作中发挥着重要的作用。

本文将以我在学习网络爬虫课程期间所学到的知识和经验为基础,对网络爬虫的原理、应用和挑战进行总结和分析。

二、网络爬虫原理1.1 数据采集和处理网络爬虫的基本原理是通过一个自动化程序来从互联网上收集信息,并将这些信息存储和处理。

爬虫首先通过访问网站的URL来获取网页的html源代码,然后解析该源代码,提取出所需的数据,并将数据存储到数据库或文件中。

1.2 网络通信和URL管理网络爬虫需要使用HTTP协议来与服务器进行通信,通过发送HTTP请求获取服务器响应的数据。

爬虫还需要管理待爬取的URL列表,以便定期或主动地发起请求获取新的数据。

这可以通过维护一个URL队列或使用URL调度算法来实现。

1.3 数据解析和提取爬虫解析网页源代码的主要方法有两种:基于正则表达式和基于DOM树。

正则表达式可以通过匹配目标数据的模式来提取数据,但其对于复杂的HTML结构和嵌套标签的处理非常困难。

而基于DOM树的解析则可以通过构造DOM树并遍历节点来定位和提取数据。

1.4 反爬机制的应对为了防止恶意爬虫对网站的影响,许多网站会采取反爬虫机制,如IP封禁、验证码和请求频率限制等。

爬虫需要采取一些策略来应对这些机制,如使用代理IP来隐藏真实的请求源,使用机器学习算法来识别验证码,或者设置请求间隔时间来规避频率限制。

三、网络爬虫应用2.1 数据采集和分析网络爬虫广泛应用于各种类型的数据采集和分析工作。

比如,利用爬虫可以从各大新闻网站抓取新闻标题和正文,并进行文本分析和情感分析;从社交媒体平台获取用户信息和发帖内容,用于推荐系统的个性化推荐;通过爬取电商网站的商品信息来进行价格比较和竞争对手分析等。

2.2 搜索引擎优化搜索引擎是互联网上最常用的信息检索工具,而网络爬虫是搜索引擎的核心功能之一。

搜索引擎利用爬虫从互联网上抓取和索引网页,然后通过搜索算法对这些网页进行排序和展示。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web Crawler A Review1.分类:通用爬虫、聚焦爬虫、分布式爬虫2.网络是一个有向图,所以搜索操作可以总结为对有向图的遍历。

爬虫通过web页面的图结构从一个页面到另一个页面。

3.Google具有较少的垃圾结果和公平的搜索结果两大优点,其来源于google的pagerank算法和锚点词权重。

4.爬虫技术:A,通用爬虫:从每一个网页尽可能多的找寻链接,去点速度慢占带宽。

B,聚焦爬虫:爬取某一主题的文件,节省带宽。

C分布式爬虫:多线程爬取。

5.现在爬虫都是同步进行的,有重载、质量和网络等问题。

6.Selberg, E. and Etzioni, O. On the instability of Web search engines. In Proceedings of RIAO ’00, 2000.Teevan, J., E. Adar, R. Jones, and M. A. Potts. Information reretrieval: repeat queries in Yahoo's logs. SIGIR ‘07, 151-158, 2007.这两篇主要研究识别结果动态改变。

K. S. Kim, K. Y. Kim, K. H. Lee, T. K. Kim, and W. S. Cho “Design and Implementation of Web Crawler Based on Dynamic Web Collection Cycle”, pp. 562-566, IEEE 2012动态web数据爬取技术包含对web变化的监视,动态获取网页。

Junghoo Cho and Hector Garcia-Molina “Parallel Crawlers”. Proceedings of the 11th international conference on World Wide Web WWW '02”, May 7–11, 2002, Honolulu, Hawaii, USA. ACM 1-58113-449-5/02/0005.高效的并行爬虫Alex Goh Kwang Leng, Ravi Kumar P, Ashutosh Kumar Singh and Rajendra Kumar Dash “PyBot: An Algorithm for Web Crawling”, IEEE 2011 广度优先搜素,会输出一个Excel CSV 形式的web架构,存储下来的网页与web结构用于排名,Rajashree Shettar, Dr. Shobha G, “Web Crawler On Client Machine”, Proceedings of the International MultiConference of Engineers and Computer Scientists 2008 V ol II IMECS 2008, 19-21 March, 2008, Hong Kong 异步多线程下载模块Eytan Adar, Jaime Teevan, Susan T. Dumais and Jonathan L. Elsas “The Web Changes Everything: Understanding the Dynamics of Web Content”, ACM 2009.对特征化网络变化提出更细微的分析。

A.K. Sharma, J.P. Gupta and D. P. Agarwal “PARCAHYD: An Architecture of a Parallel Crawler based on Augmented Hypertext Documents”, International Journal of Advancements in Technology, pp. 270-283, October 2010.实现三个层次的并行化,分别是document、mapper、crawl worker level。

详细说明了爬虫主要模块算法细节。

Lili Yana, Zhanji Guia, Wencai Dub and Qingju Guoa “An Improved PageRank Method based on Genetic Algorithm for Web Search”, Procedia Engineering, pp. 2983-2987, Elsevier 2011Pagerank的启发式算法Design and Implementation of Web Crawler Based on Dynamic Web Collection Cycle1.目前web特点:复杂的非层次结构;更短的创建和销毁周期;没有物理边界。

2.针对此特点需要设计时间短的数据收集周期。

3.本文主要内容:提出动态web数据的爬取方法,包括可以敏感检测网站的变化,动态检索目标网站的网页。

根据web内容更新特征设计了一个最佳的收集周期模型。

通过计算收集周期的分数动态预测web内容的收集周期。

4.Web收集周期有三个参数决定:当前收集周期、平均收集周期、先去的收集周期。

所以这个周期是动态。

可以减少网络负担。

5.这个最佳周期时间是本文关键。

6.本文提到一个高效爬虫需要研究三点:1)搜索临近网页的策略;2)设计并行爬虫的架构;3)网页重构。

可以参考:A. K. Sharma, et al., PARCAHYD: An Architecture of a ParallelCrawler based on Augmented Hypertext Documents, InternationalJournal of Advancements in Technology, V ol 1, No 2 (Oct. 2010).7.谷歌搜索引擎的爬虫有五个功能模块:url服务模块、爬虫模块、存储模块、索引建立、url解析8.使用网站探测(website probing)?得知网站是否更改。

9.动态爬虫详细流程:1)读取数据库获得url跟收集周期; 2)根据收集时间爬取网页;3)对比抓取网页跟数据库中网页异同;4)计算网页收集周期并存储到数据库;5)如果网页没有改变收集周期变长。

实现主要考虑三点:1)怎么检查网页的改变;2)怎么增强收集的效果;3)怎么持有版权?How to keep the copyright of the web contentsCrawling Ajax-driven Web 2.0 Applications1.introduction:主要使用rbNarcissus, Watir and Ruby .解决Ajax带来挑战——Past articles •Vulnerability Scanning Web2.0 Client-Side Components[/infocus/1881]•Hacking Web 2.0 Applications with Firefox[/infocus/1879]rbNarcissus(验证和分析Javascript代码,非执行)[5], Watir(一款基于ruby的自动化测试工具,通过代码操作浏览器)Ruby(一种面向对象程序设计的脚本语言)Watir:全称是“Web Application Testing in Ruby”,发音类似“water”。

它是一种基于网页模式的自动化功能测试工具。

Watir可以模拟用户访问网页、点击链接,填写表单,点击按钮。

Watir可以模拟用户验证页面内容。

Watir不能用于Ajax control的测试。

Watir不支持Activex的测试。

Watir不支持IE Dialog的支持(以前曾经支持过)。

2.一般的爬虫引擎一般是协议驱动,链接建立后爬虫发送http请求并且试图截获响应。

资源解析通过链接、脚本、flashi components 和其他数据获得另外的一些资源。

但是不能有效应对Ajax。

这是因为所有的目标资源都是js编码的一部分并且是植入DOM中,所以就需要理解并且可以触发基于DOM的activity。

3.所以需要事件驱动的爬虫。

有以下三个关键部分组成:1)js的分析和解释(Javascript analysis and interpretation with linking to Ajax);2)DOM事件处理和调度(DOM event handling and dispatching);3)动态DOM内容的提取(DOM event handling and dispatching)4.事件驱动爬虫的解决方法。

需要浏览器上下文来理解DOM和可能的fireevent?几个工具和插件可以使用。

例如本文使用Watir。

5.一般爬虫只获得html得不到js,需要使用XHR Objecet来获得js。

(XHR 注入技术是通过XMLHttpRequest来获取javascript的。

但与eval不同的是,该机制是通过创建一个script 的DOM元素,然后把XMLHttpRequest的响应注入script中来执行javascript的。

在某些情况下使用eval可能比这样机制慢。

XHR injection 通过XMLHttpRequest获取的内容必须部署在和主页相同的域中。

)6.分析步骤<1>分析js 代码。

通过XHR调用来解析js获得所有可能的函数。

可以看出getQuote,loadmyarea and loadhtml 调用the XHR object。

而getPrice调用getQuote<2>Automating IE with Watir.使用Watir来自动操作IE,其他的工具也可以,只要保证他们可以触发事件。

Design and Implementation of a High-Performance Distributed Web Crawler1.提出一个健壮移植性好的分布式爬虫系统。

2.一个好的爬虫应满足俩方面:1)有一个好的爬取策略,决定下载哪一个页面2)有一个高优化的系统结构,可以在下载大量网页的同时应对崩溃等。

同时面临的挑战:系统设计、I/O、网络效率、健壮性、易用性。

爬虫策略:1)爬取重要网页优先:J. Cho and H. Garcia-Molina. Synchronizing a database to improve freshness. In Proc. of the ACM SIGMOD Int. Conf. on Management of Data, pages 117–128, May 2000 M. Najork and J. Wiener. Breadth-first search crawling yields high-quality pages. In 10th Int. World Wide Web Conference, 2001.2)爬取特定主题或类型:S. Chakrabarti, M. van den Berg, and B. Dom. Distributed hypertext resource discovery through examples. In Proc. of 25th Int. Conf. on Very Large Data Bases, pages375–386,September 1999.S. Chakrabarti, M. van den Berg, and B. Dom. Focused crawling: A new approach to topic-specific web resource discovery. In Proc. of the 8th Int. World Wide Web Conference(WWW8), May 1999.M. Diligenti, F. Coetzee, S. Lawrence, C. Giles, and M. Gori. Focused crawling using context graphs. In Proc. of 26th Int. Conf. on Very Large Data Bases, September 2000. J. Rennie and A. McCallum. Using reinforcement learning to spider the web efficiently. In Proc. of the Int. Conf. on Machine Learning (ICML), 1999.3)爬取更新页面J. Cho and H. Garcia-Molina. The evolution of the web and implications for an incremental crawler. In Proc. of 26th Int. Conf. on Very Large Data Bases, pages 117–128, September 2000.J. Cho and H. Garcia-Molina. Synchronizing a database to improve freshness. In Proc. of the ACM SIGMOD Int. Conf. on Management of Data, pages 117–128, May 2000. 4)安排超时爬取(scheduling of crawling activity over time)?J. Talim, Z. Liu, P. Nain, and E. Coffman. Controlling robots of web search engines. In SIGMETRICS Conference, June 2001.架构详细设计A.Heydon and M. Najork. Mercator: A scalable, extensible web crawler. World Wide Web,2(4):219–229, 1999.(AltaVista使用搜索引擎的详细设计)需要研究爬虫策略:1.爬虫策略:深度优先、广度优先、加权优先。

相关文档
最新文档