网络爬虫-实验手册

相关主题

网络爬虫

1.实验目标

1.熟悉网络爬虫的相关概念及实现网络爬虫的相关流程。

2.了解WebCollector框架的基本原理。

3.熟练掌握在Eclipse项目中配置使用WebCollector爬虫。

2.前提条件

1．正确安装和配置Java开发环境。

2．了解网络爬虫的相关知识

3．进入下载所需jar包。

3.实验任务及完成标准

本次实验通过WebCollector框架实现一个简单的聚焦网络爬虫。用户可根据自己的需求定制网络爬虫，设定待爬取的网址、爬取网页的数量、爬取网页的内容等。通过对该实例的详细介绍来探讨网络爬虫的原理及在实际生活中的应用。

在此实例的基础上，学生需要独立完成更为复杂的聚焦网络爬虫，来爬取更有意义的内容。具体要求见“4 扩展内容”。

3.1建立应用程序项目

打开eclipse，创建本次实验项目htmlCrawler（【File】->【New】->【Java Project】

）如图1所示。

图1 创建工程

3.2在Eclipse项目中配置使用WebCollector爬虫

1 选中htmlCrawler 右键，选中【New】->【Folder】，输入文件名称“lib”,如下图2所示。

图2 创建文件夹

2解压缩webcollector-2.26-bin.zip，拷贝所有的Jar包，放到lib

目录中，如图3所示。

图3 目录结构图

3将文件夹lib中的所有jar包添加到build path中，如图4、图5、图6所示。

图4

图5

图6

依次选中jar包，导入到工程中。

4 如果想看WebCollector的源码，可以为Jar包关联源码（可选），如图6、图7所示。

图6

图7

3.3现在可以编写WebCollector爬虫的代码了

新建一个类Crawler.java，继承自BreadthCrawler。重写visit方法，来实现满足自己需求的爬虫即可。如图8、图9所示。

图8

图9

图10