网络信息爬取使用说明

网络信息爬取管理系统

使用说明书

成都友有网络科技有限公司

2011年10月

文档控制

修改记录

* 修改类型分为A—Added M—Modified D—Deleted 审阅人

存档

1概述

1.1背景

公司品财经网站每天需要繁琐的去收集新闻信息，为了减轻客服人员的负担，开发此系统进行自动的数据爬取。当然也可以应用于各种数据的爬取。

1.2应用领域与使用对象

该系统主要用于有一定程序基础的人员。

1.4参考资料

列出有关资料的作者、标题、编号、发表日期、出版单位或资料来源，可包括

与该产品有关的已发表的资料

列出编写本说明书时查阅的Internet上杂志、专业著作、技术标准以及他们的网址

1.5术语与缩写解释

2系统综述

2.1系统结构

2.2系统功能简介

本软件主要分为3个大模块，分别为爬取信息管理、数据源管理、数据库连接管理。只需根据所爬取网页编写一个配置文件，就能轻松爬取到你想要的精确数据。

2.3性能

该系统可以支持1000个爬取信息同时爬取网络信息。

3运行环境

3.1硬件设备要求

1、本软件要求在PC及其兼容机上运行。

2、要求奔腾Ⅱ以上的CPU。

3、要求64MB以上的内存。

4、要求10GB以上的硬盘。

3.2支持软件

1、本软件要求在PC及其兼容机上运行。

2、操作系统在Windows 98以上的系统、Linux等。

3、操作系统要支持Java ，JDK版本1.6以上。

4、需要安装Tomcat6.0以上。

3.3数据结构

该软件所需数据库：MySQL

4系统操作说明

首先用图表的形式说明软件的功能同系统的输入源机构、输出接收机构之间的关系。

4.1安装与初始化

4.1.1 安装JDK

由于该系统是由JAVA开发的，所以第一步需要用户下载JDK并进行安装。

下载地址：

https://www.360docs.net/doc/8d14091016.html,/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-window s-i586-p-12_sep_2008.exe

安装完成后需要进行环境变量的设置。进入环境变量：右键我的电脑->选择属性->高级->环境变量。（如图：4.01）

图4.01

进入环境变量后，在系统变量栏点击新建，变量名为JAVA_HOME，变量值为你的JDK的安装路径。例如：本机的JDK安装在C:\Program Files\Java下面，而该目录下面有一个jdk和jre 的文件夹，选择jdk的那个文件夹，最后则是C:\Program Files\Java\jdk1.6.0_07作为变量值。（如图：4.02）

图4.02

设置完JAVA_HOME路径后，添加到系统变量Path后面。路径为：%JAVA_HOME%\bin; (如图:4.03)

图4.03

至此Java的JDK配置成功。测试成功与否可以在命令行输入：java 。会有当前JDK的版本信息。

4.1.2 安装Tomcat

Tomcat基本上都是绿色版本的，解压就可以用。

下载地址：https://www.360docs.net/doc/8d14091016.html,/index.html

下载解压后，在环境变量里面配置Tomcat。首先配置CATALINA_BASE和CATALINA_HOME,其值都是Tomcat的根目录。（如图4.04）

图4.04

配置classpath环境变量。值为以下变量。

%JAVA_HOME%\dt.jar;%CATALINA_HOME%\common\lib\servlet-api.jar;（如图4.05）

图4.05

加入到在环境变量path中。%CATALINA_HOME%\lib;（图4.06）

图4.06

至此Tomcat环境变量配置完成。

4.1.3 安装数据库和导入数据

本软件所使用的数据库为MySQL,本软件会附带一个叫spider.sql的脚本语言。MySql安装成功后。（这里不再叙述MySQL的安装过程）

下载地址：https://www.360docs.net/doc/8d14091016.html,/

安装成功后，将spider.sql脚本语言导入到MySQL数据库中。

4.1.4 部署本软件

以上步骤完成后，就可以部署该软件了，本软件会附带一个叫spider.war的文件，将它拷贝到您的Tomcat安装路径根目录下的webapps目录里面。再到根目录下的bin目录里面点击startup.bat。Tomcat便启动完成。

那么在浏览器中输入访问地址，即可访问本系统了。建议用户使用IE浏览器进行访问。

访问地址为：http://localhost:8080/spider访问成功后见（图4.07）

图4.07（登陆成功后显示页面）

4.2 数据库连接管理

4.2.1业务需求描述

由于网络数据的爬取需要存储到各种数据库中，那么就需要对各种数据的连接信息进行管理。该模块可以对数据库连接信息进行新增、修改、删除，并还能实时测试连接是否通畅。

4.2.2界面截屏以及界面字段解释

新建数据库界面字段解释（图4.08）

连接名称：为你新建的数据库自定义个名称，这个名字只用于显示。

数据库类型：选择你需要新建的数据库连接的类型，目前只支持Oracle、MySQL、SQLServer。连接地址：填写JDBC连接数据库的地址。用户可以根据模板来填写。

驱动：填写填写数据库JDBC连接驱动。

账号：填写数据库的登陆账号。

密码：填写数据库的登陆密码。

图4.08（新增数据库连接）

数据库连接列表页面解释：

可以对通过连接名称查询连接信息。详细按钮点击可以弹出信息详细。修改按钮点击可以修改该条信息(见图4.10)。点击测试连接按钮对当前连接进行测试（见图4.11）

图4.09（数据库连接列表）

修改数据库界面字段解释（图4.10）

连接名称：为你新建的数据库自定义个名称，这个名字只用于显示。

驱动：填写填写数据库JDBC连接驱动。

账号：填写数据库的登陆账号。

密码：填写数据库的登陆密码。

图4.10（数据库修改）

点击测试按钮，测试该条信息是否连通。

图4.11（测试数据库连接成功）连接信息详细页面。

图4.12（数据库连接详细）

4.2.3操作说明

4.2.3.1 数据库连接列表

1.用户在点击左边导航条的连接管理时，页面右边界面展示连接管理的列表。

2.展示内容：连接名称、数据库类型、操作类型（删除、详细、修改、测试）。

3.列表上面会有一个新增按钮。可以新增数据库连接。列表上方有查询条件，可以方便查

询出你想要的内容。查询条件为连接名称。

4.2.3.2 新增数据库连接

1.用户在列表页面上方点击新增按钮，页面便跳转到新增页面。

2.新增字段：连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。

3.所有字段都为必填字段。

4.连接地址：填写JDBC连接数据库的地址。用户可以根据模板来填写。

5.驱动：填写填写数据库JDBC连接驱动。

6.账号：填写数据库的登陆账号。

7.密码：填写数据库的登陆密码。

4.2.3.3 修改数据库连接

1.用户在数据库连接列表中，选择所在的信息点击修改的按钮，便跳转到修改页面。

2.修改字段：连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。

3.所有字段都为必填。

4.连接地址：填写JDBC连接数据库的地址。用户可以根据模板来填写。

5.驱动：填写填写数据库JDBC连接驱动。

6.账号：填写数据库的登陆账号。

7.密码：填写数据库的登陆密码。

4.2.3.4 删除数据库连接

1.用户在数据库连接列表中，选择要删除的行，点击删除按钮，便删除该行记录。4.

3.5 查看数据库连接详细

1. 用户在数据库连接列表中，在所在行点击详情按钮，弹出框暂时详细信息。

4.3数据源管理

4.3.1业务需求描述

数据源管理主要用于配置爬取数据插入的表，以及表结构。方便系统本身将数据插入到数据库中去。能够的手动的配置来实现对存入信息字段的匹配以及去重复配置

4.3.2界面截屏以及界面字段解释

数据源列表页面解释：

可以对通过数据源名称查询数据源信息。详细按钮点击可以弹出信息详细。修改按钮点击可

以修改该条信息(见图4.16)。点击新增按钮将会跳转到新增页面（见图4.14）。点击详细按钮将会弹出详细页面（见图4.17）

图4.13（数据源列表）

新增数据源字段解释：

数据源名称：用户自己定义的数据源的名称。

数据库类型：点击请选择按钮，弹出框选择数据库连接。(见图4.15)

配置文件：上传数据源的配置文件。只能上传xml格式的。

图4.14（新增数据源）

图4.15（选择数据库连接）

修改数据源字段解释：

数据源名称：用户自己定义的数据源的名称。

数据库类型：点击请选择按钮，弹出框选择数据库连接。(见图4.15)

配置文件：上传数据源的配置文件。只能上传xml格式的。

图4.16（修改数据源）

在列表页面中点击详细按钮，弹出该界面。点击下载，可以下载该信息的配置文件。更方便

修改与管理。

图4.17（数据源详细）

4.3.3操作说明

4.3.3.1数据源管理列表

1.用户点击页面左边的导航菜单《数据源管理》，页面右边跳转到数据源列表页面。

2.数据源列表页面展示数据：数据源名称、数据库连接名称、创建时间、操作项（删除、

修改）。

3.列表上面有新增按钮、查询条件为数据源名称。

4.3.3.2 新增数据源

1.用户点击页面左边的导航菜单《数据源管理》，页面右边跳转到数据源列表页面。

2.在数据源列表上面有新增按钮，点击新增按钮可以跳转到新增页面。

3.新增字段：数据源名称、连接（弹出框选择）、数据源配置文件。

4.数据源配置文件例子见下面

repeatSql="select tid from user where phone=?"

标签

中的name属性为插入数据库中表的名称，属性sql为插入的SQL语句，属性repeatSql为判断重复的语句，这里如果所有property节点的repeat为“yes”时可以不填写。Id节点是指该表的主键，type属性为该字段的类型，与Java对齐，identity属性指示该主键是否自增长。Property节点为该表的各个字段，type属性于id的type一样，repeat属性判断该字段是否重复yes表示插入的数据可以重复,no则反之。需要注意的是如果时间类型，需要自己手动的写在sql上面。

4.3.3.3 修改数据源

1.用户点击页面左边的导航菜单《数据源管理》，页面右边跳转到数据源列表页面。

2.在数据源列表上，点击修改按钮可以跳转到修改页面。

3.修改字段：数据源名称、连接（弹出框选择）、数据源配置文件。配置文件详细见新增

数据源。

4.3.3.4删除数据源

1.用户在数据源列表中，选择要删除的行，点击删除按钮，便删除该行记录。

4.4爬取信息管理

4.4.1业务需求描述

该模块是该系统的核心部分，也是网络数据爬取的核心。需要用户去编写核心的WebHarvest 配置文件。