网络信息爬取使用说明

网络信息爬取管理系统

使用说明书

成都友有网络科技有限公司

2011年10月

文档控制

修改记录

* 修改类型分为A—Added M—Modified D—Deleted 审阅人

存档

1概述

1.1背景

公司品财经网站每天需要繁琐的去收集新闻信息,为了减轻客服人员的负担,开发此系统进行自动的数据爬取。当然也可以应用于各种数据的爬取。

1.2应用领域与使用对象

该系统主要用于有一定程序基础的人员。

1.4参考资料

列出有关资料的作者、标题、编号、发表日期、出版单位或资料来源,可包括

与该产品有关的已发表的资料

列出编写本说明书时查阅的Internet上杂志、专业著作、技术标准以及他们的网址

1.5术语与缩写解释

2系统综述

2.1系统结构

2.2系统功能简介

本软件主要分为3个大模块,分别为爬取信息管理、数据源管理、数据库连接管理。只需根据所爬取网页编写一个配置文件,就能轻松爬取到你想要的精确数据。

2.3性能

该系统可以支持1000个爬取信息同时爬取网络信息。

2.4版权声明

声明版权所有者以及盗版应承当的法律责任。

3运行环境

3.1硬件设备要求

1、本软件要求在PC及其兼容机上运行。

2、要求奔腾Ⅱ以上的CPU。

3、要求64MB以上的内存。

4、要求10GB以上的硬盘。

3.2支持软件

1、本软件要求在PC及其兼容机上运行。

2、操作系统在Windows 98以上的系统、Linux等。

3、操作系统要支持Java ,JDK版本1.6以上。

4、需要安装Tomcat6.0以上。

3.3数据结构

该软件所需数据库:MySQL

4系统操作说明

首先用图表的形式说明软件的功能同系统的输入源机构、输出接收机构之间的关系。

4.1安装与初始化

4.1.1 安装JDK

由于该系统是由JAVA开发的,所以第一步需要用户下载JDK并进行安装。

下载地址:

https://www.360docs.net/doc/8d14091016.html,/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-window s-i586-p-12_sep_2008.exe

安装完成后需要进行环境变量的设置。进入环境变量:右键我的电脑->选择属性->高级->环境变量。(如图:4.01)

图4.01

进入环境变量后,在系统变量栏点击新建,变量名为JAVA_HOME,变量值为你的JDK的安装路径。例如:本机的JDK安装在C:\Program Files\Java下面,而该目录下面有一个jdk和jre 的文件夹,选择jdk的那个文件夹,最后则是C:\Program Files\Java\jdk1.6.0_07作为变量值。(如图:4.02)

图4.02

设置完JAVA_HOME路径后,添加到系统变量Path后面。路径为:%JAVA_HOME%\bin; (如图:4.03)

图4.03

至此Java的JDK配置成功。测试成功与否可以在命令行输入:java 。会有当前JDK的版本信息。

4.1.2 安装Tomcat

Tomcat基本上都是绿色版本的,解压就可以用。

下载地址:https://www.360docs.net/doc/8d14091016.html,/index.html

下载解压后,在环境变量里面配置Tomcat。首先配置CATALINA_BASE和CATALINA_HOME,其值都是Tomcat的根目录。(如图4.04)

图4.04

配置classpath环境变量。值为以下变量。

%JAVA_HOME%\dt.jar;%CATALINA_HOME%\common\lib\servlet-api.jar;(如图4.05)

图4.05

加入到在环境变量path中。%CATALINA_HOME%\lib;(图4.06)

图4.06

至此Tomcat环境变量配置完成。

4.1.3 安装数据库和导入数据

本软件所使用的数据库为MySQL,本软件会附带一个叫spider.sql的脚本语言。MySql安装成功后。(这里不再叙述MySQL的安装过程)

下载地址:https://www.360docs.net/doc/8d14091016.html,/

安装成功后,将spider.sql脚本语言导入到MySQL数据库中。

4.1.4 部署本软件

以上步骤完成后,就可以部署该软件了,本软件会附带一个叫spider.war的文件,将它拷贝到您的Tomcat安装路径根目录下的webapps目录里面。再到根目录下的bin目录里面点击startup.bat。Tomcat便启动完成。

那么在浏览器中输入访问地址,即可访问本系统了。建议用户使用IE浏览器进行访问。

访问地址为:http://localhost:8080/spider访问成功后见(图4.07)

图4.07(登陆成功后显示页面)

4.2 数据库连接管理

4.2.1业务需求描述

由于网络数据的爬取需要存储到各种数据库中,那么就需要对各种数据的连接信息进行管理。该模块可以对数据库连接信息进行新增、修改、删除,并还能实时测试连接是否通畅。

4.2.2界面截屏以及界面字段解释

新建数据库界面字段解释(图4.08)

连接名称:为你新建的数据库自定义个名称,这个名字只用于显示。

数据库类型:选择你需要新建的数据库连接的类型,目前只支持Oracle、MySQL、SQLServer。连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。

驱动:填写填写数据库JDBC连接驱动。

账号:填写数据库的登陆账号。

密码:填写数据库的登陆密码。

图4.08(新增数据库连接)

数据库连接列表页面解释:

可以对通过连接名称查询连接信息。详细按钮点击可以弹出信息详细。修改按钮点击可以修改该条信息(见图4.10)。点击测试连接按钮对当前连接进行测试(见图4.11)

图4.09(数据库连接列表)

修改数据库界面字段解释(图4.10)

连接名称:为你新建的数据库自定义个名称,这个名字只用于显示。

数据库类型:选择你需要新建的数据库连接的类型,目前只支持Oracle、MySQL、SQLServer。连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。

驱动:填写填写数据库JDBC连接驱动。

账号:填写数据库的登陆账号。

密码:填写数据库的登陆密码。

图4.10(数据库修改)

点击测试按钮,测试该条信息是否连通。

图4.11(测试数据库连接成功)连接信息详细页面。

图4.12(数据库连接详细)

4.2.3操作说明

4.2.3.1 数据库连接列表

1.用户在点击左边导航条的连接管理时,页面右边界面展示连接管理的列表。

2.展示内容:连接名称、数据库类型、操作类型(删除、详细、修改、测试)。

3.列表上面会有一个新增按钮。可以新增数据库连接。列表上方有查询条件,可以方便查

询出你想要的内容。查询条件为连接名称。

4.2.3.2 新增数据库连接

1.用户在列表页面上方点击新增按钮,页面便跳转到新增页面。

2.新增字段:连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。

3.所有字段都为必填字段。

4.连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。

5.驱动:填写填写数据库JDBC连接驱动。

6.账号:填写数据库的登陆账号。

7.密码:填写数据库的登陆密码。

4.2.3.3 修改数据库连接

1.用户在数据库连接列表中,选择所在的信息点击修改的按钮,便跳转到修改页面。

2.修改字段:连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。

3.所有字段都为必填。

4.连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。

5.驱动:填写填写数据库JDBC连接驱动。

6.账号:填写数据库的登陆账号。

7.密码:填写数据库的登陆密码。

4.2.3.4 删除数据库连接

1.用户在数据库连接列表中,选择要删除的行,点击删除按钮,便删除该行记录。4.

2.

3.5 查看数据库连接详细

1. 用户在数据库连接列表中,在所在行点击详情按钮,弹出框暂时详细信息。

4.3数据源管理

4.3.1业务需求描述

数据源管理主要用于配置爬取数据插入的表,以及表结构。方便系统本身将数据插入到数据库中去。能够的手动的配置来实现对存入信息字段的匹配以及去重复配置

4.3.2界面截屏以及界面字段解释

数据源列表页面解释:

可以对通过数据源名称查询数据源信息。详细按钮点击可以弹出信息详细。修改按钮点击可

以修改该条信息(见图4.16)。点击新增按钮将会跳转到新增页面(见图4.14)。点击详细按钮将会弹出详细页面(见图4.17)

图4.13(数据源列表)

新增数据源字段解释:

数据源名称:用户自己定义的数据源的名称。

数据库类型:点击请选择按钮,弹出框选择数据库连接。(见图4.15)

配置文件:上传数据源的配置文件。只能上传xml格式的。

图4.14(新增数据源)

图4.15(选择数据库连接)

修改数据源字段解释:

数据源名称:用户自己定义的数据源的名称。

数据库类型:点击请选择按钮,弹出框选择数据库连接。(见图4.15)

配置文件:上传数据源的配置文件。只能上传xml格式的。

图4.16(修改数据源)

在列表页面中点击详细按钮,弹出该界面。点击下载,可以下载该信息的配置文件。更方便

修改与管理。

图4.17(数据源详细)

4.3.3操作说明

4.3.3.1数据源管理列表

1.用户点击页面左边的导航菜单《数据源管理》,页面右边跳转到数据源列表页面。

2.数据源列表页面展示数据:数据源名称、数据库连接名称、创建时间、操作项(删除、

修改)。

3.列表上面有新增按钮、查询条件为数据源名称。

4.3.3.2 新增数据源

1.用户点击页面左边的导航菜单《数据源管理》,页面右边跳转到数据源列表页面。

2.在数据源列表上面有新增按钮,点击新增按钮可以跳转到新增页面。

3.新增字段:数据源名称、连接(弹出框选择)、数据源配置文件。

4.数据源配置文件例子见下面

repeatSql="select tid from user where phone=?"

>

标签

中的name属性为插入数据库中表的名称,属性sql为插入的SQL语句,属性repeatSql为判断重复的语句,这里如果所有property节点的repeat为“yes”时可以不填写。Id节点是指该表的主键,type属性为该字段的类型,与Java对齐,identity属性指示该主键是否自增长。Property节点为该表的各个字段,type属性于id的type一样,repeat属性判断该字段是否重复yes表示插入的数据可以重复,no则反之。需要注意的是如果时间类型,需要自己手动的写在sql上面。

4.3.3.3 修改数据源

1.用户点击页面左边的导航菜单《数据源管理》,页面右边跳转到数据源列表页面。

2.在数据源列表上,点击修改按钮可以跳转到修改页面。

3.修改字段:数据源名称、连接(弹出框选择)、数据源配置文件。配置文件详细见新增

数据源。

4.3.3.4删除数据源

1.用户在数据源列表中,选择要删除的行,点击删除按钮,便删除该行记录。

4.4爬取信息管理

4.4.1业务需求描述

该模块是该系统的核心部分,也是网络数据爬取的核心。需要用户去编写核心的WebHarvest 配置文件。

相关文档
最新文档