网络信息爬取使用说明
网络信息爬取管理系统
使用说明书
成都友有网络科技有限公司
2011年10月
文档控制
修改记录
* 修改类型分为A—Added M—Modified D—Deleted 审阅人
存档
1概述
1.1背景
公司品财经网站每天需要繁琐的去收集新闻信息,为了减轻客服人员的负担,开发此系统进行自动的数据爬取。当然也可以应用于各种数据的爬取。
1.2应用领域与使用对象
该系统主要用于有一定程序基础的人员。
1.4参考资料
列出有关资料的作者、标题、编号、发表日期、出版单位或资料来源,可包括
与该产品有关的已发表的资料
列出编写本说明书时查阅的Internet上杂志、专业著作、技术标准以及他们的网址
1.5术语与缩写解释
2系统综述
2.1系统结构
2.2系统功能简介
本软件主要分为3个大模块,分别为爬取信息管理、数据源管理、数据库连接管理。只需根据所爬取网页编写一个配置文件,就能轻松爬取到你想要的精确数据。
2.3性能
该系统可以支持1000个爬取信息同时爬取网络信息。
2.4版权声明
声明版权所有者以及盗版应承当的法律责任。
3运行环境
3.1硬件设备要求
1、本软件要求在PC及其兼容机上运行。
2、要求奔腾Ⅱ以上的CPU。
3、要求64MB以上的内存。
4、要求10GB以上的硬盘。
3.2支持软件
1、本软件要求在PC及其兼容机上运行。
2、操作系统在Windows 98以上的系统、Linux等。
3、操作系统要支持Java ,JDK版本1.6以上。
4、需要安装Tomcat6.0以上。
3.3数据结构
该软件所需数据库:MySQL
4系统操作说明
首先用图表的形式说明软件的功能同系统的输入源机构、输出接收机构之间的关系。
4.1安装与初始化
4.1.1 安装JDK
由于该系统是由JAVA开发的,所以第一步需要用户下载JDK并进行安装。
下载地址:
https://www.360docs.net/doc/8d14091016.html,/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-window s-i586-p-12_sep_2008.exe
安装完成后需要进行环境变量的设置。进入环境变量:右键我的电脑->选择属性->高级->环境变量。(如图:4.01)
图4.01
进入环境变量后,在系统变量栏点击新建,变量名为JAVA_HOME,变量值为你的JDK的安装路径。例如:本机的JDK安装在C:\Program Files\Java下面,而该目录下面有一个jdk和jre 的文件夹,选择jdk的那个文件夹,最后则是C:\Program Files\Java\jdk1.6.0_07作为变量值。(如图:4.02)
图4.02
设置完JAVA_HOME路径后,添加到系统变量Path后面。路径为:%JAVA_HOME%\bin; (如图:4.03)
图4.03
至此Java的JDK配置成功。测试成功与否可以在命令行输入:java 。会有当前JDK的版本信息。
4.1.2 安装Tomcat
Tomcat基本上都是绿色版本的,解压就可以用。
下载地址:https://www.360docs.net/doc/8d14091016.html,/index.html
下载解压后,在环境变量里面配置Tomcat。首先配置CATALINA_BASE和CATALINA_HOME,其值都是Tomcat的根目录。(如图4.04)
图4.04
配置classpath环境变量。值为以下变量。
%JAVA_HOME%\dt.jar;%CATALINA_HOME%\common\lib\servlet-api.jar;(如图4.05)
图4.05
加入到在环境变量path中。%CATALINA_HOME%\lib;(图4.06)
图4.06
至此Tomcat环境变量配置完成。
4.1.3 安装数据库和导入数据
本软件所使用的数据库为MySQL,本软件会附带一个叫spider.sql的脚本语言。MySql安装成功后。(这里不再叙述MySQL的安装过程)
下载地址:https://www.360docs.net/doc/8d14091016.html,/
安装成功后,将spider.sql脚本语言导入到MySQL数据库中。
4.1.4 部署本软件
以上步骤完成后,就可以部署该软件了,本软件会附带一个叫spider.war的文件,将它拷贝到您的Tomcat安装路径根目录下的webapps目录里面。再到根目录下的bin目录里面点击startup.bat。Tomcat便启动完成。
那么在浏览器中输入访问地址,即可访问本系统了。建议用户使用IE浏览器进行访问。
访问地址为:http://localhost:8080/spider访问成功后见(图4.07)
图4.07(登陆成功后显示页面)
4.2 数据库连接管理
4.2.1业务需求描述
由于网络数据的爬取需要存储到各种数据库中,那么就需要对各种数据的连接信息进行管理。该模块可以对数据库连接信息进行新增、修改、删除,并还能实时测试连接是否通畅。
4.2.2界面截屏以及界面字段解释
新建数据库界面字段解释(图4.08)
连接名称:为你新建的数据库自定义个名称,这个名字只用于显示。
数据库类型:选择你需要新建的数据库连接的类型,目前只支持Oracle、MySQL、SQLServer。连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。
驱动:填写填写数据库JDBC连接驱动。
账号:填写数据库的登陆账号。
密码:填写数据库的登陆密码。
图4.08(新增数据库连接)
数据库连接列表页面解释:
可以对通过连接名称查询连接信息。详细按钮点击可以弹出信息详细。修改按钮点击可以修改该条信息(见图4.10)。点击测试连接按钮对当前连接进行测试(见图4.11)
图4.09(数据库连接列表)
修改数据库界面字段解释(图4.10)
连接名称:为你新建的数据库自定义个名称,这个名字只用于显示。
数据库类型:选择你需要新建的数据库连接的类型,目前只支持Oracle、MySQL、SQLServer。连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。
驱动:填写填写数据库JDBC连接驱动。
账号:填写数据库的登陆账号。
密码:填写数据库的登陆密码。
图4.10(数据库修改)
点击测试按钮,测试该条信息是否连通。
图4.11(测试数据库连接成功)连接信息详细页面。
图4.12(数据库连接详细)
4.2.3操作说明
4.2.3.1 数据库连接列表
1.用户在点击左边导航条的连接管理时,页面右边界面展示连接管理的列表。
2.展示内容:连接名称、数据库类型、操作类型(删除、详细、修改、测试)。
3.列表上面会有一个新增按钮。可以新增数据库连接。列表上方有查询条件,可以方便查
询出你想要的内容。查询条件为连接名称。
4.2.3.2 新增数据库连接
1.用户在列表页面上方点击新增按钮,页面便跳转到新增页面。
2.新增字段:连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。
3.所有字段都为必填字段。
4.连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。
5.驱动:填写填写数据库JDBC连接驱动。
6.账号:填写数据库的登陆账号。
7.密码:填写数据库的登陆密码。
4.2.3.3 修改数据库连接
1.用户在数据库连接列表中,选择所在的信息点击修改的按钮,便跳转到修改页面。
2.修改字段:连接名称、数据库类型(下拉)、连接地址、驱动、账号、密码。
3.所有字段都为必填。
4.连接地址:填写JDBC连接数据库的地址。用户可以根据模板来填写。
5.驱动:填写填写数据库JDBC连接驱动。
6.账号:填写数据库的登陆账号。
7.密码:填写数据库的登陆密码。
4.2.3.4 删除数据库连接
1.用户在数据库连接列表中,选择要删除的行,点击删除按钮,便删除该行记录。4.
2.
3.5 查看数据库连接详细
1. 用户在数据库连接列表中,在所在行点击详情按钮,弹出框暂时详细信息。
4.3数据源管理
4.3.1业务需求描述
数据源管理主要用于配置爬取数据插入的表,以及表结构。方便系统本身将数据插入到数据库中去。能够的手动的配置来实现对存入信息字段的匹配以及去重复配置
4.3.2界面截屏以及界面字段解释
数据源列表页面解释:
可以对通过数据源名称查询数据源信息。详细按钮点击可以弹出信息详细。修改按钮点击可
以修改该条信息(见图4.16)。点击新增按钮将会跳转到新增页面(见图4.14)。点击详细按钮将会弹出详细页面(见图4.17)
图4.13(数据源列表)
新增数据源字段解释:
数据源名称:用户自己定义的数据源的名称。
数据库类型:点击请选择按钮,弹出框选择数据库连接。(见图4.15)
配置文件:上传数据源的配置文件。只能上传xml格式的。
图4.14(新增数据源)
图4.15(选择数据库连接)
修改数据源字段解释:
数据源名称:用户自己定义的数据源的名称。
数据库类型:点击请选择按钮,弹出框选择数据库连接。(见图4.15)
配置文件:上传数据源的配置文件。只能上传xml格式的。
图4.16(修改数据源)
在列表页面中点击详细按钮,弹出该界面。点击下载,可以下载该信息的配置文件。更方便
修改与管理。
图4.17(数据源详细)
4.3.3操作说明
4.3.3.1数据源管理列表
1.用户点击页面左边的导航菜单《数据源管理》,页面右边跳转到数据源列表页面。
2.数据源列表页面展示数据:数据源名称、数据库连接名称、创建时间、操作项(删除、
修改)。
3.列表上面有新增按钮、查询条件为数据源名称。
4.3.3.2 新增数据源
1.用户点击页面左边的导航菜单《数据源管理》,页面右边跳转到数据源列表页面。
2.在数据源列表上面有新增按钮,点击新增按钮可以跳转到新增页面。
3.新增字段:数据源名称、连接(弹出框选择)、数据源配置文件。
4.数据源配置文件例子见下面
标签