数据采集处理项目-技术方案

XXX犬数据库中心数据库

资商和企业数据采集处理项目项目编号:153001206

技术方案

XXX有限公司

二o—七年六月

1引言 (3)

1.1项目背景 (3)

1.2项目目标 (3)

1.3建设原则 (3)

1.4参考规范 (4)

1.5需词解释 (5)

2云数据采集中心 (7)

2.1需求概述 (7)

22总体设计 (7)

2.3核心技术及功能 (10)

3大数据计?算平台 (34)

3.1需求概述 (34)

3.2总体设计 (34)

3.3数据模型设计? (35)

4数据运营 (38)

4.1数据挖掘分析 (38)

4.2数据分析处理的主要工作 (38)

4.3数据分析团队组织和管理 (39)

5安全设计 (42)

6风险分析 (46)

7部署方案 (47)

S实施汁划 (48)

9技术规格偏离表 (49)

10售后服务承诺 (52)

11关于运行维护的承诺 (55)

12保密措施及承诺 (56)

13培训计划 (58)

1引盲1.1项目背景

XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项L1实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项U 数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项LI、投资轨迹分析,评估出其到xx投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项U可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。

本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。

1.2项目目标

?制定招商大数据运营规范及管理办法。

?制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。

? 根据业务需求,研发招商大数据招商业务分析模型,并投入应用。

?根据运营规范及管理办法的要求持续开展数据运营工作。

1.3建设原则

基于本项LI的建设要求,本项LI将遵循以下建设原则:

?前瞻性和高标准整个项LI要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。

?经济性和实用性整个项L1以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,乂能满足服务对象的需求,同时系统设计应充分考虑对已有投

资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。

?先进性和成熟性为了确保项口具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。

?高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢

复,确保重要数据的机密性和完整性。

1.4参考规范

GB/T 20269-2006信息安全技术一信息系统安全管理要求

GB/T 20984-2007信息安全技术一信息安全风险评估规范

GB/T 22239-2008信息安全技术一信息系统安全等级保护基本要求

GB/T 22240-2008信息安全技术一信息系统安全等级保护定级指南

GA/T 388-2002B计算机信息系统安全等级保护管理要求

GB/T 8567 -1988计算机软件产品开发文件编制指

GB/T 11457-1995软件工程术语

GB/T 11457-2006信息技术软件工程术语

GB/T 16260.1-2006 软件工程产品质量笫1部分:质量模型

GB/T 16260.2-2006 软件工程产品质量第2部分:外部度量

GB/T 16260.3-2006 软件工程产品质量第3部分:内部度量

GB/T 16260.4-2006 软件工程产品质量笫4部分:使用质量的度量GB/T 14394-2008计算机软件可靠性和可维护性管理

GB/T 17544-1998信息技术软件包质量要求和测试

1.5名词解释

?S2DFS:简单存储分布式文件系统(Simple Storage Distributed )

?D2B:分布式数据库(Dist口buted Database )

?JSS:作业调度服务(Job Scheduler Service )

?DCS:数据计算服务(Data Computer Service)

?MPS:消息处理服务(Message Process Sendee)

? SDS:流数据处理服务(Stream Data Seivice )

?DAIQ:分布式消息队列(Distributed Message Queue )

?JGS:作业生成服务(Job Generation Sendee)

?ACS:自动清理服务进程(Automatic Cleaning Services ) ?HTTP:超文本传输协定(HyperText Transfer Protocol) ?SMB:服务器信息块协议(Seivei Message Block)

2云数据采集中心

2.1需求概述

根据规划,云数据采集中心的建立至少满足1至2年内的数据存储和计算规模,需要满足:?数据釆集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。

?总数据容量至少达到30T。

2.2总体设计

整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。

硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/VTEB/APP软件的WEB及消息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。曲于云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。

软件平台层是云数据釆集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数据计算服务进程(DCS)”主要部分加以详细的描

相关主题
相关文档
最新文档