大数据分析系统项目方案

大数据分析系统项目方案
大数据分析系统项目方案

大数据分析系统

方案

目录

第1章项目概述 (5)

1.1项目背景 (5)

1.2项目必要性 (5)

1.3建设目标 (6)

第2章需求分析 (8)

2.1功能及性能需求 (8)

2.2系统集成需求 (9)

2.3运行环境 (10)

2.4安全需求 (10)

第3章总体设计 (12)

3.1总体设计原则 (12)

3.2总体目标 (13)

3.3系统总体结构 (13)

3.4系统逻辑结构 (15)

第4章详细设计方案 (16)

4.1信息资源规划和数据库设计 (16)

4.1.1数据模型概述 (16)

4.1.2数据建模方法论 (17)

4.1.3数据建模基本原则 (18)

4.1.4数据库架构设计 (19)

4.2数据应用支撑系统设计 (21)

4.2.1大数据平台关键技术 (21)

4.2.2云平台数据共享功能 (26)

4.3数据服务层计 (33)

4.3.1模型的应用 (33)

4.3.2平台基础应用 (33)

4.4数据处理和存储系统设计 (34)

4.4.1大数据处理核心技术 (35)

4.4.2数据存储采用MPP与hadoop融合架构 (35)

4.5网络系统设计 (35)

4.6安全系统设计 (36)

4.6.1系统安全满足情况 (36)

4.6.2系统安全配置管理功能 (37)

4.6.3系统无安全漏洞保障 (40)

4.6.4软件自身安全 (43)

4.6.5性能和可靠性 (44)

4.7运行维护系统设计 (46)

4.7.2网络设备管理 (46)

4.7.3进程管理 (46)

4.7.4服务管理 (46)

4.7.5数据库管理 (46)

4.7.6中间管理 (46)

4.7.7集群管理 (47)

4.7.8故障管理 (47)

4.7.9性能管理 (47)

4.7.10配置文件管理 (47)

4.7.11SYSLOG管理 (47)

4.8其他系统设计 (47)

4.9系统配置及软硬件选型原则 (48)

4.9.1软硬件部署 (48)

4.9.2数据要求 (48)

4.9.3技术要求 (49)

4.10系统软硬件物理部署方案 (49)

第5章项目建设与运行管理 (51)

5.1项目领导机构 (51)

5.2项目管理机构 (51)

5.3项目承建机构 (53)

5.4运行维护机构 (53)

5.5相关管理制度 (54)

5.6项目测试 (55)

5.6.1单元测试 (55)

5.6.2集成测试 (55)

5.6.3系统测试 (56)

5.6.4性能测试 (56)

5.6.5验收测试 (57)

5.6.6安装测试 (57)

5.7安全性测试 (58)

5.7.1功能验证 (58)

5.7.2漏洞扫描 (58)

5.7.3模拟攻击实验 (58)

5.8项目验收 (60)

5.8.1项目验收要求 (60)

5.8.2项目验收的目的和原则 (61)

5.8.3项目验收的组织和实施 (61)

5.8.4项目验收的步骤和程序 (61)

5.8.5项目验收的测试方案 (61)

5.8.6项目验收的文档清单 (61)

第6章项目培训计划 (62)

6.1培训对象和培训目标 (62)

第1章项目概述

1.1项目背景

目前,随着JW改革的不断推进,XX网络系统、信息中心、信息安全系统的规模不断扩大,各类信息应用系统日趋复杂,迫切需要借助云计算平台,实现灵活、高效的软硬件资源分配和管理,从而有效整合XX的各类信息资源,提升XX信息系统的安全性、稳定性、可扩展性。另一方面,随着社会公共安全管理的日趋复杂,XX行业通过大数据应用,把大量的关联信息进行汇总处理,可以重新认知和感知我们的外部环境。不但能快速锁定疑犯,而且还可以预防和打击犯罪。XX云计算+大数据系统,将成为面向各J种的管理和分析利器,通过高效的云计算平台提供强大的大数据应用承载能力,面向各J种提供集中资源、集中管理、集中监控、配套实施的统一大数据应用环境,为各J实战应用提供强大支撑、服务、保障作用。云计算和大数据是改变未来XX工作发展的新趋势,并且已经实实在给XX科技管理与创新来了深刻的变革,有力地推动了XX各J种的工作优化和提升。

1.2项目必要性

第一,构建“智慧XX”是未来JW形态演进的必然趋势。

近年来,随着XX信息化建设的持续推进,我国XX机关的JW改革已开始迈进智能化发展的快车道,JW与人之间的相互感知和联系越来越紧密,“XX大数据分析系统”建设已成为当代JW发展的新趋势。

第二,构建“智慧XX”是新一轮信息技术变革下的时代潮流。

当前,全球正进行物联网、移动互联网、云计算等新一轮信息技术变革。新技术往往孕育着新的重大突破,信息资源成为重要的XX战斗力要素,信息化不仅成为推动XXJW方式变革的重要引擎,也给整个社会管理创新带来深刻变化。“XX大数据分析系统”建设将极大地创新XX管理方式,促进“管制型XX”向“服务型XX”转变。应当说,经过最近十年的发展,以网络化、数字化为载体的信息化JW特征日益显现,JW活动中人、事、物之间的互动能力显著增强,JW工作传载的功能不断增多,

智能化程度逐步提高,“XX大数据分析系统”建设已成为现代信息技术变革下的时代潮流。

第三,构建“智慧XX”是推动XX战斗力生成模式转变的重要途径。

XX信息化的“智慧XX”建设是一场新的JW革命,对于整合JW情报资源、改造J情处理流程、创新J情研判模式、降低JW成本、实现JW效能的最优化具有推动作用。这场新JW革命的实质是推动XX建设和JW工作由数量规模型向质量效能型、由人力密集型向科技密集型转变。它要求把传统的XX战斗力生成模式转变到依靠科学技术特别是以信息技术为核心的高新技术上来。在这一转变过程中,大数据将成为XX战斗力生成的核心要素。拥有对海量数据占有、控制、分析、处理的主导权,将大数据优势转化为XX决策优势,继而转化为治安优势,将成为“XX大数据分析系统”的制胜关键。

第四,构建“智慧XX”有利于拓展现代JW功能、促进JW机制改革和提升JW 管理精细化水平。

一方面,“智慧XX”的建设和实施将促进XX机关由传统的一元化管理职能向管理与服务功能并重、融合转化。另一方面,“智慧XX”的建设和应用将改变传统的“金字塔”型XX管理体制,实现JW领导与指挥机制的扁平化,从而减少中间管理层,加快信息流动,达到精减机构、快速反应、即时联动的目的。同时,构建“智慧XX”还有助于提高XX机关JW管理的精细化和科学化水平,提升XX机关的执法水平和服务水平。

1.3建设目标

XX部推行的“扁平化指挥模式”,就是最大限度地压缩指挥层级。减少中间环节,优化现有的情报信息管理,建立情报信息主打JW的相关机制,着力拉近指挥与实战,机关与一线的时空距离,缩短响应时间,提高快速反应能力。

基于数据中心融合空间采集、电信运营商、交管部门、XX部门、社会公众的移动位置等数据形成大数据环境,建立大数据分析平台,支持J情处理、宏观决策、情报分析等大数据专题应用。

智慧XX大数据分析系统项目一期建设主要目标为:●建立智慧、高效的情报研判体系;

●建立扁平、快速的指挥调度体系

●建立打防一体化JW管理体系

●建立集约化的信息技术支撑体系。

●建立专业化的JW指挥作战队伍。

第2章需求分析

2.1功能及性能需求

1.功能需求

作为XX信息化发展到高级阶段的一种JW形态,“智慧XX”主要采用大数据、云计算、等新一代信息技术,将XX工作IT基础设施与物理设施、人际环境等高度融合,以提供智能化XX决策与服务。其建设目标是充分利用科技创新,以“智慧”引领JW 改革与发展,打造XX行政高效、JW指挥扁平、治安管控联动、XX服务便捷的良性XX 工作机制。“智慧XX”建设是一项涉及XX机关内外各领域、各部门的复杂系统工程,需要从整体上进行统一规划协调,做好顶层设计。

2.性能需求

●软件系统必须保证质量,并在实施前经过完全测试;

●系统应具备自动报J功能,以提醒系统管理员避免出现系统崩溃等严重事件;

●主服务器宕机时,可实时地切换到备用服务器上,用户的应用应该不受影响;

●主备切换时,业务不感知,任务不失败,业务不会中断;

●主备切换时间小于1秒;

●故障节点重启时间小于2分钟;

●系统不得出现数据丢失、切换失败等,影响正常业务运行的故障;

●服务器端系统应可长期稳定运行,必须支持负载均衡能力,确保无单点故障;

●不会因长期使用或负载过高导致系统故障。

系统应具有良好的并行处理机制,对存取冲突的竞争具有有效的仲裁和加锁机制,充分保证事务处理的完整性,并降低系统I/O 开销,提高并发用户查询和存取的性能。

平台提供自底层硬件到上层处理流程的全面监控体系,帮助运维人员快速定位问题解决问题,使系统持续健康稳定的运行。

2.2系统集成需求

软件平台具备集成内外各种运行系统的基本能力。软件平台集成性包括以下几个方面:

?软件平台具备对不同厂家提供的各类软件产品接入、运营、监控能力;

?软件平台提供独立的集成平台来提供各种集成手段实现和移动现有业务支撑系统和能力系统的集成,以及对于今后有可能存在的各类业务平台进行业务引

入的接口能力等。集成手段包括实时调用、批量数据交换等方式,集成接口兼

容WEB SERVICE、FTP、XML等方式,可以提供服务的封装能力。集成平台能力

包括以下方面:

●数据路由:能够对经由应用集成平台的数据进行检查和过滤,根据预定义的规

则实现基于主题或数据内容的动态路由机制,应支持点对点、广播以及发布/

订阅方式;

●协议转换:具有系统间传输/调用协议转换的能力,这些协议包括但不限于JMS、

FTP、CORBA、Socket、HTTP等;

●格式转换:具有不同数据格式转换的能力,能够对来自不同应用系统的数据进

行识别和解析,能够以图形化方式定制不同的数据转换逻辑,实现数据格式的

转换和数据内容的整理;

●消息映射:将来自于源系统的消息结构或业务数据对象映射为目标系统的消息

结构或业务数据对象;

●事件处理:支持事件驱动的架构技术,支持对系统之间信息交换事件的获取、

处理和监控;

●集成监控:提供对接入访问、数据传输和集成服务等各种集成处理能力的监控

功能,可根据各种日志查询并监控应用集成组件的运行情况。

●数据传输:实现各种应用之间的数据交换,数据交换支持基于消息队列和文件

传输等模式。集成平台要能保证应用时间数据传输的可靠性,支持交易的完整

性,支持数据传输的并行处理,并且支持管理人员对数据传输的过程进行监控

和干预。

数据访问:支持但不限于JDBC、ODBC等多种数据库接入模式。

2.3运行环境

智慧XX大数据分析系统服务平台需要接收来自XX系统各部门的数据资源,各权属单位向系统共享、交换业务数据,系统需要提供相应的汇交、接收工具,以及导入、导出工具,业务数据的查询、统计等功能,并可以对外发布。

2.4安全需求

1. 物理安全要求

物理安全要求包括但不限于:物理位置的选择、物理访问控制、供电安全保障、防火防潮等。

2. 网络及设备安全要求

网络安全要求包括但不限于:系统部署所在的网络结构安全、设备入侵防范、设备防护、安全审计等。

3. 数据安全性要求

包括数据存储的安全性、数据传输的安全性、数据传输的完整性、数据传输的正确性、数据传输的及时性、数据备份及恢复机制、异常处理机制等。

4. 系统安全要求

包括数据资源及应用模块的等级访问控制、身份鉴别(不限于数字证书应用)及不可抵赖性、安全审计、系统的容错性等。

5.应用安全要求

(1)以CA认证系统为基础,实现用户与服务资源的双向认证机制;(2)以基于角色的授权原则,建立与政务信息资源共享平台业务、平台管理人员、部门管理

人员岗位职责相对应的权限管理机制及统一的安全登陆机制;(3)以密码技术为基础的数据完整与保密机制;(4)对安全事件进行审计机制以及根据政务信息资源共享平台不同的业务、数据应用需求而采用标准的安全协议;(5)对应用进行严格的监控,实时掌握个应用系统资源的消耗、运行的状况,保障服务的连续性和可用性。

6. 制度安全

7.包括项目管理制度、系统巡检及维护制度、数据备份制度、各类紧急应急措施;明确该项目基于该制度下的职责分工。

8.具有丰富安全特性的交换机构成数据中心网络的第一重保护;

9.具有高性能检测引擎的IPS对网络报文深度检测,构成数据中心网络第二重保护;

10.凭借高性能硬件防火墙构成的数据中心网络边界,对数据中心网络做第三重保护。

第3章总体设计

3.1总体设计原则

遵循相应标准:系统的设计应符合国家、省及有关信息化建设的政策法规、规范和标准,并考虑与正在制定或即将出台的相关政策法规、规范和标准的衔接。

技术先进性:平台作为一个大投资、复杂度高、周期长的网络数据应用系统,必须在开发初期考虑到技术的延展性。作为应用系统建设的首要要求,就是应当保证系统在未来的几年中在软件基础结构和应用形态方面的技术先进性。

安全性和可靠性:运用先进的访问控制、身份认证等技术防止非法用户入侵;保证系统在异常情况下的正确可靠运行。

数据的完整性和一致性:数据在全网各个应用系统中的采集、存储、传输和处理应当保持完整和一致。

易扩展性:所有的产品均考虑到应用及系统不断扩展的要求,以形成一个易于管理、可持续发展的体系结构。未来业务的扩展只须在现有机制、标准的基础上,增加新的应用与服务模块。

易用性:用户界面规范统一直观,易于用户掌握;提供方便的软件配置、管理和分发手段,门户网站系统作为信息系统统一架构体系,要求具备保持基本功能统一的前提下,能灵活开发扩展功能,采用统一的接口技术和接口规范。

互操作能力:在不同层次的各个应用系统之间的数据应能充分共享,并通过技术手段实现应用程序之间的互操作。

规范性:规范性包括业务规范、开发规范、术语规范和数据规范等方面。

可维护性及可扩展性:应用系统要便于维护,并可实现跨平台运行,同时应留有与未来工程的软件接口,确保系统能够扩展、升级。

实用性:提供方便的软件工具,便于系统的配置、管理和维护,门户网站系统将针对不同类型的信息访问者提供不同的信息展现内容,使用户根据自身对信息的访问

要求,迅速获取相关的信息内容,从而充分发挥门户系统的渠道、桥梁作用。

信息兼容性强:系统的建设支持对现有数据库数据的实时抽取,自动转化成统一的XML格式并且集成后的数据由本平台统一管理、联合查询、综合分析。另外,对于查询基础业务系统内数据的请求,要能够实时的对多个不同的数据库进行联合查询,还包括了对文档,影音文件等内容,因此要求本系统的建设必须能够对非结构化的数据统一管理、联合查询。

3.2总体目标

基于先进的云服务体系,建立统一的JW大数据平台和数据中心,利用大数据、空间数据采集等技术,通过整合JW指挥体系及电信运营商、交通部门、大数据中心信息挖掘,实现信息最大共享的基础上,构建JW指挥核心智慧应用方案。

3.3系统总体结构

本项目系统总体架构,是在统一的基础设施支撑下,依据智慧XX大数据中心建设目标,建立统一的大数据资源中心,构建自主可控的统一信息安全保障体系。在统一的技术标准和业务规范支撑下,建立数据采集、数据清洗、质量管理、信息安全服务和资源统一调度等系统,并通过内、外网服务支撑其他智慧应用,建设覆盖全区的公共数据综合服务体系。平台架构如下图所示:

图4-1智慧XXJW大数据分析系统总体架构示意图

IaaS 层:利用虚拟化技术将计算、存储和网络等基础硬件资源,以逻辑方式形成基础资源池层,再将资源池提供的虚拟机、虚拟存储或虚拟端口组等经过二次封装与组合、调度使用,形成一个个面向组织用户的虚拟服务器、虚拟桌面或者云存储系统,通过这样的形式为系统的各业务单位提供资源服务;同时提供物理资源和虚拟资源的统一。

PaaS 层:在 IaaS 层基础上,提供开放式XX基础大数据处理平台整合XX内部数据和运营商数据,提供分布式数据库来解决海量结构化数据的管理和数据交互,提供标准 SQL 接口、JDBC 技术,能够与前台应用进行无缝对接;同时提供海量流式计算处理cstorm,能够实时处理大规模并发任务的负载均衡和任务分发,做到所有任务实时分发处理,不堆积,做到高度可靠性,任何任务处理过程中不会丢失,保障所有任务都能够处理完。

SaaS 层:平台能够支撑所有电信运营商、XXJW系统数据运行,所有业务数据统一管理,根据权限做到绝对安全访问,基于数据中心利用大数据、空间数据采集等技术,通过整合XX部门、电信运营商等多部门采集的移动位置、舆情信息等,建立宏观决策、J情分析、JW调度管理等分析模型,为JW及公共安全管理提供大数据专题分析及应用。

3.4系统逻辑结构

图4-2 XX大数据库逻辑架构图

MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。

第4章详细设计方案

4.1信息资源规划和数据库设计

4.1.1数据模型概述

XX大数据模型是采用一种与技术实现无关的方式,对系统内的业务信息,以及各类信息之间关联关系的数据描述。数据模型是数据仓库建设的基础,是建设数据仓库必不可少的一个环节。一个统一、完整、灵活、稳定的数据模型对数据仓库项目的成功起着重要作用,并且至少满足以下几点:

●统一沟通口径

数据模型形成对业务定义和术语的统一认识,是各部门之间沟通的桥梁,使不同部门、单位的业务人员、应用开发人员和系统管理人员对系统的理解达成一致;

●数据整合与管控

数据模型是整合多种数据源的重要手段。数据模型为复杂的数据仓库系统实施提供规范和基础结构,建立起各个业务系统与数据仓库之间的映射关系,实现源数据的有效整合和集中管控;

●增强分析能力

通过数据建模,可以更全面抽象数据的维度和指标关联信息,全面反映数据本质,使数据反映的业务更加清晰,最大化数据价值;

●促进数据标准化

通过数据模型的建立,排除数据描述的不一致性。如:同名异义、同物异名等等,更有利于从完整性、及时性、一致性等方面对数据质量进行管控。

●提升扩展性

系统设计应该考虑到系统后续的应用扩展,系统整合,增加接口系统等扩展性,数据建模可以为后续系统在接口层面和应用层面的扩展提供基础;

因此,通过构建性能管理系统的统一数据模型,能统一和标准化系统的数据,实现数据一致性,最大化数据价值,辅助提升数据质量,增强系统数据应用能力和系统扩展性。

4.1.2数据建模方法论

XX数据仓库建模方法从方向和驱动力来分,可以分为“自顶向下、逐步求精”以及“自底向上、综合集成”两种。

图5-1 数据仓库建模方法

自顶而下的建模方法根据业务需求和业务问题来明确系统边界,划分主题域,

再进行逐步细化,建立反映企业业务规则和业务关系的实体和实体关系。在业务需

求明确的时候,该方法可以提高分析效率;

自底向上的建模方法需要整合各业务系统的源数据,先抽象业务规则,划分主

题域,再进行逐步细化,建立反映企业业务规则和业务关系的实体和实体关系。这

种方法更关注搭建企业数据框架,建立完整的企业信息视图;

在实际系统数据建模过程中通常采用这两种方法相结合,综合运用。

4.1.3数据建模基本原则

●标准化、规范化原则

数据模型应遵从统一的主题域划分和实体命名规则,保证模型的标准化和规范化;

●先进性原则

要求逻辑模型在设计上吸收业界、国内外优秀的建模经验与方法,确保模型的

先进性;

●一致性原则

数据模型的设计要能够确保数据的一致性,消除各数据源的数据不一致性,以

保证数据模型内的信息是关于整个企业一致的全局信息;

●扩展性原则

要求数据模型具备良好的可扩展性,支持对模型的迭代性演进。当业务需求提

出新问题或有新的数据加入模型时,要求数据模型能够确保现有的数据和应用都不

发生改变,更不得导致系统崩溃;

●自上而下的设计与自下而上的验证原则

数据模型是为业务分析服务的,所以在创建模型时,应以业务需求为驱动。根

据业务需求采用自上而下的方法设计并实现数据模型,并且采取迭代演进的模式,

逐步丰富数据模型,逐步求精。同时,为了验证设计与实现的合理性与正确性,要

求以实际数据对模型进行自下而上的验证;

●简单可识别原则

实体命名等要遵循简洁、能直接识别出业务意义的原则。

4.1.4数据库架构设计

本工程采用主流成熟的开发框架和产品组件进行开发,采用多层体系结构来构建符合标准与管理规范体系、安全与运行保障体系的高可用性系统。综上,本项目开发的整体技术架构如下:

图5-2智慧XXJW大数据分析系统总体技术架构示意图

1)数据采集层,负责从XX系统内外部系统获取基础数据,包括XX系统内部数据、

运营商数据、行业信息数据、互联网数据及手工导入数据,以及移动通信网络

的信息数据。外部系统在向本系统输出基础数据之前,需要开发一套程序完成

原始的格式转换和数据处理。首先要屏蔽用户隐私信息,即用户号码信息全部

剔除,输出时采用经过加密的用户数据。其次需要筛选出关键字段,每条记录

都是原始数据的几十个字段抽取出几个关键字段,这样能大大减少数据存储量。

2)数据管控层,通过数据标准、数据等级、数据安全、数据质量等标准化的规则

管理和调度控制,建立各类数据稽核手段、数据质量分析体系,确保平台数据

一致性、完整性、合规性,实现信息共享和数据的高效流转。

3)数据存储层,负责对获取的结构化和非结构化数据进行处理,并准确匹配到上

层定义好的各类计算模型。数据管控层采用了基于开源的Hadoop分布式架构,

将传统ETL的数据提取、数据清洗、数据转化、数据校验工作承载在智慧XX

大数据云计算平台上,大大降低了大数据的处理成本,提升海量数据处理的及

时性。

4)数据挖掘层,主要对数据进行建模和分析,模型的主要类型有:

●关联分析:是在关系数据中,发现存在于项目集或对象集之间的关联规则,

包括关联、相关性、因果结构或频繁出现的模式。常用的关联分析算法有

Apriori算法及它的各种改进或扩展算法。

●分类分析:分类是实现定义好类别,属于有指导学习范畴。分类分析是根

据数据的特征为每个类建立一个模型,根据数据的属性将数据分配到不同

的组中。常用分类算法有决策树、神经网络、贝叶斯分类等。

●聚类分析:是按照某种相近程度度量方法将数据分成互不相同的一些分组,

实现每一聚类内部的相似性很高、各聚类之间的相似性很低。常用的聚类

算法有K均值、最近邻、神经网络等。

●预测模型分析:是从数据库或数据仓库中已知的数据推测位置的数据或对

象集中某些属性的值分布。建立预测模型的常用方法包括回归分析、线型

模型、支持矢量集、决策树预测、遗传算法、随机森林算法等。

文本挖掘:文本是无结构或半结构化的数据,文本挖掘是从文本数据中推导出模式,其过程是通过文本分析、特征提取、模式分析的过程来实现。主要技术包括文本结构分析、文本特征提取、文本检索、文本自动分类/聚类、文档自动摘要、话题检测与追踪、文本过滤、文本情感分析等。数据服务层,采用模块化独立封装技术与标准化应用接口,功能强大且扩展性强,提供数据发布/订阅服务、检索、统计、分析类服务集,并可通过定制服务集平滑扩展其他服务。

相关主题
相关文档
最新文档