企业数据中心系统平台技术方案建议书

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

企业数据中心系统平台技术方案建议书

（说明：本文为word格式，下载后可自由编辑）

第1章总体建设方案

1.1总体建设思路

图、数据中心构建思路图

按照对数据中心的理解，完整的数据中心应该具备IT基础设施（主机、存储、网络）、企业级ETL平台、数据存储中心、数据共享服务、应用层、统一门户、数据管控平台。

1.2功能框架

图、功能框架

系统功能框架分为企业级ETL平台、存储与计算中心、服务层、应用层、统一门户、统一平台管控。

企业级ETL平台：

负责企业数据中心数据采集、加工、汇总、分发的过程，完成企业级数据标准化、集中化，实现数据脉络化、关系化，实现统一的数据处理加工，包括：非实时数据处理和实时数据处理，提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数据挖掘等能力。

存储与计算中心：

建立统一的数据中心数据模型，以及统一的数据存储与计算，具体提供关系数据库、分布式非关系数据库、分布式文件、分布式计算，实现统一的数据存储与计算。

数据共享服务：

通过数据服务标准化开放访问，帮助企业IT建设中，应用和数据分离，引入更多的应用开发商，促进应用的百花齐放和应用的专业性；基于标准化接口，实现对标签、客户视图、指标等数据查询API封装，实现与周边系统实时互动，体现数据价值，减少数据冗余，保证数据安全，保证数据的一致性。

应用层：

应用层的应用使用服务层提供的各种数据服务。本期应用层包括：经分应用、流量运营、ESOP应用、VGOP应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞察、渠道运营、自助分析、客户标签库、实时营销、LTE互联网管控策略。

统一门户：

提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、应用访问数据信息等功能，同时提供数据中心被应用访问的频次，被应用访问的数据范围，提供数据资产的评估，为应用上下线和数据开放提供依据。

统一平台管控：

面向开发人员、运维人员实现数据、应用、资源的统一管控，包括：数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。

1.3技术架构

图、技术架构

系统技术架构分为数据采集、计算存储服务、数据共享服务、平台管控。采用Hadoop 云技术，可以满足计算能力线性扩展、多租户能力、数据汇总能力；批处理场景采取Hadoop 的Map/Reduce、Hive或者Spark来完成；流式数据处理，采用Esper计算引擎实现。

数据采集：

采用Flume计算框架，实现文件和消息采集与解析；采用流式爬虫、中文分词、图片识别技术，实现互联网网页信息实时采集；采用FTP文件方式实现对数据文件的采集；采用Socket消息方式实现对消息数据的采集；采用sqoop方式实现将数据库数据装载到HDFS 文件系统。

计算存储服务：

采用Hadoop中HDFS文件系统提供统一的大数据数据存储，满足全量数据留存；基于Yarn提供跨平台的资源管理，满足资源的统一调度与管理；采用Hadoop实现非实时ETL，实现海量数据的批处理，主要处理ODS层->DWD层->DW层->ST层的数据处理；视业务数据情况部分DW层->ST层的数据处理采用Spark计算框架实现；采用Esper和rabbitmq 支撑流数据处理与复杂事件处理；利旧DB2提供ST层数据的存储与计算，支持高并发的指标级数据共享。

数据共享：

数据开放共享采用基于HTTP协议REST风格的OpenAPI完成同步处理与基于消息队列（MQ）完成异步处理，实现类SOA面向服务的架构体系。支持OAuth提供一个安全的、开放而又简易的授权协议。数据共享服务部署在集群环境中以应对高并发的访问请求，并实现集群的负载均衡。

统一平台管控：

采用Java EE技术，通过MVC模式（Model View Controller，是模型－视图－控制器）把业务逻辑、数据、界面显示分离的方法组织代码，将业务逻辑聚集到一个部件里面，在改进和个性化定制界面及用户交互的同时，不需要重新编写业务逻辑。

1.4数据流图

Mc信令（实时）数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理，向应用提供事件API服务，支撑实时营销应用；后期如Gn信令、LTE信令也提供实时数据，可满足基于Gn信令、LTE信令的实时处理。

除Mc信令（实时）数据外，Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统，实现全量数据留存；由Hive承担主库的职能，实现海量数据的批处理，承载ODS->DWD->DW->ST各层数据处理，其中DW层部分数据提供给Spark，由Spark完成数据处理工作。

对外数据服务可以由不同种类的API来完成：

1、针对诸如客户统一视图、客户标签库的数据探索查询服务：将数据加载到Spark

的RDD中，通过API将数据共享出去；

2、针对诸如客户标签信息查询、客户详单查询类的数据查询服务（特点是通过一

个Key来查询数据）：将数据加载到Hbase中，通过API将数据共享出去；

3、针对诸如指标数据查询、KPI数据查询服务（特点是高并发、多维度的数据查询）：

将数据加载到DB2数据库（利旧）中，通过API将数据共享出去；

4、针对多租户的数据共享服务，详见5.3章节；

第2章企业ETL数据处理平台

2.1 功能框架

根据数据中心的建设需求，企业级的ETL平台实现统一的数据采集、转换、加载、处理以及统一调度、管控等功能。这里的ETL指的是广义的ETL，具备以下的特点：统一数据获取接入，支持B域数据、M域数据、O域数据或其他外部数据统一接入数据中心平台。

支持结构化和非结构化数据采集、加工；对非结构化数据要实现从非结构化到结构化的处理过程。

支持数据采集、转换、加载等关键,.数据处理过程，实现企业数据的标准。

从周期上，支持批量的数据采集，实时的数据采集

满足数据中心数据加工，处理以及对外提供数据分发、同步

支持全过程的数据稽核。包括事前、事中、事后的稽核方式。以及灵活的稽核规则管理，算法管理

全过程的可视化开发配置管理。通过可视化的开发配置，测试和部署上线。

全过程元数据管理。重点要实现事前的元数据管理。管理的内容包括：支持数据模型、数据流程、转换规则、数据关系和转换映射规则。

企业级的ETL平台产品DACP可以很好支持上述的关键功能特点。