XXX大数据平台总体技术要求
金融大数据平台总体技术要求

金融大数据平台总体技术要求
金融大数据平台的技术要求是非常严格的,因为它需要能够处理大量的数据,以便实现数据的分析和运用。
下面将介绍一些主要的技术要求。
首先,金融大数据平台需要具备良好的数据存储能力。
它应该能够存储大量的数据,并且能够支持多种数据类型,如文本、图像、视频等。
同时,它还要支持不同格式的数据,如xml、json、csv等,以便支持不同的业务需求。
其次,金融大数据平台需要具备良好的数据处理能力。
它应该能够对数据进行清洗、整合和转换,以便实现数据的可视化和分析。
此外,它还应该能够支持复杂的数据分析技术,如机器研究算法、深度研究算法、图分析等,以便实现对数据的深入分析。
此外,金融大数据平台还需要具备安全性和可靠性。
它应该具备安全的多层授权、多层加密等功能,以保护数据的安全性。
另外,它还应该具备可靠的数据备份机制,以便在发生系统故障或者其他突发情况时,能够快速恢复系统。
最后,金融大数据平台需要具备良好的可扩展性。
它应该能够根据客户的业务需求,快速扩展存储容量和处理能力,以满足客户的业务发展。
此外,它还应该能够支持实时的数据更新和查询功能,以保证数据的准确性和及时性。
总之,金融大数据平台的技术要求非常严格,它需要支持大量的数据存储、处理和分析,同时还要具备安全性和可靠性,以及可扩展性。
只有具备这些要求的金融大数据平台,才能真正实现数据的有效运用,提升金融服务的效率和质量。
大数据平台参数-技术指标要求

大数据平台的Spark组件,支持多租户并行执行,租户任务提交到不同的队列执行,租户间资源隔离
16.
提供基于Hadoop的SQL引擎,支持多租户,使用MPP架构,实现SQL的解析、计划、优化、执行,数据的并行查询,支持JDBC、ODBC标准接口,兼容Hive的ORC文件存储格式,兼容标准SQL 2003语法,以Hive-Test-benchmark测试集上的64个SQL语句为准和tpc-ds测试集上的99个SQL语句为准。
3.
提供访问HDFS的REST接口,通过REST接口创建、删除、上传、下载文件等常规HDFS操作。
4.
大数据平台的支持HDFS联邦,使得HDFS可以创建多个NameService(即多对NameNode),从而提高了集群的扩展性和隔离性。
5.
HDFS冷热数据迁移功能,只需要定义age,基于access time的规则。由HDFS冷热数据迁移工具来匹配基于age的规则的数据,设置存储策略和迁移数据。以这种方式,提高了数据管理效率和集群资源效率。
11.
大数据平台的HBase组件,支持聚簇表/聚簇索引框架的功能
12.
大数据平台提供小文件存储方案,支持海量图片、视频、文档等KB级的数据高并发读写。
13.
大数据平台的Spark组件支持2.0及以上版本
14.
大数据平台的Spark SQL兼容部分Hive语法(以Hive-Test-benchmark测试集上的64个SQL语句为准)和标准SQL语法(以tpc-ds测试集上的99个SQL语句为准)。
提供统一的客户端工具。
22.
大数据平台的流处理组件,集成storm和sparkstreaming,Flink,用户可根据业务需要自主选择
农业大数据应用平台技术要求

农业大数据应用平台技术要求一、引言随着科技的不断发展,农业领域也逐渐开始应用大数据技术,以提高农业生产效率、农产品质量和农村经济发展水平。
农业大数据应用平台作为农业信息化的重要组成部份,为农业决策提供科学依据和农民生产提供技术支持。
本文将详细介绍农业大数据应用平台的技术要求。
二、平台架构1. 数据采集与存储农业大数据应用平台应具备数据采集和存储的能力。
数据采集可以通过传感器、监测设备等方式进行,采集的数据包括气象数据、土壤数据、作物生长数据等。
数据存储应具备高可靠性和高扩展性,可以采用云存储技术,保证数据的安全性和可靠性。
2. 数据处理与分析农业大数据应用平台应具备数据处理和分析的能力。
数据处理包括数据清洗、数据预处理等步骤,以确保数据的准确性和完整性。
数据分析可以采用机器学习、数据挖掘等技术,对农业数据进行模式识别、预测分析等,提供农业决策支持。
3. 决策支持与展示农业大数据应用平台应具备决策支持和展示的能力。
决策支持可以根据数据分析的结果,为农业决策者提供决策建议和预测结果。
展示可以通过可视化的方式,将农业数据和分析结果呈现给用户,方便用户理解和使用。
三、技术要求1. 数据安全性农业大数据应用平台应具备数据安全性保障措施,包括数据加密、权限管理、防火墙等,确保农业数据的机密性、完整性和可用性。
2. 可扩展性农业大数据应用平台应具备良好的可扩展性,能够适应不断增长的数据量和用户量。
平台应支持分布式计算和存储,以实现高性能和高可用性。
3. 实时性农业大数据应用平台应具备实时性,能够及时采集和处理农业数据,为农业决策提供及时的支持。
平台应具备实时监测和报警功能,及时响应农业生产中的异常情况。
4. 用户友好性农业大数据应用平台应具备良好的用户界面和用户体验,方便用户操作和使用。
平台应提供简洁明了的操作界面,支持多种终端设备,如PC、手机等。
5. 数据互联互通农业大数据应用平台应具备数据互联互通的能力,能够与其他农业信息系统进行数据交换和共享。
大数据分析平台技术要求》

大数据分析平台技术要求》大数据分析平台技术要求1.技术构架需求为建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件,采用平台化策略。
基本要求包括:采用多层体系结构,应用软件系统具有相对的独立性,便于系统今后的在不同的系统平台、不同的硬件环境下安装、部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。
实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。
采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。
2.功能指标需求2.1 基础平台本项目的基础平台包括元数据管理平台、数据交换平台和应用支撑平台,按照SOA的体系架构,实现对XX数据资源中心的服务化、构件化、定制化管理。
2.1.1 元数据管理平台根据XX的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。
具体实施内容包括:根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的历史变化。
支持对元数据的管理,包括定义、添加、删除、查询和修改等操作,支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管理实行权限控制。
通过元数据,实现对各类业务数据的统一管理和利用,包括:基础数据管理:建立各类业务数据与元数据的映射关系,实现统一的数据查询、处理、报表管理。
___:通过元数据获取ETL规则的描述信息,包括字段映射、数据转换、数据清洗、数据加载规则以及错误处理等。
数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE)的结构等。
元数据版本控制及追溯、操作日志管理。
2.1.2 数据交换平台结合元数据管理模块并完成二次开发,构建统一的数据交换平台。
实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。
智慧农业实践之智慧果园监测大数据平台建设技术方案

智慧农业实践之智慧果园监测⼤数据平台建设技术⽅案智慧农业—智慧果园⼤数据平台技术解决⽅案⽬录⼀、项⽬简介 (4)1.开发背景 (4)2.开发⽬的与意义 (6)3.基本开发规划 (6)项⽬总体功能要求 (7)业务需求分析 (7)技术需求 (8)独⽴运⾏ (8)实时采集 (8)功能设计要求 (8)系统扩展要求 (8)⾮功能性需求 (8)数据要求 (8)扩展性 (9)易操作性 (9)前瞻及可持续性 (9)通⽤及开放性 (9)海量数据处理 (9)后台管理需求分析 (10)系统⽅案设计 (10)设计原则 (10)建设思路 (12)总体架构设计 (12)技术架构设计 (14)数据架构设计 (15)数据存储设计 (16)关系型数据库 (17)NoSQL数据库 (17)内存数据库 (17)分布式⽂件系统 (17)技术路线实现 (18)⾯向服务的架构(SOA) (18)主要基于J2EE标准规范(BWAD)多层应⽤体系架构。
20应⽤WBGIS技术 (21)⽀持Linux、windows 等操作系统 (22)⼤数据平台——Hadoop基础平台 (22)本期部署架构 (29)数据采集系统 (30)数据采集源 (30)数据采集流程 (30)果园⾃驾仪数据采集 (30)故障诊断系统数据采集 (33)果园环境信息采集 (36)⼤数据采集流程 (38)数据资源规划 (40)数据资源规划 (40)使⽤规划 (42)数据采集功能设计 (43)采集配置 (43)规则定义 (43)采集解析 (43)实时采集 (43)批量采集 (43)采集监控 (43)采集⽇志 (43)果园信息化监管功能模块描述 (44)系统结构 (44)功能模块描述 (45)⼤屏展⽰系统 (45)果园信息管理模块 (48)果园机具信息管理模块 (50)果园⼈员信息管理模块 (50)果园地理信息管理模块 (51)果园可视化⼀张图 (54)⼀机⼀档信息查询 (58)果园统计分析模块 (59)预警业务模块 (62)果园作业模块 (64)果园作业⾯积核算 (75)数据维护 (77)系统维护 (77)果园户⼿机端功能模块描述 (78)系统结构 (80)功能模块描述 (80)地图操作 (80)我的果园 (81)我的作业 (81)我的补贴 (82)我的消息 (82)个⼈资料 (83)⼀、项⽬简介1.开发背景2018年⾄2019年,《中共中央、国务院关于实施乡村振兴战略的意见》(中发〔2018〕1号)、《数字乡村发展战略纲要》(中办发〔2019〕31号)和《重庆市智慧农业发展实施⽅案(试⾏)》(渝府办发〔2019〕111号)等相关⽂件部署要求,决定实施智慧农业“四⼤⾏动”推⼴应⽤项⽬,围绕粮猪菜保供产业和现代⼭地特⾊⾼效农业,填平补齐智慧农业信息采集系统、分析决策系统、控制作业系统。
数据信息管理平台质量技术标准及要求

数据信息管理平台质量技术标准及要求一、系统需求概述为规范税收征管和加强税源监控,以金税三期返还数据为基础,构建基于云计算技术的大数据处理架构,抽取、整合、集中现有数据资源,采集第三方信息,搭建综合性税源数据仓库,建设与金税三期业务系统融合而不重叠的数据信息管理平台,实现对税收数据的准确、快速、深层次分析、多角度挖掘。
(一)总体思路和基本原则1、技术架构设计科学。
充分考虑地税税源数据几何式增长和数据挖掘分析需求,实施基于云计算的大数据处理技术,提供高性能、高可用、高性价比的数据处理能力。
辅助以报表、图形、多媒体等相互补充的技术手段,达到对税收业务等结构化、行政管理非结构化以及其它半结构化数据的快速、准确、全面的分析、挖掘和展示。
2、合理利用现有硬件资源。
依托甲方现有网络和硬件资源,采用4台高端服务器、1台网络存储和网络资源,搭建硬件基础平台。
3、数据仓库规划科学。
采用先进数据仓库技术,对所有历史和在用数据库数据进行清洗、加工、整理、抽取和存储,对政府部门第三方信息、企业采集信息进行采集、整理和存储,整合原有个税软件、土地软件、房产软件等30多个应用系统软件功能和数据,逐步实现一体化建设目标。
4、软件开发工具先进。
应用平台采用成熟的系统,结果快速和准确,可逐层钻取、能自定义查询。
展示平台可以多屏展示,采用Flash、图表和多媒体结合的形式,为各级税务机关管理和决策提供依据。
'5、软件开发和维护具有前瞻性。
平台开发做到不重复、小而精、可扩展、好维护,同金税三期系统形成互补。
(二)总体要求1.技术先进性及要求(1)搭建基于大数据技术的数据仓库,解决数据查询访问速度瓶颈,满足对非结构化数据的支持,提供高性能、高可用、高性价比的数据处理能力。
(2)各功能操作响应时间和查询结果返回时间要在3至5秒内。
(3)根据上级部门要求,保证系统平台兼容性,数据库软件必须采用Oracle 11g,应用服务器必须采用WebLogic11。
基层社会治理大数据平台建设规范

基层社会治理大数据平台建设规范1范围本文件规定了基层社会治理大数据平台(以下简称“平台”)的总体架构、技术要求、功能要求和运行要求。
本文件适用于基层社会治理大数据平台新建以及现有平台升级改造。
2规范性引用文件下列文件对于本文件的应用是必不可少的。
凡是注日期的引用文件,仅所注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 22239GB/T 31000-2015GB/T 33200-201网络安全等级保护要求6社会治安综合治理基础数据规范社会治安综合治理综治中心建设与管理规范GB/T 33780.2-2017基于云计算的电子政务公共平台技术规范第2部分:功能和性能3符号和缩略语下列缩略语适用于本文件。
APP:移动设备应用软件(Application)Office Automation)OA:办公自动化(总体要4求基层社会治理大数据平台总体上应满足以下要求:a)平台设计应充分考虑与政务平台的各类数据资源共享和互通,应采用模块化设计;b)应保证接入平台的设备、系统、用户以及数据传输的安全;c)平台应具备用户分层分类功能,满足不同用户不同权限的需求;d)平台应满足开放性要求,应提供整个系统内部各应用、各业务模块间的信息交换和共享服务,支持系统外数据交换服务;e)平台交互界面应简洁、友好、清晰;f)应建立完善的运维保障机制,配备专门的运维人员。
总体架5构平台总体架构由用户层、应用层、数据层、设施层、平台运行维护和平台安全防护组成,各级平台可根据实际需求进行调整。
总体架构设计见图1平台总体架构图。
图1平台总体架构图6技术要求6.1建设要求平台建设应符合以下要求:a) b) c) d)GB/T33200-2016对于公共安全视频监控建设联网应用的相关要求;GB/T33780.5-2021对于信息资源开放共享系统架构的相关要求;互联网带宽应充分考虑使用人数和使用高峰期的并发要求;平台部署的机房和服务器应满足GB/T22239中信息系统安全等级保护第二级的要求。
大数据平台系统概要设计说明书(学习模板)

系统概要设计说明书一、现状与需求分析1.1项目建设背景1.2系统建设现状市大XXX台的建设,深入参照了《公共信息台总体框架》,遵循《务信息资源目录体系》国家标准与《务信息资源交换体系》并结合了市市电子务发展的实际需要。
二、总体设计2.1质量与安全管理1.在大XXX台建设和运行过程中,定期对系统进行整体的风险评估。
发现安全隐患,及时调整安全策略,实行动态防护。
2.根据系统的重要程度和自身安全需求,依据国家标准《计算机信息系统安全保护等级划分准则》,实行等级防护、适度防护等措施。
3.要求所有被采用的安全产品都必须提供开放接口,以利于将来建设统一的安全管理中心,对安全事件进行有效及时的监控和响应。
4.将防护重点放在系统层和应用层的安全上。
重点保护局部计算环境和XXX文件的安全(如核心XXX库等),确保系统用户身份的真实性和可审核性。
为了应对以上提出的要求,将会实现XXX加密、XXX脱敏、访问控制、身份认证和日志审计五个大的方面的功能。
2.2开发原则1.标准性、开放性系统所采用的相关标准必须与国际、国家、、市级标准相符合,确保系统具有良好的开放性,能够实现与多种技术和软硬件台的有机集成。
2.安全性系统应具有完整、全面的安全体系和良好的安全性,能够提供信息传输保密性、XXX完整性、身份识别和数字认证、防抵赖性等安全保障措施,确保信息交换的安全运行。
系统设计不影响各部门相关信息系统的安全性。
3.可扩展性系统采用可扩展的技术体系架构,以适应信息化建设和应用系统快速发展的要求。
系统必须支持异构XXX库之间XXX交换和共享,支持主流关系型XXX库,支持不同操作系统之间信息交换应用的互联互通。
4.高可靠性系统应具有良好的可靠性,建立各种故障的快速恢复机制,确保实现7×24小时地正常运转,确保信息交换工作正常运行。
5.可管理性系统应具有良好的可管理性,允许管理人员通过管理工具实现系统全面的监控、管理和配置,并为系统故障的判断、排错和分析提供支撑,可对信息交换流程进行简易、灵活地定制和调整,同时对系统运行情况能够实时的统计分析、报表展示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XXX大数据平台总体技术要求目录1产品架构 (7)1.1基础构建平台 (8)1.2大数据平台组件功能介绍 (8)1.2.1Transwarp Hadoop分布式文件系统 (8)1.2.2Transwarp Inceptor内存分析交互引擎 (9)1.2.3稳定的Spark计算框架 (10)1.2.4支持Memory+SSD的混合存储架构 (10)1.2.5完整SQL功能支持 (10)1.2.6Transwarp Discover机器学习引擎 (13)1.2.7并行化统计算法库 (14)1.2.8机器学习并行算法库 (14)1.2.9Transwarp Hyperbase列式存储数据库 (17)1.2.10智能索引 (20)1.2.11全局索引 (21)1.2.12全文索引 (21)1.2.13索引类型 (22)1.2.14图数据库 (22)1.2.15全文数据处理 (23)1.2.16Transwarp Stream数据实时处理分析 (24)1.2.17分布式消息队列 (25)1.2.18流式计算引擎 (25)1.2.19流式SQL执行 (25)1.2.20流式机器学习 (25)1.3系统分布式架构 (26)2运行环境支持 (27)2.1系统操作支持以及环境配置 (27)2.2与第三方软件平台的兼容说明 (27)3客户端支持 (28)3.1客户端支持 (28)3.2移动端支持 (28)4数据支持 (29)5集成实现 (30)6运维实现 (31)6.1运维目标 (31)6.2运维服务内容 (31)6.3运维服务流程 (32)6.4运维服务制度规范 (33)6.5应急服务响应措施 (33)6.6平台监控兼容 (34)6.7资源管理 (34)6.8系统升级 (35)6.9系统监控平台功能 (35)6.9.1性能监控 (35)6.9.2一键式收集 (38)6.9.3系统资源监控图形化 (39)6.9.4服务进程监控 (40)6.9.5消息队列监控 (41)6.9.6故障报警 (41)6.9.7告警以及统巡检以及信息收集 (42)7平台性能 (43)7.1集群切换 (43)7.1.1主集群异常及上层业务切换 (43)7.1.2从集群异常及上层业务切换 (43)7.2节点切换 (43)7.3性能调优 (44)7.3.1图形化性能监控 (44)7.3.2图形化调优工具 (44)7.3.3调优策略 (47)7.4并行化高性能计算 (48)7.5计算性能线性扩展 (49)8平台扩展性 (51)9可靠性和可用性 (52)9.1单点故障消除 (52)9.2容灾备份优化 (52)9.2.1扩容、备份、恢复机制 (52)9.2.2集群数据容灾优化 (53)9.2.3数据完整性保障和方案 (53)9.2.4主集群异常及上层业务切换 (53)9.2.5从集群异常及上层业务切换 (54)9.3系统容错性 (54)10开放性和兼容性 (56)10.1高度支持开源 (57)10.1.1PMC-HaoyuanLi (57)10.1.2Committor-AndrewXia (59)10.1.3Committor-ShaneHuang (61)10.1.4Committor-ZhihongYu (63)10.1.5Committor-JasonDai (65)10.1.6Committor-WeiXue (67)10.2操作系统支持以及软件环境配置 (69)11安全性 (71)11.1身份鉴别 (71)11.2访问控制 (71)11.3安全通讯 (73)12核心产品优势 (74)12.1高速运算、统计分析和精确查询 (74)12.1.1Spark引擎结合分布式内存列存提供高性能计算 (74)12.1.2多种索引支持与智能索引 (74)12.2有效的资源利用 (74)12.3高并发、低延迟性能优化 (75)12.4计算资源有效管控 (75)12.5API设计和开发工具支持 (75)12.6友好的运维监控界面 (76)12.7扩容、备份、恢复机制 (80)12.8集群自动负载均衡 (80)12.9计算能力扩展 (80)13自主研发技术优势 (81)13.1高稳定、高效的计算引擎I NCEPTOR (81)13.2完整的SQL编译引擎 (81)13.3高性能的SQL分析引擎 (81)13.4SQL统计分析能力 (81)13.5完整的CURD功能 (82)13.6H YPERBASE高效的检索能力 (82)13.7基于H YPERBASE和SQL引擎的高并发分布式事务 (83)13.8H YPERBASE非结构化数据的支持 (83)13.10T RANSWARP S TREAM (85)13.11内存/SSD/磁盘混合存储 (86)13.12MR/S PARK/流处理统一平台 (86)13.13多租户支持能力 (87)13.14多租户安全功能 (87)13.15标准JDBC与ODBC接口 (87)14性能测试要求 (88)14.1环境搭建 (88)14.1.1测试硬件环境 (88)14.1.2软件环境 (88)14.2测试范围 (88)14.2.1测试功能点 (88)14.2.2测试类型 (88)14.2.3性能需求 (88)14.2.4准备工作 (89)14.2.5测试流程 (89)14.3测试策略 (89)14.3.1基准测试 (89)14.3.2负载测试 (92)14.3.3稳定性测试 (93)14.4测试交付项 (94)14.5测试执行准则 (94)14.5.1测试启动 (94)14.5.2测试执行 (94)14.5.3测试完成 (94)14.6角色和职责 (94)14.7时间及任务安排 (95)14.8风险和应急 (95)14.8.1影响方案的潜在风险 (95)14.8.2应急措施 (95)1产品架构图8-1 TDH产品架构TDH架构采用的是单一纯Hadoop式的数据平台架构,在结构上分为实时处理以及海量数据存储分析集群。
大数据统一平台既可以处理结构化的数据,实现数据整合平台、历史数据平台的处理,也可以处理非结构化、半结构化的数据,实现大数据平台、外部数据采集平台的支撑,同时,基于平台提供的实时流处理能力,可以满足准实时数据服务平台的需求。
配合平台内工具组件和应用开发,数据服务总线、统一调度系统、数据管控平台的功能需求。
数据接入层系统接入数据方式多样化,包括关系型数据库数据、实时数据、文件数据、图片数据等。
面对于多种数据接入的需求,数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop、DataStage等ETL工具全量或定时增量抽取同步关系型数据库,也可采用文本文件方式批量导入;自带HUE作为数据抽取管理工具,提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。
数据存储层在数据存储层中,底层为统一分布式存储HDFS,HDFS采用三份副本策略保证数据的安全性以及可靠性。
然而,随着时间的推移,很少被使用到的归档历史数据会越来越多,占用大量的HDFS存储空间,HDFS通过Erasure Code 技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。
在HDFS之上提供分布式NoSQL(Not Only SQL)实时数据库 Hyperbase为高并发检索分析以及事务支持提供平台级支撑。
Hyperbase通过多种索引支持海量数据多维度的秒级检索查询,包括全局索引,全文索引,组合索引等,另外Hyperbase与Titan相结合支持图数据库。
在平台存储层,支持各类结构化、半结构化、非结构化海量数据的低成本存储,为超长时间的海量历史数据存储和使用提供基础支撑。
并通过Hyperbase对于海量数据高并发低延时的检索能力,很好的支持移动互联业务场景的数据访问需求。
数据计算层在数据存储层之上的数据计算层通过YARN提供统一的资源管理调度,可以动态创建和销毁集群,灵活部署业务。
采用Inceptor内存计算分析能力为贵州银行的各个应用提供高效的分析挖掘能力。
在Inceptor中,通过独立的分布式内存列式存储Holodesk,解决开源Spark的稳定性问题以及进一步提供交互式分析能力,同时为了降低平台建设成本与提高平台内存分析数据量,分布式内存存储可建在内存或者固态硬盘SSD上。
利用Spark高速内存迭代计算的优势,通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库,为大数据平台提供高效的数据挖掘能力。
同时,保留传统的MapReduce计算框架,完整大数据平台对于各个计算框架的支持。
此外,实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。
通过消息队列Kafka消费实时数据流,做到数据不丢不重,基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级,适用于各种实时数据的复杂处理业务场景。
数据分析层在数据分析层,通过Inceptor对存储在HDFS、Hyperbase以及分布内存缓存Holodesk上的数据进行统计检索分析,并为数据服务层提供JDBC/ODBC接口,同时为了降低数据平台学习与使用成本,方便传统业务迁移,Inceptor兼容支持SQL2003标准以及PL/SQL。
对于数据挖掘,在分析层,提供可视化的挖掘建模设计工具RStudio,使用R语言进行交互式数据挖掘与统计分析,挖掘数据深度规律并建立数据模型。
同时支持Mahout,利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。
数据应用层在数据服务层,通过数据存储层、计算层以及分析层提供的接口,封装后提供多种数据服务能力,包括海量数据高并发检索查询,即席查询,海量数据交互式统计分析,数据可视化,实时数据比对异常检测告警,实时数据基于滑动时间窗口统计分析,海量数据统计挖掘以及数据平台中数据交换等。
通过大数据平台对外提供的各种服务,在其之上实现贵州银行各类应用,包括管理驾驶舱、统一报表平台、数据分析、实时数据处理等。
数据管理与系统安全此外,大数据平台通过安全通信协议和角色权限管理功能,在软件层面提供通信安全和数据访问安全的双重保障,有效的对各个部门以及下级单位的数据访问进行控制和安全管理,实现数据平台4A级(认证Authentication、账号Account、授权Authorization、审计Audit)统一安全管理解决方案。