海量军事数据可视分析架构设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6卷第2期 
2O15年4月 
指挥信息系统与技术 

Command Information System and Technology 
VoI.6 No.2 

Apr.2015 


大数据・ doi:10.15908/j.cnki.cist.2015.02.008 

海量军事数据可视分析架构设计 
严 红黄 颖 张超 
(中国电子科技集团公司第二十八研究所 南京210007) 

摘 要:介绍了大数据、数据挖掘及可视分析技术,提出了面向海量军事数据的可视分析架构,以 
满足当前、历史和数据仓库等需求的混合持久化数据存储。该架构实现了多样化数据分析的可扩 
展和海量数据的可视分析,并基于元数据实现数据存储、转换和分析全过程和要素的统一管理。 
关键词:元数据;数据仓库;可视分析;混合持久化存储;系统架构 
中图分类号:G230.7 文献标识码:A 文章编号:1674—909X(2015)02—0038—06 

Design of Visualized Analysis Architecture for Military Big Data 
Yan Hong Huang Ying Zhang Chao 
(The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China) 
Abstract:Several technologies for big data,data mining and data visualization are introduced,and 
an integrated architecture for the mass data visualization analysis is presented.It can meet re— 
quirements of mixed persistent data storage for current data,history data and data warehouse. 
The architecture can realize the expandable diverse data and the mass data visualization analysis. 
An unified management is realized based on metadata for data storage,data conversion and data 
analysis. 
Key words:metadata;data warehouse;visualized analysis;mixed persistent storage;system ar— 
rhjtect1】re 

0 引 言 
数据作为一种资产越来越受到重视,尤其是大 
数据颠覆性技术变革推动了采用各类创新方法支持 经济和高效地存储和使用海量数据。文献E13指出, 未来影响、决定军事行动的最大核心是数据,数据的 积累量、分析和处理能力以及数据主导决策将是获 得战场优势的关键。 军事数据繁杂而多样,军事信息系统既需要对 当前战场数据的快速处理,又需要对历史数据的分 析挖掘。传统关系数据库针对有限时间段内的数据 虽可提供有效的存储和灵活的访问,随着时间的不 断增长,已无法满足不断增长的数据存储、访问和分 析需求。相反,分布式存储、非关系型数据库(No— SQL数据库)和数据可视化等技术给出了更多选 收稿日期:2015—02—01 择,显然混合式存储已成为一种趋势。可见,面对海 量数据进行分析处理和挖掘,提供知识的发现为最 终目标,其中可视化技术使得分析过程和结果更易 于感知和理解。 

1大数据及可视化技术 
1.1大数据与数据仓库 
鉴于数据仓库和大数据至今缺乏统一的定义和 
说法,一般认为,数据仓库是一个面向主题、集成、时 
变和非易失的数据集合,支持管理者的决策过程。 
大数据是由数量巨大、结构复杂和类型众多的数据 
构成的数据集合,基于云计算的数据处理与应用模 
式,通过数据集成共享,交叉复用形成的智力资源和 
知识服务能力。 
大数据和数据仓库是对已产生数据的收集、转 
换和再加工过程,均强调对信息的提取和知识的发 
第6卷第2期 严 红,等:海量军事数据可视分析架构设计 39 
现,采用的技术不同:数据仓库采用结构化数据库管 理系统数据存储,采用联机事务处理(oLTP)和联 机数据分析(OLAP)等技术进行数据分析;继物联 网和云计算而出现的大数据实际上是为解决分布式 超大容量数据存储和分析的各类实用创新技术,其 中许多技术都是颠覆性的,采用分布式文件存储系 统和NoSQL数据库实现海量数据存储,采用分布 式挖掘和流式数据挖掘等技术手段创新性地实现海 量数据的分析、挖掘与再利用。 当然,大数据和数据仓库两者技术上并非此消 彼长,而是相互促进:一方面,大数据在采用分布式 和流式处理等创新方法的同时也沿用了已有数据挖 掘分析模型;另一方面,大数据的各类创新技术也促 进了传统数据仓库和数据挖掘分析技术等进一步改 进和发展。 数据仓库和大数据混合模式也在不断创新_2]: 采用大数据技术存储操作数据历史库数据,提供历 史数据长周期和快速检索的历史数据存储和快速查 询服务;采用大数据技术存储数据仓库的历史库数 据,解决数据仓库历史数据存储的问题,构建一个大 容量和高可用的数据存储平台,为全量数据分析和 知识挖掘提供服务。 如果将大数据定位为离线的数据仓库,将会出 现实时操作库、数据仓库和大数据资源池3级数据 存储模型。 1.2数据挖掘与可视分析 数据挖掘与可视分析技术均为跨学科的技术, 数据挖掘强调算法模型,可视分析更强调人机交互 和理解。目前这2种技术正越来越相互渗透和相辅 相成,数据挖掘的过程和结果需要通过可视化技术 与人交互,可视分析技术也需要数据挖掘技术和方 法提取特征数据。 数据挖掘也称从数据中发现知识(KDD),是一 种自动或方便提取代表知识的模式,是一个跨学科 技术,包括统计学、机器学习、模式识别、数据库技 术、信息检索、网络科学、知识库系统、人工智能和高 性能计算等[3]。数据挖掘涵盖数据分析和知识发现 任务,常用技术和方法包括分类、聚类、离群点分析、 关联与相关性、比较汇总、判别分析、模式发现、趋势 和偏差分析等。数据挖掘过程通常包括数据清理、 数据集成、数据选择、数据变换、模式发现、模式评估 和知识表示。 数据挖掘技术、方法和模型已广泛应用,并与其 他技术相互结合:可视数据挖掘集成了数据挖掘和 数据可视化2种技术,通过数据可视化、数据挖掘结 
果可视化、数据挖掘过程可视化和交互的可视数据 
挖掘等,实现从大型数据集中发现隐藏的和有用的 
知识;普适的数据挖掘将数据挖掘嵌入各类应用,包 
括搜索引擎和用户自适应Web服务(如使用推荐算 
法)等;数据挖掘与云计算系统的集成促使分布式和 
流等数据挖掘新方法不断涌现。 
数据采集、提取和理解是人类感知和认识世界 
的基本途径之一,数据可视化为人类洞察数据的内 
涵和理解数据蕴藏的规律提供了重要手段[4]。在计 
算机领域,利用人眼感知能力对数据进行交互的可 
视表达以增强认知的技术称可视化技术。目前可视 
化主要有科学可视化、信息可视化和可视分析学 
3个方向。 
科学可视化主要面向自然科学领域,如物理、化 
学、气象气候、航空航天、医学和生物学等,通常采用 
标量、向量和张量数据的三维显示;信息可视化是对 
抽象和非结构化数据集合的时空、层次和网络以及 
高维等显示;2005年,可视分析学由一个跨学科领 
域专家组成的国际团队共同定义的新学科方向,即 
通过交互可视界面进行分析、推理和决策的科学[5]。 
大数据可视化指可视分析中的数据呈现方式, 
包括可视化技术和信息的可视化显示。在可视化中 
更多程度的数据投影与降维意味着数据表示更加抽 
象与简约。不过该表现形式对于用户进行可视分 
析、推理和信息获取来说,需要进一步观察与诠释。 

2海量军事数据可视分析架构 
2.1系统架构 
针对海量军事数据,综合使用传统数据库系统、 
统计分析系统、数据库管理系统、大数据技术、数据 
挖掘和可视化技术,为各类军事数据的存储、访问、 
分析、挖掘和知识发现提供统一平台。如图1所 
示,军事数据可视分析架构分为4层:1)云存储层: 
包括计算机及存储硬件、操作系统、虚拟化系统和分 
布式文件系统等,提供灵活和海量存储能力;2)数 
据层:包括传统关系型数据库和关系型数据仓库、基 
于NoSQL的列族数据库、文档数据库和图数据库 
等,提供混合持久化数据存储和访问能力;3)预处 
理层:包括语义抽取转换、概略数据抽取转换、数据 
挖掘预处理和异构数据仓库抽取转换等,为数据挖 
掘分析提供数据预处理能力;4)数据分析层:包括 
语义分析、可视分析、数据挖掘和数据仓库分析等, 
提供多种数据挖掘分析能力。 
40 指挥信息系统与技术 2O15年4月 
数 
据 
层 

一 
存 
储 
层 

军事应用 
/—————————、/—————————_'、,————————_、,—————__、/ ——————————_'、 l 1 i睫 1 f 1 l旺 l1 1 
l列族数据库}I关系型数据库j I文档数据库J I图数据库I i关系型数据仓库J 
I旦墨笪矍l 

i 计算及存储硬件 j 
图1 军事数据可视分析架构 

2.2混合持久化数据存储架构 
关系型数据库不再是唯一选择,数据库领域正 
进入混合持久化时代,即采用多种数据库解决方案, 并使用不同数据存储模型。 NoSQL数据库泛指非关系型数据库,如Cas— sandra,MongoDB,Neo4J和Riak等,主张使用无模 式(schemaless)数据,可运行在集群环境中,能够牺 牲传统数据库的一致性以换取更好的性能和扩展 性。NoSQI 主要有键值(key—value)、文档(docu— ment)、列族和图4种数据库模型I6]。 1)键值数据库:仅有关键字(ID)和值(name) 2列,流行的键值数据库有Berkeley DB,Redis和 Amazon DynamoDB等。 2)文档数据库:可存放并获取文档,支持可扩 展标记语言(XML)、JavaScript对象符号(JSON)和 二进制JavaScript对象符号(BSON)等格式,文档 具备自描述性和分层树状数据结构,包含映射表、集 合和纯量值。该数据库存放的文档相当于键值数据 库存放的值。流行的文档数据库有MongoDB,Ter— rastore和CouchDB等。 3)列族数据库:可存储关键字及其映射值,并 可将值分成多个列族,每个列族代表一张数据映射 表。相比键值数据库,列族数据库具有更好的实用 性,产品包括HBase和Cassandra等。该数据库可 用于存储海量数据并提供快速检索,如实时轨迹和 日志等数据。 4)图数据库:用于解决图的遍历和搜索,存储 位置相关数据以及推荐系统数据等。流行的图数据 库有Neo4J,OrientDB和Infinite Graph等。 军事信息系统中,关系数据库支撑了各种类型 数据的存储、查询和统计分析等,但一些类型数据的 不断增长,如传感器、目标轨迹和日志等数据,已达 
到关系数据库存储和访问的极限,凸显了NoSQL 
数据库访问性能和存储扩展性方面的优越性。因 
此,未来采用多种数据库技术解决数据持久化存储 
问题的混合方式将成为一种趋势。 
为支持当前作战任务系统应用、侦察探测传感 
器数据以及历史数据等存储需求,提出混合持久化 
数据存储架构,采用实时在线操作库、混合数据仓库 
和历史数据资源池3级数据存储模式,如图2所示。 
1)实时在线操作库:建立在关系型数据库管理 
系统上,存储各类军事基础、实时作战指挥和侦察情 
报等数据,也可存储元数据、各类目录和用户等信 
息,为各类指挥系统应用和管理提供实时和在线 
数据。 
2)混合数据仓库:根据不同应用需求建立的不 
同主题数据,包括基于关系数据库的数据集市和基 
于NoSQL的大数据仓库技术。基于关系数据库的 
数据集市可面向不同主题应用,如实力变化对比分 
析等;基于NoSQL的大数据仓库,包括基于图数据 
库存储位置相关和推荐系统等数据,其中基于列族 
数据库,存储海量历史数据,如实时轨迹数据和日志 
数据等。 
3)历史数据资源池:指实时在线操作库的历史 
数据存储,包括数据仓库的历史数据存储,可采用键 
值数据库存储各类历史数据。 
针对混合存储架构,数据抽取转换工具的功能 
相对传统的ETL工具集,需进一步扩展关系型数 

一雠 一一一一 一 . 
蕈 
雾 

相关文档
最新文档