一种安全性的海量数据处理平台设计与实现
基于云计算的大数据分析平台设计与实现

基于云计算的大数据分析平台设计与实现随着互联网的快速发展和信息化时代的到来,大数据已经成为当今社会中不可或缺的重要资源。
大数据分析作为对海量数据进行挖掘、分析和应用的过程,对于企业决策、市场营销、科学研究等领域具有重要意义。
而云计算作为一种新型的计算模式,为大数据处理提供了更加灵活、高效、可扩展的解决方案。
本文将围绕基于云计算的大数据分析平台的设计与实现展开讨论。
1. 云计算与大数据分析1.1 云计算概述云计算是一种基于互联网的计算模式,通过将计算资源、存储资源等服务按需交付给用户,实现了资源的共享和动态扩展。
云计算包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)等不同层次,为用户提供了灵活多样的服务选择。
1.2 大数据分析概述大数据分析是指对海量、复杂数据进行挖掘、分析和应用的过程,旨在发现数据中隐藏的规律、趋势和价值。
大数据分析通常包括数据采集、清洗、存储、处理和可视化等环节,通过各种算法和工具实现对数据的深入分析。
2. 基于云计算的大数据分析平台设计2.1 架构设计基于云计算的大数据分析平台通常采用分布式架构,包括数据采集层、数据存储层、数据处理层和应用展示层。
其中,数据采集层负责从各个数据源采集原始数据,数据存储层用于存储海量数据,数据处理层进行数据清洗、转换和分析,应用展示层提供用户友好的可视化界面。
2.2 技术选型在设计基于云计算的大数据分析平台时,需要选择合适的技术栈来支撑整个系统。
常用的技术包括Hadoop、Spark、Kafka等大数据处理框架,以及AWS、Azure等云计算平台提供的各种服务。
通过合理组合这些技术,可以构建高效稳定的大数据分析平台。
3. 基于云计算的大数据分析平台实现3.1 数据采集与存储在实际搭建大数据分析平台时,首先需要考虑如何进行数据采集和存储。
可以利用Kafka等消息队列系统进行实时数据采集,同时选择HDFS、S3等分布式存储系统进行数据持久化存储,确保数据安全可靠。
大数据平台架构设计与实现

大数据平台架构设计与实现随着数据量的爆炸式增长,大数据平台逐渐成为众多企业必不可少的一项重要技术,它能够帮助企业在海量数据中挖掘出更加精准、有用的信息。
然而,一个高效、可靠的大数据平台不仅仅需要拥有大量的数据存储和计算能力,还需要有合理的架构设计和实现方案。
本篇文章着重介绍大数据平台架构设计和实现方案的相关内容。
一、大数据平台的定义在大数据平台的定义中,大数据可以是拥有超过传统数据库管理系统能够存储和处理的能力的数据集合。
可以是结构化数据、半结构化数据或非结构化数据,而大数据平台就是建立在这些大数据之上的数据处理、存储、管理及分析工具的集合。
二、大数据平台的架构设计大数据平台的架构设计是让数据从采集到存储、处理再到分析等各个环节实现自动化流程的过程。
大数据平台的架构设计分为以下三个方面的基础组成:1、数据采集层数据采集层是大数据平台架构的第一步,它负责从各种设备、软件、传感器和各种现场活动中收集数据。
数据采集层应该尽可能地把数据从源头采集,建立在数据生产源的数据采集系统最优。
2、数据存储层数据存储层是大数据平台架构的第二步,它是数据存放的区域。
在数据存储层,数据会被存储在一种或者多种的存储介质中,比如Hadoop的HDFS、Apache的Cassandra、NoSQL、RDBMS等。
对于典型的企业级大数据平台,基于云的数据存储成为了最主流的架构选择。
3、数据处理层数据处理层是大数据平台架构的第三步,它的作用是以批处理、流处理、机器学习等一系列技术手段对数据进行处理和分析。
典型的大数据处理方案,需要基于Hadoop的MapReduce算法和Spark流处理框架。
三、大数据平台的实现方案1、采用异构系统集成采用异构系统集成可以使得数据能在不同的系统和数据源之间进行无缝衔接、便于网络对数据进行管理、分析和智能输出。
比如熟悉的Hadoop、代表Apache的Storm,以及管理方式各异的NoSQL数据库。
基于Spark的大数据分析与处理平台设计与实现

基于Spark的大数据分析与处理平台设计与实现一、引言随着互联网和物联网技术的快速发展,大数据已经成为当今社会中不可或缺的一部分。
大数据分析和处理已经成为各行各业的重要工具,帮助企业更好地理解市场趋势、优化运营效率、提升用户体验等。
在大数据处理领域,Apache Spark作为一种快速、通用、可扩展的大数据处理引擎,受到了广泛关注和应用。
二、Spark简介Apache Spark是一种基于内存计算的大数据并行计算框架,提供了丰富的API支持,包括Scala、Java、Python和R等语言。
Spark具有高容错性、高性能和易用性等特点,适用于各种大数据处理场景,如批处理、交互式查询、流式计算和机器学习等。
三、大数据分析与处理平台设计1. 架构设计在设计基于Spark的大数据分析与处理平台时,首先需要考虑整体架构设计。
典型的架构包括数据采集层、数据存储层、数据处理层和数据展示层。
其中,Spark通常被用于数据处理层,负责对海量数据进行分布式计算和分析。
2. 数据采集与清洗在构建大数据平台时,数据采集和清洗是至关重要的环节。
通过各种方式采集结构化和非结构化数据,并对数据进行清洗和预处理,以确保数据质量和准确性。
3. 数据存储与管理针对不同的业务需求,可以选择合适的数据存储方案,如HDFS、HBase、Cassandra等。
同时,需要考虑数据的备份、恢复和安全性等问题。
4. 数据处理与分析Spark提供了丰富的API和库,如Spark SQL、Spark Streaming、MLlib等,可以支持各种复杂的数据处理和分析任务。
通过编写Spark应用程序,可以实现对海量数据的实时处理和分析。
5. 数据展示与可视化为了更直观地展示分析结果,可以利用可视化工具如Tableau、Power BI等,将分析结果以图表或报表的形式展示给用户,帮助他们更好地理解数据。
四、平台实现步骤1. 环境搭建在搭建基于Spark的大数据平台之前,需要准备好相应的硬件设施和软件环境,包括服务器集群、操作系统、JDK、Hadoop等。
大规模数据流处理与分析平台设计与实现

大规模数据流处理与分析平台设计与实现随着互联网的快速发展和大数据技术的迅猛进步,大规模数据流的处理和分析成为了当今科技领域的热点话题。
设计和实现一个高效可靠的大规模数据流处理与分析平台,具有极大的价值和意义。
本文将深入探讨该平台的设计与实现方法。
一、需求分析与需求定义要设计和实现一个大规模数据流处理与分析平台,首先需要对其需求进行充分的分析和定义。
在这个阶段,我们需要考虑以下几个方面的需求:1. 数据规模:确定平台需要处理的数据规模。
是否涉及海量的数据流,以确定平台的扩展性要求。
2. 实时性:确定数据流处理的实时性要求。
高实时性的处理要求需要考虑低延迟和高并发等方面的问题。
3. 数据安全:确保数据的安全性和可靠性,防止数据泄露和恶意攻击。
4. 数据分析需求:确定平台需要提供的数据分析功能,例如实时监控、异常检测、关联分析等。
5. 可扩展性:平台需要具备良好的可扩展性,以满足未来数据增长和业务需求的变化。
二、平台架构设计在对需求进行充分分析后,我们可以开始设计大规模数据流处理与分析平台的架构。
一个典型的架构设计包含以下几个主要组件:1. 数据采集器:负责从不同的数据源收集数据。
可以支持多种数据格式和通信协议,确保数据的高效采集和传输。
2. 分布式消息队列:用于接收和传输大量的数据流,以实现数据的异步处理。
消息队列具有高吞吐量和可靠性的特点。
3. 数据处理引擎:负责数据流的实时处理和分析。
可以采用流式计算引擎,如Apache Storm或Apache Flink,以支持高速的数据处理能力。
4. 存储系统:用于存储和管理处理后的数据。
可以采用分布式存储系统,如Apache Hadoop或Apache Cassandra,以支持海量数据的存储和快速检索。
5. 数据分析工具:提供各种数据分析功能,例如数据可视化、机器学习和数据挖掘等,以帮助用户深入挖掘数据的价值。
三、关键技术与挑战在设计与实现大规模数据流处理与分析平台时,需要面对一些关键技术和挑战。
海量并发下高可用库存中心的设计与实现

海量并发下高可用库存中心的设计与实现在海量并发下实现高可用的库存中心的设计至关重要,这可以确保系统能够稳定地处理大量的库存操作请求,并保证数据的准确性和一致性。
下面是一个可能的设计与实现方案:一、基础架构设计:1.库存中心采用分布式架构,包括多个库存节点,每个节点负责一部分库存数据的管理和处理。
2.使用主从复制的方式保证库存数据的可靠性和高可用性,每个节点都可以接收读操作请求,而写操作只能由主节点处理。
3.引入负载均衡的机制,将请求均匀地分发到各个库存节点,提高系统的吞吐量和并发处理能力。
二、一致性设计:1.引入分布式事务处理机制,确保库存操作的一致性。
通过如分布式锁、分布式事务协调器等技术来实现。
2.库存中心记录每次操作的流水日志,并定期对所有库存节点的数据进行校验和同步,以保证数据的准确性和一致性。
三、高可用性设计:1.使用可插拔式组件,将库存中心与外部系统解耦,以避免单点故障的问题。
2.设置监控系统和告警机制,及时发现和修复系统的故障,提高系统的可用性。
3.使用集群和冗余机制,确保系统在节点故障时仍能正常运行,同时要有自动重启和故障转移的机制。
四、性能优化设计:1.使用内存缓存技术,将热点数据保存在内存中,提高读写操作的性能。
2.利用异步处理和批处理机制,将一些耗时的操作异步化,并以批量方式执行,提高系统的吞吐量和并发能力。
3.优化数据库设计和索引,减少库存查询和更新的耗时,提高数据库的读写性能。
五、故障恢复设计:1.定期备份库存数据,以便在系统故障时能够及时恢复。
2.设计有效的灾难恢复机制,确保在灾难性事件发生时,能够快速将系统恢复到正常运行状态。
六、安全性设计:1.引入身份认证和权限控制机制,保护库存中心免受未经授权的访问和操作。
2.使用加密技术,保护库存数据在传输和存储过程中的安全性。
3.建立日志系统,记录所有的操作记录,以便进行安全审计和追踪。
总结:以上是一个可能的海量并发下高可用库存中心设计与实现的方案。
基于分布式的海量海洋数据服务系统设计与实现的开题报告

基于分布式的海量海洋数据服务系统设计与实现的开题报告一、研究背景和意义海洋是地球上最广阔的领域之一,有丰富的自然资源和各种生态系统,具有重要的战略意义和经济价值。
随着海洋领域的不断发展和应用需求的不断增长,海洋数据成为了一个重要的研究领域。
海洋数据主要分为两类:一是通过传感器采集的现场海洋数据,如海洋气象、海洋水文、浮标等;二是通过卫星遥感、船舶测量等获取的海洋数据,如海洋温度、海洋潮-流数据等。
这些数据的获取、存储、管理和分析面临着诸多困难和挑战。
目前,国内外已经涌现出了许多海洋数据服务平台,如国家海洋数据与信息服务平台、美国国家海洋和大气管理局等,但这些平台面临的问题仍然不少。
例如,传统的海洋数据中心往往是集中存储的,存在单点故障和可扩展性不足的问题;数据的共享和交换也存在一定的难度;海洋数据处理和分析的效率较低等等。
针对上述问题,本文将设计和实现一个基于分布式的海量海洋数据服务系统,以提高海洋数据存储、管理、处理和分析的效率,促进海洋领域的应用和发展。
二、研究内容和方法本研究的主要研究内容包括:1.分析海洋数据的来源、类型、特点和需求;2.分析现有海洋数据服务平台的特点、问题和发展趋势;3.设计和实现一个基于分布式的海量海洋数据服务系统,包括数据采集、存储、管理、处理、分析和展示等功能;4.测试和验证系统的性能和可靠性。
本研究将采用以下主要方法:1.文献调研法:通过查阅相关文献、资料和研究报告,了解海洋数据的基本情况,分析现有海洋数据服务平台的优缺点和发展趋势;2.系统设计法:根据海洋数据的特点和需求,设计和实现一个基于分布式的海量海洋数据服务系统,包括数据采集、存储、管理、处理、分析和展示等功能;3.实验测试法:使用真实海洋数据和仿真数据对系统的性能和可靠性进行测试和验证。
三、预期成果和意义本研究的预期成果包括:1.设计和实现一个基于分布式的海量海洋数据服务系统,能够提供海洋数据的采集、存储、管理、处理、分析和展示等功能;2.测试和验证系统的性能和可靠性,为海洋数据服务平台的发展提供参考。
云平台架构设计与实现

云平台架构设计与实现随着互联网的发展和普及,云计算作为一种新兴的计算模式越来越受到广泛的关注和应用。
云计算的核心就是云平台,而云平台的架构设计和实现对于整个云计算的运营和应用至关重要。
本文将从云平台架构的概念入手,介绍云平台的特点和设计目标,然后讨论云平台的架构设计和实现,并探讨云平台的未来发展趋势。
一、云平台的概念和特点云平台是指基于互联网的一种计算模式,利用虚拟化技术和分布式计算技术,将计算资源、存储资源和网络资源等组合成服务,通过互联网向用户提供可扩展、高效、安全、可靠的计算服务。
云平台的特点如下:1、弹性可扩展:云平台可以根据用户的需求动态调整计算和存储资源的使用,可以随时进行扩容和缩容,从而提高了系统的可用性和效率。
2、资源的共享与虚拟化:云平台采用虚拟化技术,将物理资源划分为多个虚拟资源共享给多个用户使用,从而提高了资源利用率和效率。
3、自愈式系统:云平台采用自愈式系统设计,系统能够自动检测和修复出现的故障,从而提高了系统的可靠性和稳定性。
4、安全性:云平台采用多层安全保护策略,保证用户数据的机密性、完整性和可用性,从而保证用户数据的安全性。
二、云平台的设计目标云平台的设计目标是为了满足用户需求,实现高效、稳定、可靠、可扩展的计算和存储服务,同时保证用户数据的安全和隐私。
1、高效性:云平台需要具备高效的计算和存储能力,能够在最短时间内处理海量数据并返回结果。
2、稳定性:云平台需要具备高稳定性,能够在任何时候为用户提供稳定可靠的服务。
3、可靠性:云平台需要具备高可靠性,能够在硬件故障、系统崩溃等情况下确保数据的安全和完整性。
4、可扩展性:云平台需要具备高可扩展性,能够满足用户不断增长的需求,同时能够对资源进行弹性扩容和缩容。
5、安全性:云平台需要具备高安全性,能够保护用户隐私,防范黑客攻击和数据泄漏。
三、云平台的架构设计与实现云平台的架构设计和实现包括以下几个方面:1、虚拟化技术的应用:云平台采用虚拟化技术将物理资源划分为多个虚拟资源,从而实现资源的共享和提高资源利用率。
基于Java的大数据处理系统设计与实现

基于Java的大数据处理系统设计与实现一、引言随着互联网和物联网技术的快速发展,海量数据的产生和应用已经成为当今社会的一个重要特征。
在这种背景下,大数据处理系统变得越来越重要。
本文将介绍基于Java的大数据处理系统的设计与实现,包括系统架构、关键技术和实际案例分析。
二、系统架构设计1. 数据采集在大数据处理系统中,数据采集是第一步。
通过各种方式获取数据源,包括传感器数据、日志文件、数据库等。
Java提供了丰富的API和工具来实现数据采集,如Flume、Kafka等。
2. 数据存储大数据处理系统需要高效可靠的数据存储方案。
Hadoop分布式文件系统(HDFS)是一个常用的选择,它可以存储PB级别的数据,并提供高可靠性和容错性。
同时,HBase等NoSQL数据库也可以作为数据存储的选择。
3. 数据处理数据处理是大数据系统的核心部分。
通过MapReduce、Spark等计算框架,可以对海量数据进行分布式计算和处理。
Java作为一种通用编程语言,在大数据处理中也有着广泛的应用。
4. 数据分析与展示最终目的是从海量数据中挖掘有价值的信息。
通过数据分析和可视化工具,如Hive、Pig、Tableau等,可以对数据进行深入分析,并以直观的方式展示结果。
三、关键技术介绍1. Java编程Java作为一种跨平台、面向对象的编程语言,在大数据处理系统中有着广泛的应用。
通过Java编写MapReduce程序或Spark应用,可以实现复杂的数据处理逻辑。
2. 分布式计算框架MapReduce是Hadoop最核心的组件之一,通过将任务分解成Map 和Reduce两个阶段,并在多台机器上并行执行,实现了海量数据的高效处理。
而Spark则提供了更快速和灵活的计算模型。
3. 数据存储技术除了HDFS和HBase外,还有许多其他存储技术可以选择,如Cassandra、MongoDB等。
不同的存储方案适用于不同场景下的需求。
4. 数据可视化数据可视化是将抽象的数据转化为直观易懂的图表或图形展示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种安全性的海量数据处理平台设计与实现*张德阳1,2,王晶1,2(1 北京邮电大学网络与交换技术国家重点实验室,北京 100876; 2 东信北邮信息技术有限公司,北京 100191)摘 要 提出了一种开放分布式海量数据处理平台的设计方案。
该平台以HDFS、Hive和HBase等作为底层数据存储方式,以MapReduce、Spark和Storm等作为底层数据处理方式,向用户提供了统一的接口,同时使用Kerberous进行权限控制,保证了数据安全性。
这种开放式的服务可使用户可在不同平台不同环境下简单方便地完成海量数据处理任务。
关键词 Hadoop;分布式系统;海量数据;Kerberous;数据处理平台中图分类号 TN929.5 文献标识码 A 文章编号 1008-5599(2014)11-0086-04收稿日期:2014-10-08* 基金项目:国家973计划项目(编号:2013CB329102);国家自然科学基金资助项目(No. 61471063, 61372120, 61271019, 61101119, 61121001); 长江学者和创新团队发展计划资助(编号:IRT1049);教育部科学技术研究重点(重大)项目资助(编号:MCM20130310);北京高等学校青年英才计划项目(编号:YETP0473)。
1 引言目前,解决海量数据处理主要有两种方法:一种是传统的超级计算机处理方式,例如中国著名的天河贰号,美国的泰坦等超级计算机;另一种是构建于相对低廉的计算机集群之上的云计算平台,例如Google 的GFS,中国阿里的阿里云以及Apache 基金会所开发的Hadoop 等。
对于大多数公司和政府机构来说,更愿意付出一定的资金以获得海量数据资源的安全性和保密性,即采用Hadoop 开源云计算框架开发私有云平台。
Hadoop 可在廉价的集群之上实现具有高可靠性、高扩展性和高容错性等特点的云计算平台。
此外,由于Hadoop 是依赖于开源社区的,研发和升级等的成本非常低。
但Hadoop 在实际的使用中也存在着很多缺点。
首先,Hadoop 的开源给我们带来便利的同时,也因为Hadoop commons 贡献者各不相同而带来难以管理的困扰。
另一方面,Hadoop 的权限管理也存在着极大的缺陷,对局域网内部的人员来说,数据的权限划分很不清晰。
本文介绍了一种基于Hadoop 的分布式海量数据处理平台的设计方案。
首先阐述了数据处理平台基本功能的构建方案,包括分布式存储与分布式计算的实现;然后介绍了系统的安全性保证措施,使用Kerberous 和代理用户访问的方式解决鉴权问题;最后对该系统进行了相关测试。
2 平台总体设计数据处理平台系统架构如图1所示。
分布式海量数据处理平台基于Hadoop 构建,可以充分利用Hadoop 系统低成本高效率的优点,同时针对Hadoop 权限控制方面的不足,在用户与数据层之间添加了一层数据处理平台。
平台对底层可做到数据的统一管理,计算资源的统一分配,对上可以实现统一的用户操作接口,方便操作的同时保证了数据的安全性。
2.1 基本功能数据处理平台的基本功能包括分布式存储和分布式计算。
在该系统中,用户的一切操作都基于项目空间,一个项目空间中包括与该项目有关的各种资源,包括数据,用户代码,用户自定义算法,任务信息,项目空间信息以及其他用户想存储的一切信息等。
对这些资源的操作就属于分布式存储功能。
2.1.1 分布式存储数据处理平台的存储使用了Hadoop 底层存储提供的3种方式:HDFS、HBase 和Hive。
3种存储方式各有其特点,系统会根据用户提交的数据为其推荐存储方式,用户也可以自己指定存储方式。
我们的选取规则为:对于一般文件,例如图片、视频、音乐或其他数据结构不明显的数据,将其存储为HDFS 文件方式;对于数据表结构清晰,例如从MySql 中导入的数据,且用户对数据的随机访问需求不大时,将选择Hive 存储方式;对于数据结构清晰且用户有频繁的随机访问需求时,选图1 总体系统架构图择HBase 存储方式。
海量数据处理平台长,一切操作都是面向项目空间的,所以如何将Hadoop 的存储方式映射到项目空间中,是一个重点问题。
本文设计的映射规则如表1所示。
映射规则对用户完全透明,用户对不同方式存储的数据进行访问时将使用相同的命令,数据处理平台会根据操作对象的不同自动转化为Hadoop 识别的操作命令。
例如,用户1 000拥有一个ID 为001的项目空间,该空间中有一个名为f1的文件和一个名为f2的文件,在用户看来两个文件完全相同,而实际上文件h1存储方式为Hive 表而f2存储方式为HDFS,则在我们的底层存储中,f1数据存储在名为H001U1000这个Hive 数据库中名为f1的数据表中,f2文件存储在名为F001U1000这个HDFS 路径下的名为f2的HDFS 文件中。
2.1.2 分布式计算分布式计算主要提供任务管理和算法管理两个功能模块。
任务管理模块主要负责用户计算任务的管理,既包括用户计算任务的定时执行,循环执行,立即开始,立即关闭等基本操作,也包括任务信息查询,历史查询,汇总统计等信息查询。
算法管理模块主要用于集成基于Hadoop Yarn 之上的计算框架,向用户提供统一的接口。
数据处理平台原生支持Hadoop 的计算框架,包括MapReduce、Spark 和Storm 等,同时我们也提供我们自己的编程接口。
但是与直接在Hadoop 上执行任务略有不同。
一方面,平台的一切操作都是面向用户空间的,所以用户计算任务的输入路径输出路径都是相对于项目空间来说存储方式目录分布式数据平台映射规则HDFS根目录项目空间ID+用户ID 子目录子目录名文件文件名Hive 数据库项目空间ID+用户ID 数据表文件名HBase数据表项目空间ID+用户ID+文件名表1 文件系统映射规则的,另一方面,因为Hadoop平台上的不同计算框架运行时需要大量的配置信息,这对用户来说也是一种困扰,所以需要我们提供统一的任务执行接口。
这就是算法管理模块的主要工作。
2.2 安全性保证Hadoop自身的权限管理存在一定的安全隐患。
Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。
每个文件和目录有一个所有者(owner)和一个组(group)。
文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。
在当前版本的Hadoop中,客户端用户身份是通过宿主操作系统给出。
对类Unix系统来说,用户名等于`whoami`;对于Windos用户来说,用户名就是Windos当前用户名,HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。
由此可见,Hadoop文件系统目前至少存在两个问题:一是每个文件只有两类权限,owner和group,其中owner还是单用户,无法满足开发需求。
例如,对于某个文件,我们有2个用户只需要写权限,另外2个用户只需要读权限,则HDFS就无法满足这个需求了。
二是缺少用户认证机制,这意味着我们只要将自己个人电脑的用户名设置为他人的,你就可以获得他人的一切HDFS访问权限。
针对这两个问题,我们提出了Kerberos认证和代理用户访问相配合的安全性保证措施。
Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户机,服务器应用程序提供强大的认证服务。
代理用户访问则很好的分离了用户操作系统和HDFS。
具体措施是,对于每一个分布式处理平台上的文件,创建两个跟用户无关的代理用户,这两个代理用户分别充当owner 和group的角色。
在用户提出HDFS访问需求时,为其赋予其中一个代理用户的身份,用户持有代理用户的Kerberos凭证来进行数据访问。
该过程对用户来说是完全透明的,用户无法知道任何文件的访问权限,也无法得到Kerberos凭证,实现了分布式处理平台的安全性保证。
3 系统测试我们从运行效率和简便性两方面对本文的海量数据处理平台进行测试。
准确性是为了验证该平台能实现基本的功能,且不会因为在用户和底层之间增加了一层而影响到系统的效率。
简便性则是对系统的使用进行测试,以保证该系统确实能达到简化用户操作的目的。
实验环境为14台Linux机器搭建的Hadoop2.3.0版本的集群。
机器配置均为4G内存,CPU主频3.0 MHz,硬盘空间3TB。
3.1 运行效率我们选取了几组数据测试集,做了两组测试。
一组测试为直接在Hadoop集群上进行数据操作,另一组为在分布式数据处理平台上进行数据操作,进行多组并计算平均值,得到的结果如图2所示。
图2 运行时间测试由图2中数据可知,在数据量较低时,数据处理平台的效率确实不如纯Hadoop集群,但是差别很小(10 s 以内),这个时间主要消耗在数据寻址和代理用户权限分配上,且这个时间不会随着数据量的增大而变化,因此在数据量较大时,两者的运行效率几乎一样。
由于我们的实验条件所限,并没有对更大规模的数据进行测试,但由理论分析可知,影响效率的因素与数据量大小是无关的。
由此可以证明,我们的数据处理平台的效率是满足需求的。
3.2 易操作性数据处理平台为用户提供了统一的Hadoop 操作接口,这意味着用户可以用相同的操作命令操作HBase、Hive 和HDFS 上的数据,大大降低了用户的学习成本,提高了工作效率。
下面我们对相关的操作进行统计对比,得到的结果如表2所示。
在分布式数据处理平台中,由于将HDFS、Hadoop 和Hive 进行了统一的封装,方便了用户的使用,在很大程度上解决了Hadoop 组件繁多且命令操作方式不统一的缺陷。
4 结束语目前,海量数据处理成为越来越普遍的需求,但目参考文献[1] T Herawan, N Khan, A. Noraziah, E I. Ismail, M M Deris. CloudComputing: Analysis of Various Platforms[J]. International Journal of E-Entrepreneurship and Innovation (IJEEI). 2012(2).[2] V Ravi. Cloud Computing Paradigm for Indian Education Sector[J].International Journal of Cloud Applications and Computing (IJCAC). 2012(2).[3] XU Zhiwei, YAN Bo, ZOU Yongqiang. Beyond Hadoop: RecentDirections in Data Computing for Internet Services[J]. International Journal of Cloud Applications and Computing (IJCAC). 2011(1).[4] 邹复民, 蒋新华, 胡惠淳, 朱铨, 庄孝昆. 云计算研究与应用现状综述[J]. 福建工程学院学报, 2013(03).[5] 李冰. 云计算环境下动态资源管理关键技术研究[D]. 北京邮电大学, 2012.[6] 栾亚建, 黄民, 龚高晟, 赵铁柱. Hadoop平台的性能优化研究[J]. 计算机工程, 2010(14).[7] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013(01).[8] 陈康, 郑纬民. 云计算:系统实例与研究现状[J]. 软件学报,2009(05).[9] 杨帆, 沈奇威. 分布式系统Hadoop平台的视频转码[J]. 计算机系统应用, 2011(11).[10] 朱珠. 基于Hadoop的海量数据处理模型研究和应用[D]. 北京邮电大学,2008.操作存储介质用户操作Hadoop 处理平台导入/导出数据HDFS11HBase 2Hive 3删除数据HDFS11HBase 3Hive 3复制/移动数据HDFS11HBase 3Hive3总和203表2 命令行操作测试Design and implementation of security mass data processing platformZHANG De-yang 1, 2, WANG Jing 1, 2(1 Beijing University of Posts and Telecommunications Networking and Switching Technology, State Key Laboratory, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing 100191, China)Abstract This article put forward an open design scheme of distributed mass data processing platform. The platformuses HDFS, Hive and HBase to realize data storage, uses MapReduce, spark and storm to realize data processing, uses kerberous to realize authority management. It also provides a unifi ed operation interface to the user, so that users can handle the mass data simple and effi cient.Keywords Hadoop; distributed system; mass data; kerberous; data processing platform前的大数据解决方案均存在一定的缺陷。