大数据存储管理系统面临挑战的探讨

合集下载

大数据管理与储存的挑战与解决方案

大数据管理与储存的挑战与解决方案

大数据管理与储存的挑战与解决方案随着互联网的快速发展以及各类传感器和设备的普及,大数据已经成为了我们生活中无法回避的现象。

大数据的处理和管理已经成为了一个全球范围内的挑战,尤其是在数据储存和管理方面。

本文将探讨大数据管理和储存所面临的挑战,并提出解决方案。

一、大数据管理的挑战1. 数据量巨大:大数据的特点之一就是数据量巨大,每天产生的数据量以TB、PB甚至EB来计量。

这使得传统的数据库管理系统无法有效地处理和存储这么大规模的数据,导致信息检索和数据分析变得困难。

2. 数据多样性:大数据不仅仅包括结构化数据,还包括非结构化数据如文本、图像、音频和视频等。

这些数据的多样性给数据的处理和管理带来了极大的复杂性,传统的数据库无法满足对这些数据的处理需求。

3. 数据速度:大数据处理不仅需要面对海量的数据,还需要实时地进行处理和分析。

大数据应用的一个重要场景是实时数据分析,这要求数据管理系统必须能够以高速进行数据处理和分析,以便进行即时决策。

二、大数据管理的解决方案1. 分布式存储系统:针对数据量巨大的问题,传统的集中式数据库已经无法胜任,分布式存储系统应运而生。

这种系统通过将数据分散存储到多个服务器节点上,提高了数据的存储能力和吞吐量,从而更好地满足了大数据的处理需求。

2. NoSQL数据库:传统关系型数据库在面对大数据的非结构化数据时效率低下,因此需要使用一种能够更好地处理这类数据的数据库系统。

NoSQL(Not Only SQL)数据库是一种非关系型数据库,它相对于传统数据库更加灵活、高效,并且能够处理多种类型的数据。

3. 分布式计算框架:为了解决大数据处理的速度问题,分布式计算框架应运而生。

这种框架可以将大数据分成多个小任务,分配到不同的计算节点上进行并行处理,并最终将结果合并。

常见的分布式计算框架包括Apache Hadoop和Spark等。

4. 数据压缩和索引技术:对于海量的数据,压缩和索引是提高存储和检索效率的关键。

大数据时代的数据治理数据质量与合规性的挑战与应对

大数据时代的数据治理数据质量与合规性的挑战与应对

大数据时代的数据治理数据质量与合规性的挑战与应对在大数据时代,数据治理成为了企业和组织管理数据的重要环节。

数据治理涉及到数据的收集、存储、处理、分析和使用等方面,旨在确保数据的质量和合规性。

然而,随着数据规模的不断增大和数据来源的多样化,数据治理面临着一系列的挑战。

本文将探讨大数据时代的数据治理所面临的数据质量和合规性的挑战,并提出相应的应对策略。

一、数据质量的挑战在大数据时代,数据质量是数据治理的核心问题之一。

数据质量的挑战主要体现在以下几个方面:1. 数据来源的多样性:大数据时代,数据来源多样化,包括传感器数据、社交媒体数据、日志数据等。

这些数据来源的多样性导致了数据的质量难以保证,例如传感器数据可能存在误差,社交媒体数据可能存在虚假信息等。

2. 数据量的增大:大数据时代,数据量呈指数级增长,数据量的增大给数据质量带来了挑战。

大量的数据需要进行清洗、去重、整合等处理,而这些处理过程可能会引入新的错误,从而影响数据的质量。

3. 数据一致性的问题:大数据时代,数据来自于不同的系统和部门,这些数据可能存在一致性问题。

例如,同一份数据在不同的系统中可能存在不同的版本,这就给数据的一致性带来了挑战。

为了应对数据质量的挑战,可以采取以下策略:1. 数据清洗和去重:对于大数据中的噪声数据和重复数据,可以通过数据清洗和去重的方式来提高数据的质量。

数据清洗可以去除数据中的错误和异常值,数据去重可以消除重复的数据。

2. 数据整合和标准化:对于来自不同系统和部门的数据,可以进行数据整合和标准化,以提高数据的一致性和准确性。

数据整合可以将不同系统中的数据进行整合,数据标准化可以将数据按照统一的标准进行格式化。

3. 数据质量监控和评估:建立数据质量监控和评估机制,对数据进行实时监控和评估,及时发现和解决数据质量问题。

可以使用数据质量指标来评估数据的质量,例如准确性、完整性、一致性等。

二、数据合规性的挑战在大数据时代,数据合规性是数据治理的另一个重要问题。

大数据管理与储存的挑战与机遇

大数据管理与储存的挑战与机遇

大数据管理与储存的挑战与机遇随着互联网技术的发展和应用的不断拓展,大数据管理与储存面临着越来越多的挑战和机遇。

本文将探讨大数据管理与储存面临的挑战,并分析其所带来的机遇。

一、大数据管理挑战1. 数据量庞大:大数据的存储量巨大,处理起来需要大量的存储空间和计算资源。

传统的数据库系统无法很好地应对这种规模,因此需要开发新的技术来管理大数据。

2. 数据多样性:大数据不仅包括结构化数据,还包括半结构化和非结构化数据,如文本、图片、音频等。

这些数据的格式和结构不一致,给数据管理带来了困难。

3. 数据实时性:大数据的更新速度非常快,在实时性要求较高的场景中,需要实时地采集、处理和分析数据。

这对数据管理和处理的效率提出了更高的要求。

二、大数据储存挑战1. 存储成本:大数据的存储是一项庞大的成本,传统的存储方式无法满足大规模数据的低成本存储需求。

因此,需要开发新的存储技术,提高存储效率和降低存储成本。

2. 数据安全性:大数据中包含着大量的敏感信息,如个人隐私和商业机密。

因此,数据的安全性成为大数据储存的重要问题。

需要采取一系列的安全措施,如数据加密、访问控制等来保护数据的安全。

3. 数据一致性:大数据涉及到多个数据源和多个数据副本,数据的一致性成为一个挑战。

在多个副本之间保持数据的一致性是一个复杂的问题,需要设计合适的数据同步和一致性算法。

三、大数据管理与储存的机遇1. 数据分析与挖掘:大数据中蕴藏着大量的信息和价值,通过对大数据进行分析和挖掘,可以获取有用的信息和洞察力,为决策提供依据。

2. 创新应用的发展:大数据为各个行业带来了创新的机遇,如金融、医疗、教育等。

通过对大数据的管理和挖掘,可以开发出各种新的应用程序和服务,推动各行各业的发展。

3. 数据驱动的决策:大数据分析为决策提供了更加全面和准确的数据支持,能够帮助企业和组织做出更明智的决策,提高工作效率和竞争力。

综上所述,大数据管理与储存面临着诸多的挑战,但同时也带来了巨大的机遇。

当前大数据时代的数据管理技术探讨

当前大数据时代的数据管理技术探讨

当前大数据时代的数据管理技术探讨当前大数据时代的来临,给数据管理技术带来了极大的挑战和机遇。

传统的数据管理方式已经无法满足大数据时代对数据处理、存储、分析和应用的要求。

新兴的数据管理技术,如分布式存储、数据挖掘、机器学习等,成为了解决大数据时代数据管理问题的重要手段。

本文将对当前大数据时代的数据管理技术进行探讨,分析其发展现状和未来趋势。

一、大数据时代的数据管理挑战随着互联网、物联网、移动互联网等技术的迅猛发展,全球范围内每天都在产生海量的数据,这些数据被称为大数据。

大数据具有四大特点:大容量、多样性、高速度和价值密度。

这些特点给传统数据管理带来了巨大的挑战。

1. 数据存储挑战:传统的数据存储方式已经无法满足大数据时代的需求。

传统的关系型数据库往往无法承载大规模的数据存储和快速的数据读写操作。

数据存储技术需要具备分布式、高可用、高并发等特点,以适应大数据时代数据存储的需求。

2. 数据处理挑战:大数据时代需要对海量数据进行快速的处理和分析,传统的数据处理技术已经无法满足这一需求。

要对大数据进行快速的处理和分析,需要采用并行计算、分布式计算等技术。

3. 数据质量挑战:大数据时代面临的另一个挑战是数据质量问题。

海量数据中往往存在着大量的噪声数据和冗余数据,如何从海量数据中挖掘出有价值的信息,是当前数据管理技术面临的一个重要挑战。

1. 分布式存储技术分布式存储技术是大数据时代的数据管理的基础。

分布式存储技术将数据分布存储在多个节点上,可以有效地提高数据的存储容量和读写性能。

目前主流的分布式存储技术包括Hadoop、HBase、Cassandra等。

这些技术可以实现海量数据的存储和快速的数据访问,为大数据时代的数据管理提供了重要的基础支持。

2. 数据挖掘技术数据挖掘技术是大数据时代数据管理的重要手段。

数据挖掘技术可以从大量的数据中发现隐藏在其中的规律、趋势和模式,为企业决策提供重要的支持。

目前主流的数据挖掘技术包括聚类分析、分类分析、关联规则挖掘等。

大数据时代下数据质量的挑战与应对策略研究

大数据时代下数据质量的挑战与应对策略研究

大数据时代下数据质量的挑战与应对策略研究随着互联网和计算机的普及,我们正在进入一个大数据时代。

在这个时代里,相比于过去,生产的数据量大得多。

但是数据质量的问题越来越突出。

不正确的数据可能会导致错误决策、低效率甚至是业务损失。

因此,如何保证数据质量也越来越受到重视。

本文将探讨大数据时代下数据质量的挑战与应对。

一、数据质量的挑战1.共性挑战随着业务量和数据量的增长,数据质量的挑战也逐渐增加。

共性挑战主要表现为数据完整性差、信息丢失、数据准确性低、数据格式不一致等。

这些挑战可能会影响到机构的判断和决策。

每个企业都会面临不同的业务目标和数据来源,因此数据质量的挑战也是不同的。

例如,电子商务公司需要保证数据的实时性和准确性,以便更好地建立用户画像和促进销售。

二、数据质量应对策略1. 数据清洗数据清洗是指识别和纠正数据中的错误、矛盾和重复信息,以提高数据的质量和可靠性。

数据清洗可以通过人工和技术手段完成。

人工清洗主要是通过专业数据分析师来完成,技术清洗主要是通过算法、规则和模型来完成。

2.数据标准化标准化可以确保不同的数据源和业务系统之间的数据具有一致性和可比性。

例如,企业需要定义统一的数据名词、数据格式和数据约束,以确保系统间的信息一致性,并避免数据孤立产生的误差。

3. 数据治理数据治理是指对数据整个生命周期的管理、控制和保护。

企业可以制定数据管理政策,明确数据责任人、数据保护措施、数据质量标准等等,从而确保数据资产的完整性和可靠性。

4.数据质量评估数据质量评估可以通过检查原始数据的准确性、一致性和完整性来判断数据是否能够满足业务需求。

企业可以根据实际情况,选择不同的评估工具和方法,例如数据采样、自动化测试和人工审核等等。

三、数据质量保障体系构建为了提高数据质量,企业可以建立完善的数据质量保障体系:1.建立数据检测机制,检测数据的有效性和完整性。

2.合理设置数据存储策略,确保数据的安全性和可靠性。

3.确定数据质量的关键指标,并及时跟踪数据质量变化。

数据管理与储存大数据时代的数据分析和挖掘技术

数据管理与储存大数据时代的数据分析和挖掘技术

数据管理与储存大数据时代的数据分析和挖掘技术随着信息技术的快速发展,人们在各个领域产生的数据呈现爆炸式增长的趋势,这种大数据时代给数据管理与储存带来了巨大挑战。

数据分析和挖掘技术作为处理和利用大数据的重要手段,正日益受到人们的关注和重视。

本文将重点讨论数据管理与储存大数据时代的数据分析和挖掘技术。

一、数据管理与储存的挑战在大数据时代,数据管理与储存面临着以下挑战:1. 数据量大:大数据时代,数据量呈现指数级增长,处理这么庞大的数据量是一个巨大的挑战。

2. 数据类型多样:数据的类型多种多样,包括结构化数据和非结构化数据,如文本、音频、视频等,这种多样性对数据管理与储存带来了很大的挑战。

3. 数据的高速增长:大数据时代,数据的增长速度很快,需要更高效的数据管理与储存技术来应对。

4. 数据的价值挖掘:大数据只有通过数据分析和挖掘,才能从中提炼出有价值的信息和知识,这对数据管理与储存提出了更高的要求。

二、数据分析和挖掘技术的作用数据分析和挖掘技术是处理和利用大数据的关键手段,它可以从海量的数据中发现潜在的关联和模式,并帮助人们做出更加准确的决策。

以下是数据分析和挖掘技术的一些应用场景:1. 数据预处理:在进行数据分析和挖掘之前,通常需要对数据进行预处理,包括数据清洗、数据集成、数据变换等,以提高数据的质量和准确性。

2. 数据聚类:通过聚类分析,可以将大量的数据划分为若干类别,从而为后续的分析和应用提供基础。

3. 数据关联规则挖掘:通过发现大数据中的关联规则,可以帮助人们理解数据之间的关系,并发现潜在的商机。

4. 数据分类与预测:通过建立数据模型,可以对未来的趋势进行预测,为决策提供参考依据。

5. 数据可视化:将数据通过可视化的方式展示出来,可以更加直观地理解数据的内在规律,帮助人们做出更加准确有效的决策。

三、数据管理与储存的技术发展为了满足大数据时代对数据管理与储存的需求,相关技术也在不断发展和创新。

以下是一些主要的技术发展方向:1. 分布式存储系统:分布式存储系统能够将海量数据存储在多台服务器上,通过数据分片和冗余备份来提高数据的可靠性和读写效率。

我国大数据中心发展面临问题与挑战

我国大数据中心发展面临问题与挑战

我国大数据中心发展面临问题与挑战随着信息技术的飞速发展,大数据成为推动社会经济发展的重要驱动力之一。

大数据中心作为大数据处理、存储和管理的集中化平台,扮演着至关重要的角色。

然而,我国的大数据中心发展仍然面临着一系列问题与挑战。

首先,我国大数据中心发展面临着庞大数据量的挑战。

作为一个人口众多的发展中国家,我国数据量庞大且不断增长。

大数据中心需要处理海量的数据,如果不具备足够的处理和存储能力,将无法应对日益增长的数据需求。

其次,大数据中心的安全性问题也是当前亟需解决的挑战之一。

大数据中心承载着包含个人隐私、企业机密等重要信息的大量数据,一旦遭到黑客攻击或者数据泄露,将对个人和企业造成严重损失。

因此,确保大数据中心的安全性和防护能力显得十分重要。

另外,大数据中心的能源消耗也是一个亟待解决的问题。

大数据中心需要大量的电力供给以保证正常运行,然而传统的能源供应方式存在着能源浪费和环境污染的问题。

因此,寻求环保、节能的能源解决方案,成为提高大数据中心可持续发展能力的关键。

此外,大数据中心的技术人才短缺也是一个亟待解决的问题。

随着大数据技术的不断发展,对于大数据中心运维管理的技术人员要求也越来越高。

然而,我国现阶段在此领域的高级技术人才仍然相对不足,导致大数据中心的建设和运营面临一定的困难。

最后,大数据中心的合规与监管问题也亟待解决。

由于大数据中心涉及到大量个人信息的处理和管理,合规与监管问题变得尤为重要。

当前,我国在大数据中心的监管政策和法规尚不完善,这给大数据中心的运营带来了一定的不确定性和风险。

为了应对以上问题与挑战,我国可以从以下几个方面着手。

首先,提升大数据中心的技术能力。

加大对大数据中心技术研发的支持力度,培养更多的技术人才,提高大数据中心的研发创新能力。

同时,加强大数据中心与高校、研究院所之间的合作,推动前沿科技和大数据技术的创新与应用。

其次,加强大数据中心的安全保障。

完善大数据安全法律法规,加强大数据中心的网络安全防护,提高数据的加密和隐私保护能力。

大数据时代的挑战与机遇

大数据时代的挑战与机遇

大数据时代的挑战与机遇引言大数据时代已经到来,它带来了前所未有的机遇和挑战。

随着互联网的快速发展和智能设备的普及,我们正在积累着以前无法想象的庞大数据量。

这些数据潜藏着无限的价值,可以帮助我们解决各种问题、优化决策和改善生活。

然而,与此同时,大数据也带来了许多挑战。

它的快速增长和复杂性给数据管理、隐私保护、数据分析和人才培养等方面带来了巨大的压力。

本文将探讨大数据时代面临的挑战和机遇,分析其原因,并提出应对的策略。

挑战一:数据管理随着大数据的快速增长,数据管理成为一项重要的挑战。

如何有效地存储、处理和传输数据成为了亟待解决的问题。

传统的数据库管理系统已经无法满足大数据时代的需求,需要寻找新的存储和处理技术。

此外,数据的质量和准确性也是一个重要的问题。

由于数据的来源多样化和复杂性,很难确保数据的完整性和准确性。

因此,开发高效的数据管理系统和提升数据质量成为解决大数据时代挑战的关键。

子挑战一:存储和处理大数据时代,数据量庞大,传统的存储和处理技术已经无法满足需求。

传统的关系型数据库面临着性能瓶颈,无法处理PB级以上的数据。

因此,需要寻找新的存储和处理技术,如分布式存储和计算技术。

分布式存储技术可以将数据分散存储在多个节点上,可以提高存储容量和处理速度。

而分布式计算技术可以将计算任务分配给多台机器并行处理,提高计算效率。

这些新的技术可以有效地帮助我们存储和处理大数据,解决数据管理的挑战。

子挑战二:数据质量数据质量是大数据时代的一个重要问题。

由于数据的来源多样化和复杂性,很难确保数据的完整性和准确性。

数据可能包含错误、噪声和缺失值,对数据分析和决策造成影响。

为了提高数据的质量,我们需要开发一系列的数据质量管理方法和工具。

例如,数据清洗和去重可以帮助我们删除重复和不完整的数据;数据验证和修复可以帮助我们找出和修复错误的数据;数据标准化和规范化可以帮助我们提高数据的一致性和准确性。

通过这些方法和工具,我们可以提高数据的质量,减少数据分析和决策的错误。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract Nowadays there emerges Big Data phenomenon in research and real world applications. Along with the fast growing of data in different types, Big Data requires much more on its storage layer, especially for the data keeping and accessing, analysis and management. The traditional high reliable and stable storage system might hardly meet these requirements any more. According to the key properties of Big Data, this article not only explores the concrete challenges, but also illustrates several popular Big Data software solutions.
(1) 大数据的存储及处理不仅在于规模之大,更加 要求其传输及处理的响应速度快(Velocity)。
相对于以往较小规模的数据处理,在数据中心处理 大规模数据时,需要服务集群有很高的吞吐量才能够让 巨量的数据在应用开发人员“可接受“的时间内完成任 务。这不仅是对于各种应用层面的计算性能要求,更加 是对大数据存储管理系统的读写吞吐量的要求。例如个 人用户在网站选购自己感兴趣的货物,网站则根据用户 的购买或者浏览网页行为实时进行相关广告的推荐,这 需要应用的实时反馈;又例如电子商务网站的数据分析 师根据购物者在当季搜索较为热门的关键词,为商家提 供推荐的货物关键字,面对每日上亿的访问记录要求机 器学习算法在几天内给出较为准确的推荐,否则就丢失 了其失效性;更或者是出租车行驶在城市的道路上,通 过GPS反馈的信息及监控设备实时路况信息,大数据处 理系统需要不断地给出较为便捷路径的选择。这些都要 求大数据的应用层可以最快的速度,最高的带宽从存储 介质中获得相关海量的数据。另外一方面,海量数据存 储管理系统与传统的数据库管理系统,或者基于磁带的 备份系统之间也在发生数据交换,虽然这种交换实时性
(2) 大数据由于其来源的不同,具有数据多样性的 特点。
所谓多样性,一是指数据结构化程度,二是指存储 格式,三是存储介质多样性。对于传统的数据库,其存 储的数据都是结构化数据,格式规整,相反大数据来源 于日志、历史数据、用户行为记录等等,有的是结构化 数据,而更多的是半结构化或者非结构化数据,这也正 是传统数据库存储技术无法适应大数据存储的重要原因 之一。所谓存储格式,也正是由于其数据来源不同,应 用算法繁多,数据结构化程度不同,其格式也多种多 样。例如有的是以文本文件格式存储,有的则是网页文 件,有的是一些被序列化后的比特流文件等等。所谓存 储介质多样性是指硬件的兼容,大数据应用需要满足不 同的响应速度需求,因此其数据管理提倡分层管理机 制,例如较为实时或者流数据的响应可以直接从内存或 者Flash(SSD)中存取,而离线的批处理可以建立在 带有多块磁盘的存储服务器上,有的可以存放在传统的 SAN或者NAS网络存储设备上,而备份数据甚至可以存 放在磁带机上。因而大数据的存储或者处理系统必须对 多种数据及软硬件平台有较好的兼容性来适应各种应用 算法或者数据提取转换与加载(ETL)。
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
大数据存储管理系统面临挑战的探讨
曹刚
(易安信信息技术研发(上海)有限公司 200433)
摘 要 日益发展的大数据研究和应用对大级别数据的存取、分析和再处理提出越来越高的要求,本文根据大数据存 储的定义和特点,主要探讨了稳定可靠的传统存储管理模式在大数据应用中面临的挑战,并对传统存储管理模式能否满 足大数据管理的需求进行了分析,同时介绍了业界较为知名的几个大数据存储管理系统的实际解决方案及其优缺点。
关键词 大数据 传统存储 存储管理 分布式 doi: 10.3969/j.issn.1674-7933.2013.06.004
Discussion of Challenges from the Big Data Storage Management System
CAO Gang
(EMC Information Technology Research & Development (Shanghai) Co., Ltd. Shanghai 200433, China)
SQL
手机
网络
社交网络
日志 传感器
数据提取转换和加载 ETL



大数据处理






大数据存储管理


数据输出
交互反馈
数据流结果 数据输出
离线数据报表
数据备份
图1 典型的大数据存储管理及处理系统架构
内最大的电子商务企业淘宝为例,根据淘宝网的数据显 示,至2011年底,淘宝网最高单日独立用户访问量超过 1.2亿人,比2010年同期增长120%,注册用户数量超过 4亿,在线商品数量达到8亿,页面浏览量达到20亿规 模,淘宝网每天产生4亿条产品信息,每天活跃数据量 已经超过50TB[2]。所以大数据的存储或者处理系统不仅 能够满足当前数据规模需求,更需要有很强的可扩展性 以满足快速增长的需求。
3 传统存储在大数据应用中面临的挑战
作为数据存取的载体,大数据存储管理系统与传统 的存储系统仍然具有许多相似的特性,例如安全性、可 用性、可靠性、可扩性及高效性。
1) 安全性(Security) 虽然大数据的存储访问是位于企业的数据中心内 部,对于外部用户已经具有防火墙隔离功能,但是对于 企业内部来说不同部门的数据也并非完全可以共享的, 例如人事部门对于企业内部工资的管理,或者金融企业 历史交易数据等。为每一个部门建立一个大数据的存储 管理平台并不现实,较为实用的方法是类似于传统的数 据库访问,所有部门共享一个大数据存储池,通过添加 必要的访问控制来实现数据访问的安全性。 2) 可用性(Availability)和可靠性(Reliability) 数据的准确性是作为存储管理系统最为基础的要
大数据自诞生以来其规模也在不断地发生改变,从 开 始 P B ( P E TA - B Y T E ) 级 别 正 快 速 地 发 展 到 E B (EXA-BYTE)级别,大数据规模的不断快速扩张是因 为其广泛的数据源,这些数据有的正如前面例子所提到 的,是每天线上跟踪用户日常行为所产生,或者是网络 中手机和传感器数据采集而来;有的则是企业自身多年 以来信息积累而成,例如金融行业历史数据来引导未来 的投资方向,又如最大的电子商务网站淘宝根据其历史 记录推出的数据魔方服务产品来帮助商家指定营销手 段;有的是服务系统日志收集而来,例如从网络服务器 的工作日志或者数据库日志中提取到。这些各种各样的 数据来自不同的设备或者应用,其格式也不尽相同,被 实时或事后采集并保存到大数据存储管理系统中,根据 不同的应用需求被大数据处理系统进行离线或实时或交 互式的处理,之后可能的用途包括:①成为最终的数据 报表反馈给应用开发人员或数据分析师;②成为快速查 询或者计算的结果反馈给前端应用服务;③成为更新后 的数据表格传送到数据库中以供查询;④被压缩成备份 数据存放到大数据存储集群中。大数据的存储与处理典 型架构(如图1)已经逐渐取代传统的数据仓库成为数 据中心核心部件,发挥着云计算时代重要的作用,并且 使得数据中心发生着巨大的变化,迎接新的挑战。
上拥有两份备份在不同的节点上,不同的机架上也有相
应的备份,从而达到数据丢失的自动还原功能实现数据
的可用性。而为了达到数据备份的一致性,在数据备份
创建的过程中也有相应的备份点及重传机制作为保障。
从技术方法上来说,两者是十分相似的,甚至在大数据
领域所采用的方法较之传统的存储系统技术更为简朴。 3) 可扩性(Scalability)
求,对于大数据的存储来说,其准确性的要求可能没有
传统数据库这么高,因为其数据规模庞大可以容忍较少
量的数据错误,但是数据准确性依然是不能忽视的重要
特性。传统的存储是通过冗余备份(例如磁盘阵列)、
定期/强制写入磁盘、双控制器来确保数据的准确性,而
在大数据存储系统中则是通过其中较为简单的多副本
(即冗余备份)方式做到容错的,一般来说同一个机架
无论是大数据存储系统还是传统的存储系统,容量
规划都是一个重要的问题,容量规划一是要满足现有的
软件工程 34
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
物体验。随着成千上万的终端用户的并行访问,仅用户 行为的跟踪就会产生巨量的数据,这些数据的处理与存 储对于互联网企业的传统数据仓库来说带来了新的问题 和挑战,从而“大数据”的概念应运而生。所谓大数据或 称巨量资料、海量资料,指的是所涉及的资料量规模巨 大到无法透过目前主流软件工具,在合理时间内达到撷 取、管理、处理、并整理成为帮助企业经营决策更积极 目的的资讯[1]。
35 软件工程
软件产业与工程
oftware Industry and Engineering
2013 年第 6 期 总第 24 期
不高可以离线完成,但是由于数据规模的庞大,较低的 数据传输带宽也会降低数据传输的效率,而造成数据迁 移瓶颈。因此大数据的存储与处理的速度或是带宽是其 性能上的重要指标。
Keywords Big Data Traditional Storage Storage Management Distributed
相关文档
最新文档