大数据存储方式概述

合集下载

大数据存储方式概述

大数据存储方式概述概述：随着大数据时代的到来，大数据存储成为了一项重要的技术挑战。

大数据存储方式的选择对于数据的处理和分析具有重要的影响。

本文将概述几种常见的大数据存储方式，包括分布式文件系统、关系型数据库、NoSQL数据库和数据仓库。

一、分布式文件系统：分布式文件系统是一种将文件存储在多个服务器上的文件系统。

它通过将文件划分为多个块，并将这些块分布在不同的服务器上，实现了数据的分布式存储。

常见的分布式文件系统包括Hadoop的HDFS和Google的GFS。

分布式文件系统具有高可靠性、高可扩展性和高性能的特点，适合于存储大规模的非结构化数据。

二、关系型数据库：关系型数据库是一种以表格的形式存储数据的数据库。

它使用结构化查询语言（SQL）进行数据的管理和查询。

关系型数据库具有严格的数据一致性和完整性，适合于存储结构化数据。

然而，关系型数据库在处理大规模数据时存在性能瓶颈，因为它们通常采用单机部署模式。

三、NoSQL数据库：NoSQL数据库是一种非关系型数据库，它放宽了对数据一致性和完整性的要求，追求高可扩展性和高性能。

NoSQL数据库适合于存储非结构化和半结构化数据。

常见的NoSQL数据库包括MongoDB、Cassandra和Redis等。

NoSQL数据库可以通过水平扩展来应对大规模数据的存储和处理需求。

四、数据仓库：数据仓库是一种用于存储和管理大量历史数据的数据库。

数据仓库通常采用多维模型，支持复杂的数据分析和查询。

数据仓库可以通过数据抽取、转换和加载（ETL）过程将来自不同数据源的数据集成到一个统一的存储中。

数据仓库适合于企业级的数据分析和决策支持。

综上所述，大数据存储方式的选择应根据数据的特点和应用场景来进行。

对于大规模的非结构化数据，分布式文件系统是一个理想的选择；对于结构化数据，关系型数据库和NoSQL数据库都是可行的方案；对于历史数据的分析和决策支持，数据仓库是一个重要的工具。

在实际应用中，通常会根据具体需求采用多种存储方式的组合，以达到最佳的存储和分析效果。

大数据存储方式概述

大数据存储方式概述概述：随着大数据时代的到来，数据的规模和复杂性不断增加，传统的存储方式已经无法满足大数据的存储需求。

因此，各种新的大数据存储方式应运而生。

本文将对几种常见的大数据存储方式进行概述，包括分布式文件系统、列式存储、键值存储、文档数据库和图数据库。

一、分布式文件系统分布式文件系统是一种将文件存储在多台计算机上的系统。

它通过将文件切分成多个块，并将这些块分散存储在不同的计算机上，实现了数据的分布式存储和并行处理。

常见的分布式文件系统有Hadoop的HDFS和Google的GFS。

这些系统具有高可靠性和可扩展性，能够处理大规模的数据。

二、列式存储列式存储是一种将数据按列而不是按行存储的方式。

相比于传统的行式存储，列式存储具有更好的压缩率和查询性能。

这是因为列式存储可以只加载需要的列，减少了IO操作，并且相同的数据在列式存储中是连续存储的，提高了压缩率。

常见的列式存储系统有Apache Parquet和Apache ORC。

三、键值存储键值存储是一种将数据存储为键值对的方式。

每个键都是唯一的，对应一个值。

键值存储适用于存储半结构化和非结构化的数据，如日志文件和用户行为数据。

键值存储具有高性能和高扩展性，可以快速地插入和查询数据。

常见的键值存储系统有Redis和Cassandra。

四、文档数据库文档数据库是一种将数据存储为文档的方式。

每个文档可以是一个JSON或XML格式的数据结构，可以包含不同的字段和嵌套结构。

文档数据库适用于存储复杂的、半结构化的数据。

它具有灵活的模式和良好的查询性能。

常见的文档数据库有MongoDB和Couchbase。

五、图数据库图数据库是一种以图为模型的数据库。

它将数据存储为节点和边的集合，节点表示实体，边表示实体之间的关系。

图数据库适用于存储关系复杂、结构化的数据，如社交网络和知识图谱。

它具有高效的图遍历和图查询能力。

常见的图数据库有Neo4j和JanusGraph。

大数据存储方式概述

大数据存储方式概述概述：随着大数据时代的到来，大数据的存储成为一个重要的问题。

大数据存储方式是指在存储大数据时所采用的技术和方法。

本文将对大数据存储方式进行概述，包括传统的存储方式和新兴的存储方式。

一、传统的存储方式：1. 关系型数据库存储方式：关系型数据库是一种结构化的数据存储方式。

它使用表格来组织数据，并使用SQL语言进行数据的管理和查询。

关系型数据库具有数据一致性、数据完整性和数据安全性等优势，但在处理大数据时存在性能瓶颈。

2. 文件系统存储方式：文件系统是一种将文件以层次结构进行组织和存储的方式。

它使用文件夹和文件的形式来存储数据，并通过文件路径进行访问。

文件系统具有简单易用、灵活性高的特点，但在处理大数据时存在存储空间的浪费和性能瓶颈的问题。

二、新兴的存储方式：1. 分布式文件系统存储方式：分布式文件系统是一种将数据分布在多个节点上进行存储的方式。

它将大数据分割成多个小文件，并将这些文件分布在不同的节点上。

分布式文件系统具有高可靠性、高扩展性和高性能的特点，能够有效地处理大数据。

2. NoSQL数据库存储方式：NoSQL数据库是一种非关系型数据库，它使用键值对、文档、列族和图等方式来存储数据。

NoSQL数据库具有高可扩展性、高性能和灵活性的特点，能够处理大规模的非结构化数据。

3. 对象存储方式：对象存储是一种将数据以对象的形式进行存储的方式。

它将数据以对象的形式进行封装，并通过唯一的标识符来进行访问。

对象存储具有高可靠性、高可扩展性和高性能的特点，适用于大规模的分布式存储。

4. 列式存储方式：列式存储是一种将数据按列进行存储的方式。

它将同一列的数据存储在一起，并使用压缩算法来减小存储空间。

列式存储具有高性能、高压缩比和高扩展性的特点，适用于大规模的数据分析。

三、总结：大数据存储方式的选择需要根据具体的需求来进行评估。

传统的存储方式适用于结构化数据和小规模的数据存储，而新兴的存储方式适用于非结构化数据和大规模的数据存储。

大数据存储方式概述

大数据存储方式概述概述：随着信息技术的发展，大数据已经成为当今社会中不可忽视的重要资源。

大数据存储方式的选择对于数据分析和处理的效率至关重要。

本文将对大数据存储方式进行概述，介绍常见的几种存储方式及其特点。

一、分布式文件系统分布式文件系统是大数据存储的基础。

它将数据分布在多个节点上，实现数据的分布式存储和访问。

常见的分布式文件系统有Hadoop HDFS、Google GFS等。

这些系统具有高可靠性、高扩展性和高吞吐量的特点，能够应对大规模数据的存储需求。

二、列式存储列式存储是一种针对大数据分析场景的存储方式。

相比于传统的行式存储，列式存储将数据按列存储，能够提高数据的压缩比和查询性能。

常见的列式存储系统有Apache Parquet、Apache ORC等。

这些系统适合于需要快速查询和分析大量数据的场景，如数据仓库和数据分析平台。

三、键值存储键值存储是一种简单高效的存储方式，将数据以键值对的形式存储。

键值存储系统通常具有高并发读写能力和良好的扩展性。

常见的键值存储系统有Apache HBase、Redis等。

这些系统适合于需要快速存储和查询大量小数据的场景，如实时计算和缓存系统。

四、文档数据库文档数据库是一种面向文档存储的数据库系统，将数据以文档的形式存储。

文档数据库具有灵便的数据模型和强大的查询能力。

常见的文档数据库有MongoDB、Couchbase等。

这些系统适合于需要存储和查询半结构化数据的场景，如内容管理系统和用户行为分析。

五、图数据库图数据库是一种专门用于存储和处理图结构数据的数据库系统。

图数据库以节点和边的形式存储数据，并提供了高效的图遍历和图算法支持。

常见的图数据库有Neo4j、Apache Giraph等。

这些系统适合于需要进行复杂关系分析和图计算的场景，如社交网络分析和推荐系统。

六、混合存储混合存储是一种将多种存储方式结合起来的存储方式。

通过将不同类型的数据存储在不同的存储系统中，可以更好地满足不同数据访问的需求。

大数据存储方式概述

大数据存储方式概述大数据存储方式是指将海量的数据以可靠、高效、可扩展的方式存储在计算机系统中。

随着大数据技术的发展，人们需要存储和处理越来越多的数据，传统的存储方式已经无法满足需求。

因此，研究人员和工程师提出了多种大数据存储方式，以便有效地存储和管理大规模的数据。

1.文件系统存储文件系统是计算机系统中常用的存储方式之一，也适用于大数据存储。

大数据文件系统具有分布式的特点，可以将数据分散存储在多个节点上，以提高数据的存储和处理性能。

常见的大数据文件系统包括Hadoop的HDFS和谷歌的GFS。

Hadoop的HDFS是一种可扩展的分布式文件系统，它可以将大文件切分成多个数据块，并将这些数据块复制到不同的节点上进行存储。

这样可以提高数据的可靠性和可用性，并实现数据的并行处理。

谷歌的GFS（Google File System）是一种为大规模数据存储而设计的分布式文件系统，它采用了类似的存储方式，将数据分块存储在多个节点上，通过多副本和容错机制来保证数据的高可用性。

2.列存储数据库传统的关系数据库采用的是行存储方式，即将一条记录的所有字段存储在一起。

而列存储数据库则将一列数据存储在一起，这样可以提高数据的压缩率和查询性能。

列存储数据库适用于大数据场景，可以支持高并发的读写操作，并提供了分布式计算和存储功能。

列存储数据库的核心思想是将数据按列存储在磁盘上，这样可以减少IO操作和数据冗余，提高数据的访问效率。

常见的列存储数据库包括HBase和Cassandra。

HBase是一个分布式的面向列的数据库，它可以在Hadoop平台上运行，支持高并发的读写操作和数据的实时查询。

HBase采用分布式的方式存储数据，并提供了高可用性和容错性。

Cassandra是一个分布式的面向列的数据库，它具有高可伸缩性和高性能的特点。

Cassandra采用分布式的方式存储数据，可以自动进行数据的复制和负载均衡，支持数据的分布式计算和存储。

大数据存储方式概述

大数据存储方式概述引言：随着信息技术的迅速发展，大数据已经成为当今社会的热门话题。

大数据的存储方式是实现大数据分析和应用的关键，本文将概述大数据存储方式的几种常见方法。

一、分布式文件系统1.1 Hadoop分布式文件系统（HDFS）：HDFS是大数据存储的主流解决方案之一。

它将数据切分成多个块，并将这些块分布式存储在集群中的多个节点上。

HDFS具有高容错性、高可靠性和高吞吐量的特点，适合存储大规模数据。

1.2 GlusterFS：GlusterFS是一个开源的分布式文件系统，采用了横向扩展的方式来处理大规模数据的存储。

它能够将多个服务器上的存储资源整合成一个统一的文件系统，提供高可靠性和高性能的数据存储。

1.3 Ceph：Ceph是一个分布式存储系统，可以提供对象存储、块存储和文件系统存储等多种存储方式。

Ceph具有高可靠性、可扩展性和自动数据恢复的特点，适用于大规模的数据存储和处理。

二、列式存储2.1 Apache Parquet：Parquet是一种列式存储格式，它将数据按列存储，可以提高查询性能和压缩比。

Parquet支持多种编程语言和数据处理框架，并且可以与Hadoop生态系统无缝集成，适用于大规模数据的存储和分析。

2.2 Apache ORC：ORC（Optimized Row Columnar）是一种优化的行列混合存储格式，可以提供高性能的数据读写和查询。

ORC支持列式存储和行式存储的混合模式，适用于大规模数据的存储和分析。

2.3 Apache Avro：Avro是一种数据序列化系统，可以将数据以二进制格式存储，并提供了丰富的数据类型和动态模式。

Avro支持多种编程语言和数据处理框架，适用于大规模数据的存储和传输。

三、内存数据库3.1 Apache Ignite：Ignite是一个内存计算平台，可以将数据存储在内存中，并提供分布式查询和分析功能。

Ignite支持SQL查询、机器学习和复杂事件处理等多种功能，适用于实时数据分析和处理。

大数据存储方式概述

大数据存储方式概述正文：1、引言大数据存储是指存储和管理海量、多样化和高速增长的数据的技术和方法。

随着数据量的不断增加，传统的存储方式已经无法满足大数据的存储和处理需求。

因此，大数据存储方式的选择对于有效地利用大数据资源是至关重要的。

2、大数据存储方式概述2.1 分布式文件系统分布式文件系统是一种通过网络连接将文件存储在多个节点上的方法。

这种存储方式可以有效地处理大数据的存储和处理需求，并提供高可靠性和可扩展性。

常见的分布式文件系统包括Hadoop分布式文件系统（HDFS）和GlusterFS等。

2.2 列式数据库列式数据库是一种将数据按列存储的数据库系统。

相比于传统的行式数据库，列式数据库在大数据分析和查询方面具有更好的性能。

它可以减少不必要的I/O操作，提高数据的压缩率，并支持高效的并行计算。

常见的列式数据库包括Apache Cassandra和HBase等。

2.3 内存数据库内存数据库是一种将数据存储在内存中的数据库系统。

它可以大幅提高数据的读写性能，适用于对实时性要求较高的应用场景。

内存数据库通常采用分布式架构，以支持高并发和高可用性。

常见的内存数据库包括Redis和Memcached等。

2.4 对象存储对象存储是一种使用唯一标识符（URI）来访问和管理数据的存储方式。

它将数据存储为对象，并可以根据对数据的需求进行灵活的存储和检索操作。

对象存储通常采用分布式存储架构，以支持大规模的数据存储和访问。

常见的对象存储系统包括Amazon S3和Google Cloud Storage等。

2.5 关系型数据库关系型数据库是一种使用表格和关系模型来存储数据的数据库系统。

尽管关系型数据库在大数据处理方面相对较慢，但它们仍然适用于一些需要事务支持和复杂查询的应用场景。

常见的关系型数据库包括MySQL和Oracle等。

2.6 NoSQL数据库NoSQL数据库是一类非关系型数据库，适用于处理大数据的存储和查询需求。

大数据存储方式概述

大数据存储方式概述概述：大数据存储是指为了存储和管理大规模数据而采取的一系列技术和方法。

随着数据量的不断增加和多样化数据的产生，如何高效地存储和管理大数据成为了一个重要的挑战。

本文将从传统存储方式到现代大数据存储技术进行概述，介绍各种存储方式的特点和应用场景。

传统存储方式：1. 文件系统存储：传统的文件系统（如FAT、NTFS）是最早被广泛使用的存储方式。

它通过将数据分割成固定大小的块进行存储，并使用目录结构进行管理。

然而，传统文件系统在处理大规模数据时存在性能瓶颈，无法满足大数据存储需求。

2. 关系型数据库：关系型数据库（如MySQL、Oracle）以表的形式存储数据，并使用SQL语言进行查询和管理。

它具有结构化、一致性和事务支持等特点，适用于处理结构化数据。

但是，关系型数据库在处理大规模非结构化数据时效率较低。

现代大数据存储技术：1. 分布式文件系统：分布式文件系统（如HDFS、Ceph）将大数据分布式地存储在多个节点上，通过数据冗余和容错机制确保数据的可靠性和高可用性。

它具有高吞吐量、横向扩展和容量无限等特点，适用于海量数据的存储和处理。

2. 列式存储：列式存储（如HBase、Cassandra）将数据按列存储，而不是按行存储。

它可以提高查询效率和压缩比率，适用于大规模数据的快速查询和分析。

3. NoSQL数据库：NoSQL数据库（如MongoDB、Redis）是一类非关系型数据库，它以键值对、文档、列族等形式存储数据。

它具有高可扩展性、灵活性和低延迟等特点，适用于半结构化和非结构化数据的存储和处理。

4. 冷热数据分离：冷热数据分离是一种将数据按照访问频率进行分类，并采用不同的存储方式进行管理的策略。

热数据通常存储在高速存储介质（如SSD），而冷数据存储在低成本的存储介质（如磁盘）。

这种方式可以提高数据的访问效率和降低存储成本。

5. 冗余备份：冗余备份是一种通过复制数据到多个节点来实现数据的冗余和容错的方式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据存储方式概述
随着信息社会的发展，越来越多的信息被数据化，尤其是伴随着Internet的发展，数据呈爆炸式增长。

从存储服务的发展趋势来看，一方面，是对数据的存储量的需求越来越大，另一方面，是对数据的有效管理提出了更高的要求。

首先是存储容量的急剧膨胀，从而对于存储服务器提出了更大的需求；其次是数据持续时间的增加。

最后，对数据存储的管理提出了更高的要求。

数据的多样化、地理上的分散性、对重要数据的保护等等都对数据管理提出了更高的要求。

随着数字图书馆、电子商务、多媒体传输等用的不断发展，数据从GB、TB 到PB量级海量急速增长。

存储产品已不再是附属于服务器的辅助设备，而成为互联网中最主要的花费所在。

海量存储技术已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,磁盘阵列与网络存储成为先锋。

一、海量数据存储简介
海量存储的含义在于，其在数据存储中的容量增长是没有止境的。

因此，用户需要不断地扩张存储空间。

但是，存储容量的增长往往同存储性能并不成正比。

这也就造成了数据存储上的误区和障碍。

海量存储技术的概念已经不仅仅是单台的存储设备。

而多个存储设备的连接使得数据管理成为一大难题。

因此，统一平台的数据管理产品近年来受到了广大用户的欢迎。

这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上，结合虚拟化软件对存储资源进行管理。

这样的产品无疑简化了用户的管理。

数据容量的增长是无限的，如果只是一味的添加存储设备，那么无疑会大幅增加存储成本。

因此，海量存储对于数据的精简也提出了要求。

同时，不同应用对于存储容量的需求也有所不同，而应用所要求的存储空间往往并不能得到充分利用，这也造成了浪费。

针对以上的问题，重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注和追捧。

重复数据删除通过文件块级的比对，将重复的数据块删除而只留下单一实例。

这一做法使得冗余的存储空间得到释放，从客观上增加了存储容量。

二、企业在处理海量数据存储中存在的问题
目前企业存储面临几个问题，一是存储数据的成本在不断地增加，如何削减开支节约成本以保证高可用性；二是数据存储容量爆炸性增长且难以预估；三是越来越复杂的环境使得存储的数据无法管理。

企业信息架构如何适应现状去提供一个较为理想的解决方案，目前业界有几个发展方向。

1.存储虚拟化
对于存储面临的难题，业界采用的解决手段之一就是存储虚拟化。

虚拟存储的概念实际上在早期的计算机虚拟存储器中就已经很好地得以体现，常说的网络存储虚拟化只不过是在更大规模范围内体现存储虚拟化的思想。

该技术通过聚合多个存储设备的空间，灵活部署存储空间的分配，从而实现现有存储空间高利用率，避免了不必要的设备开支。

存储虚拟化的好处显而易见，可实现存储系统的整合，提高存储空间的利用率，简化系统的管理，保护原有投资等。

越来越多的厂商正积极投身于存储虚拟化领域，比如数据复制、自动精简配置等技术也用到了虚拟化技术。

虚拟化并不是一个单独的产品，而是存储系统的一项基本功能。

它对于整合异构存储环境、降低系统整体拥有成本是十分有效的。

在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念。

考虑整个存储层次大体分为应用、文件和块设备三个层次，相应的虚拟化技术也大致可以按这三个层次分类。

目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技术，使得用户能够方便地使用。

2.容量扩展
目前而言，在发展趋势上，存储管理的重点已经从对存储资源的管理转变到对数据资源
的管理。

随着存储系统规模的不断扩大，数据如何在存储系统中进行时空分布成为保证数据的存取性能、安全性和经济性的重要问题。

面对信息海量增长对存储扩容的需求，目前主流厂商均提出了各自的解决方案。

由于存储现状比较复杂，存储技术的发展业界还没有形成统一的认识，因此在应对存储容量增长的问题上，尚存在很大的提升空间。

技术是发展的，数据的世界也是在不断变化的过程中走向完美。

企业信息架构的“分”与“合”的情况并不绝对。

目前、出现了许多的融合技术，如NAS与SAN的融合，统一存储网等等。

这些都将对企业信息架构产生不同的影响。

至于到底采用哪种技术更合适，取决于企业自身对数据的需求。

三、海量数据存储技术
为了支持大规模数据的存储、传输与处理，针对海量数据存储目前主要开展如下三个方向的研究：
1. 虚拟存储技术
存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射，通过虚拟化技术，为用户和应用程序提供了虚拟磁盘或虚拟卷，并且用户可以根据需求对它进行任意分割、合并、重新组合等操作，并分配给特定的主机或应用程序，为用户隐藏或屏蔽了具体的物理设备的各种物理特性。

存储虚拟化可以提高存储利用率，降低成本，简化存储管理，而基于网络的虚拟存储技术已成为一种趋势，它的开放性、扩展性、管理性等方面的优势将在数据大集中、异地容灾等应用中充分体现出来。

2. 高性能I/O
集群由于其很高的性价比和良好的可扩展性，近年来在HPC领域得到了广泛的应用。

数据共享是集群系统中的一个基本需求。

当前经常使用的是网络文件系统NFS或者CIFS。

当一个计算任务在Linux集群上运行时，计算节点首先通过NFS协议从存储系统中获取数据，然后进行计算处理，最后将计算结果写入存储系统。

在这个过程中，计算任务的开始和结束阶段数据读写的I/O负载非常大，而在计算过程中几乎没有任何负载。

当今的Linux集群系统处理能力越来越强，动辄达到几十甚至上百个TFLOPS，于是用于计算处理的时间越来越短。

但传统存储技术架构对带宽和I/O能力的提高却非常困难且成本高昂。

这造成了当原始数据量较大时，I/O读写所占的整体时间就相当可观，成为HPC集群系统的性能瓶颈。

I/O 效率的改进，已经成为今天大多数Linux并行集群系统提高效率的首要任务。

3. 网格存储系统
高能物理的数据需求除了容量特别大之外，还要求广泛的共享。

比如运行于BECPII上的新一代北京谱仪实验BESIII，未来五年内将累积数据5PB，分布在全球20多个研究单位将对其进行访问和分析。

因此，网格存储系统应该能够满足海量存储、全球分布、快速访问、统一命名的需求。

主要研究的内容包括：网格文件名字服务、存储资源管理、高性能的广域网数据传输、数据复制、透明的网格文件访问协议等。

四、海量数据处理时容易出现的问题分析
1. 数据量过大，数据中什么情况都可能存在。

处理海量数据时，由于软件与硬上都具有很高的要求，可能会造成系统崩溃和硬件损坏,将导致处理程序终止。

2. 软硬件要求高，系统资源占用率高。

对海量的数据进行处理，除了好的方法，最重要的就是合理使用工具，合理分配系统资源。

一般情况，如果处理的数据过TB级，小型机是要考虑的，普通的机子如果有好的方法可以考虑，不过也必须加大CPU和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取胜的。

3. 要求很高的处理方法和技巧。

这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验的积累，也是个人的经验的总结。

没有通用的处理方法，但有通用的原理和规则。

五、海量数据存储的处理方法
1. 选用优秀的数据库工具
2. 编写优良的程序代码
3. 对海量数据进行分区操作
4. 建立广泛的索引
5. 建立缓存机制
6. 加大虚拟内存
7. 分批处理
8. 使用临时表和中间表
9. 优化查询SQL语句10. 使用文本格式进行处理11. 定制强大的清洗规则和出错处理机制12. 建立视图或者物化视图13. 避免使用32位机子（极端情况）14. 考虑操作系统问题15. 使用数据仓库和多维数据库存储16. 使用采样数据，进行数据挖掘17. 海量数据关联存储
六、海量数据是发展前景
海量数据存储技术的发展前展，可以归结为以下几个方面：
高容量光存储技术的到来可以说改变了目前的存储格局，为原本暗淡的光存储带来了一线生机。

虽然光存储器的支持者们一直宣传该技术将成为下一代伟大的存储技术，但是即便在它得到广泛推广之后，其企业客户基础在整个市场上的份额仍然很小。

分布式存储与P2P存储：分布式存储概念提出较早，目前再次成为热点。

P2P存储可以看作分布式存储的一种，是一个用于对等网络的数据存储系统，它的目标是提供高效率的、鲁棒和负载平衡的文件存取功能。

数据网格：为了满足人们对高性能、大容量分布存储能力的要求所提出的概念，类似于计算网格，是有机的智能单元的组合。

智能存储系统：包括主动的信息采集，主动信息分、主动调整等。

存储服务质量QoS：应用环境越来越复杂，存储需求区别也越来越明显，这就需要为应用提供区分服务。

目前的研究以基于网络存储的QoS为主。

存储容灾：通过特定的容灾机制，能够在各种灾难损害发生后，最大限度地保障计算机信息系统不间断提供正常应用服务。