云计算之分布式存储
云计算下的大规模分布式数据处理与存储技术

云计算下的大规模分布式数据处理与存储技术随着互联网技术的发展,网络数据的存储和处理需求越来越高。
云计算作为一种关键的技术手段,为大规模分布式数据处理与存储提供了便捷的解决方案。
本文将对云计算下的大规模分布式数据处理与存储技术进行介绍和分析。
一、大规模分布式数据处理技术云计算技术提供了针对大规模分布式数据处理的解决方案。
在传统的数据处理模式中,计算任务通常被局限在一台服务器上,而在云计算模式下,计算任务可以被分布在多台服务器上,形成一种分布式计算的方式。
具体而言,大规模分布式数据处理技术可以分为以下三种类型:批量处理、流处理和交互式查询处理。
1. 批量处理批量处理是指将数据集分配给一个或多个计算机节点,同时以批量方式进行计算,计算结果在完成后输出。
批量处理广泛应用于数据挖掘、日志分析、机器学习等领域。
Hadoop是一个典型的批量处理系统,它采用了分布式文件系统HDFS,并提供了MapReduce框架,使得用户可以将一个大的计算任务分布到多台服务器上进行并行计算。
2. 流处理流处理是指处理在流中不断产生的数据,通常需要快速响应。
在大规模分布式数据处理中,流处理涉及到一些具有高速处理、低延迟和高吞吐能力的技术,如Apache Storm、Apache Flink等。
这些平台提供了一种可处理数据流的分布式计算环境,使我们能够根据数据的到达时间进行实时计算和相应的数据处理。
3. 交互式查询处理交互式查询处理是指在数据工作负载中查询数据时给出即时响应的能力。
HIVE、Presto和Apache Impala是一些常用的交互式查询处理系统。
在这些系统中使用列式存储、索引和缓存等技术来加速查询的速度。
二、大规模分布式数据存储技术大规模分布式数据存储技术是指将几乎无限数量的数据分散存储在多个存储节点上,以提高数据处理速度和可靠性。
云计算下的大规模分布式数据存储技术包括分布式文件系统、键/值存储以及分布式数据库。
1. 分布式文件系统分布式文件系统是一种将文件分布存储在多个计算机节点上的存储系统。
云计算存储的原理和应用

云计算存储的原理和应用一、什么是云计算存储云计算存储是指利用云计算技术来存储和管理数据的一种方式。
它通过将数据存储在云端服务器上,用户可以随时随地通过网络访问自己的数据。
云计算存储的原理是将数据分散存储在多个服务器上,通过虚拟化技术将这些服务器组织起来形成一个存储集群,提供高可靠性、高可用性和高性能的数据存储服务。
二、云计算存储的原理云计算存储的原理主要包括以下几个方面:1.分布式存储:云计算存储采用分布式存储的方式,将数据分散存储在多个服务器上。
这样可以提高数据的可靠性和可用性,一台服务器出现故障时,数据仍然可以从其他服务器上访问。
2.虚拟化技术:云计算存储利用虚拟化技术将多台服务器组织起来形成一个存储集群。
通过虚拟化技术,可以将多个物理存储设备抽象为一个逻辑存储设备,用户只需要访问逻辑存储设备,无需关心其背后的物理存储设备。
3.数据冗余备份:云计算存储会对用户的数据进行冗余备份,将数据存储在多个服务器上。
这样一旦某个服务器出现故障,可以及时恢复数据,保证数据的安全性。
4.数据部署策略:云计算存储还会根据数据的大小、访问频率等因素,采用不同的部署策略。
对于大数据,可以采用分布式存储的方式,将数据切分成多个小块存储在不同的服务器上;对于访问频率较高的数据,可以将其缓存到离用户更近的服务器上,提高访问速度。
三、云计算存储的应用云计算存储在各个领域都有着广泛的应用,下面列举了一些应用场景:1.云盘服务:云盘服务是云计算存储最常见的应用之一。
用户可以将自己的文件上传到云盘中,随时随地访问和分享这些文件。
同时,云盘服务还提供数据备份和恢复功能,确保用户数据的安全性。
2.大数据存储与处理:云计算存储能够满足大数据存储和处理的需求。
通过将大数据分散存储在多台服务器上,并利用虚拟化技术进行管理,可以高效地存储和处理大规模的数据。
3.企业存储解决方案:云计算存储可以作为企业的存储解决方案。
企业可以将自己的数据存储在云端服务器上,员工可以随时访问和共享这些数据,无需再局限于办公室内部。
云计算中的软件定义存储与分布式存储

云计算中的软件定义存储与分布式存储随着信息技术的不断发展和进步,云计算已经成为现代企业信息管理的重要手段。
然而,随之而来的数据爆炸和对数据存储的高要求,对存储系统提出了新的挑战。
为了满足这些需求,软件定义存储(Software-Defined Storage,SDS)和分布式存储被广泛应用于云计算环境,为企业提供了高效的数据存储和管理解决方案。
一、软件定义存储(SDS)软件定义存储是一种基于软件来实现存储功能的技术,通过将存储控制器与硬件存储解耦,实现存储资源的虚拟化和集中管理。
SDS不依赖于特定的硬件设备,而是通过软件定义的方式提供存储服务,使得存储系统更加灵活和可扩展。
1. 软件定义存储的特点软件定义存储具有以下几个显著特点:a. 虚拟化:SDS通过将存储资源虚拟化,使得用户可以根据实际需求灵活配置和调整存储空间,并实现对存储资源的集中管理。
b. 弹性扩展:SDS具有良好的可扩展性,可以根据业务需求快速添加和移除存储节点,实现存储资源的弹性扩展。
c. 自动化管理:SDS可以通过自动化的管理手段,实现对存储资源的智能化管理,提高存储系统的可用性和性能。
d. 数据安全性:SDS提供了多种数据保护和备份的机制,保证数据的安全性和可靠性。
2. 软件定义存储的应用软件定义存储广泛应用于云计算环境中,主要有以下几个方面:a. 虚拟化存储:SDS可以与虚拟化平台结合,为虚拟机提供高效的存储服务,提高虚拟化环境的性能和可用性。
b. 分布式存储:SDS可以实现分布式存储的功能,将多个存储设备组合成一个逻辑存储池,提供高可用性和扩展性的存储服务。
c. 大数据存储:SDS可以通过与大数据平台的结合,提供高性能和高可扩展性的存储解决方案,满足对大数据存储和分析的需求。
二、分布式存储分布式存储是一种将数据分散存储在不同节点上的存储技术,通过将数据切分成多个片段存储在不同的节点上,实现数据的分布式存储和管理。
分布式存储可以提供高可用性和可扩展性的存储服务,适用于大规模的数据存储场景。
云计算与分布式存储

云计算与分布式存储云计算和分布式存储是当今信息技术领域的两个重要概念。
随着信息技术的快速发展,云计算作为一种新型的存储和处理数据的方式,与传统的分布式存储技术相辅相成,为人们提供了更加高效、安全和灵活的数据管理方式。
本文将从云计算和分布式存储的概念、特点以及在实际应用中的优势等方面进行探讨。
一、云计算的概念和特点云计算,简单来说,是指通过网络将计算和数据存储等资源集中管理和运营的一种模式。
它的特点主要体现在以下几个方面。
1. 虚拟化技术:云计算采用虚拟化技术,将物理设备虚拟成多个逻辑上的资源,并通过软件进行管理和调度。
这种方式能够充分利用计算资源,提高资源利用率。
2. 弹性扩展:云计算可以根据用户需求快速扩展和收缩资源,满足用户的实时需求。
无论是增加计算能力还是扩展存储空间,都可以快速完成。
3. 高可用性:云计算采用分布式架构,可以将计算和存储资源分布在不同的地理位置,从而提高系统的可用性。
即使某个节点出现故障,也可以通过其他节点继续提供服务。
二、分布式存储的概念和特点分布式存储是一种将数据分散存储在不同的物理设备上的技术。
与传统的集中式存储相比,分布式存储具有以下特点。
1. 数据冗余:分布式存储会将数据分散存储在不同的节点上,这样即使某个节点发生故障,也可以从其他节点中恢复数据。
这种冗余备份的方式,大大提高了数据的安全性和可靠性。
2. 高性能:分布式存储通过并行处理和负载均衡技术,可以提供更高的数据读写速度和更好的响应时间。
3. 可扩展性:分布式存储可以根据需要快速扩展存储容量,不需要进行大规模的硬件升级。
通过添加新的存储节点,可以实现存储容量的线性扩展。
三、云计算与分布式存储的关系与优势虽然云计算和分布式存储是两个不同的概念,但在实际应用中它们常常相辅相成。
1. 数据的存储与计算分离:云计算将数据存储和计算分离,可以将数据存储在分布式存储系统中,而计算任务则在云计算平台上进行。
这样既可以充分利用存储资源,又可以提高计算的灵活性和效率。
云计算——分布式存储

THANKS
感谢观看
云计算——分布式存储
汇报人: 2023-12-14
目录
• 分布式存储概述 • 分布式存储技术原理 • 分布式存储系统架构 • 分布式存储应用场景 • 分布式存储性能优化策略 • 分布式存储安全问题及解决方案
01
分布式存储概述
定义与特点
定义
分布式存储是一种数据存储技术,它通过将数据分散到多个独立的节点上,以 实现数据的分布式存储和访问。
云计算平台建设
01
02
03
云存储服务
分布式存储作为云计算平 台的核心组件,提供高效 、可扩展的存储服务。
云服务集成
与其他云服务(如计算、 网络、安全等)紧密集成 ,形成完整的云计算解决 方案。
自动化运维与管理
通过自动化工具实现分布 式存储系统的运维和管理 ,提高效率。
物联网数据存储与处理
实时数据采集
现状
目前,分布式存储技术已经成为了云计算领域的重要组成部 分,各大云服务提供商都提供了基于分布式存储的云存储服 务。同时,随着技术的不断发展,分布式存储的性能和稳定 性也在不断提高。
优势与挑战
优势
分布式存储具有高性能、高可用性、安全性、容错性和可维护性等优势,它可以 提供更加高效、灵活和可靠的数据存储服务,同时还可以提供更加灵活的扩展能 力,以满足不断增长的数据存储需求。
支持物联网设备实时采集 数据,并存储在分布式存 储系统中。
数据处理与分析
对物联网数据进行处理和 分析,提取有价值的信息 。
智能决策与控制
基于物联网数据分析结果 ,实现智能决策和控制, 提高生产效率。
05
分布式存储性能优化策略
数据压缩与解压缩技术
云存储原理:分布式、可扩展的数据存储

云存储原理:分布式、可扩展的数据存储云存储是一种基于云计算架构的数据存储服务,它提供了分布式、可扩展、高可用、灵活的存储解决方案。
以下是云存储的基本原理:分布式存储:云存储系统采用分布式存储架构,将数据分散存储在多个物理或虚拟节点上。
这样的设计有助于提高系统的可靠性和可用性,因为即使某个节点发生故障,其他节点仍然可以提供服务。
可扩展性:云存储系统具有良好的可扩展性,可以根据需求动态地扩展存储容量和吞吐量。
新的存储节点可以被轻松地添加到系统中,以适应数据量的增长。
数据冗余与备份:为了提高数据的可靠性,云存储系统通常采用数据冗余和备份策略。
数据可能会在不同的地理位置进行备份,以防止因自然灾害、硬件故障等原因导致的数据丢失。
对象存储:云存储通常采用对象存储模型,将数据以对象的形式存储。
每个对象包含数据、元数据(描述数据的信息)以及唯一的标识符。
对象存储适用于大规模数据和非结构化数据。
访问控制和安全性:云存储系统提供细粒度的访问控制,以确保只有授权用户能够访问其存储的数据。
此外,数据在传输和存储过程中通常会采用加密等手段确保安全性。
云服务接口:云存储通过云服务接口(如Amazon S3、Microsoft Azure Blob Storage)向用户提供访问和管理数据的能力。
这些接口通常支持标准的HTTP协议,使得开发者可以使用常见的工具和库进行数据的上传、下载和管理。
弹性计算:云存储与云计算服务相结合,使得用户可以在需要时将存储和计算资源进行动态调整,从而更灵活地满足业务需求。
服务级别协议(SLA):云存储提供商通常会制定服务级别协议,明确了服务的性能、可用性、故障处理等方面的承诺。
这有助于用户了解服务的质量和性能。
总体而言,云存储的原理基于分布式系统、可扩展性、数据冗余与备份等核心概念,以提供高效、可靠、安全的数据存储服务。
云计算技术将你的电脑数据存储在云端

云计算技术将你的电脑数据存储在云端云计算技术,是基于互联网的一种计算方式,它通过将计算机数据存储在云端服务器中,实现了数据的远程存取和共享。
云计算技术的出现,使得用户无需依赖本地存储设备,即可随时随地访问个人数据,为人们的生活、工作和娱乐等提供了极大的便利。
一、云计算技术的基本原理云计算技术通过将数据存储在云端服务器中,用户只需通过网络连接,即可实现数据的远程存取。
云计算的基本原理包括以下几点:1. 虚拟化技术:云计算通过虚拟化技术将物理设备抽象为虚拟资源,使得多个用户可以共享同一台物理设备,提高了资源的利用率。
2. 分布式存储:云计算使用分布式存储技术,将用户的数据分散存储在多台云端服务器中,提高数据的可靠性和可用性。
3. 弹性扩展:云计算技术可以根据用户的需求动态调整资源配置,实现弹性扩展,满足用户在不同时间段对计算资源的需求。
二、云计算技术的优势云计算技术的出现,带来了许多优势,使得用户能够以更高效、更经济、更灵活的方式管理和存取自己的数据。
1. 数据的安全性:云端服务器采取多层次的安全措施,包括数据加密、访问控制等,确保用户数据的安全性和隐私性。
2. 可靠性和可用性:云计算通过分布式存储和冗余备份等技术,提高了数据的可靠性和可用性,避免了单点故障的影响。
3. 成本效益:云计算允许用户按需使用计算资源,避免了购买昂贵的硬件设备和维护成本,降低了用户的总体成本。
4. 灵活性和可扩展性:云计算技术可以根据用户需求动态调整资源配置,实现资源的弹性扩展,满足用户在不同业务场景下的需求。
5. 协同工作:云计算技术提供了多用户共享数据的功能,使得用户可以在云端进行协同工作,提高了工作效率和团队协作能力。
三、云计算技术的应用场景云计算技术已经广泛应用于各个领域,为人们的生活和工作带来了诸多便利。
以下是云计算技术的几个主要应用场景:1. 个人数据存储和备份:用户可以将个人数据存储在云端,实现随时随地的访问和共享,并通过定期备份数据,避免数据丢失的风险。
云计算下的大数据存储与处理

云计算下的大数据存储与处理大数据存储与处理是云计算的核心内容之一。
随着云计算的兴起和发展,人们面临着海量数据的存储和处理难题。
本文将从云计算下的大数据存储和大数据处理两个方面进行探讨。
一、云计算下的大数据存储1. 分布式存储系统为了应对海量数据的存储需求,传统的单机存储已经无法满足,分布式存储系统应运而生。
分布式存储系统将数据分散存储在多个节点上,通过数据冗余和数据块划分等技术确保数据的高可用性和可靠性。
2. 对象存储对象存储是大数据存储的一种重要方式。
它通过将文件切分成对象,并为每个对象分配一个唯一的标识符来存储和管理数据。
对象存储具有高扩展性和高并发性,适用于存储非结构化的数据。
3. 列存储为了提高大数据的查询和分析效率,列存储成为了目前流行的存储方式之一。
列存储将数据按照列的形式存储,而不是传统的以行为单位存储。
这样可以提高数据的读取速度和压缩率,适用于大规模数据的分析和计算。
二、云计算下的大数据处理1. 分布式计算框架为了高效地处理大规模数据,分布式计算框架被广泛应用于云计算环境中。
例如,Hadoop和Spark等分布式计算框架可以将任务分发给集群中的多台计算节点并行处理,大大提高了计算的效率。
2. 批处理与流式处理大数据处理一般包括批处理和流式处理两种模式。
批处理适用于对静态数据进行离线分析,而流式处理则适用于对实时数据进行实时处理和响应。
云计算下的大数据处理平台需要同时支持批处理和流式处理,以满足不同的应用需求。
3. 机器学习与人工智能随着机器学习和人工智能的发展,大数据处理也越来越与之密切相关。
通过利用大数据训练机器学习模型,可以提高模型的准确性和泛化能力。
云计算下的大数据处理平台不仅要支持数据的存储和处理,还要提供机器学习算法和工具,以便用户进行模型训练和推理。
总结:云计算下的大数据存储与处理是一个庞大且复杂的体系,需要使用各种技术和工具来应对。
分布式存储系统和对象存储是大数据存储的重要方式,而列存储则提高了数据的读取效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
阶段
产生的技术 背景
负载特征
典型代表
主要的创新技术
性能评价 标准
树型目录结构 Unix FS 分时操作系统 单机文件系统 多用户共享 磁盘 FFS 多用户并发访问 多进程并发访问 LFS JFS WAFL XFS ZFS 索引节点(i-node) 流式访问接口 柱面组 元数据修改日志 B+树组织 写时复制 存储池 局域网 网络文件系统 TCPP/IP 协议 RAID FC 网络 多客户端共享访问 多用户共享访问 NFS AFS NAS SAN 文件系统 XDR RPC VFS 无状态服务器 多服务器结构 文件的条带化存储 并行 I/O 接口 元数据管理与数据存储 分离 并行 I/O 带宽 聚合 I/O 带宽 I/O 请求响应时间 聚合 I/O 带宽
• 分布式表系统主要用于存储半结构化数据。 • 与分布式键值系统相比,分布式表系统不仅仅支持简单的 CRUD操作,而且支持扫描某个主键范围。 • 分布式表系统以表格为单位组织数据,每个表格包括很多行, 通过主键标识一行,支持根据主键的CRUD功能以及范围查 找功能。 • 典型的分布式表系统包括Google Bigtable、Microsoft Azure Table Storage、Amazon DynamoDB等。
• 分布式存储面临的应用场景和数据需求都比较复杂,根据数据类型, 可以将其分为非结构化数据、结构化数据、半结构化数据三类。 • 正因为数据类型的多样性,不同的分布式存储系统适合处理不同类 型的数据,因此可以将分布式存储系统分为四类: 1. 分布式文件系统 2. 分布式键值(Key-Value)系统 3. 分布式表系统 4. 分布式数据库
• 通过将磁盘存储系统和服 务器直接相连的方式提供 一个易扩展、高可靠的存 储环境,高可靠的光纤通 道交换机和光纤通道网络 协议保证各个设备间链接 的可靠性和高效性。设备 间的连接接口主要是采用 FC或者SCSI。
图5.3 SAN网络结构
• 通过基于TCP/IP的各种 上层应用在各工作站和 服务器之间进行文件访 问,直接在工作站客户 端和NAS文件共享设备之 间建立连接,NAS隐藏了 文件系统的底层实现, 注重上层的文件服务实 现,具有良好的扩展性
• 20世纪90年代后期,随着互联网的发展,出现了搜索引擎这样的海 量文本数据检索工具。搜索引擎需要高吞吐率、低成本、高可靠的系 统,而非高峰值处理性能的系统。于是产生了以谷歌的Google File System(GFS)、MapReduce 为代表的新型数据处理架构。 • GFS的底层平台是大规模(数千台到数万台)的、廉价的、可靠性较 低的PC集群,存储设备是集群中每个节点上的多块IDE磁盘 • 谷歌架构被互联网企业广泛采用,现在流行的Hadoop就是GFS和 MapReduce的一种开源实现,被很多企业采用。
+ 5.1 分布式存储的基础
+ 5.2 文件存储
+ 5.3 从单机存储系统到分布式存储系统
Domain expertise
+ 5.4 实践:分布式存储系统Ceph
Machine Learning
Mathematics
Data engineering
5.1.1 基本概念 5.1.2 分布式存储分类 5.1.3 分布式存储的发展历史
5.2.1 5.2.2 5.2.3 5.2.4 5.2.5
单机文件系统 网络文件系统 并行文件系统 分布式文件系统 高通量文件系统
• 现代文件系统的起源要追溯到分时操作系统时期。1965年,在 Multics操作系统中首次提出使用树型结构来组织文件、目录以及访 问控制的思想。这些思想被后来的UNIX文件系统(1973年)所借鉴。 从结构上看,它包括四个模块:引导块、超级块、索引节点和数据块。 • 为解决UNIX文件系统I/O性能低的问题,先后出现了1984年的快速文 件系统(Fast File System,FFS)和1992年的日志结构文件系统 (Log-Structured File,LFS)。 • 20世纪90年代至今,出现了很多单机文件系统。包括SGI公司于1994 年发布的XFS,以及Sun公司于2004年发布的ZFS。
• 早期的并行文件系统有BFS(Bridge File System)和CFS(Concurrent File System)等。它们运行在MPP(Massively Parallel Processing, MPP)结构的超级计算机上。。 • 20世纪90年代中期,开源的Linux操作系统逐渐成熟并得到广泛使用, 为了能在越来越多的Linux集群上运行,出现了以PVFS和Lustr为代表 的Linux集群上的并行文件系统。它们吸收了MPP并行文件系统的很 多思想,包括采用一个专门的元数据服务器来维护和管理文件系统的 命名空间,以及将文件数据条带化并分散存储在所有的存储服务器上 等。
5.1.3 分布式存储的发展历史
4.21世纪的代表:Cassandra、HBase、MongoDB、DynamoDB (3) MongoDB:文档型数据库同键值(Key-Value)型的数 据库类似,是键值型数据库的升级版,允许嵌套键值,Value 值是结构化数据,数据库可以理解Value的内容,提供复杂的 查询,类似于RDBMS的查询条件。 (4) DynamoDB:Amazon公司的一个分布式存储引擎,是 一个经典的分布式Key-Value存储系统,具备去中心化、高可 用性、高扩展性的特点。
• 分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件。
图5.1 数据块与Blob对象、定长块、大文件之间的关系
• 分布式键值系统用于存储关系简单的半结构化数据,它提供 基于主键的CRUD(Create/Read/ Update/Delete)功能,即 根据主键创建、读取、更新或者删除一条键值记录。典型的 系统有Amazon Dynamo。 • 分布式键值系统是分布式表系统的一种简化,一般用作缓存, 比如Memcache。 • 从数据结构的角度看,分布式键值系统支持将数据分布到集 群中的多个存储节点。 • 一致性散列是分布式键值系统中常用的数据分布技术,由于 在众多系统中被采用而变得非常有名。
5.1.3 分布式存储的发展历史
2.20世纪90年代的代表:XFS、Tiger Shark、SFS
XFS:加州大学伯克利分校(UC Berkeley)开发了XFS文件系统,克服 了以往分布式文件系统只适用于局域网而不适用于广域网和大数据存储 的问题,提出了广域网进行缓存较少网络流量设计思想,采用层次命名 结构,减少Cache一致性状态和无效写回Cache一致性协议,从而减少 了网络负载,在当时获得了一定的成功。
图5.5 GFS架构图
图5.6 HDFS总体结构示意图
5.1.3 分布式存储的发展历史
4.21世纪的代表:Cassandra、HBase、MongoDB、DynamoDB (1) Cassandra:是一套开源分布式NoSQL数据库系统,最 初由Facebook开发,用于储存收件箱等简单格式数据,集 GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的 架构于一身。 (2) HBase:列存储数据库,擅长以列为单位读取数据,面 向列存储的数据库具有高扩展性,即使数据大量增加也不会 降低相应的处理速度,特别是写入速度。
+ 分布式存储系统的定义:分布式存储系统是将为数众多的普通
计算机或服务器通过网络进行连接,同时对外提供一个整体的 存储服务。 + 分布式存储系统包括以下几个特性:
– – – – 高性能 可扩展 低成本 易用性
+ 分布式存储系统的技术挑战包括:数据和状态信息的持久化、
数据的自动迁移、系统的自动容错、并发读写的数据的一致性 等方面。
• NFS(Network File System,网络文件系统)由Sun公司在1984年开 发,被认为是第一个广泛应用的现代网络文件系统。NFS的设计目标 是提供跨平台的文件共享系统。由于NFS的实现和设计思想都相对简 单,该协议很快被纳入到RFC标准,并开始大量应用。然而,NFS单 一服务器的结构也决定了它的扩展性有限。 • AFS(Andrew File System)是美国卡耐基· 梅隆大学1982年开发的分 布式文件系统。其设计目标是支持5000~10000个节点的集群,扩 展性是首要考虑的因素。与NFS等系统不同的是,AFS中有多个服务 器,整个命名空间被静态地划分到各个服务器上,因此,AFS具有更 好的扩展性。
存储的发展历史
1.20世纪80年代的代表:AFS、NFS、Coda (1) AFS:1983年CMU和IBM共同合作开发了Andrew文件系 统(Andrew File System,AFS) (2) NFS:1985年,Sun公司基于UDP开发了网络共享文件 系统(Network File System, NFS) (3) Coda:1987年,CMU在基于AFS的基础上开发了Coda 文件系统
5.1.3 分布式存储的发展历史
3.20世纪末的代表: (1) SAN(Storage Area Network) (2) NAS(Network Attached Storage) (3) GPFS (General Parallel File System) (4) GFS (Google File System) (5) HDFS (Hadoop Distributed File System)
图5.4 NAS存储网络结构
• GPFS是IBM公司开发的共享文件系统,起源于IBM SP系统 上使用的虚拟共享磁盘技术。
• GPFS是一个并行的磁盘文件系统,它保证在资源组内的所 有节点可以并行访问整个文件系统。
• GPFS允许客户共享文件,而这些文件可能分布在不同节点 的不同硬盘上。它同时还提供了许多标准的UNIX文件系统 接口,允许应用不需修改或者重新编辑就可以在其上运行。