BeeGFS在高性能计算的应用

合集下载

beegfs 对称式

beegfs 对称式

beegfs 对称式## BeeGFS 对称式文件系统概述BeeGFS 是一种分布式文件系统,专为高性能计算 (HPC) 环境而设计。

它采用对称式架构,其中所有节点在系统中具有同等地位,并且都可以访问底层存储资源。

### 架构组件BeeGFS 对称式架构的核心组件包括:元数据服务器 (MDS):管理文件系统元数据,如文件和目录信息。

存储服务器 (SS):存储文件数据。

客户端节点:访问文件系统并从中读取和写入数据。

### 元数据管理在 BeeGFS 对称式架构中,元数据分布在所有 MDS 节点上,每个 MDS 节点维护不同数据集的副本。

这提供了元数据高可用性和冗余。

客户端节点可以从任何 MDS 节点检索元数据,即使其中一个节点出现故障。

### 数据存储文件数据存储在 SS 节点上,这些节点可以组织成存储池。

BeeGFS 使用条带化技术将文件数据跨多个 SS 节点分散,以实现高吞吐量。

数据冗余通过副本或奇偶校验机制提供,确保数据的可用性和完整性。

### 客户访问客户端节点通过安装 BeeGFS 客户端软件访问文件系统。

该客户端软件为应用程序提供了对文件系统操作的接口,例如读写、创建和删除文件。

客户端节点可以将文件系统挂载到其本地文件系统,并在其上进行操作,就像本地文件系统一样。

### 性能优化BeeGFS 对称式架构针对 HPC 工作负载进行了优化。

以下特性有助于提高性能:并行访问:客户端节点可以并发地访问文件系统,而不会出现竞争或性能下降。

高吞吐量:条带化和分布式存储架构实现高数据传输速率,满足 HPC 应用程序的密集型 I/O 需求。

低延迟:元数据分布和数据本地化技术减少了延迟,提高了应用程序响应时间。

### 部署考虑部署 BeeGFS 对称式文件系统时,需要考虑以下因素:节点数量:系统中节点的数量取决于工作负载和性能要求。

存储容量:SS 节点上存储容量的大小将确定文件系统可存储的数据量。

网络带宽:客户端节点和存储节点之间的网络带宽将影响文件系统的性能。

beegfs实例

beegfs实例

beegfs实例【原创实用版】目录1.beegfs 概述2.beegfs 实例的创建3.beegfs 实例的使用4.beegfs 实例的删除正文1.beegfs 概述beegfs 是一种高性能、可扩展的分布式文件系统,适用于大规模数据存储和处理。

它通过将数据分割成固定大小的块,并将这些块分布在多台服务器上,从而实现数据的高效存储和访问。

beegfs 具有高吞吐量、低延迟、易于扩展和容错能力强等特点,因此在大数据处理领域具有广泛的应用。

2.beegfs 实例的创建要创建 beegfs 实例,首先需要准备一台或多台服务器,并安装beegfs 软件。

安装完成后,可以通过命令行工具创建 beegfs 实例。

以下是创建 beegfs 实例的基本步骤:1) 创建一个 beegfs 集群,用于存储和管理数据块。

集群中的服务器数量可以根据需求进行调整,以实现更好的性能和容错能力。

2) 在每台服务器上创建一个本地文件系统,用于存储数据块。

这些本地文件系统将作为 beegfs 的存储层,存储实际的数据块。

3) 在每台服务器上启动 beegfs 服务,将本地文件系统挂载到beegfs 文件系统。

这样,用户就可以通过 beegfs 文件系统访问和管理数据块。

4) 配置 beegfs 客户端,使客户端能够访问 beegfs 实例。

客户端可以是本地计算机或其他服务器,只要它们安装了 beegfs 客户端软件并配置正确即可。

3.beegfs 实例的使用当 beegfs 实例创建完成后,用户可以通过 beegfs 客户端访问和管理数据。

以下是使用 beegfs 实例的基本操作:1) 创建文件:用户可以像操作本地文件一样,在 beegfs 文件系统上创建文件。

beegfs 会将文件分割成固定大小的块,并将这些块分布在集群中的服务器上。

2) 读取文件:用户可以通过 beegfs 客户端读取文件。

beegfs 客户端会将文件的块从服务器上读取到本地,并按照文件的原始顺序组合成完整的文件。

gpfs和beegfs

gpfs和beegfs

gpfs和beegfs摘要:1.GPFS 和BeeGFS 的概述2.GPFS 和BeeGFS 的特点与优势3.GPFS 和BeeGFS 的比较4.GPFS 和BeeGFS 的应用场景5.GPFS 和BeeGFS 的未来发展正文:一、GPFS 和BeeGFS 的概述GPFS(General Parallel File System)和BeeGFS(Bee Grid File System)都是用于高性能计算的文件系统。

它们被设计用于处理大规模数据集,以支持高性能计算应用程序。

二、GPFS 和BeeGFS 的特点与优势1.GPFS 的特点与优势GPFS 是由IBM 开发的,主要特点是可扩展性和高性能。

它支持数百万级别的并发访问,可以存储PB 级别的数据。

GPFS 还提供了数据replication 和fault tolerance 功能,以确保数据的可靠性。

2.BeeGFS 的特点与优势BeeGFS 是由Bayerische Akademie der Wissenschaften 开发的,主要特点是易于使用和高性能。

它支持多种文件访问方式,包括POSIX, HDFS 和S3。

BeeGFS 还提供了数据replication 和fault tolerance 功能,以确保数据的可靠性。

三、GPFS 和BeeGFS 的比较GPFS 和BeeGFS 都具有高性能和可扩展性,但它们也存在一些不同之处。

GPFS 更适合于大规模数据集的存储和处理,而BeeGFS 更适合于多种文件访问方式的支持。

此外,BeeGFS 的容错能力比GPFS 强。

四、GPFS 和BeeGFS 的应用场景1.GPFS 的应用场景GPFS 主要应用于大规模数据处理和分析,例如天气预报、基因测序和流媒体数据处理。

2.BeeGFS 的应用场景BeeGFS 主要应用于科学计算、数据分析和机器学习,例如基因测序、天气预报和流媒体数据处理。

五、GPFS 和BeeGFS 的未来发展随着大数据时代的到来,高性能计算文件系统的需求也在不断增长。

高性能计算(HPC)技术行业发展趋势

高性能计算(HPC)技术行业发展趋势

高性能计算(HPC)技术行业发展趋势如今大数据、云计算技术的发展已经自身疲惫了。

然而跨界竞争和技术融合迫使我们不断换血和补充能量来适应一次次变革。

在人工智能、虚拟现实、物联网等技术热潮过后,能预测到的下一个技术热点会是什么,高性能计算(HPC)?是的,HPC应该再适合不过了。

为什么这么说呢?因为前期作者已经做了大量分析,并在项目实践和总结中得到了答案,分析成果精要都已经通过发文的形式分享给小伙伴们。

按照前期的惯例,今天也是把HPC行业趋势、产品和技术的分析梳理成“高性能计算(HPC)技术、方案和行业全面解析”电子书,通过的收取少量费用的方式提供给真正需要的小伙伴参阅,详情参阅原文链接,以下为目录介绍。

回顾历史,传统HPC主要聚焦在仿真、物理化学、生命科学、渲染、勘探和气象等六大场景,上层HPC集群化软件、生态和解决方案还是比较固定。

因为计算软件,配置数据需要在各个计算节点共享,需要多并发访问,计算的临时文件、中间、结果文件需要集中处理。

在计算集群形成初期,系统中并没有复杂的存储系统存在,甚至没有统一存储的概念,那时每台计算节点把自己所计算出的数据先暂时写到自己的本地硬盘上(Cache),最终由主节点进行所有数据的回收,至主节点所挂载的相对大的空间中(其实这就是后来HPC存储的雏形),再进行后续处理(分析、共享、可视化、备份与恢复)。

本地存储引入的问题:计算任务在计算集群中被分割为若干个子任务。

计算过程中,某个计算节点的输入数据可能存放在另外的节点上,引入的问题。

∙1、各节点的数据会二次进出本地硬盘,各节点间的数据传输也会造成多余的网络风暴,这种做法无疑会造成计算效率的下降;∙2、应用程序代码编写过程中,无法预计所要数据在哪个节点上,都造成麻烦与效率的低下。

因此后续的程序编写中,会让所有的节点都认到一块区域,将所有的临时性数据和最终数据都写到这里,即统一命名空间,因为所有计算节点都可以看到这块同一个名字的数据存储区域,表现在计算节点的OS中即为看到同一个名字的目录。

beegfs实例

beegfs实例

beegfs实例**Beegfs:一款高性能的分布式文件系统**随着科技的发展,数据存储需求不断增长,分布式文件系统在现代数据中心中变得越来越重要。

Beegfs(Big Easy File System)是一款高性能、可扩展的分布式文件系统,专为大数据存储和处理设计。

本文将详细介绍Beegfs 的简介、安装与配置、使用场景及优势。

**一、Beegfs简介与特点**Beegfs(Big Easy File System)是一个开源的分布式文件系统,具有良好的可扩展性、高性能、高可靠性和易用性。

以下是Beegfs的主要特点:1.可扩展性:Beegfs具有良好的水平扩展能力,可支持大规模数据存储。

2.高性能:Beegfs采用高效的数据传输协议,降低网络延迟,提高数据传输速度。

3.高可靠性:Beegfs采用去中心化设计,节点故障不会影响整个文件系统的正常运行。

4.易用性:Beegfs提供了丰富的命令行工具和API,方便用户进行文件操作和管理。

**二、Beegfs的安装与配置**在开始使用Beegfs之前,首先需要在服务器上进行安装和配置。

以下是Beegfs的安装与配置步骤:1.安装依赖:根据官方文档,安装操作系统所需的依赖库。

2.下载Beegfs:从Beegfs官方网站或GitHub仓库下载最新版本的3.配置Beegfs:编辑配置文件,设置参数如数据节点数量、存储池容量等。

4.启动Beegfs:根据配置文件启动Beegfs服务。

5.验证安装:使用Beegfs命令行工具进行检查,确保文件系统正常运行。

**三、Beegfs的使用场景与优势**Beegfs适用于以下场景:1.大数据处理:Beegfs可作为Hadoop、Spark等大数据处理框架的底层存储系统,提供高性能的数据读写能力。

2.分布式存储:Beegfs可作为分布式存储系统,为分布式应用提供统一的数据存储和管理。

3.虚拟化环境:Beegfs可作为虚拟化环境的共享存储,提高虚拟机之间的数据交换速度。

BeeGFS

BeeGFS
• 可以实现分层存储
BeeOND:高性能计算Burst Buffer加速
• 在计算节点按需创建的并行文件系统 ✓ internal SSDs of compute node ✓ Build on need by one single command
• 作用 ✓ fast and easy to use temporary buffer
• 数据一致性:
• 加锁:chunk 级别 • 修改加版本号 • 读写修复 • 性能可能受影响
• 管理节点高可用:
• Zookeeper
• Buddy-mirror group 能否加入一个新的 target 恢复? 目前没有这个功能。
• 恢复:
• 增量恢复
可扩展性:元数据和数据的可扩展性
增加元数据或者数据服务器
数据迁移和负载均衡
✓手动迁移 ✓一个Disk上对应对多个target ✓target 上的数据可迁移
问题
✓迁移的过程中,如果有文件读写,怎么处理?
BeeGFS分布式存储调研
常涛 2020agement Server:集群管理服务器 MetaDataServer: 元数据服务器 StorageServer:数据服务器 客户端:内核态客户端 Admon + Monitor: 管理和监控服务器
Management Server
• It is the first daemon that has to be set up
• 第一个起来的服务 • 所有的其它组件都需要向Mangement服务注册 • 和所有其它的组件保持心态检查
• all configuration files of a BeeGFS installation have to point to the same MS

gpfs和beegfs -回复

gpfs和beegfs -回复GPFS(通用并行文件系统)和BeeGFS(并行网络文件系统)都是高性能分布式文件系统,被广泛应用于需要大规模数据管理和并行计算的环境中。

本文将以这两个文件系统为主题,逐步探讨它们的特点、优劣势以及应用领域。

第一步:介绍GPFS和BeeGFS首先,我们来介绍GPFS。

GPFS是IBM开发的一种分布式文件系统,最初用于高性能计算环境。

它采用了并行I/O和可扩展的架构,可以在大规模集群中处理大规模数据。

GPFS具有高可靠性、高可用性和高性能的特点,适用于大数据分析、科学计算等领域。

接下来,我们介绍BeeGFS。

BeeGFS是由德国的ThinkParQ公司开发的一种并行网络文件系统。

它专注于提供高性能和高可用性的并行文件访问。

BeeGFS采用了分散元数据管理、多种缓存技术和I/O优化策略,可以提供非常高的并行读写性能。

BeeGFS被广泛应用于HPC(高性能计算)、大数据分析和媒体处理等领域。

第二步:比较GPFS和BeeGFS的特点接下来,我们比较一下GPFS和BeeGFS的特点。

首先,GPFS支持大规模集群环境,可以容纳成千上万台服务器。

它的架构设计非常成熟,拥有很多成功的应用案例。

与之相比,BeeGFS在大规模集群方面也具备优势,它的设计目标是在PB级数据规模下提供高性能。

其次,GPFS的优点之一是高可靠性和高可用性。

GPFS可以提供数据冗余和故障切换机制,在节点故障时保证文件系统的持续可用。

BeeGFS也具备高可用性的能力,它支持多种备份和冗余策略,确保数据的安全性和可靠性。

此外,GPFS和BeeGFS都具备高性能的特点。

GPFS的并行I/O设计能够充分利用集群节点的计算和存储能力,实现高吞吐量的文件读写操作。

BeeGFS采用了多种I/O优化策略,例如缓存预读取、数据本地化等,以提供高并发和低延迟的文件访问。

这些特点使得GPFS和BeeGFS在大规模数据处理和并行计算中都表现出色。

gpfs和beegfs -回复

gpfs和beegfs -回复GPFS(General Parallel File System)和BeeGFS(BeeGFS(formerly known as FhGFS))都是高性能并行文件系统,旨在满足大规模数据存储和高性能计算(HPC)环境中的需求。

本文将逐步回答有关这两个文件系统的各种问题。

第一部分:介绍1. 什么是GPFS和BeeGFS?GPFS是IBM开发的高性能并行文件系统,可提供可扩展的集群存储解决方案。

BeeGFS(FhGFS)是由欧洲高性能计算研究所研发的开源并行文件系统,以其吞吐量和可靠性而闻名。

2. 为何选择GPFS和BeeGFS?GPFS和BeeGFS都致力于解决大规模数据存储和HPC环境中的性能和可靠性问题。

它们提供了高度可扩展的架构,可以轻松处理大量数据和用户。

此外,它们都具有故障恢复和数据保护机制,以确保数据的安全性和一致性。

第二部分:架构和功能1. GPFS的架构是什么样的?GPFS为分布式并行文件系统,由一个或多个文件系统节点以及一个或多个存储节点组成。

存储节点负责存储实际的文件数据,并与文件系统节点通信。

文件系统节点负责处理文件系统元数据和与客户端的交互。

2. BeeGFS的架构是什么样的?BeeGFS采用了类似的分布式架构。

它包括多个存储服务器和元数据服务器,通过高速网络连接进行通信。

存储服务器负责存储数据,而元数据服务器负责管理文件和目录结构。

3. GPFS和BeeGFS都有哪些主要功能?GPFS和BeeGFS都具有以下主要功能:- 水平扩展能力:可以轻松扩展以处理大量数据和用户。

- 高吞吐量:提供高吞吐量和低延迟,以满足大规模计算需求。

- 数据保护:采用数据复制和故障恢复机制,确保数据的安全性和可用性。

- 并行访问:多个客户端可以同时对文件系统进行读写操作,以提高性能。

- 高可靠性:支持冗余数据存储和自动故障恢复,以防止数据丢失。

- 元数据管理:有效管理文件和目录结构,提供快速的文件查找和访问。

beegfs参数

beegfs参数BeegFS参数BeegFS是一种开源的并行文件系统,旨在为大规模数据存储和高性能计算环境提供高度可扩展性和性能。

它采用了一系列参数来优化系统的性能和可靠性。

本文将重点介绍一些常用的BeegFS参数,以及它们在系统中的作用和配置方法。

1. MetaSpace参数MetaSpace参数用于控制BeegFS元数据服务器的内存使用。

元数据服务器负责管理文件系统的元数据,如文件和目录的属性、权限和位置等。

通过调整MetaSpace参数,可以优化元数据服务器的性能和内存使用效率。

- MetaSpaceSize:指定元数据服务器的元数据缓存大小。

较大的值可以提高元数据访问的性能,但会占用更多的内存。

建议根据系统的元数据量和访问模式来调整该参数的值。

- MaxMetaMem:指定元数据服务器可以使用的最大内存。

如果系统的元数据量很大,可以适当增加该参数的值,以避免内存不足导致的性能问题。

2. StorageSpace参数StorageSpace参数用于配置BeegFS存储服务器的存储空间。

存储服务器负责存储文件数据,并提供高性能的数据访问。

- StorageSpacePath:指定存储服务器的存储路径。

可以配置多个路径,以实现数据的冗余存储和负载均衡。

- StorageSpaceReserve:指定存储服务器保留的空间大小。

该参数可以防止存储服务器因空间不足而无法正常工作。

3. Chunk参数Chunk参数用于配置BeegFS存储服务器中数据的划分和组织方式。

- ChunkSize:指定每个Chunk的大小。

较大的ChunkSize可以提高读写性能,但会增加数据传输的延迟。

建议根据系统的文件大小和访问模式来调整该参数的值。

- ChunkReplication:指定每个Chunk的副本数。

较大的副本数可以提高数据的可靠性和冗余度,但会增加存储空间的占用。

4. Network参数Network参数用于配置BeegFS集群的网络通信。

gpfs和beegfs -回复

gpfs和beegfs -回复GPFS(General Parallel File System)和BeeGFS(BeeOND-enabled Global File System)是两种高性能并行文件系统,广泛应用于高性能计算和大规模数据分析领域。

本文将一步一步回答关于这两种文件系统的问题,以便更好地了解它们的特点和用途。

第一步:介绍GPFS和BeeGFSGPFS是由IBM开发的并行文件系统,用于提供高性能、可靠和可扩展的存储解决方案。

GPFS支持大规模并行I/O操作,能够处理极大数量的文件和数据。

它采用分布式元数据管理和数据分片技术,可以同时访问集群中的所有节点,并实现高速数据传输。

BeeGFS是由ThinkParQ公司开发的开源全局并行文件系统,专为大规模数据集和高性能计算设计。

BeeGFS具有可扩展性和高性能的特点,适用于大规模集群和分布式存储环境。

它可以在多个存储节点上分布数据,实现并行读写操作,并提供高效的数据访问。

第二步:比较GPFS和BeeGFS的特点GPFS和BeeGFS都是高性能的并行文件系统,但它们在一些方面有所不同。

1. 架构和可扩展性:GPFS采用分布式元数据管理和数据分片技术,可以在大规模集群中进行扩展,并支持上千个节点。

它的架构相对复杂,需要专门的管理节点来处理元数据管理。

BeeGFS也是分布式文件系统,可以横向扩展到成千上万的节点,并提供高度可扩展性。

它的架构相对简单,不需要专门的元数据节点,元数据信息分布在所有存储节点上。

2. 文件系统访问方式:GPFS支持POSIX兼容的文件系统接口,可以通过标准的文件操作来访问文件。

它可以在不同操作系统和应用程序之间进行共享,兼容性较好。

BeeGFS提供了本地文件系统的接口,通过挂载到本地文件系统中来访问文件。

它可以在各种操作系统和应用程序之间进行共享,并提供了高效的数据访问接口。

3. 数据保护和故障恢复:GPFS支持数据复制和快照功能,可以提供数据的冗余性和高可用性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BeeGFS在高性能计算的应用ThinkParQ成立于2013年底,由BeeGFS背后的一些关键人物组成,为BeeGFS客户提供专业的支持,服务和咨询。

BeeGFS原名为FhGFS,是由Fraunhofer Institute为工业数学计算而设计开发,由于在欧洲和美国的中小型HPC系统性能表现良好,在2014年改名注册为BeeGFS并受到科研和商业的广泛应用。

BeeGFS既是一个网络文件系统也是一个并行文件系统。

客户端通过网络与存储服务器进行通信(具有TCP/IP或任何具有RDMA功能的互连,如InfiniBand,RoCE或Omni-Path,支持nativeverbs 接口)。

通过BeeGFS添加更多的服务器,其容量和性能被聚合在单个命名空间中。

BeeGFS是遵循GPL的“免费开源”产品,文件系统没有许可证费用。

无论谁想要自己使用,都可以从下载并安装使用。

由ThinkParQ提供专业支持,系统集成商可以为客户构建使用BeeGFS的解决方案。

BeeGFS操作系统兼容性BeeGFS具备良好的兼容性,支持包括x86,x86_64,ARM和OpenPower等硬件平台和RHEL、Scientific Linux、CentOS、SuSE Linux Enterprise Server、SuSE Linux Enterprise Desktop、OpenSuSE、Debian和Ubuntu在内的Linux操作系统版本。

BeeGFS系统架构BeeGFS实现了ObjectData和MetaData的分离。

ObjectData是用户希望存储的数据,而MetaData是包括访问权限、文件大小和位置的“关于数据的数据”,MetaData中最重要的是如何从多个文件服务器中找到具体对应的文件,这样才能使客户端获取特定文件或目录的MetaData后,可以直接与ObjectData服务器对话以检索信息。

BeeGFS可以面向需要大型或快速存储的每个人服务,如传统领域是高性能、高吞吐量计算和大型研究数据。

Object Storage Servers和MetaData Servers的数量可以弹性伸缩。

因此,可以通过扩展到适当数量的服务器来满足不同性能要求。

BeeGFS是一个基于Linux的文件系统,BeeGFS所有的部分(如客户端,服务器)都在Linux操作系统下运行,到目前为止还不支持其他平台。

搭建一套BeeGFS至少需要管理服务器(MS)、对象存储服务器(OSS)、元数据服务器(MDS)和文件系统Client四个主要组件和有两个守护进程。

•Helper-daemon守护进程,文件系统客户端需要一个“helper-daemon”才能在客户端上运行。

•Admon守护进程在存储集群中运行,并让系统管理员更好地了解发生了什么,但它不是必需的组件,BeeGFS在没有它的情况下也是完全可运行操作的。

在设计上,BeeGFS旨在与符合POSIX标准的本地文件系统(例如ext4,xfs或zfs)一起用于数据存储。

这样系统管理员可以选择他们喜欢和熟练的本地文件系统,减少其他系统或工具的学习成本。

Management Server(MS)系统中必须要有一个MS, BeeGFS安装的所有配置文件必须指向同一个MS。

MS维护所有文件系统组件的列表,包括Client,MetaData Servers,MetaData Targets,Storage Servers和Storage Targets。

此外,MS具有正常、低和关键三个标签选项来标记Storage Targets和MetaData Targets。

当创建新文件时,这些标签会影响目标选择的方式,标签是根据目标可用空间分配的。

运行在MetaData Server上目标选择器将优选标记为正常的目标。

MetaData Server(MDS)MDS包含系统中Meta Data的信息。

MetaData服务器无限制可扩展。

每个MDS都有一个MetaData Target(MDT,存储MDS的Meta Data)。

MDT上文件系统的推荐选择是ext4,因为它对小文件和小文件操作提供很好性能。

MDT通常由SSD组成并推荐采用RAID1或RAID10进行RAID保护,选择RAID5/6对元数据随机小IO访问模式将导致MetaData性能严重下降。

BeeGFS全局文件系统中的每个目录都附加到处理其内容的一个MDS。

如果目录A的MetaData 由MDS#1处理,则位于A中的文件的MetaData存储在存储#1上。

由于将目录分配给MDS是随机BeeGFS可以有效利用大量的MDS。

只要目录数量明显大于MDS的数量,则每个MDS上的分配的目录数量和大致相等。

有一个例外,根级别目录始终在MDS#1上,这样就定义了一个入口点。

顶级目录具有指向MDS 的链接,其中包含有关子目录的信息。

有了这个信息,客户端可以走路径目录树,找到负责特定目录的MDS。

与机械驱磁盘相比,SSD可以降低时延并提供大量的随机IOPS,强烈推荐把SSD使用在MetaDataTarget上。

对于不同应用场景来说,线程的数量的选择有没有完美的建议,一方面,如果线程太多将浪费系统内存和CPU资源,并且可能会因为许多任务切换而对性能产生负面影响。

另一方面,线程太少限制了系统的性能。

ObjectStorage Server(OSS)OSS是存储文件内容的主要服务。

每个OSS可能具有一个或多个Object StorageTargets(OST),OST可以是本地文件系统(如xfs,ext4或zfs)或LUN。

典型的OST推荐6到12个硬盘并采用RAID6级别,因此具有36个驱动器的OSS可能会组成3个OST,每个OST都是带有12个磁盘。

OSS是用户空间启动的完全多线程的守护进程。

它将适用于任何符合POSIX标准的本地文件系统,底层文件系统可能根据工作负载或个人喜好和经验来挑选。

OSS线程数量取决于OSS服务的OST 的性能和数量。

与MDS不同,OST上的IO通常是大的顺序IO。

BeeGFS的主要功能之一就是条带,在BeeGFS文件系统中,每个目录都有两个非常重要的属性,定义了这些目录中的文件的处理方式。

•numtargets定义文件创建的目标数量。

如果选择4,则每个文件将获得4个OST,分配给该文件的数据存储在这些OST中。

•chunksize指定在客户端移动到下一个目标之前,在该分配的目标OST上存储多少数据。

文件条带的目标是提高单个文件的性能以及容量,假设OST容量大小为30 TB,提供500MB/s性能,那么4个OST目标之间的文件大小可以增长到120TB,并以2 GB/s进行访问。

文件系统客户端(Client)BeeGFS客户端是在Linux中运行的一个内核模块,必须编译以匹配使用的内核。

客户端是GPL提供的开源产品。

BeeGFS客户端服务提供了一个正常的挂载点,使您的应用程序可以直接访问BeeGFS 存储系统,客户端包含两个守护进程服务。

•beegfs-helperd守护程序为beegfs-client提供了一些辅助功能(DNS和写日志文件功能等),它是由同一主机上运行的beegfs-client访问,不需要任何其他配置。

•beegfs-client加载客户端内核模块,如果需要,它将重新编译内核模块。

重新编译使用自动构建过程完成,该过程在内核版本更改时启动。

为了展示BeeGFS存储集群中通常存在哪些服务,前面分析都是基于所有服务都在不同的主机上运行。

一般在小型应用场景,BeeGFS的相关服务(Client和Server组件)的任意组合(如上图)也可以在同一台机器上一起运行。

当BeeGFS完全使用没有独立的专用存储服务器时,我们称之为“融合设备”。

BeeGFS安装和设置有两种方式可以安装BeeGFS,一种是基于GUI(使用图形化Java界面),另一种是手动(使用shell 命令)。

图形化安装是基于图形化Java界面连接到BeeGFS Admon(Administration and Monitoring)服务实现。

一般来说,无经验的用户建议基于GUI的安装,但对老司机来说,手动安装是最佳选择,因为GUI不能提供手动安装的完全灵活性。

BeeGFS调优和配置BeeGFS的调优包含了存储服务器格式化调优、元数据服务器调优、客户端调优、条带化、网络(Infiniband和以太网)调优和高速缓存调优,具体请参考BeeGFS配置指导,这里不再赘述。

beegfs-ctl工具从默认位置读取BeeGFS的配置文件(beegfs-client.conf),虽然该工具也可以在没有客户端配置文件的情况下使用,但在相应机器上存在这样的基本客户端配置时,通常更方便。

BeeOND Burst BufferBeeOND(BeeGFS On Demand)用来创建一个或多个BeeGFS实例来满足云环境中临时工作文件系统需求。

另外,BeeOND在计算节点内部聚本地SSD或硬盘的性能和容量提供了额外的性能和Burst Buffer能力。

如今,大多数HPC集群系统使用专用全局并行文件系统提供高吞吐量,但是计算节点通常配备(或可以轻松配备)本地硬盘或固态硬盘,BeeOND就是很好利用特定计算任务的计算节点磁盘资源来提供更高的系统性能。

Beeond可以独立于全局共享并行文件系统,这就意味着无论并行文件系统是BeeGFS还是其他技术都可以使用Beeond。

Beeond使用时需要创建一个新的单独文件系统挂载点。

任何如cp或rync标准工具都可将数据写入和迁出BeeOND,但Beeond软件包本身包含一个并行copy工具,用于在BeeOND实例和另一个文件系统之间传输数据。

由于BeeOND启动非常简单,所以可以轻松将BeeOND与Torque或Slurm工作负载管理器集成,可以通过一个命令启动和停止新的BeeGFS实例,所以当计算作业启动时,您可以轻松地添加脚本命令,以便在作业完成时停止。

另外,在计算节点使用BeeOND带来了以下几方面的优势:•BeeOND很容易消除全局并行文件系统的IO重载和令人难以接受的浪涌性IO。

无论如何,在作业运行时创建的临时数据不必一定需要移动到全局持久并行文件系统中。

即使在作业结束后,应该持久化保存的数据也可以更好地先存储到Beeond实例中,然后以大块的顺序IO复制到全局持久并行文件系统中,获得最大的带宽。

•在BeeOND上运行的应用程序不会干扰全局持久并行文件系统中的其他用户,反过来,也可以在不受其他用户影响的情况下获得BeeOND提供的性能。

•采用运行在SSD之上的BeeOND可以极大地加速高性能计算任务,结合多个计算节点的SSD 不仅可以轻松实现高带宽,还可以提供高IOPS性能,以便处理大文件小IO型的IOPS业务。

相关文档
最新文档