如何选择集群文件系统

如何选择集群文件系统
如何选择集群文件系统

如何选择集群文件系统

本文将介绍一些常用的物理存储架构以及群集和分布式文件系统。希望这能让你们对这类技术有一个初步的认识,以便更好地满足高使用率存储的需求。

建立集群和使用率高的数据存储解决方案有很多选择,但是要想弄清每种选择的优劣则要花点时间进行研究。存储架构和文件系统的选择至关重要,因为大部分的存储解决方案都有严格的限制条件,需要仔细设计工作环境。

基础架构

有些读者也许希望装配一组可以并行访问同一个文件系统的服务器,而另一些读者可能想复制存储器并提供并行访问和冗余。有两种方法可以实现多服务器访问同一个磁盘,一种方法是让那些服务器都可以看到那个磁盘,另一种方法则是通过复制。

共享磁盘结构在光纤通道SAN和iSCSI领域是最常见的结构。配置存储系统相当简单,这样多个服务器就可以看到同一个逻辑块设备或LUN,但是如果没有群集文件系统,那么当多个服务器同时想使用那个逻辑块设备时就会出现混乱。这个问题与使用群集文件系统有关,我们将在下文中详细介绍。

一般而言,共享磁盘系统有个弱点,那就是存储系统。但是情况也并非总是如此,因为利用现在的技术是很难理解共享盘的概念的。SAN、NAS设备和基于Linux系统的商品硬件可以将所有的基础磁盘实时复制到另一个存储节点,从而提供一个模拟共享盘环境。基础模块设备被复制之后,那些节点就可以访问相同的数据,也可以运行同一个群集文件系统了,但是这种复制超出了传统共享盘的定义。

相反,不共享才是共享盘的问题所在。连接着不同存储设备的节点会在每个模块被写入数据时将变化通知给主服务器。现在,不共享架构仍存在于Hadoop那样的文件系统之中,那些文件系统可以在许多节点故意建立多个数据副本,从而提高性能和冗余。而且,在不同存储设备或节点之间利用自己的存储设备进行复制的群集也可以做到不共享。

设计选择

正如我们所说的,你不能通过多个服务器访问同一个模块设备。你听说过文件系统锁定,因此普通的文件系统并不能实现这一点就有些奇怪了。

在文件系统级别上,文件系统本身会将文件锁定以保证数据不会出错。但是在操作系统级别上,文件系统启动程序完全可以访问基础模块设备,它们可以在基层模块设备之间自由的漫游。大部分文件系统都会认为它们被分配了一个模块设备,而且那个模块设备也只是它们自己所有。

为了解决这个问题,集群文件系统采用了一种并行控制机制。有些集群文件系统将把元数据保存在共享设备的一个分区里,另一些集群文件系统则会使用集中式元数据服务器来保存元数据。不管采用哪种方案,集群中的所有节点都可以看到文件系统的状态,从而保证安全的并行访问。然而,如果你想保证系统的高利用率和消除单点故障问题,那么采用集中式元数据服务器的解决方案就要略逊一筹了。

另一个注意事项:集群文件系统要求在节点发生故障时迅速做出反应。如果某个节点写入错误数据或由于某种原因停止关于元数据变化的通信,其他节点必须能够将它隔离出去。隔离可以通过多种方式来实现,最常用的方法是利用断电管理来实现。健康的节点可以在发现问题时第一时间关闭另一个节点电源(STONITH)以保全数据。

集群文件系统词典

GFS:全局文件系统

GFS是应用最广泛的集群文件系统。它是由红帽公司开发出来的,允许所有集群节点并行访问。元数据通常会保存在共享存储设备或复制存储设备的一个分区里。

OCFS:甲骨文集群文件系统

从概念上来说,OCFS与GFS非常相似,现在OCFS 2已经被应用于Linux系统之中。

VMFS:VMware的虚拟计算机文件系统

VMFS是ESX服务器用来允许多个服务器访问同一个共享存储设备的集群文件系统。这样就可以实现虚拟机在不同服务器之间的无缝迁移,因为源服务器和目标服务器都可以访问同一个存储设备。日志是分布式的,ESX服务器之间也不会出现单节点故障。

Lustre:Sun的集群分布式文件系统。

Lustre是专门用于包含数千个节点的大型集群的分布式文件系统。Lustre已经支持Linux 系统,但是高速计算环境之外的应用程序是有限的。

Hadoop:一个象谷歌那样使用的分布式文件系统。

这不是一个集群文件系统,但是却是一个分布式文件系统。我们将Hadoop收录进来是因为它的应用越来越广泛,而且利用Hadoop的存储架构设计决策的组合很多。但是默认配置下,你会在3个不同的节点上拥有3个数据副本。一旦数据发生变化,每个数据副本都会更新,因此,从某种意义上来说,它也可以被看做是集群文件系统。然而,Hadoop存在一个故障点隐患,即跟踪记录所有文件系统级数据的命名节点。

做出最好选择

有太多选择并不是坏事。你可以根据执行目标选择使用合适的集群或分布式文件系统以及存储架构。只要有计划地使用,所有这些文件系统都可以发挥出应有的作用。

分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析

6苏州大学学报(工科版)第30卷 图1I-IDFS架构 2HDFS与LinuxFS比较 HDFS的节点不管是DataNode还是NameNode都运行在Linux上,HDFS的每次读/写操作都要通过LinuxFS的读/写操作来完成,从这个角度来看,LinuxPS是HDFS的底层文件系统。 2.1目录树(DirectoryTree) 两种文件系统都选择“树”来组织文件,我们称之为目录树。文件存储在“树叶”,其余的节点都是目录。但两者细节结构存在区别,如图2与图3所示。 一二 Root \ 图2ItDFS目录树围3LinuxFS目录树 2.2数据块(Block) Block是LinuxFS读/写操作的最小单元,大小相等。典型的LinuxFSBlock大小为4MB,Block与DataN-ode之间的对应关系是固定的、天然存在的,不需要系统定义。 HDFS读/写操作的最小单元也称为Block,大小可以由用户定义,默认值是64MB。Block与DataNode的对应关系是动态的,需要系统进行描述、管理。整个集群来看,每个Block存在至少三个内容一样的备份,且一定存放在不同的计算机上。 2.3索引节点(INode) LinuxFS中的每个文件及目录都由一个INode代表,INode中定义一组外存上的Block。 HDPS中INode是目录树的单元,HDFS的目录树正是在INode的集合之上生成的。INode分为两类,一类INode代表文件,指向一组Block,没有子INode,是目录树的叶节点;另一类INode代表目录,没有Block,指向一组子INode,作为索引节点。在Hadoop0.16.0之前,只有一类INode,每个INode都指向Block和子IN-ode,比现有的INode占用更多的内存空间。 2.4目录项(Dentry) Dentry是LinuxFS的核心数据结构,通过指向父Den姆和子Dentry生成目录树,同时也记录了文件名并 指向INode,事实上是建立了<FileName,INode>,目录树中同一个INode可以有多个这样的映射,这正是连

【大数据软件】Gcluster集群的文件系统

1 理论知识 1.1 概念 1.1.1 全局统一命名空间的定义 全局统一命名空间将磁盘和内存资源集成一个单一的虚拟存储池,对上层用户屏蔽了底层的物理硬件。 1.1.2 GlusterFS的定义 GlusterFS是一套可扩展的开源群集文件系统,并能够轻松地为客户提供全局命名空间、分布式前端以及高达数百PB级别的扩展性。 1.1.3 元数据的定义 元数据,是用来描述一个给定的文件或是区块在分布式文件系统中所处的位置。注:元数据时网络附加存储解决方案在规模化方面的致命弱点,因其所有节点都必须不断与服务器(或集群组)保持联系以延续真个群集的元数据,故增加了额外的开销,致使硬件在等待响应元数据请求过程中而效率低下。 1.2 数据定位技术 Gluster通过其自有的弹性Hash算法可计算出文件在群集中每个节点的位置, 而无需联系群集内的其他节点,从而降低了追踪元数据的变化而带来额外的开销。 1.2.1 数据访问流程 - 根据输入的文件路径和文件名计算hash值 - 根据hash值在群集中选择子卷(存储服务器),进行文件定位 - 对所选择的子卷进行数据访问 1.2.2 Davies-Meyer算法 Gluster使用Davies-Meyer算法计算文件名的hash值,获得一个32位整数,算法特点如下: - 非常好的hash分布性

- 高效率的计算 1.3 Gluster的架构 1.3.1 存储服务器(Brick Server) - 存储服务器主要提供基本的数据存储功能 - 最终通过统一调度策略分布在不同的存储服务器上(通过Glusterfsd来处理数据服务请求) - 数据以原始格式直接存储于服务器本地文件系统(EXT3/EXT4/XFS/ZFS 等) 1.3.2 客户端和存储网关(NFS/Samba)

Hadoop分布式文件系统:架构和设计

Hadoop分布式文件系统:架构和设计 引言 (2) 一前提和设计目标 (2) 1 hadoop和云计算的关系 (2) 2 流式数据访问 (2) 3 大规模数据集 (2) 4 简单的一致性模型 (3) 5 异构软硬件平台间的可移植性 (3) 6 硬件错误 (3) 二HDFS重要名词解释 (3) 1 Namenode (4) 2 secondary Namenode (5) 3 Datanode (6) 4 jobTracker (6) 5 TaskTracker (6) 三HDFS数据存储 (7) 1 HDFS数据存储特点 (7) 2 心跳机制 (7) 3 副本存放 (7) 4 副本选择 (7) 5 安全模式 (8) 四HDFS数据健壮性 (8) 1 磁盘数据错误,心跳检测和重新复制 (8) 2 集群均衡 (8) 3 数据完整性 (8) 4 元数据磁盘错误 (8) 5 快照 (9)

引言 云计算(cloud computing),由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。在此过程中被服务者只是提供需求并获取服务结果,对于需求被服务的过程并不知情。同时服务者以最优利用的方式动态地把资源分配给众多的服务请求者,以求达到最大效益。 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 一前提和设计目标 1 hadoop和云计算的关系 云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase 存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理.实验结果表 明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。 2 流式数据访问 运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。 3 大规模数据集 运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。

RedHat GFS 集群文件系统入门和进阶 资源帖

https://www.360docs.net/doc/483475548.html,/viewthread.php?tid=777867&extra=page %3D1%26filter%3Ddigest GFS = RedHat Global File System GFS 的入门必读 以下为入门必看 - GFS 的介绍 https://www.360docs.net/doc/483475548.html,/solutions/gfs/ - RedHat杂志关于GFS的最佳实践https://www.360docs.net/doc/483475548.html,/magazine/009jul05/features/gfs_practices/ - RedHat杂志关于GFS和以太网和SAN光纤存储网的介绍https://www.360docs.net/doc/483475548.html,/magazine/008jun05/features/gfs/ - RedHat杂志关于企业如何用GFS来存储数据的介绍https://www.360docs.net/doc/483475548.html,/magazine/009jul05/features/gfs_overview/ - RedHat杂志关于用GFS来做数据共享的介绍https://www.360docs.net/doc/483475548.html,/magazine/006apr05/features/gfs/ - RedHat杂志关于RHCS集群的介绍https://www.360docs.net/doc/483475548.html,/magazine/009jul05/features/cluster/ - RedHat 官方的GFS 概述文档https://www.360docs.net/doc/483475548.html,/whitepapers/rha/gfs/GFS_INS0032US.pdf - RedHat 关于GFS扩展性的介绍 https://www.360docs.net/doc/483475548.html,/solutions/scaleout/ - RedHat和HP提供的HP MC/SG + GFS的方案介绍https://www.360docs.net/doc/483475548.html,/promo/hp_serviceguard/ (注意右侧的多个连接所指向的文档) - GFS 6.1U3版本的Release notes https://www.360docs.net/doc/483475548.html,/docs/manua ... HEL4U3-relnotes.txt - GFS 6.1U2版本的Release notes https://www.360docs.net/doc/483475548.html,/docs/manua ... HEL4U2-relnotes.txt - GFS 6.1的Release notes https://www.360docs.net/doc/483475548.html,/docs/manua ... FS_6_1-relnotes.txt - GFS 6.1的Admin Guide https://www.360docs.net/doc/483475548.html,/docs/manuals/csgfs/browse/rh-gfs-en/ - 本版suran007 同学提供的"GFS6.1 ON RHAS4 U2安装文档" https://www.360docs.net/doc/483475548.html,/viewthr ... &extra=page%3D1

XP不能访问Win7系统下共享文件的解决方法(图解)_百度文库

XP不能访问Win7系统下共享文件的解决方法 许多局域网用户发现,在安装了Windows7之后,网络中的文件夹相互共享会出现不少问题,经常会出现安装XP系统的电脑无法访问Windows7的共享文件夹,有些虽然能看到Windows7下的共享目录,但是一旦进入目录,就会提示没有访问权限。经过笔者近几天的苦心研究,终于发现只需要几步修改,就能让XP和Windows7之间进行互通,不再会出现共享文件夹无法访问的情况。 首先,进入到“网络和共享中心”进行设置,将Windows 的防火墙关闭。虽然这样做会有不安全的风险,但是为了能实现不同系统间的相互访问,也只能不得已而为之了。 在关闭了Windows防火墙后,下一步要进入到防火墙设置界面左边的“高级设置”中,对“入站规则”和“出站规则”进行修改。在这两个规则中,分别找到“文件和打印机共享”选项,并且将其全部选项设定成“Allow all connection”。 ●关闭Windows7自带的网络防火墙 在进行完以上设定后,要进入到“用户帐户”里,开启“Guest”帐户,并且在系统服务里,开启对应的共享功能。至此,共享的设定已经完成得差不多了。最后是对所对应的共享文件夹进行设置。如果熟悉XP共享设置的用户,基本上可以很方便的对以下设置进行操作,其Windows7设置共享的理念和XP几乎是相同的,有所区别的只是设置的路径有所不同。 第一步选择要共享的文件夹,单击右键选择“属性”,在“共享”的选项卡里选择“高级共享”,并且将“共享此文件夹”前的钩打上,随后在“权限”中依次点击“添加”——“高级”——“立即查找”。然后在查找的结果中选择“Everyone”以及“Guest”并确认即可。

分布式文件存储方案

1DFS系统 (DFS) 是AFS的一个版本,作为开放软件基金会(OSF)的分布 分布式文件系统 式计算环境(DCE)中的文件系统部分。 如果文件的访问仅限于一个用户,那么分布式文件系统就很容易实现。可惜的是,在许多网络环境中这种限制是不现实的,必须采取并发控制来实现文件的多用户访问,表现为如下几个形式: 只读共享任何客户机只能访问文件,而不能修改它,这实现起来很简单。 受控写操作采用这种方法,可有多个用户打开一个文件,但只有一个用户进行写修改。而该用户所作的修改并不一定出现在其它已打开此文件的用户的屏幕上。 并发写操作这种方法允许多个用户同时读写一个文件。但这需要操作系统作大量的监控工作以防止文件重写,并保证用户能够看到最新信息。这种方法即使实现得很好,许多环境中的处理要求和网络通信量也可能使它变得不可接受。 NFS和AFS的区别 NFS和AFS的区别在于对并发写操作的处理方法上。当一个客户机向服务器请求一个文件(或数据库记录),文件被放在客户工作站的高速缓存中,若另一个用户也请求同一文件,则它也会被放入那个客户工作站的高速缓存中。当两个客户都对文件进行修改时,从技术上而言就存在着该文件的三个版本(每个客户机一个,再加上服务器上的一个)。有两种方法可以在这些版本之间保持同步: 无状态系统在这个系统中,服务器并不保存其客户机正在缓存的文件的信息。因此,客户机必须协同服务器定期检查是否有其他客户改变了自己正在缓存的文件。这种方法在大的环境中会产生额外的LAN通信开销,但对小型LAN来说,这是一种令人满意的方法。NFS 就是个无状态系统。 回呼(Callback)系统在这种方法中,服务器记录它的那些客户机的所作所为,并保留它们正在缓存的文件信息。服务器在一个客户机改变了一个文件时使用一种叫回叫应答(callbackpromise)的技术通知其它客户机。这种方法减少了大量网络通信。AFS(及OSFDCE的DFS)就是回叫系统。客户机改变文件时,持有这些文件拷贝的其它客户机就被回叫并通知这些改变。 无状态操作在运行性能上有其长处,但AFS通过保证不会被回叫应答充斥也达到了这一点。方法是在一定时间后取消回叫。客户机检查回叫应答中的时间期限以保证回叫应答是当前有效的。回叫应答的另一个有趣的特征是向用户保证了文件的当前有效性。换句话说,若

3种分布式文件系统

第一部分CEPH 1.1 特点 Ceph最大的特点是分布式的元数据服务器通过CRUSH,一种拟算法来分配文件的locaiton,其核心是 RADOS(resilient automatic distributed object storage),一个对象集群存储,本身提供对象的高可用,错误检测和修复功能。 1.2 组成 CEPH文件系统有三个主要模块: a)Client:每个Client实例向主机或进程提供一组类似于POSIX的接口。 b)OSD簇:用于存储所有的数据和元数据。 c)元数据服务簇:协调安全性、一致性与耦合性时,管理命名空间(文件名和 目录名) 1.3 架构原理 Client:用户 I/O:输入/输出 MDS:Metadata Cluster Server 元数据簇服务器 OSD:Object Storage Device 对象存储设备

Client通过与OSD的直接通讯实现I/O操作。这一过程有两种操作方式: 1. 直接通过Client实例连接到Client; 2. 通过一个文件系统连接到Client。 当一个进行打开一个文件时,Client向MDS簇发送一个请求。MDS通过文件系统层级结构把文件名翻译成文件节点(inode),并获得节点号、模式(mode)、大小与其他文件元数据。注意文件节点号与文件意义对应。如果文件存在并可以获得操作权,则MDS通过结构体返回节点号、文件长度与其他文件信息。MDS同时赋予Client操作权(如果该Client还没有的话)。目前操作权有四种,分别通过一个bit表示:读(read)、缓冲读(cache read)、写(write)、缓冲写(buffer write)。在未来,操作权会增加安全关键字,用于client向OSD证明它们可以对数据进行读写(目前的策略是全部client 都允许)。之后,包含在文件I/O中的MDS被用于限制管理能力,以保证文件的一致性与语义的合理性。 CEPH产生一组条目来进行文件数据到一系列对象的映射。为了避免任何为文件分配元数据的需要。对象名简单的把文件节点需要与条目号对应起来。对象复制品通过CRUSH(著名的映射函数)分配给OSD。例如,如果一个或多个Client打开同一个文件进行读操作,一个MDS会赋予他们读与缓存文件内容的能力。通过文件节点号、层级与文件大小,Client可以命名或分配所有包含该文件数据的对象,并直接从OSD簇中读取。任何不存在的对象或字节序列被定义为文件洞或0。同样的,如果Client打开文件进行写操作。它获得使用缓冲写的能力。任何位置上的数据都被写到合适的OSD上的合适的对象中。Client 关闭文件时,会自动放弃这种能力,并向MDS提供新的文件大小(写入时的最大偏移)。它重新定义了那些存在的并包含文件数据的对象的集合。 CEPH的设计思想有一些创新点主要有以下两个方面: 第一,数据的定位是通过CRUSH算法来实现的。

san文件系统与集群文件系统

SAN文件系统与集群文件系统 及其应用发展趋势 张敬亮 摘要:本文主要介绍与分析传统网络存储方式与新的存储架构,以及国内自主研发的集群存储系统—蓝鲸集群存储系统与SAN文件系统的发展与应用情况。 关键字:SAN 集群文件系统、蓝鲸集群文件系统 1传统网络存储方式所面临的挑战 随着以NAS1和SAN2为代表的网络存储架构逐渐走向成熟,厂商对其理念进行的大量宣传与推广,以及网络存储系统对数据进行集中存储和管理所带来的优越性,网络存储已经逐渐被人们接受,其应用也迅速推广至各个行业。换言之,传统的NAS和SAN产品很好地解决了分散存储所面临的可用性、可管理性和可扩展性等大部分问题,但随着信息化技术的迅猛发展,诸如高性能计算、视频编辑、遥感信息处理等技术的大规模应用,对网络传存储系统提出了更高的要求: 1.需要支持更多的客户机进行高性能的文件共享,从而提高业务处理效率,减少因数据拷贝而造成的不必要的损失。 2.希望系统的性能和容量可在线扩展,无需停止业务。 然而,在目前主流的存储架构中,存在着如下问题: 1.由于SAN提供的是块级数据共享, 所以,要想实现多个平台的文件共享,还有很多障碍。 2.在SAN系统中,因为每个应用节点的逻辑卷之间无法实现容量共享,所以整个系统的存储利用率仍然比较低。而且,当系统中的逻辑卷容量不足时,无法实现 在不影响业务的情况下的在线扩容。 3.NAS产品可以实现文件共享,而且每个节点都可以同时共享整个系统的存储空间,利用率更高。但在传统的NAS产品中,所有数据都要经过单一I/O(输入/ 输出)节点,所以当客户节点增多或负载加大时,NAS产品的文件并发访问性能 不尽如人意,同时,一般的NAS产品都无法实现存储容量和性能的在线扩展。 4.虽然陆续出现了诸如NAS集群、NAS网关等改良的方案,但都因为架构的限制无法实现本质上的突破。 2新的存储架构应运而生 为解决上述问题产生了新型存储架构,即支持集群文件系统的集群存储架构和结合 1 Network Attached Storage,网络附连存储 2 Storage Area Storage,存储区域网

WIN7和XP系统在局域网文件共享设置方法

WIN7/XP系统在局域网文件共享设置方法 现代家庭,多数都有2台以上电脑,我家就有两台笔记本,一台台式机。笔记本因为买得晚通常配置较高,一般装的是WIN7系统,而台式机配置因为买的早配置相对较低,一般装的是XP系统。有时候想把台式机中的文件移到笔记本上,亦或是把笔记本中的文件移到台式机上,如果文件小用个U盘也挺方便,如果是几个G或者几十个G的话你会不会觉得相当纠结?学习了本文的设置方法你就再也不需要纠结了。好了,废话少说,现在开始学习局域网中文件共享的设置方法。 Windows XP和Windows 7系统的计算机通过局域网互联时,经常出现安装Windows XP系统的计算机很难在网上邻居中找到安装Windows 7系统的计算机的情况,反之也一样。具体表现就是网上邻居中可以显示计算机名但无法访问,或者根本找不到对方的计算机。 问题分析 在访问权限方面,WIN7确实做了诸多限制,通过对WindowsXP 和Windows7操作系统的设置,可以实现Windows 7 和Windows XP系统的局域网互连互通以及文件共享。 设置前必须先要关闭系统的防火墙(Mcafee、诺顿等)。若必须使用防火墙功能,建议用户咨询一下杀毒软件公司具体的局域网的权限设置方法。

解决方案 一、WindowsXP系统的设置方法: 设置共享可能对你电脑中的资料安全有负面影响,自己要对保密、安全、共享之间作个平衡。为了提高安全性,建议使用NTFS 磁盘格式,并对隐私文件设置读写权限。 1、WIN7系统设置方法: 选择要共享的文件夹 电脑常识 右键点击文件夹属性

设置文件夹高级共享选项

Hadoop分布式文件系统方案

Hadoop分布式文件系统:架构和设计要点 Hadoop分布式文件系统:架构和设计要点 原文:https://www.360docs.net/doc/483475548.html,/core/docs/current/hdfs_design.html 一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。 3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。 4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。典型的如MapReduce框架,或者一个web crawler应用都很适合这个模型。 5、移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。 6、在异构的软硬件平台间的可移植性。 二、Namenode和Datanode HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode 组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。Namenode和Datanode 都是设计成可以跑在普通的廉价的运行linux的机器上。HDFS采用java语言开发,因此可以部署在很大围的机器上。一个典型的部署场景是一台机器跑一个单独的Namenode节点,集群中的其他机器各跑一个Datanode实例。这个架构并不排除一台机器上跑多个Datanode,不过这比较少见。

文档共享管理系统解决方案doc

书生文档共享管理系统(SDP )是用于政府、企业等机构安全共享文档信息的整体解决方案,它依托书生TESDI 数字权限管理技术、SEP 数字文档技术,以集中管理的方式完整保存各单位日常产生的各类文档,提供最大程度的共享机制,使文档信息的价值得到最充分的利用,同时还能保证敏感文件不会被泄露, 即使是对合法阅读者也能进行拷贝、打印等权限的管理和控制,从而彻底解决机构用户的信息数字化率和信息使用率偏低的问题。 SDP 是一个文档集中存放,受限访问的平台。SDP 系统采用了书生SEPReader 作为文档阅读的终端,采用SEPWriter 作为文档转换的工具。SEP Writer 将不同格式不同应用程序生成的文档转换成统一的SEP 格式,再通过SDP 客户端将转换后的文件提交给给安全文档管理服务器(SDP Server ),保存到专门的安全文档数据库中。SDP 服务器统一控制每个文档针对每个操作人员的浏览、复制、打印、传播、摘录等权限,最大限度的保证电子文档安全,而且又不妨碍合法和正常的阅读以及操作。 SDP 系统集成了多种主流的用户身份机制,包括Windows 域和活动目录,Lotus 用户集成,LDAP 用户集成以及提供集成其他基于数据库的应用系统用户机制。可以和各种类型的应用系统无缝集成。SDP 提供14 种不同粒度的访问权限,可以充分满足复杂的管理需要。 传统的文档管理系统不同的是,SDP 文档管理系统真正防止了非受限的传播重要文档,比如传统的档案系统,虽然有多级的用户权限管理机制,但文档一旦被某个用户访问,用户就可以不受限的将该文档通过拷贝,邮寄等方式传播给他人。而SDP 采用的文档的终生机制,文档无论何时被访问,除非管理员特别指定,文档都受SDP 管理系统的控制。可以称作是全程安全的文档管理系统。 书生文档管理保护系统可以与书生Office 配合进行使用,会具有最佳的使用效果。用户在用Office 编辑定稿后轻松一键即可提交给文档服务器,便捷方便的操作最大程度地降低了使用者的负担,使文档集中共享的制度能得到最有效的贯彻执行。 信息化与电子文档管理的困境 ? 电子文档的易复制性、易传播性是文档管理的巨大挑战 ? 敏感信息被泄露往往会带来重大损失 ? 传统的文档权限管理能够防止未经授权的访问, 但一旦能看文档就拥有对该文档的全部权限, 特 别是可以随意外传, 使敏感信息的安全高度依赖于人的道德和忠诚, 一旦有权限阅读的人有私心, 信息的安全就缺乏保障 ? 要让能读能看某个文档的人不能传播该文档, 这是一个世界性难题 ? 上述问题不解决, 就不得不为保密的原因而放弃共享, 导致信息数字化率降低、工作效率下降TESDI 与其它DRM 技术的比较 ? 传统DRM 技术将电子文档与指定电脑绑定, 但无法限制电子文档被复制和传播, 只是该文档在其它电脑上无法打开。相当于保险柜可以随便抱走, 只是没钥匙打不开

GPFS通用并行文件系统浅析

GPFS 通用并行文件系统(General Parallel File System ?C GPFS)将所有的物理资源(包括服务器和磁盘阵列)都视为虚拟文件系统的对象,允许使用者共享分布在多个节点和多个磁盘上的文件。它允许并行的应用程序同时从GPFS 节点组(nodeset)中的任何节点访问相同或不同的文件(节点组nodeset 被定义为一组运行相同版本GPFS的节点)。 一个GPFS通用并行文件系统可以横跨在群集内的所有主机上,分布在所有磁盘上。GPFS文件系统在读写文件时采用条带化技术,将数据分成条带并行写入到该GPFS下的所有NSD中。在有高速数据通道的GPFS配置下,读写文件时可以通过所有主机的光纤通道访问所有的磁盘。 GPFS通用并行文件系统的设计目标是使数据分布在一个集群中的所有节点上,允许应用程序通过标准的UNIX文件系统接口来访问数据。大多数的UNIX文件系统被设计在单一服务器环境下使用,在这一环境下, 增加文件服务器也不会提高特定的文件存取的性能。 GPFS通过将I/O分布在多个硬盘提高性能,通过日志和复制的方式提高数据的可靠性,通过增加节点和在节点之间由SP Switch互联提高系统的可扩展性。 通过将文件分布在多个节点和磁盘上,GPFS可以超越单一节点和单一文件系统的性能极限。文件系统能够跨越多个节点和多组磁盘,这些磁盘可以是使用SSA 技术在HACMP 群集里面直接地连接到每个节点上进行物理共享,也可以是由IBM的VSD(Virtual Shared Disk)和SP Switch技术使经过软件进行共享。 GPFS的系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。当处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。可以在不重新启动GPFS服务情况下添加新节点。 GPFS通用并行文件系统还通过用户端的数据缓存,大的文件页的支持(16 kB- 1024 kB),文件预读和延迟写的功能等技术提高性能,其性能超过网络性文件系统(NFS),分布式文件系统(DFS)和日志文件系统(JFS)。与这些文件系统不同,GPFS文件系统可以通过在群集或SP系统中增加节点的方式提高性能。 GPFS通用并行文件系统是一种日志文件系统,为不同节点建立各自独立的日志。日志种记录Metadata的分布,一旦节点发生故障后,可以保证快速恢复数据。GPFS fail-over功能通过规划,将数据分布到不同failure group内达到高可用性,减少单点故障的影响。 为了保证数据可用性,GPFS在多个failure group内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS也会自动在不同的failure group内复制恢复日志。

文件共享设置方法

win7共享文件夹无法访问怎么办?共享文件夹无权限访问设置方法 win7共享文件夹无法访问怎么办?绿茶小编胖胖带来了win7共享文件夹无权限访问设置方法,在Win7系统中使用家庭组共享文件方便快捷,但是遇到无法访问情况该如何解决呢? 第一步、同步工作组 不管使用的是什么版本的 Windows 操作系统,首先要保证联网的各计算机的工作组名称一致,要查看或更改计算机的工作组、计算机名等信息,请右键单击“计算机”,选择“属性”。 若相关信息需要更改,请在“计算机名称、域和工作组设置”一栏,单击“更改设置”。 单击“更改”。

输入合适的计算机名/工作组名后,按“确定”。 这一步操作完成后,请重启计算机使更改生效。 第二步、更改 Windows7 的相关设置 打开“控制面板网络和 Internet网络和共享中心高级共享设置”,启用“网络发现”、“文件和打印机共享”、“公用文件夹共享”;“密码保护的共享”部分则请选择“关闭密码保护共享”。

小编提醒:媒体流最好也打开;另外,在“家庭组”部分,建议选择“允许 Windows 管理家庭组连接(推荐)”。 第三步、共享对象设置 现在我们转向共享对象,最直接的方法就是将需要共享的文件/文件夹直接拖拽至公共文件夹中。如果需要共享某些特定的 Windows 7 文件夹,请右键点击此文件夹,选择“属性”。 win7共享文件夹无法访问解决方法:点击“共享”标签,单击“高级共享”按钮。 勾选“共享此文件夹”后,单击“应用”、“确定”退出。

如果某文件夹被设为共享,它的所有子文件夹将默认被设为共享,在前面第二步中,我们已经关闭了密码保护共享,所以现在要来对共享文件夹的安全权限作一些更改。右键点击将要共享的文件夹,选择“属性”。在“安全”页上,单击“编辑” 。 接着,请按一下“添加”按钮。 键入 Everyone 后一路按“确定”退出。

如何选择集群文件系统

如何选择集群文件系统 本文将介绍一些常用的物理存储架构以及群集和分布式文件系统。希望这能让你们对这类技术有一个初步的认识,以便更好地满足高使用率存储的需求。 建立集群和使用率高的数据存储解决方案有很多选择,但是要想弄清每种选择的优劣则要花点时间进行研究。存储架构和文件系统的选择至关重要,因为大部分的存储解决方案都有严格的限制条件,需要仔细设计工作环境。 基础架构 有些读者也许希望装配一组可以并行访问同一个文件系统的服务器,而另一些读者可能想复制存储器并提供并行访问和冗余。有两种方法可以实现多服务器访问同一个磁盘,一种方法是让那些服务器都可以看到那个磁盘,另一种方法则是通过复制。 共享磁盘结构在光纤通道SAN和iSCSI领域是最常见的结构。配置存储系统相当简单,这样多个服务器就可以看到同一个逻辑块设备或LUN,但是如果没有群集文件系统,那么当多个服务器同时想使用那个逻辑块设备时就会出现混乱。这个问题与使用群集文件系统有关,我们将在下文中详细介绍。 一般而言,共享磁盘系统有个弱点,那就是存储系统。但是情况也并非总是如此,因为利用现在的技术是很难理解共享盘的概念的。SAN、NAS设备和基于Linux系统的商品硬件可以将所有的基础磁盘实时复制到另一个存储节点,从而提供一个模拟共享盘环境。基础模块设备被复制之后,那些节点就可以访问相同的数据,也可以运行同一个群集文件系统了,但是这种复制超出了传统共享盘的定义。 相反,不共享才是共享盘的问题所在。连接着不同存储设备的节点会在每个模块被写入数据时将变化通知给主服务器。现在,不共享架构仍存在于Hadoop那样的文件系统之中,那些文件系统可以在许多节点故意建立多个数据副本,从而提高性能和冗余。而且,在不同存储设备或节点之间利用自己的存储设备进行复制的群集也可以做到不共享。 设计选择 正如我们所说的,你不能通过多个服务器访问同一个模块设备。你听说过文件系统锁定,因此普通的文件系统并不能实现这一点就有些奇怪了。 在文件系统级别上,文件系统本身会将文件锁定以保证数据不会出错。但是在操作系统级别上,文件系统启动程序完全可以访问基础模块设备,它们可以在基层模块设备之间自由的漫游。大部分文件系统都会认为它们被分配了一个模块设备,而且那个模块设备也只是它们自己所有。 为了解决这个问题,集群文件系统采用了一种并行控制机制。有些集群文件系统将把元数据保存在共享设备的一个分区里,另一些集群文件系统则会使用集中式元数据服务器来保存元数据。不管采用哪种方案,集群中的所有节点都可以看到文件系统的状态,从而保证安全的并行访问。然而,如果你想保证系统的高利用率和消除单点故障问题,那么采用集中式元数据服务器的解决方案就要略逊一筹了。 另一个注意事项:集群文件系统要求在节点发生故障时迅速做出反应。如果某个节点写入错误数据或由于某种原因停止关于元数据变化的通信,其他节点必须能够将它隔离出去。隔离可以通过多种方式来实现,最常用的方法是利用断电管理来实现。健康的节点可以在发现问题时第一时间关闭另一个节点电源(STONITH)以保全数据。 集群文件系统词典 GFS:全局文件系统 GFS是应用最广泛的集群文件系统。它是由红帽公司开发出来的,允许所有集群节点并行访问。元数据通常会保存在共享存储设备或复制存储设备的一个分区里。

常见的分布式文件系统

常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系统的起源 ================================== Google File System(大规模分散文件系统) MapReduce (大规模分散FrameWork) BigTable(大规模分散数据库) Chubby(分散锁服务) 一般你搜索Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)就有了。做个中文版下载源:https://www.360docs.net/doc/483475548.html,/topics/download/38db9a29-3e17-3dce-bc93-df9286081126 做个原版地址链接: https://www.360docs.net/doc/483475548.html,/papers/gfs.html https://www.360docs.net/doc/483475548.html,/papers/bigtable.html https://www.360docs.net/doc/483475548.html,/papers/mapreduce.html GFS(Google File System) -------------------------------------- Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。 下面分布式文件系统都是类 GFS的产品。

WebLogic集群详细方案设计

From here 数据库层: 数据库:oracle 10g 数据库服务器:2台以上F5 设备:2台

部署图: 采用RAID 0+1的 磁盘阵列 部署描述: 1.F5虚拟地址作为对数据用户的唯一地址。 2.F5有主备2台设备,相互之间部署心跳线,在F5的配置中设定其中一台作为主机,配 置心跳的告警设置和数据库服务器的告警设置。 3.ORACLE需要安装F5的管理插件以监控数据库服务器性能参数和状态。 4.数据库采用RAC的方式进行集群,数据库之间有心跳线。 5.服务器Cluster需要一个统一的时间,在整个应用中由统一的服务器提供同步服务。

6.在数据库服务器集群和文件系统之间的交换机需要有主备线路。 访问控制: 1.对F5虚拟地址的访问需要在数据库防火墙中配置白名单 2.数据库的实地址只有DBA等数据库管理角色才能访问 负载均衡: 1.F5设备通过在Oracle服务器上的插件获取各个数据库本身的连接数,内存使用量,CPU 占用率等参数,以及在F5配置中设置负载分发的规则来分发对数据库的真实访问。2.对于数据库Cluster来说,采用10g以上版本的RAC的方式会有一个公用的缓存区。 数据安全: 1.在文件系统中采用RAID 0+1的方式进行数据存放和备份 2.磁带库作为文件系统的最终容灾备份。 故障处理: 1.在F5主机出现故障时,由F5备用的心跳监控到并做自动切换,同时可以按告警配置进 行对应操作。 2.数据库节点中一台出现问题时,会由别的节点接手,同时F5会监控到数据库的状态出 现异常并按照告警配置进行对应操作,例如【发送告警邮件】等。 3.在数据库集群和文件系统的网络中,当主要线路出现问题,由备用线路接手。 优点: 1.可扩展性好,在性能出现瓶颈的时候不需要修改整体布局,只需要增加服务器并配置 2.可靠性好,所有设备都至少有一个备用节点。 3.访问无缝隙,对于用户来说只有一个访问接口,对于内部所有节点的备用节点都能实现 自动切换或自动故障点剔除。

文档共享管理系统解决方案doc1.doc

文档共享管理系统解决方案doc1 书生文档共享管理系统(SDP )是用于政府、企业等机构安全共享文档信息的整体解决方案,它依托书生TESDI 数字权限管理技术、SEP 数字文档技术,以集中管理的方式完整保存各单位日常产生的各类文档,提供最大程度的共享机制,使文档信息的价值得到最充分的利用,同时还能保证敏感文件不会被泄露, 即使是对合法阅读者也能进行拷贝、打印等权限的管理和控制,从而彻底解决机构用户的信息数字化率和信息使用率偏低的问题。 SDP 是一个文档集中存放,受限访问的平台。SDP 系统采用了书生SEPReader 作为文档阅读的终端,采用SEPWriter 作为文档转换的工具。SEP Writer 将不同格式不同应用程序生成的文档转换成统一的SEP 格式,再通过SDP 客户端将转换后的文件提交给给安全文档管理服务器(SDP Server ),保存到专门的安全文档数据库中。SDP 服务器统一控制每个文档针对每个操作人员的浏览、复制、打印、传播、摘录等权限,最大限度的保证电子文档安全,而且又不妨碍合法和正常的阅读以及操作。 SDP 系统集成了多种主流的用户身份机制,包括Windows 域和活动目录,Lotus 用户集成,LDAP 用户集成以及提供集成其他基于数据库的应用系统用户机制。可以和各种类型的应用系统无缝集成。SDP 提供14 种不同粒度的访问权限,可以充分满足复杂的管理需要。 传统的文档管理系统不同的是,SDP 文档管理系统真正防止了非受限的传播重要文档,比如传统的档案系统,虽然有多级

的用户权限管理机制,但文档一旦被某个用户访问,用户就可以不受限的将该文档通过拷贝,邮寄等方式传播给他人。而SDP 采用的文档的终生机制,文档无论何时被访问,除非管理员特别指定,文档都受SDP 管理系统的控制。可以称作是全程安全的文档管理系统。 书生文档管理保护系统可以与书生Office 配合进行使用,会具有最佳的使用效果。用户在用Office 编辑定稿后轻松一键即可提交给文档服务器,便捷方便的操作最大程度地降低了使用者的负担,使文档集中共享的制度能得到最有效的贯彻执行。 信息化与电子文档管理的困境 ?电子文档的易复制性、易传播性是文档管理的巨大挑战 ?敏感信息被泄露往往会带来重大损失 ?传统的文档权限管理能够防止未经授权的访问, 但一旦能看文档就拥有对该文档的全部权限, 特 别是可以随意外传, 使敏感信息的安全高度依赖于人的道德和忠诚, 一旦有权限阅读的人有私心, 信息的安全就缺乏保障 ?要让能读能看某个文档的人不能传播该文档, 这是一个世界性难题 ?上述问题不解决, 就不得不为保密的原因而放弃共享, 导致信息数字化率降低、工作效率下降TESDI 与其它DRM 技术的比较

FusionSphere特性介绍-VIMS文件系统

1、特性介绍 虚拟镜像管理系统VIMS (Virtual Image Management System) 是一种高性能的集群文件系统,使用时先将数据存储先格式化成VIMS格式,然后挂载到CNA上进行使用。VIMS文件系统使虚拟化技术的应用超出了单个存储系统的限制,其设计、构建和优化针对虚拟服务器环境,可让多个虚拟机共同访问一个整合的集群式存储池,从而显著提高了资源利用率。VIMS 是跨越多个存储服务器实现虚拟化的基础,它可启用存储热迁移、存储动态资源调度(Storage Dynamic Resource Scheduler)和高可用性(High Availability) 等各种服务。 2、特性描述 VIMS使虚拟化技术的应用超出了单个存储系统的限制,下面是VIMS的使用场景图。 图中CNA1-CNA4属于一个VIMS域,共享VIMS卷1。CNA4、CNA5属于另一个VIMS域,共享VIMS卷2。 在一个VIMS域中每个CNA都可以看到完整的VIMS空间VIMS可提供分布式锁定管理功能来平衡访问,允许每个虚拟机和CNA服务器共享集群式存储池。每个CNA 服务器都将它的虚拟机文件存储在VIMS文件系统内的特定子目录中。当一个虚拟机运行时,VIMS 会将该虚拟机使用的虚拟机文件锁定,这样其他CNA便无法更新它们。VIMS确保一个虚拟机磁盘可以被读共享,写独占。VIMS文件系统具有如下特点: 1、具有分层目录结构的文件系统 2、应用于集群环境中的虚拟机 3、锁定管理和分布式逻辑卷管理 4、跨越多个存储盘区,动态扩展数据存储区

5、具有日志记录的群集式文件系统可迅速恢复 6、将整个虚拟机磁盘空间封装在单个目录中,每个虚拟机使用的磁盘空间在一个文件夹存放,管理方便。

相关文档
最新文档