海量小文件存储系统的研究与实现

合集下载

海量小文件存储低效的根源及优化实践

其次是数据效率问三S.传统磁盘文件系统体系结构依界目录项(Dentry)、索引节点(InOde)以及数据块(Data)来指导、定位、读写文件系统的数据，而目录项(Dentry)s 索引节点(Inode)以及数据块(Data)均存储在不同地方，也就是说一次防机文件读写至少进行3次独立访问.面对海信小文件场景时，海量小文件的并发读写汇聚形成了大量的随机访问，磁盘文件系统的体系机制放大了IO 的体量,大幅降低磁盘的吞吐.再者，磁盘文件系玩的索引结构在海■小文件场景下无法发挥优势.磁盘文件系统通第采用Hash 、B+树组织索引，当面对单目录下数以百万计的小文件时,索引的增删改强将消耗非常多系统资源，甚至耗尽.这一点在对象存储的体系结构里得到了极大的优化和改善,如图1.图1传统NAS 存储与对彖存储体系结构最后是操作系统IO 访问机制受制。

以UnUXVirtUalFiIeSyStem (简称VFS)为例，VFS 提供了统一访问接口和流程，方便与不同磁盘文件系统的对接与扩展.然而，使用对象存储虽然优化了海量小文件场景的访问效率问题，但作为非结构化文件的主存储也会面临些许问题：数据保护手段薄弱、主流备份软件对对象存储的备份支持尚未完善、无法实现全功能数据保护等.虽然可以借助对象存玮的跨域复制形成数据冗余，但不满足监管filenames/inodes 传统NAS 存Objects/OlDs对象存储单位对关键数据离线保存的要求.同时，不同于传统NAS存储，对象存储的读写方式也发生了变化，因此涉及业务代码改造.存储更替的过程还涉及大量的业务数据迁移等.且由传统存储切换到对象存储，对于企业的代价也是相当大的.影像系统和打印系统，都,属于保险业务核心，多采用NAS存储业务数据,数十年的更迭都未曾改变.影像、打印系统牵一发而动全身，若需更替存储，涉及大盘业务代码改造.影像、打印系统的割接也必须"一刀切"快速切换，无法容忍长时间的业务中断.那么该如何优化海量小文件呢？海量小文件所在的环境及链路若未更改，优化的范围就相当有限，唯有从海量小文件给构入手，优化实践的思路大概分为三步：(1)优化目录层次结构.深层次的目录结构极大劣化了IO效率，使得文件寻址定位消耗大方的系统资源.过深的目录层次更加剧了海量小文件的归档难度。

混合P2P海量小文件元数据模型研究与实现

金澜涛
（南京航空航天大学
黄志球
南京２１００１６）
摘
要
数据的海量存储需求对传统数据存储模式带来了巨大的挑战。目前大多数集群／分布式文件系统都被设计用来管理大文件。
当在处理海量的小文件时，这些文件系统并不具有良好的性能表现。论文提出了一种面向海量小文件的元数据模型，该模型是基于具有超级节点的混合Ｐ２Ｐ拓扑结构，Ｘ￣ｌＪ￣文件的优化管理具有一定的普适性。通过测试对比发现，在小文件读写性能上有数量级的提升。关键词小文件；元数据管理；混合式Ｐ２Ｐ；超级节点
（ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ，ＮａＮｉｎｇ２１００１６）
ＡｂｓｔｒａｃｔＴｈｅｍａｓｓｉｖｅｒｅｑｕｉｒｅｍｅｎｔｏｆｄａｔａｓｔｏｒａｇｅｂｒｉｎｇｓａｇｒｅａｔｃｈａｌｌｅｎｇｅｔｏｔｒａｄｉｔｉｏｎａｌｍｏｄｅ．Ｍｏｓｔｃｌｕｓｔｅｒ／ｄｉｓｔｒＩｈｕｔｅｄｆｉｌｅｓｙｓｔｅｍｓ
随着Ｗｅｂ的发展，海量小文件呈现出爆炸式的增长趋势，以图片文件为代表的小文件存取访问已占据社交类网站，电子商务类网站９Ｏ以上的访问量。如何能更好地为

海量小文件存储文件系统研究综述

就会造成多次访问，Ｂ＋树及Ｂ树则不会出现键值相同的情
况。若继续采用线性的索引方式，可最小化分离出来的元数据，
［８］将数据量不大的元数据做缓存（ＭＳＦＳＳ）。应根据具体的应
用需求选择相应的目录索引机制。
２．２Ｃａｃｈｅ命中率的提高
增加ｃａｃｈｅ命中率，即降低失效率，减少ＣＰＵ与主存之间的数据交换次数，可提高ＣＰＵ的运算效率。常见的ｃａｃｈｅ失效有强制性失效、容量失效和冲突失效三种（多处理器共享ｃａｃｈｅ时还有一致性失效）。如今用来提高ｃａｃｈｅ命中率的方法有：采用多级缓存设计；增大ｃａｃｈｅ容量，例如ＥＭＣ采用４６４ＧＢ的内存
（上海交通大学信息安全工程学院上海２０１２０３）
摘要随着互联网的发展，存储的小文件数量也呈几何级的增长。传统文件系统已不能满足存储性能的需求，对于小文件存储，尤其是海量小文件存储的优化已变得越来越重要。首先提出对小文件存储的系统进行优化的必要性，然后对小文件存储中存在的问题进行分析并阐述优化的方式，并介绍三种具有代表性的适合小文件存储的文件系统，最后总结归纳。关键词小文件海量存储元数据操作磁盘访问效率ＣＦＦＳＲｅｉｓｅｒＦＳＦａｃｅｂｏｏｋ中图分类号ＴＰ３９３文献标识码Ａ
ＡｂｓｔｒａｃｔＷｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆＩｎｔｅｒｎｅｔ，ｔｈｅｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅｓｉｚｅｓｈｏｗｓａｇｅｏｍｅｔｒｉｃｇｒｏｗｔｈｔｏｏ．Ｔｈｅｒｅｆｏｒｅｔｒａｄｉｔｉｏｎａｌｆｉｌｅｓｙｓｔｅｍｓｎｏｌｏｎｇｅｒｍｅｅｔｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｆｏｒｓｔｏｒａｇｅｐｅｒｆｏｒｍａｎｃｅ．Ｆｏｒｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅ，ｅｓｐｅｃｉａｌｌｙｍａｓｓｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅ，ｏｐｔｉｍｉｚａｔｉｏｎｉｓｂｅｃｏｍｉｎｇｍｏｒｅａｎｄｍｏｒｅｉｍｐｏｒｔａｎｔ．Ｔｈｅｐａｐｅｒｆｉｒｓｔｏｆａｌｌｅｘｐｌａｉｎｓｔｈｅｎｅｃｅｓｓｉｔｙｆｏｒｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅｓｙｓｔｅｍｏｐｔｉｍｉｚａｔｉｏｎ；ｔｈｅｎａｎａｌｙｚｅｓｐｒｏｂｌｅｍｓｅｘｉｓｔｉｎｇｉｎｐｒｅｓｅｎｔｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅａｎｄｅｘｐｏｕｎｄｓｏｐｔｉｍｉｚａｔｉｏｎａｐｐｒｏａｃｈｅｓ．Ａｆｔｅｒｗａｒｄｉｔｉｎｔｒｏｄｕｃｅｓｔｈｒｅｅｒｅｐｒｅｓｅｎｔａｔｉｖｅｆｉｌｅｓｙｓｔｅｍｓｆｏｒｓｍａｌｌｆｉｌｅｓｔｏｒａｇｅ．Ｉｎｔｈｅｅｎｄｔｈｅｒｅｉｓａｓｕｍｍａｒｙ．ＫｅｙｗｏｒｄｓＳｍａｌｌｆｉｌｅＭａｓｓｓｔｏｒａｇｅＭｅｔａｄａｔａｏｐｅｒａｔｉｏｎｓＤｉｓｋａｃｃｅｓｓｅｆｆｉｃｉｅｎｃｙＣＦＦＳＲｅｉｓｅｒＦＳＦａｃｅｂｏｏｋ无论是读文件还写文件，都存在元数据的操作。以文件写

[参考论文]海量小文件存储方法论文

海量小文件存储方法论文摘要：Hadoop目前还没有一个系统级的通用的解决HDFS小文件问题的方案。

第4章提到的Hadoop自带的解决方案各有优缺点，通用技术方案应用到不同环境时效果也不尽相同，针对具体应用场景提出的解决方案具有一定局限性，对其他应用系统具有借鉴意义但并不能搬用。

针对Hadoop中海量小文件存储优化的问题还值得进一步的深入研究。

1 引言Hadoop[1]是由Apache基金会研发的能够对海量数据进行分布式处理的基础框架，是海量数据存储与处理的理想平台。

然而由于Hadoop采用流式方式读写文件，对于大文件处理效率极高，但对小文件处理效果并不是很好。

当处理如气象数据这种海量小文件时，Hadoop的优势并不能展示出来，故需要对小文件的存储进行优化。

2 HDFS的系统架构HDFS是Hadoop的分布式文件系统，其具有高容错性的特点，设计用来部署在低廉硬件上，能够提供极高的数据吞吐量，适合那些有着超大数据集的应用程序[2]，因而成为了云存储平台的代表性系统。

HDFS采用主从架构，由一个名称节点和多个数据节点组成。

名称节点是HDFS的主服务器，主要负责管理元数据和数据块、持久化元数据、处理请求及管理数据节点，数据节点主要负责数据块的读写、向名称节点报告状态及执行数据的流水线复制。

客户端通过与名称节点和数据节点的交互来访问整个文件系统。

3 HDFS处理海量小文件存在的问题HDFS设计用来对大文件进行流式存储，在处理小文件时会产生一些问题[3]。

小文件是指文件大小小于HDFS块大小（默认为64MB）的文件，大量的小文件会严重影响Hadoop的性能及其扩展性。

首先，海量小文件大量耗费名字节点的内存。

每个小文件作为一个块存储，海量数据块的元数据信息会占用大量内存，这样名称节点的内存容量会严重制约集群的扩展。

其次，海量小文件的存取效率低。

大量小文件写入HDFS时需频繁请求名称节点分配数据块，读取大量小文件时需频繁请求数据节点以获取文件，严重影响了名称节点和数据节点的I/O性能。

海量教育资源中小文件的存储研究

第４２卷
第１０期
计
算
机
科Leabharlann 学Ｖｏｌ＿４２Ｎｏ．１０
Ｏｃｔ２０１５
２０１５年１Ｏ月
ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ
海量教育资源中小文件的存储研究
游小容曹晟
（电子科技大学计算机科学与工程学院成都６１１７３１）
ｔｉｏｎｓｗｉｔｈｌａｒｇｅｄａｔａｓｅｔｓｔｏｐｒｏｖｉｄｅｒｅｌｉａｂｌｅａｎｄｅｆｆｉｃｉｅｎｔｓｔｏｒａｇｅｓｅｒｖｉｃｅ，ｂｕｔｉｔｓｕｆｆｅｒｓａｐｅｒｆｏｒｍａｎｃｅｐｅｎａｌｔｙｗｉｔｈｉｎ —
ＳｔｏｒａｇｅＲｅｓｅａｒｃｈｏｆＳｍａｌｌＦｉｌｅｓｉｎＭａｓｓｉｖｅＥｄｕｃａｔｉｏｎＲｅｓｏｕｒｃｅ
ＹＯＵＸｉａｏ — ｒｏｎｇＣＡＯＳｈｅｎｇ
ｓｍａｌｌｆｉｌｅｐｒｅｆｅｔｃｈｉｎｇｍｅｃｈａｎｉｓｍｉｓｕｓｅｄｔｏｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｆｉｌｅｒｅａｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｉｎｄｉｃａｔｅｔｈａｔｔｈｅａｂｏｖｅｍｅｔｈｏｄｓｃａｎｉｍｐｒｏｖｅｔｈｅｓｔｏｒａｇｅａｎｄａｃｃｅｓｓｅｆｆｉｃｉｅｎｃｙｏｆｓｍａｌ１ｆｉｌｅｏｎＨａｄｏｏｐ．

海量小文件存储文件系统研究综述

海量小文件存储文件系统研究综述王铃惠;李小勇;张轶彬【期刊名称】《计算机应用与软件》【年(卷),期】2012(29)8【摘要】With the development of Internet, the small file storage size shows a geometric growth too. Therefore traditional file systems no longer meet the requirements for storage performance. For small file storage, especially mass small-file storage, optimization is becoming more and more important. The paper first of all explains the necessity for small file storage system optimization; then analyzes problems existing in present small file storage and expounds optimization approaches. Afterward it introduces three representative file systems for small file storage. In the end there is a summary.%随着互联网的发展,存储的小文件数量也呈几何级的增长.传统文件系统已不能满足存储性能的需求,对于小文件存储,尤其是海量小文件存储的优化已变得越来越重要.首先提出对小文件存储的系统进行优化的必要性,然后对小文件存储中存在的问题进行分析并阐述优化的方式,并介绍三种具有代表性的适合小文件存储的文件系统,最后总结归纳.【总页数】4页(P106-109)【作者】王铃惠;李小勇;张轶彬【作者单位】上海交通大学信息安全工程学院上海201203;上海交通大学信息安全工程学院上海201203;上海交通大学信息安全工程学院上海201203【正文语种】中文【中图分类】TP393【相关文献】1.针对海量小文件的可伸缩分布式文件系统研究 [J], 王玮2.云环境下海量小文件存储技术研究综述 [J], 周国安;李强;陈新;胡旭3.海量小文件系统的可移植操作系统接口兼容技术 [J], 陈博;何连跃;严巍巍;徐照淼;徐俊4.海量小文件系统中基于聚合单元的空间回收机制 [J], 徐俊;何连跃;严巍巍;陈博;徐照淼5.SMDFS分布式海量小文件系统的大空间聚合存储技术 [J], 严巍巍;何连跃;李三霞;成颖佼因版权原因，仅展示原文概要，查看原文内容请购买。

一种海量小文件存储读取的优化方法和系统与流程

一种海量小文件存储读取的优化方法和系统与流程随着信息技术的不断进步和普及，人们在日常生活和工作中产生了大量的小文件，比如照片、文档、视频等。

这些小文件数量庞大，需要进行高效存储和读取，以满足人们的使用需求。

传统的文件存储和读取方式往往面临效率低下、性能瓶颈等问题。

针对海量小文件存储读取的优化方法和系统变得尤为重要。

本文将探讨一种针对海量小文件存储读取的优化方法和系统与相关流程。

一、海量小文件存储读取的挑战海量小文件的存储读取涉及到以下几个方面的挑战：1. 存储效率低下：传统的文件系统对于海量小文件存储的效率较低，因为小文件往往会导致磁盘碎片化，降低磁盘读写性能。

2. 读取速度慢：海量小文件存储读取时，文件系统需要不断进行文件定位和读取操作，会导致读取速度变慢，影响用户体验。

3. 数据管理困难：海量小文件的管理和检索变得困难，可能会导致文件丢失或混乱。

二、海量小文件存储读取的优化方法针对上述挑战，可以采取以下优化方法：1. 利用分布式存储系统：建立分布式存储系统，将海量小文件分散存储在多台服务器上，可以提高存储效率和读取速度。

2. 文件合并和压缩：将多个小文件进行合并和压缩，减少磁盘碎片化，提高存储效率和读取速度。

3. 元数据优化：对海量小文件的元数据进行优化，包括文件目录结构、文件属性、文件索引等，以提高文件的管理和检索效率。

4. 数据分片存储：将海量小文件进行分片存储，采用分布式存储和读取技术，可以提高读取速度和系统的扩展性。

三、海量小文件存储读取的优化系统与流程在实际应用中，可以建立一套专门针对海量小文件存储读取的优化系统，其基本流程包括：1. 文件上传与存储：用户上传小文件时，系统根据一定规则将文件进行合并和压缩，然后按照分布式存储策略进行存储。

2. 文件读取与检索：用户进行文件读取和检索时，系统根据元数据信息进行快速定位和读取操作，提高读取速度和用户体验。

3. 数据管理与维护：系统定期对存储的海量小文件进行数据清理、备份和维护，确保数据安全和系统稳定运行。

海量存储系统的研究与应用

与关键技术，并结合上海市医联工程影像存储需求分析了ＰＡＣＳ
影像数据对海量存储的并发访问、可扩展性与安全节能等先进
存储特性。
关键词海量存储并行存储ＰＣＳ绿色节能Ａ
１引言
人类社会已进入一个信息大爆炸的时代，信息量呈几何级数增长：每１个月新产生的数据量等于有史以来数据量之和！Ｄ于２１年５８ＩＣ００月
础，对存储区域网络ＳＮＡ、网络附属存储ＮＳ、集群存储、对象存储系Ａ统等方面进行了广泛的研究；国内企业如浪潮、华赛、圣桥等，研制出
了一系列网络存储产品。虽然目前学术界和产业界都已对Ｔ级的数据存储有了相对完善的Ｂ解决方案，但随着数据持续高速增长，Ｐ级数据的存储需求已迫在眉Ｂ睫。无论是在生物信息、核能、空航天、武器装备等科学研究和工业航领域，还是在电子商务、平安城市工程、各级备份和容灾中心、医疗数
存储技术在近十几年内一直保持快速发展态势，在存储网络技术、储系统架构、入式存储操作系统、存嵌数据保护技术、绿色存储等方面都取得了一系列重大进展。
图１海量存储系统架构比较
节点规模的扩展而线性扩展，具备优秀的扩展能力，是
其存储需求是把握存储系统及产业发展方向和趋势的根本出发点。国际上以Ｉ、ＥＭＣ、ＨＰ为代表的企业界，和以ＣＭＵ、ＵＣＢＭ等

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ａｃｃｅｓｓ
ｏｆｌａｒｇｅｆｉｌｅｓａｎｄｓｕｆｆｅｒｓｐｅｒｆｏｒｍａｎｃｅｐｅｎａｌｔｙ
ｗｈｉｌｅｍａｎａｇｉｎｇｍａｓｓｉｖｅｓｍａｌｌｆｉｌｅｓ．Ｔｈｉｓｐａｐｅｒｉｓｂａｓｅｄ
ｏｎ
ＰｉｃｔｕｒｅＲｅｔｒｉｅｖａｌＳｙｓｔｅｍａｎｄＺｈｏｎｇｈｕａｚｉｋｕ
Ｐｒｏｊｅｃｔ，
ｂｏｔｈｏｆｔｈｅｍｓｈｏｕｌｄｄｅａｌｗｉｔｈｃｈｏｏｓｅ
ｔｏ
ｓｍａｌｌ
ｆｉｌｅｓ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅ
ｐｒｏｊｅｃｔ
ｏｎ
ｎｅｅｄｓ，ｗｅ
ＨＤＦＳ．Ｂｙ
ｂｕｉｌｄ
ａ
ＭａｓｓｉｖｅＳｍａｌｌＦｉｌｅｓ
ＳｔｏｒａｇｅＳｙｓｔｅｍｂａｓｅｄ
ｒｅａｓｏｎ
ａｎａｌｙｚｉｎｇｔｈｅｓｔｒｕｃｔｕｒｅｏｆＨＤＦＳ，ｗｅｆｉｎｄｔｈｅ
虢璐咿龋践
日期：劢侈、岁
随着ｗｅｂ２．０技术的普及和飞速发展，互联网数据出现了爆炸性的增长。为有效存储和管理如此大规模的数据，诸多研究机构和公司都提出了各自的数据存储方案。其中影响最大的莫过于开源的ＨＤＦＳ（ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ），其已经在学术界和工业界得到了广泛应用。但是，ＨＤＦＳ的优势在于存储超大文件，对于海量小文件的支持很不理想。结合图片检索系统和“中华字库工程＂项目，本文研究如何基于ＨＤＦＳ搭建海量小文件存储系统。通过分析ＨＤＦＳ的结构特点，找到其对海量小文件支持不理想的原因，并提出一种解决ＨＤＦＳ海量小文件存取的方法ＨＩＦＭ
关键字：ＨＤＦＳ小文件ＨＩＦＭ分层索引
索引预加载数据预取
Ａｂｓｔｒａｃｔ
Ｗｉｔｈ
ｔｈｅｐｏｐｕｌａｒｉｔｙａｎｄｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｗｅｂ２．０，ｔｈｅｓｃａｌｅｏｆｄａｔａ
ｇｒｏｗｓｅｘｐｌｏｓｉｖｅｌｙ．Ｉｎｏｒｄｅｒｔｏｓｔｏｒａｇｅａｎｄｍａｎａｇｅｔｈｅｈｕｇｅａｍｏｕｎｔｓｏｆ
关于论文使用授权的说明
本人完全了解中国科学院软件研究所有关保留、使用学位论文的规定，即：中国科学院软件研究所有权保留送交论文的复印件，允许论文被查阅和借阅；中国科学院软件研究所可以公布论文的全部或部分内容，可以采用影印、缩印或其它复制手段保存论文。（保密的论文在解密后应遵守此规定）
丛垒曼墨鲤星曼磐曼丛重ｉ！盟墅Ｑ￡垒ｇＩＩｅＳＹＩ墨鲤堡
Ｂｙ
ＣｈｕｎｍｉｎｇＺｈａｎｇ
ＡＤｉｓｓｅｒｔａｔｉｏｎＳｕｂｍｉｔｔｅｄｔｏＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＩｎｐａｒｔｉａｌｆｕｌｆｉｌｌｍｅｎｔｏｆｔｈｅｒｅｑｕｉｒｅｍｅｎｔＦｏｒｔｈｅｄｅｇｒｅｅｏｆ
Ｍａｓｔｅｒ
ｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎａｎｄＴｅｃｈｎｏｌｏｇｙ
ＩｎｓｔｉｔｕｔｅｏｆＳｏｆｔｗａｒｅＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ
Ｍａｙ，２０１３
独创性声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明。
（ＨｉｅｒａｒｃｈｙＩｎｄｅｘＦｉｌｅＭｅｒｇｉｎｇ）。
ＨＩＦＭ是一种基于小文件合并的方法，主要包括以下五个方面的内容。第一，ＨＩＦＭ方法通过将小文件合并为大文件，减少系统中存储文件的数目，达到降低ＮａｍｅＮｏｄｅ内存开销的目的。第二，ＨＩＦＭ方法在合并的过程中会生成两个层次的索引文件，并采用集中存储和分布式存储相结合的方式管理索引文件。第三，ＨＩＦＭ方法将索引文件预加载到内存中，减少磁盘Ｉ／Ｏ的次数，提高小文件随机读取的效率。第四，对于未满的大文件，ＨＩＦＭ支持其内容的动态追加。因此，当存储少量小文件时，可以将其追加到某个未满的大文件中，进一步减少ＮａｍｅＮｏｄｅ的内存开销。第五，ＨＩＦＭ提供数据预取的机制，优化小文件顺序读取的效率。基于ＨＩＦＭ方法和ＨＤＦＳ实现一套海量小文件存储系统，并对系统的性能进行测试与分析。实验结果表明，与原始ＨＤＦＳ、ＨａｄｏｏｐＡｒｃｈｉｖｅ和ＨＢａｓｅ相比，ＨＩＦＭ方法能够有效降低ＮａｍｅＮｏｄｅ的内存开销，缩短小文件的存储时间，并显著提升小文件随机读取和顺序读取的性能。其中随机读取的时间延迟保持在２０ｍｓ左右，完全满足在线小文件读取服务的应用需求。
ｅｆｆｅｃｔｉｖｅｌｙ，ｍａｎｙｒｅｓｅａｒｃｈｉｎｓｔｉｔｕｔｉｏｎｓａｎｄｃｏｍｐａｎｉｅｓｐｒｏｐｏｓｅｔｈｅｉｒｓｏｌｕｔｉｏｎ．ＢｕｔｍｏｓｔｏｆｔｈｅｉｍｐａｃｔｃｏｍｅｓｉｎｔｈｅＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ，ｉｔｈａｓｂｅｅｎｗｉｄｅｌｙｕｓｅｄｉｎａｃａｄｅｍｉａａｎｄｐｏｌｙｍｅｒｉｎｄｕｓｔｒｙ．Ｈｏｗｅｖｅｒ’ＨＤＦＳｉｓｐｒｉｍａｒｉｌｙｄｅｓｉｇｎｅｄｆｏｒｓｔｒｅａｍｉｎｇ
ｗｈｙｉｔｄｏｅｓｎｏｔｓｕｐｐｏｒｔ
ｍａｓｓｉｖｅｓｍａｌｌｆｉｌｅｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｎａｐｐｒｏａｃｈｃａｌｌｅｄＦｉｌｅ
ＨＩＦＭ（Ｈｉｅｒａｒｃｈｙ
Ｉｎｄｅｘ
Ｍｅｒｇｉｎｇ）ｉｓ
Ｏｉｌ
ｐｒｏｐｏｓｅｄｔｏｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｓｔｏｒｉｎｇａｎｄａｃｃｅｓｓｉｎｇ
密级：
国
中国科学院大学
ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ
硕士学位论文
作者姓名：指导教师：
韭查明茵建武直级王猩垣
２０１３年５月
至篷曼宝垒Ｅ￡塾垒坠亟！虫卫！￡磐竺坠！垒堕Ｑ坠Ｑ！
－＿■■＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿■■＿＿＿＿＿＿＿＿＿＿＿＿＿＿●■＿●■■●■■＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿●■●■■■一■＿●■●■■■■■＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿一