重复数据删除技术的发展及应用

合集下载

大数据处理中的数据去重与融合技术研究

大数据处理中的数据去重与融合技术研究

大数据处理中的数据去重与融合技术研究随着互联网的普及和数据的爆发式增长,大数据处理已成为当今时代的重要课题之一。

在大数据处理过程中,数据去重与融合技术是非常关键的环节。

本文将深入探讨大数据处理中的数据去重与融合技术的研究现状和发展趋势。

首先,我们来了解一下大数据处理中的数据去重技术。

数据去重是指在数据集中删除重复的数据行或记录的过程。

在大数据环境下,数据的重复性问题尤为突出,可能导致存储空间的浪费和数据分析结果的失真。

为了处理海量数据,传统的排序和哈希算法已经不再适用。

因此,研究者们提出了基于概率算法的数据去重技术。

这些算法根据数据的特征和分布,利用采样和估计的方法来检测重复数据,并进行删除。

例如,布隆过滤器和HyperLogLog算法在数据去重中被广泛应用。

此外,基于机器学习和深度学习的数据去重方法也在迅速发展中。

这些方法可以学习数据的特征和模式,从而更准确地判断数据是否重复。

数据融合是大数据处理中另一个重要的技术。

数据融合是将来自不同数据源的数据集成到一个一致的数据集中的过程。

在实际应用中,常常会遇到多个系统或机构保存着不同格式和结构的数据。

数据融合技术可以帮助我们将这些异构数据进行集成和整合,形成完整的数据视图。

目前,数据融合技术主要包括基于规则的融合、基于概念的融合和基于机器学习的融合。

基于规则的融合方法通过事先定义的规则和映射来进行数据集成,但需要手动编写和维护规则,工作量较大。

基于概念的融合方法则将数据集成问题转化为概念匹配问题,通过计算概念的相似度来完成数据融合。

最近,基于机器学习的融合方法逐渐兴起。

这些方法可以自动学习数据之间的匹配关系,无需人工干预。

在数据去重和数据融合技术的研究中,还面临着一些挑战。

首先,大数据处理的规模和速度要求对数据去重和数据融合技术提出了更高的要求。

传统的数据去重和数据融合算法可能无法处理大规模数据或实时数据流。

因此,需要研究和设计高效的算法和数据结构来加速处理速度。

绿色算力研讨发言稿

绿色算力研讨发言稿

绿色算力研讨发言稿大家好:今天有幸和大家共同探讨绿色算力,刚才几位都谈的非常深入,下面我从绿色算力设备层技术创新角度谈谈个人看法,希望大家指正。

算力设备是算力产生的源头,综合了计算、存储等IT和网络设备,以服务器、芯片为核心部件,实现对数据的处理与输出。

现阶段,针对算力设备的绿色技术发展,主要围绕服务器计算高效、先进存储、网络传输无损等方面进行研究。

(一)优化服务器硬件节能,发展动态能耗管理在过去很长一段时间,为了满足不断增长的用户数据处理需求,企业主要是通过扩大机架和服务器规模来提供更多算力,但是这也会导致运营成本的增加和场地空间的浪费。

发达地区日益紧张的土地资源使得以扩大服务器规模来提升算力水平的数据中心建设模式难以开展。

依据指令集架构、产品形态等维度对服务器进行工艺和产品创新,实现高效节能。

服务器承载处理数据和实现结果输出的功能,是算力供给的核心装备,也是数据中心中最主要的业务耗能设备,约占数据中心IT设备能耗的90%。

伴随社会对信息计算力需求呈指数级增长,服务器生命周期的高效节能对算力绿色发展至关重要。

从指令集架构上看,基于精简指令集(RISC)架构的处理器以其低功耗、高效能、成本低、高可靠的优势正在成为让信息计算更绿色的主力。

从逻辑上来看,CPU的指令集可以分为两种主要类型,即复杂指令集(CISC)和精简指令集(RISC)。

复杂指令集的代表是X86,由英特尔和AMD主导;精简指令集包括ARM架构、RISC-V架构、MIPS架构等。

随着产业智能算力需求的不断增长,以及生成式AI对于异构算力的庞大需求,ARM架构服务器在云游戏、数字人等新兴应用市场展现出独特优势。

据投资银行Bernstein数据显示,我国数据中心正在加快部署ARM服务器,截至2023年一季度,我国已拥有占全球约40%的ARM服务器。

据不完全统计,在中国服务器市场,当前Arm的份额可能已经超过了10%。

与此同时,RISC-V近年来发展趋势日益迅猛,有望与ARM分庭抗礼。

基于FSL数据集的去重性能分析

基于FSL数据集的去重性能分析

基于FSL数据集的去重性能分析曹晖;张秦正【摘要】重复数据删除技术作为一种数据缩减技术,实现了对高度冗余数据集的压缩功能,可以有效地解决存储系统空间浪费所带来的成本开销问题.相较于过去大多针对小规模静态快照或是覆盖时间较短的快照的研究,该文基于从共享用户文件系统选取的覆盖时间较长的大规模快照,从文件、数据块以及用户的角度研究备份数据集的特征,分析不同数据分块方法、策略下去重性能的优缺点,得到最高的重复数据删除率,为未来的重复数据删除系统设计提出建议.【期刊名称】《电子科技大学学报》【年(卷),期】2018(047)004【总页数】5页(P621-625)【关键词】重复数据删除;重删率;元数据;存储【作者】曹晖;张秦正【作者单位】电子科技大学计算机科学与工程学院成都 611731;电子科技大学计算机科学与工程学院成都 611731【正文语种】中文【中图分类】TP391随着互联网信息的快速增长,数据所需存储空间也不断增加。

仅在过去十几年间,企业存储数据已达到EB级,且数据的增长速度远超存储空间的发展速度,导致数据存储成本大幅增加。

IDC(international data corporation)调查发现[1],仅2006年—2010年间,数据就从161 EB增加到988 EB,并以每年57%的速度飞速增长。

IDC预计,到2020年人类所产生的数据总量将达到40 ZB。

全球的数字化浪潮所引发的爆炸性数据增长,使得人们对数据的存储需求也大幅提高。

如今的存储系统中有60%是冗余数据,且随着时间的推移这个比例还会越来越高[2]。

因此重复数据删除技术受到了越来越多的科研机构及企业的关注[3]。

重复数据删除技术可以分析出存储系统中的重复数据并对其进行删除,以减少存储空间达到节省存储成本的目的。

当前对于重复数据删除的研究主要集中在以下4个方面[4]:1)对重复数据删除率(简称“重删率”)的提高,通过挖掘并删除更多的重复数据,节省存储空间降低存储能耗;2)提高重复数据删除性能,保证在删除重复数据时不影响数据系统的吞吐率;3)提高重复数据删除可靠性,保证删除重复数据后留存的数据孤本安全;4)满足系统的扩展性。

灾备设计方案

灾备设计方案

RPO 是反映恢复数据完整
性的指标,在同步数据复制方式下, RPO 等于数据传输延迟的时间;在异步数据复制下,
RPO 基本为异步传输数据排队的时间。在实际应用中,考虑导数据传输的因素,业务数据 库与容灾备份数据库的一致性( SCN)是不同的, RPO 表示业务数据库与容灾备份数据库
SCN 的时间差。发生灾难后,启动容灾系统完成数据恢复, 据损失量。

制。
数据 库的异地复制技 术,通常采用日志复 制功能,依靠本地和 远程主机 间的日志 归 档与 传递 来实现 两端的数据一致。

与平台无关,
台 同构存 储

需要增加 专有的复制服 务器 同构主机、异构存 储 与平台无关
或带有复制功能的 SAN 交换








较高
能 资
源 对生产系统存储性能有影 对 网 络 要求高
综合来进行考量。后续在 1.6.1 数据同步章节,将会有这 4 类数据复制技术的综合对比,可 以作为选择的参考。
1.2.3 网络安全
通信网络是容灾系统的组成部分, 通信线路的质量也是容灾系统的性能指标之一, 其中包括
网络的数据传输带宽、网络传输通道的冗余和网络服务商的服务水平(网络年中断率)
。如
果容灾系统使用的通信网络是确定的, 为了比较不同容灾解决方案, 可以用单位存储容量的
1.4 容灾技术分析
1.4.1 备份方式
(1) 冷备份
备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境
, 应用系统数据没有
及时装入备份系统。 一旦发生灾难, 需安装配置所需的运行环境, 用数据备份介质 (磁带或

重复数据消除技术介绍

重复数据消除技术介绍

重复数据消除技术介绍
为了提高大数据的有效性,去重是一种必要的步骤。

去重技术是一种
从数据集中去掉一些重复项的技术,它的目的是减少数据集中重复出现的项。

去重技术可以有效地缩减数据量,从而提高大数据处理的效率。

去重技术分为基于Hash算法和基于比较算法两大类,其中基于Hash
算法是将具有相同包含特征值的记录哈希到相同的索引位置,然后比较每
个索引位置的记录数。

如果记录数大于1,则表示该索引位置存在重复项,需要将其删除;如果记录数等于1,则表示该索引位置不存在重复项,可
以保留。

相对而言,基于比较算法是将数据集的每一条记录分别与其他记
录进行比较,如果出现相同的特征值,则说明存在重复项,需要将其删除。

去重技术可以有效地缩减大数据集的存储空间和处理时间,因此已经
得到广泛应用。

举例来说,在一些需要存储海量数据的环境中,去重技术
可以有效减少存储空间以及减少读取和处理所需的时间。

此外,在需要找
出有效数据的环境中,去重技术也可以有效筛选有效数据,从而提高数据
处理效率。

另外,去重技术在数据挖掘过程中也得到了广泛的应用,它可以有效
地清除冗余数据。

备份一体机与传统备份的区别

备份一体机与传统备份的区别

备份⼀体机与传统备份的区别备份⼀体机与传统备份的区别⼀、何谓备份⼀体机? 谈到备份⼀体机,我们⾸先要清楚什么是备份。

备份,顾名思义,就是将原有的资料重新复制进⾏保留,以便在特殊情况下可以重新利⽤。

如同⽣活中的汽车备胎,备份把整个系统或系统的某⼀部分数据从应⽤主机的硬盘或阵列复制到其它的存储介质,⼀旦出现故障,我们只要将“备胎”换上去就可以重新使⽤了。

不过需要注意的是,备份并不能保证业务可以不停机运营,它更多解决的是意外宕机之后的数据恢复和找回问题,⽽不能预防各类停机事件。

在传统的备份解决⽅案中,备份系统是由应⽤主机——备份服务器——存储介质3层架构所组成, ⽤户如要构建⼀套完善的数据备份系统,需要⾃⼰选购备份服务器、磁盘备份设备或磁带库,然后再选择与之配合的备份软件。

据可靠统计显⽰,在整个搭建过程中,⽤户⾄少要选择3~7个相关的软硬件产品。

随着企业⾃⾝业务的发展扩⼤,当数据积累到⼀定程度,这种传统备份模式的⾼复杂性导致的管理和维护问题也⽇趋增多。

只是维护阵列不能解决数据备份问题,单独优化备份软件⼜不能解决存储问题。

越来越多的⽤户希望能快速解决这两个⽅⾯的问题,顺应这种市场需求,备份⼀体机应运⽽⽣。

如上图所⽰,备份⼀体机与传统备份最⼤的区别,便是将备份软件、备份服务器(或介质服务器)和磁盘存储介质整合⾄⼀体,使传统的3层架构变成了2层,并且能够像操作备份软件⼀样对整个备份系统进⾏操作——如设置策略、重复数据删除等等。

它是⼀种与备份软件深度集成的备份集成系统,其软件针对备份系统做了专门的优化。

不过到⽬前为⽌,业界对于备份⼀体机的定义依然莫衷⼀是。

在本⽂中,⼩编所讨论的备份⼀体机仅指“⼚商将备份软件和硬件打包为⼀体的产品或解决⽅案”。

传统的虚拟带库产品暂时不在讨论之列。

⼆、备份⼀体机优势:化繁为简 All-in-one 对于国内⽤户来说,备份⼀体机这种“软件、硬件、服务⼀条龙”的交钥匙型解决⽅案具有明显吸引⼒。

重复数据删除技术的应用与实践

重复数据删除技术的应用与实践
了资 源效 率 和 成 本 节 约 ,包 括 数 据 中心 耗 电量 、冷 却 成 本 和 占地 面 积 的减 少 ,以及 存 储 容 量 、网络 带 宽 和I T管
2提 另外 ,重复 数 据 删 除 降低 了保 留 同 一数 据 对 象 的 多个 拷 理 人 员 的减 少 。 () 高 备份 和 恢复 服 务级 别 。重复 数 据 贝所带 来 的 存储 成本 。
将重复数据标准化为单个共享数据对象以提高存储容量
效 率 的技 术 。具 体 地 说 ,任 何 重 复 数据 删 除算 法 都 是搜
二 、重 复数 据 删 除 的优 势
在基 础 架 构 中的 多个 不 同位 置部 署 重 复 数据 删 除 技
索 重 复 数据 ( 数 据块 、数 据 段 和 文件 ) 在 找 到 后将 术 , 以解 决 存 在 大 量 冗 余数 据 的 问题 。重 复 数据 删 除 的 如 并 重 复 数据 删 除 。在检 测 到 重 复 数 据 时将 不 再 次 保 留此 数 作 用 包括 以下 几方 面 :() 1 降低 成本 。重复 数 据 删 除带 来 据 ,而是 使 用 一 个 “ 据 指 针 ” ,让 存储 系统 引 用 该数 数 据 对 象 的 一个 已经 存储 在 备份 存 储 介质 上 的精 确 拷 贝。
喻 。大 量 的业 务应 用 比 以往 任 何 时 候 都需 要 系统 应 用 的
是 出现在 内容 寻址 存 储 ( ne tAd r sa l trg , Co tn desbe Soa e
实时 在 线 与连 续 可 用 ,这也 是 当今 怏 速经 济 时代 的 生 存 C S)没备 中的 单 一实 例 存储 ( igeIs neSoe A Sn l nt c tr, a

信息系统灾难备份技术综述

信息系统灾难备份技术综述

信息系统灾难备份技术综述灾备是确保数据和信息系统安全、稳定运行的一个极为重要的因素,对支撑管理起到十分重要的作用。

本文介绍了信息系统建设与灾难备份的背景,讨论了灾备系统的主要指标和基本类型,在此基础上论述了灾备系统的关键技术和实现方法,提出了灾备技术未来的发展方向和趋势。

1 背景党中央和国务院十分重视信息安全工作。

2003年,中办发[2003127号文《国家信息化领导小组关于加强信息安全保障工作的意见》,要求各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。

2004年,国家网络与信息安全协调小组办公室发12004]11号文《关于做好重要信息系统灾难备份工作的通知》。

明确指出,提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定。

2005年,国务院信息化工作办公室出台了《重要信息系统灾难恢复规划指南》,为灾难恢复工作提供了一个操作性较强的参考思路。

2007年,国家标准《信息系统灾难恢复规范》(GB/T20988—2007)正式颁布,这是灾备建设中具有里程碑意义的重要大事。

该标准对灾难备份、灾难恢复相关术语进行了规范和梳理,指明了灾难恢复工作的流程,明确了灾难恢复的等级和相关要素,制订了灾难恢复工作的主要环节及各环节具体工作等。

在2010年召开的第五届中国灾难恢复行业高层论坛上,提出了我国将全面启动灾难恢复体系建设,制定强制性灾备建设规范,完善灾备标准体系并及时出台灾难恢复服务资质管理办法,以促进政府相关部门、行业用户、企业灾难恢复保障体系的发展。

目前,许多政府部门和重要行业已经开始积极有序进行应急管理、灾难备份与恢复体系的建设工作。

近十年来,国土资源信息化建设发展十分迅猛,数据积累不断丰富,政务信息系统日渐增多,其安全性和稳定性显得愈来愈重要。

一旦发生人为或自然等突发性灾难,造成数据丢失或信息系统严重故障或瘫痪,将会直接影响到国土资源管理工作的正常运转以及一些企业和广大民众的利益。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

重复数据删除技术的发展及应用摘要:重复数据删除技术包括相同数据重复数据删除技术和相似数据重复数据删除技术。

相同数据重复数据删除技术主要有:相同文件重复数据删除技术、固定长度分块的重复数据删除技术、基于内容分块(CDC)的重复数据删除技术、基于滑动块的重复数据删除技术和基于数据特征的重复数据消除算法等。

重复数据删除技术适合应用于数据备份系统、归档存储系统、远程灾备系统等场合。

关键词:重复数据删除;存储;智能压缩Abstract:Data de-duplication technology can be used to de-duplicate instances of the same data or similar data. Same data de-duplication includes de-duplication of fixed-length blocks, Content Defined Chunking (CDC), sliding blocks, and characteristic-based elimination of duplicate data algorithm. This technology is especially applicable in data backup systems, archival storage systems, and remote disaster recovery systems.Key words:data de-duplication; storage; intelligent compression重复数据删除也称为智能压缩或单一实例存储,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,以达到消除冗余数据、降低存储容量需求的存储技术。

本文首先从不同角度介绍重复数据删除技术的分类,然后分别介绍相同数据重复数据删除技术和相似数据重复数据删除技术,并介绍重复数据消除的性能提升方法,最后分析重复数据技术的应用场景。

1 重复数据删除技术的分类1.1 基于重复内容识别方法的分类(1)基于散列(Hash)识别该方法通过数据的散列值来判断是否是重复数据,对于每个新数据块都生成一个散列,如果数据块的散列与存储设备上散列索引中的一个散列匹配,就表明该数据块是一个重复的数据块。

Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1、MD-5等类似的散列算法来进行重复数据删除。

基于散列的方法存在内置的可扩展性问题。

为了快速识别一个数据块是否已经被存储,这种基于散列的方法会在内存中拥有散列索引。

随着数据块数量增加,该索引也随之增长。

一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。

因此,目前大部分基于散列的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡,这样,散列表就永远不会变得太大。

(2)基于内容识别该方法采用内嵌在数据中的文件系统的元数据识别文件,然后与其数据存储库中的其他版本进行逐字节地比较,找到该版本与第一个已存储版本的不同之处并为这些不同的数据创建一个增量文件。

这种方法可以避免散列冲突,但是需要使用支持该功能的应用设备以便设备可以提取元数据。

(3)基于ProtecTier VTL的技术这种方法像基于散列的方法产品那样将数据分成块,并且采用自有算法决定给定的数据块是否与其他的相似。

然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被存储。

1.2 基于去重粒度的分类(1)全文件层次的重复数据删除以整个文件为单位来检测和删除重复数据,计算整个文件的哈希值,然后根据文件哈希值查找存储系统中是否存在相同的文件。

这种方法的好处是在普通硬件条件下计算速度非常快;这种方法的缺点是即使不同文件存在很多相同的数据,也无法删除文件中的重复数据。

(2)文件块消冗将一个文件按不同的方式划分成数据块,以数据块为单位进行检测,该方法的优点是计算速度快、对数据变化较敏感。

(3)字节级消冗从字节层次查找和删除重复的内容,一般通过差异压缩策略生成差异部分内容。

该方法的优点是去重率比较高,缺点就是去重速度比较慢。

1.3 基于消冗执行次序的分类(1)在线式消冗在线处理的重复数据删除是指在数据写入磁盘之前执行重复数据删除。

其最大的优点是经济高效,可以降低对存储容量的需求,并且不需要用于保存还未进行重复数据删除的数据集。

在线处理的重复数据删除减少了数据量,但同时也存在一个问题,处理本身会减慢数据吞吐速度。

正是因为重复数据删除是在写入到磁盘之前进行的,因此重复数据删除处理本身就是一个单点故障。

(2)后处理式消冗后处理的重复数据删除,也被称为离线重复数据删除,是在数据写到磁盘后再执行重复数据删除。

数据先被写入到临时的磁盘空间,之后再开始重复数据删除,最后将经过重复数据删除的数据拷贝到末端磁盘。

由于重复数据删除是数据写入磁盘后再在单独的存储设备上执行的,因此不会对正常业务处理造成影响。

管理员可以随意制订重复数据删除的进程,先将备份数据保留在磁盘上再进行重复数据删除,企业在需要时可以更快速地访问最近存储的文件和数据。

而后处理方式的最大问题在于它需要额外的磁盘空间来保存全部还未删除的重复数据集。

1.4 基于实现层次的分类(1)基于软件的重复数据删除在软件层次,重复数据删除可以有两种集成方式,可以将软件产品安装在专用的服务器上实现,也可以将其集成到备份/归档软件中。

基于软件的重复数据删除的部署成本比较低;但是基于软件的重复数据删除在安装中更容易中断运行,维护也更加困难。

基于软件的重复数据删除产品有EMC公司的Avamar软件产品、Symantec公司的Veritas NetBackup产品以及Sepaton公司的DeltaStor存储软件等。

(2)基于硬件的重复数据删除基于硬件的重复数据删除主要由存储系统自己完成数据的删减,例如:在虚拟磁带库系统、备份平台或者网络附加存储(NAS)等一般目的的存储系统中融入重复数据删除机制,由这些系统自身完成重复数据删除功能。

基于硬件的重复数据删除的优点是高性能、可扩展性和相对无中断部署,并且重复数据删除操作对上层的应用都是透明的。

这种设备的缺点就是部署成本比较高,要高于基于软件的重复数据删除。

目前基于硬件的重复数据删除系统主要包括VTL和NAS备份产品两大类,例如:DataDomain公司的DD410系列产品、Diligent Technologies公司的ProtecTier VTL、昆腾公司的DXi3500和DXi5500系列产品、飞康的VTL产品、ExaGrid Systems公司的NAS备份产品以及NetApp的NearStore R200和FAS存储系统。

2 相同数据重复数据删除技术相同数据重复数据删除技术是将数据进行划分,找出相同的部分,并且以指针取代相同的数据存储。

2.1 相同文件重复数据删除技术图1 全文件消冗相同文件重复数据删除技术是以文件为粒度查找重复数据的方法[1]。

如图1所示。

相同文件重复数据删除技术以整个文件为单位计算出哈希值(采用SHA-1或MD5算法),然后与已存储的哈希值进行比较,如果发现相同的哈希值则认为该文件为重复的文件,不进行存储;否则,该文件为新文件,将该文件及其哈希值存储到系统中。

EMC的Centera系统[2]、Windows的单实例存储系统[3]采用了以文件为单位的数据消冗方法,Windows2000的单一实例存储(SIS)应用该技术对具有20个不同Windows NT映像的服务器进行测试,结果表明总共节省了58%的存储空间。

该方法的优点是重复数据删除的速度比较快,缺点是不同删除不同文件内部的相同数据。

2.2 固定长度分块的重复数据删除技术图2 基于定长块的重复数据消除基于固定长度分块的重复数据删除方法如图2所示。

将数据对象(文件)分成互不重叠的定长块,然后计算每个数据块的哈希值,并将该哈希值与已存储的哈希值进行检索比较,如果发现相同的哈希值,则认为该数据块是重复的数据块,不存储该数据块,只存储其哈希值及引用信息;否则,该数据块是新数据块,则存储该数据块、其哈希值及引用信息。

该方法存在的主要问题是:当向数据对象中插入数据或者从中删除数据时,会导致数据块边界无法对齐,严重的影响重复数据删除的效果。

如图3所示,数据对象的版本1生成了n 个定长数据块D1、D2……D n,版本2在版本1的基础上插入了部分内容(阴影部分所示),对版本2分块产生的数据块D1、D\2……D\n中,只有D1是重复的数据块,D\2……D\n都不是重复的数据块,使得数据对象中从插入位置到结尾的重复数据都无法被消除,影响了消冗率。

图3 定长块重复数据消除技术存在的问题该方法已经在很多系统获得了应用,典型的应用是针对网络存储的Venti归档存储系统[4],该系统采用该技术大约节省了30%的空间。

2.3 CDC算法的重复数据删除技术针对上述问题,研究者提出了采用基于内容分块(CDC)的重复数据删除方法[5]。

如图4所示。

该方法的思路是通过一个不断滑动的窗口来确定数据块分界点,采用Rabin指纹算法计算滑动窗口的指纹,如果满足预定条件,就将该窗口的开始位置作为数据块的结尾,这样通过不断滑动窗口并计算指纹实现对数据对象的分块。

为了避免极端情况下,数据块过长或者过短的情况,可以设定数据块的下限和上限。

对于每一个划分得到的数据块,就可以通过比较其哈希值来确定重复的数据块,具体过程与上面描述的相同。

图4 内容分块重复数据检测方法因为数据块是基于内容而不是基于长度确定的,因此能够有效地解决上述问题。

当数据对象中有内容插入或者删除时,如果插入或者删除的内容不在边界滑动窗口区域,该边界不会改变,当插入的内容产生一个新的边界时,一个数据块会分成两个数据块,否则数据块不会变化。

如果变化的内容发生在滑动窗口内,可能会破坏分界数据块,导致两个数据块合成一个数据块,或者两个数据块之间的边界发生变化,产生新的数据块。

因此,插入或者删除内容只影响相邻的一个或者两个数据块,其余数据块不会受影响,这就使得该方法能够检测出对象之间更多的重复数据。

如图5所示,当文件中插入部分内容后,分块时将该内容划分到一个数据块中,保持其后续的数据块不变,从而保证后面重复的数据块都能够被删除。

图5 内容分块示例该方法的典型应用包括典型的应用有Shark[6]、Deep Store[7]和低带宽网络系统LBFS中,在LBFS系统中,系统对分块长度加上了上下边界长度,以避免数据块太长和太短的现象。

2.4 基于滑动块的重复数据删除技术内容划分块方法解决了字节插入和删除的问题,但是引入了变长块的存储问题。

相关文档
最新文档