图数据表示与压缩技术综述_张宇

合集下载

数据压缩技术综述

数据压缩技术综述

数据压缩技术综述作者:汪见晗来源:《科学与财富》2016年第04期摘要:在现今的电子信息技术领域,正发生着一场有长远影响的数字化革命。

由于数字化的多媒体信息尤其是数字视频、音频信号的数据量特别庞大,如果不对其进行有效的压缩就难以得到实际的应用。

因此,数据压缩技术已成为当今数字通信、广播、存储和多媒体娱乐中的一项关键的共性技术。

本文从专利文献的视角对数据压缩技术的发展进行了全面的统计分析,总结了与数据压缩相关的专利申请趋势、主要申请人分布,介绍了数据压缩技术的重点技术分支及其发展历程,并分析了全球数据压缩技术演进特点,并绘制了国内重点申请人的技术发展路线图。

关键词:数据压缩;发展路线1 数据压缩介绍1.1 数据压缩的分类目前,通用的主流压缩方法分为无损压缩和有损压缩。

无损压缩利用数据的统计冗余进行压缩。

数据统计冗余度的理论限制为2:1到5:1,所以无损压缩的压缩比一般比较低。

这类方法广泛应用于文本数据、程序和特殊应用场合的图像数据等需要精确存储数据的压缩,通常的无损压缩编码方法有香农-范诺编码,霍夫曼(Huffman)编码,算术编码,字典压缩编码等。

有损压缩方法利用了人类视觉、听觉对图像、声音中的某些频率成分不敏感的特性,允许压缩的过程中损失一定的信息。

虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像的影响较小,却换来了比较大的压缩比。

有损压缩广泛应用于语音、图像和视频数据的压缩,按照应用领域来分,有损压缩编码分为图像压缩编码,视频压缩编码,音频压缩编码。

2 数据压缩专利申请数据分析本章主要对全球和国内数据压缩专利申请情况以及国内外专利重要申请人进行分析,从中得到技术发展趋势,以及各阶段专利申请人所属的国家分布和主要申请人。

其中以每个同族中最早优先权日期视为该申请的申请日,一系列同族申请视为一件申请。

2.1 全球专利申请状况2.1.1 全球数据压缩专利申请量图2-1-1展示了数据压缩编码技术在全球专利申请年代分布情况。

图像压缩文献综述

图像压缩文献综述

《数字图像处理和模式识别》期末大作业题目:图像压缩文献综述班级:数字媒体学院计算机技术姓名:徐德荣学号:6141603020图像压缩文献综述1 图像压缩编码概述图像信息的压缩编码,是根据图像信号固有的统计特性和人类的视觉特性进行的。

图像信号固有的统计特性表明,其相邻像素之间、相邻行之间或者相邻帧之间,都存在较强的相关特性。

利用某种编码方法在一定程度上消除这些相关特性,便可实现图像信息的数据压缩。

这个过程也就是尽量去除与图像质量无关的冗余信息,属于信息保持(保持有效信息)的压缩编码。

另一种考虑是,图像最终是由人眼或经过观测仪器来观看或判决的。

根据视觉的生理学、心理学特性,可以允许图像经过压缩编码后所得的复原图像有一定的图像失真,只要这种失真是一般观众难以察觉的。

这种压缩编码属于信息非保持编码,因为它使图像信息有一定程度的丢失。

由此可见,图像压缩编码的研究重点是:怎样利用图像固有的统计特性,以及视觉的生理学、心理学特性,或者记录设备和显示设备等的特性,经过压缩编码从原始图像信息中提取有效信息,尽量去除那些无关的冗余信息,并且在保证质量(能从这些数据中恢复出与原图像差不多的图像)的前提下,用最低的数码率或最少的存储容量,实现各类图像的数字存储、数字记录或数字传输。

2 图像编码研究现状图像压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天己经有五十多年的历史。

五十年代和六十年代的图像压缩技术由于受到电路技术等的制约,仅仅停留在预测编码、亚采样以及内插复原等技术的研究,还很不成熟。

1969年在美国召开的第一届“图像编码会议”标志着图像编码作为一门独立的学科诞生了。

到了70年代和80年代,图像压缩技术的主要成果体现在变换编码技术上;矢量量化编码技术也有较大发展,有关于图像编码技术的科技成果和科技论文与日俱增,图像编码技术开始走向繁荣。

自80年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,人们开始突破传统的信源编码理论,例如不再假设图像是平稳的随机场。

图像压缩技术的综述

图像压缩技术的综述

图像压缩技术的综述题目:图像压缩技术的综述学生姓名:徐欢学号:070110117系别:计算机与信息学院专业:计算机科学与技术入学年份:2010年9月导师姓名:陈蕴谷职称/学位:讲师/硕士研究生导师所在单位:中国科学院合肥物质研究院完成时间:2014年4月1.引言随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。

图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。

利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。

图像数据是用来表示图像信息的,如果不同的方法为表示相同的信息使用了不同的数据量,那么使用较多数据量的方法中,有些数据必然代表了无用的信息,或者是重复的表示了其他数据表示的信息,前者成为数据冗余,后者成为不相干信息。

图像压缩编码的主要目的,就是通过删除冗余的或者是不相干的信息,以尽可能地的数码率来存储和传输数字图像数据。

图像压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天已经有50多年的历史了。

在此期间出现了很多种图像压缩编码方法,特别是到了80年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。

本文对当前最为广泛使用的图像压缩算法进行综述,讨论了它们的优缺点以及发展前景。

图像编码基础图像编码压缩是指在满足一定图像质量的条件下,用尽可能少的数据量来表示图像。

编码技术比较系统的研究始于Shannon信息论,从此理论出发可以得到数据压缩的两种基本途径。

一种是联合信源的冗余度也寓于信源间的相关2.2 Huffman编码无失真编码方法中,Huffman编码是一种较有效的编码方法。

CSI:基于压缩感知的高精度高效率地震资料采集技术

CSI:基于压缩感知的高精度高效率地震资料采集技术

CSI:基于压缩感知的高精度高效率地震资料采集技术李成博;张宇【摘要】介绍了CSI(Compressive Seismic Imaging)技术.该技术是基于压缩感知理论所开发出的一整套地震资料采集和处理综合技术,主要包括非规则最优化采样设计、地震信号的稀疏化处理、基于稀疏反演的数据重构及同时震源分离等内容.CSI利用非规则最优化设计和独立同时震源作业,极大地提高了采集效率,缩短了采集周期,从而以较低成本完成高品质、高密度的三维地震资料采集.在地震资料处理过程中,通过信号分离与数据重建来高保真地恢复叠前地震信号.海底节点、海上拖缆和陆地可控震源等生产项目中的应用结果表明,与宽频带处理以及叠前深度偏移技术相结合,CSI提供了高质量、高精度的地下成像结果.【期刊名称】《石油物探》【年(卷),期】2018(057)004【总页数】6页(P537-542)【关键词】压缩感知;非规则采样;稀疏反演;高效高密度采集;叠前深度偏移【作者】李成博;张宇【作者单位】美国ConocoPhillips国际石油有限公司,休斯敦77079;美国ConocoPhillips国际石油有限公司,休斯敦77079【正文语种】中文【中图分类】P631地震资料为油气勘探提供了重要的信息基础。

三维地震采集的概念早在20世纪初期就已出现,但受当时采集设备和计算能力(包括资料显示、处理、成像以及解释能力)的限制,这项技术一直未能得到实际应用。

直到1967年才在美国德克萨斯州首次进行了三维地震资料采集。

1972年,美国进行了三维地震采集的评估。

与此同时,地震资料处理和成像方法也取得了长足进步,客观上推动了三维采集的发展。

至2000年,三维叠前深度偏移技术迅猛发展,并且不断更新换代。

今天,三维地震资料应用于油气勘探到开发各个环节。

生产部门对地质构造分析和储层预测的精度要求不断提高,地震资料采集必须为石油勘探提供足够的地质信息。

三维拖缆作业是海上地震资料采集的主要方式。

数字 压缩

数字    压缩

原因
• 多媒体信息主要有三种表现形式,即文本、声音和图像。 其中,图像作为最常见的信息存储方式,其表现形式生动而 直观,能提供比其它形式数据更多的信息。在人类所接受 到的全部信息中,大部分是通过视觉得到的 。然而图像是 三种信息形式中数据量最大的,若不经过压缩,数字图像 传输所需的高传输速率和数字图像存储所需要的巨大容量 会阻碍数字图像的发展。在现有的通信能力下,如果不经 过压缩,无法完成大量多媒体信息的实时传输,数字图像 高速传输和存贮所需要的巨大容量已成为推广数字图像通 信的最大障碍,因此对图像进行压缩十分必要。进行数据 压缩可以较快地传输各种信源、提高信道 的 利用率、降 低发射功率、节约能源以及减少存储容量等。
原理
图像之所以能够进行压缩有以下几个方面的原因: • 1. 原始图像数据是高度相关的,存在很大的数据冗余。 • 2. 信源符号出现的概率不同,若用相同码长表示不同出现 概率的符号,就会造成符号冗余度。
• 3. 人眼具有视觉冗余,允许图像编码有一定的失真。
• 4. 还ห้องสมุดไป่ตู้以利用先验知识来实现图像编码,降低知识冗余度。
研所标准
联合图象专家组(JPEG)压缩(Joint Photographic Experts Group(JPEG)compression)JPEG使用普通 算法压缩静态图象。三维彩色和坐标图象信息首先被转换成更适于压缩的格式。颜色信息也被编码, 如果系统不能使用的话,则删掉一部分。压缩值是用户可选的,取决于能容忍的图象降级的程度。 一旦这些初始设置被确定,就可使用无失真或有失真压缩技术来压缩文件。JPEG不是为处理视频 图象而专门设计的,但通过压缩帧并减小帧的尺寸与频率,它在一定程度上做到了这一点。 片段压缩(Fractal Compression)在Iterated Systems公司开发的片段压缩技术中,随着压缩启动程序 (一种专用板)使用一种以各种方式操作片段的数学变换来寻找图象中的匹配模式时,图象被分成 越来越小的片段。重复的模式被保存起来以重建原始图,不匹配的数据被认为是不重要的并被删掉。 用户可选择处理运行的时间量,它决定了对数据的压缩量。 音频-视频交替(AⅥ)(Audio-Video Interleave(AⅥ))AⅥ由Microsoft开发,作为一种在CD-ROM盘 上存储活动视频图象的方法。读取信息时使用软件解压。这种技术结合了无失真技术和一种快速但 并非有效的特殊压缩算法。AⅥ图象减少了每秒的帧数,从而产生令人不满意的图象。然而,对某 些应用来说,这种技术是可以接受的。 数字视频交互(DⅥ)(Digital Video Interactive(DⅥ))DⅥ是由Intel开发的活动视频图象压缩方案,被 认为是事实上的标准。与AⅥ相似,它最初用于CDROM应用,并成功地把视频图象以这种格式带 到了台式系统。 ndeo视频图象(Indeo Video)Indeo视频是一种数字视频图象记录格式和压缩软件技术,它能够将视频图 象文件压缩到未压缩前的1/5至1/10。例如,Indeo能将一个50MB的文件减小到9MB。Indeo类似的 产品有Microsoft Video for Windows、OS/2操作系统和Apple Quicktime for Macintosh and Windows。播放根据提供的硬件类型而优化,所以较快系统上的帧播放率会有所提高。视频图象的 记录使用Intel i750视频图象处理器来优化,因为视频图象在接收时就被压缩,而不是先存储再压缩。 它使用了多种压缩技术,包括有失真和无失真技术。 运动图象专家组(MPEG)(Motion Picture Experts Group(MPEG))MPEG正在开发若干视频压缩标准, 该标准定义国际通用格式、数据速率和压缩技术。MPEG-1规范定义了音频和视频以及如何以 1.5Mbps至2Mbps的速率从盘上访问全运动视频图象。MPEG-2致力于提供质量超过NTSC、PAI和 SECAM广播系统的全运动视频图象。 其它压缩方法正处于研究阶段,现有的方法也正被重新修订,CCITT委员会正在从事可视电话和综合业 务数字网(ISDN)上的电视会议以及其它一些服务的标准的制订。

压缩曲线的原理和应用实例

压缩曲线的原理和应用实例

压缩曲线的原理和应用实例1. 压缩曲线的原理压缩曲线是指在数据处理过程中使用的一种算法,通过将数据进行压缩,以减小数据的存储空间和传输带宽,同时保持数据的关键特性。

压缩曲线的原理包括以下几个方面:1.1 数据冗余的消除压缩曲线通过消除数据中的冗余信息,减小数据的体积。

数据冗余是指数据中存在的不必要的重复或无效信息。

例如,在时间序列数据中,如果相邻时间点的数值相同,则可以只存储一个数值,并记录该数值的重复次数。

1.2 频域转换压缩曲线还可以通过将数据从时域转换为频域,利用频域变换的特性减小数据的体积。

常用的频域转换方法包括傅里叶变换、小波变换等。

1.3 编码技术压缩曲线还采用了各种编码技术,将数据用更少的位数来表示。

常用的编码技术包括熵编码、哈夫曼编码等。

2. 压缩曲线的应用实例压缩曲线在各个领域都有广泛的应用。

以下是一些压缩曲线在实际应用中的例子:2.1 图像压缩图像压缩是指将图像数据进行压缩,以减小图像文件的大小。

图像压缩可以分为无损压缩和有损压缩两种方式。

无损压缩保持图像的所有细节,而有损压缩会对图像进行一定程度的损失。

常用的图像压缩算法包括JPEG、PNG等。

2.2 声音压缩声音压缩是指将声音数据进行压缩,以减小声音文件的大小。

声音压缩通常采用有损压缩算法,因为人类对于声音的感知相对于图像对于颜色的感知更加宽容。

常用的声音压缩算法包括MP3、AAC等。

2.3 文本压缩文本压缩是指将文本数据进行压缩,以减小文本文件的大小。

文本压缩通常采用无损压缩算法,以保持文本的完整性。

常用的文本压缩算法包括LZW、gzip等。

2.4 数据库压缩数据库压缩是指对数据库中的数据进行压缩,以减小数据库的存储空间。

数据库压缩可以提高数据库的性能和响应速度,并减少存储成本。

常用的数据库压缩算法包括列式存储、字典编码等。

2.5 视频压缩视频压缩是指将视频数据进行压缩,以减小视频文件的大小。

视频压缩通常采用有损压缩算法,因为视频文件通常包含大量的冗余信息。

图像压缩中的稀疏表示技术

图像压缩中的稀疏表示技术

图像压缩中的稀疏表示技术随着数字化技术的发展,各种数字图像的应用越来越广泛。

然而,不可避免地需要在存储、传输和显示时对图像进行压缩以减少数据量。

图像压缩技术既能节约存储空间,又能提高传输速率和信号质量。

其中,稀疏表示技术是一种重要的压缩方式,下面将详细介绍。

一、稀疏表示的概念稀疏表示是指将一个信号表示为一组线性组合的形式,而这组线性组合只包含少量非零项。

换言之,一个信号的稀疏表达是指在某个给定基下,信号的绝大多数分量都是零,而仅有极少数个非零分量决定了信号的特征。

例如,针对图像信号,我们可以通过将图像表示为一些基本元素的和的形式来实现其稀疏表示。

这些基本元素可以是某种预定义的函数,例如小波函数、Haar函数等,也可以是从图像自身获取的特征向量,比如像素亮度或者梯度等。

然后,我们可以从这些基本元素中挑选出极少数个,将其系数非零化并保留,其他的则置为零。

二、基于稀疏表示的压缩方法基于稀疏表示的图像压缩方法通常包括以下三个步骤:1. 字典训练:针对某个图像集合,先构造一个基字典集合,通常用许多样本的稀疏表达的方式来学习。

2. 稀疏表示:对于待压缩的图像,定义一个稀疏约束问题,求解最优的系数向量。

稀疏约束问题通常是一个求解带约束的优化问题,例如 L1 正则化问题等。

3. 压缩重构:根据已有的基字典集和最优系数向量,通过线性组合的方式进行压缩重构。

最终的压缩重构图像可以进行解压和再次重构。

三、稀疏表示技术的优点相较于其他传统的压缩方法,基于稀疏表示的压缩方法具有以下优点:1. 较高的压缩比:在保证图像质量的前提下,可以实现更高的压缩比。

因为稀疏表达的原理是仅保留少量非零系数,从而大大压缩了原始数据的体积。

2. 更强的鲁棒性:稀疏表示压缩的基字典集合可以自适应地学习和更新,从而可以较好地适应数据的不同特征和变化情况。

同时,该方法还具有一定的对噪声和失真的鲁棒性。

3. 更广泛的适用性:基于稀疏表示的方法可以应用于各种不同类型的信号,如声音、图像、视频等,具有很好的通用性。

数字图像压缩技术综述

数字图像压缩技术综述

数字图像压缩技术综述作者:王亚男张敬申冯杰来源:《科教导刊·电子版》2014年第13期摘要图像压缩编码是数字图像处理领域一项重要的技术本文首先阐述了图像压缩编码的基本工作原理,其次介绍了近年来比较流行的压缩编码技术及优缺点,最后对未来新的技术发展做了展望。

关键词图像压缩编码方法中图分类号:TN911.73 文献标识码:A1 图像压缩基本原理原始图像的数据是高度相关的,存在很大冗余度。

图像压缩就是在不失真情况下减少目标图像所需要的数据量,即去除冗余数据。

从数学角度考虑,是将一个关于二维像素矩阵经过一定规则,变换为一个无关联的数据集合。

图像压缩编码模型包括源数据编解码及通道编解码。

其中,源数据编码过程是完成原数据的压缩;通道编码用于增加一些容错、校验位等来抗干扰;传输通道包括Internet、可移动介质、广播等。

在源数据编码与解码中,映射器作用是减少像素冗余。

量化则是减少视觉心理冗余,仅用于有损压缩。

符号编码器用来减少编码冗余。

目前图像压缩一般都是对经过变换后产生的变换系数进行量化,使编码器的输出达到一定的位率,经量化、编码后,达到压缩图像的目的,而解码正好是这个的逆过程。

2 图像压缩编码分类及方法2.1图像压缩分类对压缩前后图像数据是否一致,将压缩分为有损压缩和无损压缩。

前者利用了在不使图像失真的前提下去除去人的视觉冗余,达到压缩目的。

后者是一种可逆的压缩方式,即压缩后的图像加上原来去除的冗余信息后可恢复到压缩前的原图。

2.2 图像压缩编码方法2.2.1 第一代压缩编码方法(1)熵编码熵编码又称为统计编码,对小概率事件给予较短的码字,对大概率的事件给予较长的码子。

常见的统计编码:①霍夫曼编码根据信源字符的概率分布来构造编码。

将最常出现(概率大的)的符号用最短的编码,最少出现的符号用最长的编码。

②行程长度编码行程编码自从1966年在美国南加州被Solomo W.Golom首次提出就一直被广泛采用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文引用格式 : 张宇 ,刘燕兵 ,熊刚 ,贾焰 ,刘萍 ,郭莉 .图数据表示与压缩技术综述 .软件学报 ,2014,25(9):19371952. http://www. /1000-9825/4636.htm 英文引用格式 : Zhang Y, Liu YB, Xiong G, Jia Y, Liu P, Guo L. Survey on succinct representation of graph data. Ruan Jian Xue Bao/Journal of Software, 2014,25(9):19371952 (in Chinese). /1000-9825/4636.htm
Survey on Succinct Representation of Graph Data
ZHANG Yu1,2,
1 2 3
LIU Yan-Bing1,
XIONG Gang1,
JIA Yan3,
LIU Ping1,
GUO Li1
(Institute of Information Engineering, The Chinese Academy of Sciences, Beijing 100093, China) (University of Chinese Academy of Sciences, Beijing 100049, China) (School of Computer Science, National University of Defense Technology, Changsha 410073, China)
摘 要: 对包含亿万个节点和边的图数据进行高效、紧凑的表示和压缩,是大规模图数据分析处理的基础.图数据 压缩技术可以有效地降低图数据的存储空间,同时支持在压缩形式的图数据上进行快速访问.通过深入分析该技术 的发展现状,将该技术分为基于传统存储结构的压缩技术、网页图压缩技术、社交网络图压缩技术、面向特定查询 的图压缩技术 4 类.分别对每类技术详细分析了其代表方法并比较了它们之间的性能差异.最后对该技术进行了总 结和展望. 关键词: 图数据管理;空间缩减;图数据压缩;网页图;社交网络 中图法分类号: TP311
基金项目 : 国家自然科学基金 (61202477); 国家科技支撑计划 (2012BAH46B02); 中国科学院战略性科技先导专项 (XDA060 30602) 收稿时间 : 2014-01-26; 修改时间 : 2014-04-29, 2014-06-09; 定稿时间 : 2014-07-05
图数据表示与压缩技术综述熊 刚 1, 贾 焰 3, 刘 萍 1, 郭 莉 1
1 2 3
(中国科学院 信息工程研究所 ,北京 (中国科学院大学 ,北京 100049)
100093) 410073)
(国防科学技术大学 计算机学院 ,湖南 长沙
通信作者 : 熊刚 , E-mail: xionggang@
张宇 等:图数据表示与压缩技术综述
1939
构.按照图中的边是否有方向,图可分为有向图和无向图,图 1(a)为一个有向图的拓扑结构,图 1(b)和图 1(c)分别 为该图对应的关联矩阵和邻接表 , 表 1 给出了有向图和无向图分别采用关联矩阵和邻接表两种存储结构所需 要的存储空间复杂度 .本文中将所有图都看作是有向图 ,图中的边都看作有向边 , 因为无向图中的无向边可以转 化为这条边对应的两个节点之间的两条有向边.对于节点 vV,uV 使用 e(v,u)E 表示图中 v 指向 u 的一条边. 使用 out(v)表示节点 v 指向的所有节点的集合,out(v)={v|vV,e(v,u)E},即节点 v 的外邻 (out-neighbor).使用 in(v) 表示指向节点 v 的所有节点的集合,in(v)={v|vV,e(u,v)E},即节点 v 的内邻(in-neighbor).
随着移动互联网、物联网等技术的发展 , 众多新兴应用以前所未有的方式和速度产生并积累着大量数据 , 如何对这些数据进行分析并使用,已经成为许多领域面临的机遇与挑战,大数据(big data)时代已经到来.2010 年 国际超级计算大会 (Supercomputing Conference)为评估超级计算机对大数据的处理性能 , 定义了新的排名方法 Graph500[1], 比较超级计算机在图数据 (graph data)上的处理能力 .在大数据分析的过程中 ,图作为一种有效描述
processing. Graphic data compression technology is an effective solution to significantly reduce the storage space while supporting fast access in the compressed form. An in-depth analysis is provided on the current development of the technologies, including compression technology based on the traditional storage structure, Web graph compression technology, social network compression technology and compression technology for a particular query. A detailed analysis and performance comparison about the representative methods of each technology is presented. Finally, the summary and prospect are listed. Key words: graph data management; space reduction; graph data compression; Web graph; social network
软件学报 ISSN 1000-9825, CODEN RUXUEW Journal of Software,2014,25(9):19371952 [doi: 10.13328/ki.jos.004636] ©中国科学院软件研究所版权所有 .
E-mail: jos@ Tel/Fax: +86-10-62562563
Corresponding author: XIONG Gang, E-mail: xionggang@ Abstract: How to effectively compress and represent the large-scale graphic data becomes the fundamental issue for analysis and
1
问题描述
1.1 图的基本概念与定义 本文中使用 G=(V,E)表示一个图,其中 V 表示图中节点集合、E 表示图中边集合.使用 n(n=|V|)表示节点的 个数 ,m(m=|E|) 表示边的个数 . 图数据通常采用关联矩阵 (adjacency matrix) 和邻接表 (adjacency list) 作为存储结
1938
Journal of Software 软件学报 Vol.25, No.9, September 2014
大数据的数据结构,扮演着越来越重要的角色,在互联网分析[2]、社交网络分析[3]、推荐网络分析[4]等领域,许多 计算问题都可以转化为一个基于图的问题 , 并且使用图上的相关算法来解决 .在大规模图数据分析处理应用中 , 对包含亿万个节点和边的图数据进行高效、紧凑的表示和压缩,是当前的研究热点之一. 在互联网分析中 ,将每一个页面对应图上的一个节点 , 将两个页面之间的链接对应图上的一条有向边 ,从而 将互联网转换为一个有向的网页图 (Web graph),通过对网页图的分析进行网页的排序 .搜索引擎中使用的两种 经典的网页排序算法 Pagerank[5] 和 HITS[6],都是基于计算图上节点的出度和入度以及节点之间的连接关系等 基本操作 . 在社交网络 (social network)分析中 ,将社交网络中的实体和他们之间的关系转化为相应的图数据 . 在 社交网络图的基础上 , 可以对社交网络进行相关研究 , 包括社区发现和重要角色检测 [7,8], 以及信息传播模式分 析 [911]等 . 文献 [12]提出的垃圾邮件检测方法可以归结为寻找强连通分量、集团枚举和计算最小割等基于图的 问题 .一些常见的网络挖掘算法 ,比如网络结构和演化过程的发现都是根据基于图的深度优先搜索、宽度优先 搜索、可达性、强连通性和弱连通性等基本算法和性质[13]. 为了高效地支持图数据上的基本算法和操作 , 需要设计一种数据结构来存储这个图 , 并且可以快速地做一 些图上的基本操作 , 比如查询给定的一个节点的所有邻居或者判断两个节点之间是否联通等 .传统的存储方法 是采用关联矩阵或者邻接表 , 为了支持快速的查询 ,通常将整个关联矩阵或邻接表加载到内存中 .但是在实际应 用中,这样的方法会面临存储空间过大的问题.以社交网络为例,根据 GlobalWebIndex[14]统计,2013 年 Facebook 用户量已经超过 11 亿,平均每个人的好友超过 100 位,使用邻接表来存储所有用户的关系信息,需要接近 1TB 的存储空间;以互联网为例,根据中国互联网络信息中心(CNNIC)发布的《第 29 次中国互联网络发展状况统计 报告》[15],中国网页数量为 866 亿个,超链接数量据估计超过 1012,使用邻接表来存储网页直接的链接关系信息 需要超过 16TB 的存储空间.同时随着用户量和信息量的快速增长,存储问题也只会变得越来越严峻. 针对大规模图数据存储空间过大的问题,当前主要从 3 个方面进行研究:(1) 硬盘的存储价格相对于内存是 非常便宜的,可以使用外存储器存储图数据[16,17],但是由于硬盘的访问速度比内存访问速度慢 4~6 个数量级,导 致查询产生较大的延时.可以通过优化图数据处理时的访问局部性,以减少磁盘的 I/O 次数,达到降低访问延时 的目的 . 该技术适用于访问局部性较好的图数据 .(2) 使用分布式系统是解决大规模数据的有效方法 [1820],将图 数据分割为多个部分 , 分别存储在分布式系统中不同的计算机内存中 ,但是由于图数据的耦合性较强 ,导致分布 式系统的通信代价较高 ,会使查询产生较大的延时 .可以通过设计较好的图分割算法 ,使得分割后的不同子图规 模均等并且子图之间的连通性较低 ,以降低通信代价 ,较少延时 .该技术适用于易于分割的图数据 .(3) 将图数据 转换为占用空间较小的压缩形式存放在内存中 [21,22],同时可以支持查询 , 查询的时间增长为数倍于不压缩的形 式,但是延时远小于前两种方案.该技术适用于访问局部性较差或者耦合性较强不易分割的图数据. 对于上述 3 种解决大规模图数据存储空间过大的方法,本文主要讨论第 3 种,在保证查询时间的前提下压 缩存储空间 . 虽然这种方法并不能解决所有的问题 , 有些规模特别大的图数据可能压缩后依然不能全部放到内 存中 , 但是也可以通过压缩存储空间来改善另外两种方法的性能 .对于硬盘存储的数据结构 , 如果可以在保持访 问局部性的前提下压缩存储空间 , 那么就可以减少硬盘读取次数 , 以提高访问速度 . 对于分布式系统 , 压缩存储 空间可以使用更少的处理节点来完成相同的任务 ,同时也可以减少处理节点之间的通信代价 . 因此 ,对图数据压 缩技术的研究是一项非常有意义的工作. 本文第 1 节主要给出图数据压缩技术的问题描述、相关定义以及当前面临的主要问题.第 2 节~第 5 节依 次介绍 4 种压缩技术,分别是基于传统存储结构的压缩技术、网页图压缩技术、社交网络图压缩技术和面向特 定查询的图压缩技术.第 6 节总结全文并指出一些未来的研究方向.
相关文档
最新文档