第四章 多媒体数据压缩编码技术
Chapter4多媒体数据压缩与编码技术

0
1 1 1 1 s1 01 s2 1 0011 s5
s1 s2 s3 s4 s5
0.4 0.2 0.2 0.1 0 0.1 1
0.4 0.2 0.20 1 0.2
0.4
0.6 0
1 01 000 0010 0011
1 2 3 4 4
0 0.4 1 0.4 1 0.2
表2 例1的霍夫曼码树
平均码长=0.4×1+0.2×2+0.2×3+0.1×4+0.1×4=2.2
4.3.1 音频压缩编码的基本方法
音频压缩方法
无失真压缩 Huffman编码 波形编码 行程编码 全频带编码 PCM DPCM ADPCM 参数编码 混合编码 有失真压缩
线性预测LPC
矢量和激励线 性 预 测 VSELP 多脉冲线性 预 测 MPLPC 码本激励线 性 预 测 CELP
子带编码 自适应变换编码ATC 心理学模型 矢量量化
例1 设离散无记忆信源
s3 s4 s5 S s1 s2 P 0.4 0.2 0.2 0.1 0.1
对其进行霍夫曼编码,编码过程如表1所示
表1 霍夫曼编码
信源符号 si 概率 p(si) 编码过程 S1 S2 S3 码字 Wi 码长 li 0 0 000 s3 1 0 0010 s4
另一方面,视频、图像和声音这些媒体确 实又具有很大的压缩潜力,数据的冗余很 大。例如,位图图像的像素之间无论在行 方向和列方向上都有很大相关性。因此, 在允许一定限度的失真前提下,能够对图 像数据进行压缩。
4.1.1 数据冗余的类型
图像、视频和音频中存在的数据冗余类型 一般有以下几种:
(1) 空间空余
第4章_多媒体数据压缩编码技术

2020/1/22
16
4.1多媒体数据压缩技术概述
➢ 根据解码后数据与原始数据是否完全一致可以分为两大类: 有损压缩和无损压缩。
有损压缩(有失真压缩):是指使用压缩后的数据进行重构,重构后的 数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成 误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场 合。大多数图像、声音、动态视频等数据的压缩是采用有失真压缩输带宽,进行实时高质的多媒体 通信,必须对多媒体数据进行压缩编码
多媒体信源引起了“数据爆炸”,如果不进行数 据压缩,传输和存储都难以实用化。
2020/1/22
4
4.1多媒体数据压缩技术概述
1分钟数字音频信号需要的存储空间
2020/1/22
5
4.1多媒体数据压缩技术概述
2020/1/22
12
4.1多媒体数据压缩技术概述
➢ 图象质量
无损压缩: 图象质量不变。 有损压缩:失真情况很难量化,只能对测试的图象进行估计。 模拟图象质量的指标:信噪比、分辨率、颜色错,但必须在观察了实
际图象以后。
2020/1/22
13
4.1多媒体数据压缩技术概述
➢ 压缩 / 解压速度
另外,也必须考虑每个压缩算法所需的硬件和软件。
2020/1/22
11
4.1多媒体数据压缩技术概述
➢ 压缩比
压缩性能常常用压缩比定义 输入数据和输出数据比
〖例〗一幅512×480pixels图像,24bit/pixel 输入=512×480×(24/8)=737280 byte 输出15000 byte 压缩比=737280/15000=49
➢ 压缩的可能
空间冗余:在同一幅图像中,规则物体和规则背景的表面物理 特性具有相关性,这些相关性的光成像结果在数字化图像中就 表现为数据冗余。如当一幅图象中同一种颜色不止一个象素点, 若相邻的象素点的值相同,象素点间(水平、垂直)有冗余; 当图象的一部分包含占主要地位的垂直的源对象时,相邻线间 存在冗余。
多媒体技术_多媒体数据压缩编码技术

4.知识冗余
图像的理解与某些基础知识有关。 例:人脸的图像有同样的结构:嘴的上方有鼻子, 鼻子上方有眼睛,鼻子在中线上…… 知识冗余是模型编码主要利用的特性。
5.视觉冗余
人的视觉系统对图像场的敏感性是非均匀、 非线性的。 (1)对图像亮度和色差的敏感性相差很大 Y:U:V=8:4:4 或者Y:U:V=8:2:2 (2)随着亮度增加,视觉系统对量化误差的敏感 度降低。 (3)人的视觉系统把图像边缘和非边缘区域分开 处理。
第四章、多媒体数据压缩编码技术
本章要点
(1)多媒体数据压缩编码的重要性和分类。 (2)量化的基本原理和量化器的设计思想。 (3)常用压缩编码算法的基本原理及实现技术、 预测编码、变换编码、统计编码(Huffman编码、 算术编码)。 (4)静态图像压缩编码的国际标准(JPEG)原 理、实现技术,以及动态图像压缩编码国际标 准(MPRG)的基本原理。
4.2.2 标量量化器的设计
量化器的设计要求 通常设计量化器有下述两种情况: 1. 给定量化分层级数,满足量化误差最小。 2. 限定量化误差,确定分层级数,满足以尽 量小的平均比特数,表示量化输出。
量化方法有标量量化和矢 量量化之分,标量量化又可分 为,均匀量化、非均匀量化和 自适应量化。
(1)均匀量化
例如:从64个数中选出某一个数。可先问“是 否大于32?”消除半数的可能,这样只要6次就可选 出某数。 如果要选择的数是35,则过程如下: 1.大于/小于 32? 大 2.大于/小于 32+16=48? 小 3.大于/小于 48-8=40? 小 4.大于/小于 40-4=36? 小 5.大于/小于 36-2=34? 大 6.大于/小于 34+1=35 等
(4)混合编码
09第四章多媒体数据压缩编码技术1

回想一下如果用计算机中常用的 ASCII 编码,表示上面的字符串我们需要整整 80 位呢!现在知道信息为什么能被压缩而不丢 失原有的信息内容了吧。简单地讲,用较少 的位数表示较频繁出现的符号,这就是数据 压缩的基本准则 压缩的基本准则。
LNTU
LNTU 20
例如 : 要从 256 个数中选定某一个数 可以先提问 “是否大于 128 ?’,不论回答是与否,则 半数的可能事件被取消。如果继续询问下去, 每次询问将对应一个lbit的信息量。随着每次 询问,都将有半数的可能事件被取消,这个 过程由下列公式表示:log2256=8bit
LNTU 13
LNTU 14
今天的程序员们和设计师们往往乐此不疲地 为计算机更换更大的硬盘,增加更多的内存,其 主要目的是为了存放和处理越来越多的声音、图 像和视频数据。对声音、图像、视频等多媒体信 息的压缩有两条思路,要么采用成熟的通用数据 压缩技术进行压缩,要么根据媒体信息的特性设 计新的压缩方法。 在 GIF 格式中,GIF 可以把原始图形文件以 非常小数据量存储,可以在同一个文件中存储多 幅图像从而实现动画效果。GIF 中的图像使用 LZW方法压缩 。GIF 大概是使用通用压缩技术压 缩图像信息的最成功的例子. GIF 精确地保留了原始图像的每一个像素信 息,是无损图像压缩的代表。
从公式看出,对于256个数的询问只要 进行8次,即可确定一个具体的数。设从N个 数中选定任意一个数x的概率为p(x).假 定选定任意一个数的概率都相等,即p(x) =1/N,则信息量为:
I ( x ) log N log 1 / N log p ( x ) I [ p ( x )]
80 年代中期以后,人们对 LZ77 进行了改 进,随之诞生了一批我们今天还在大量使用的 压缩程序。Haruyasu Yoshizaki(Yoshi) 的 LHarc 和 Robert Jung 的 ARJ 是其中两个著名 的例子。LZ77 得以和 LZ78、LZW 一起垄断 当今的通用数据压缩领域。 目前,基于字典方式的压缩已经有了一个 被广泛认可的标准 从古老的 PKZip 被广泛认可的标准,从古老的 PKZi 到现在 的 WinZip,特别是随着 Internet 上文件传输的 流行,ZIP 格式成为了事实上的标准,没有哪 一种通用的文件压缩、归档系统敢于不支持 ZIP 格式。 winrar
ch4-多媒体数据压缩编码技术

原始的多媒体数据
可用信息 冗余数据
11
音频中的冗余
• 音频中的冗余信息主要有:
1. 时域冗余
– 幅度的非均匀分布;样本间的相关性;周期 之间的相关性;基音之间的相关性;静止系 数(间隔);长时自相关函数。
2. 频域冗余
– 非均匀的长时功率谱密度;语音特有的短时 功率谱密度。
3. 人耳的听感觉分辨能力有限。
15
c. 结构冗余
• 有些图像中有规则纹理,其像素值存在 明显的分布模式,
规则的纹理图像
• 只要知道分布模式,便可通过某种方法 生成图像,这种数据冗余即结构冗余。
16
d. 知识冗余
• 对图像的理解有时与某些知识有相当大的相关 性,例如人脸的图像就具有同样的五官位置。
• 可以根据已有的知识构造基本模型,并创建特 征图像库,则只需提供少量的特征参数信息便 可生成图像,这种数据冗余即知识冗余。
?第一节数据压缩编码概述11多媒体数据压缩编码的重要性12多媒体数据压缩编码的可能性13多媒体数据压缩编码的分类13多媒体数据压缩编码的分类411数据压缩编码的重要性?在多媒体技术中处理的多媒体数据都应是数字信号传统的媒体信息需要进行采样和量化后方能在计算机中处理
ch4-多媒体数据压缩2
第四章的内容
1. 多媒体数据压缩编码概述
− 重要性、可能性、分类
2. 脉冲编码调制PCM 3. 统计编码:Huffman编码、算术编码 4. 预测编码:DPCM、ADPCM、帧间预测 5. 变换编码 6. 多媒体数据压缩编码的国际标准
− JPEG、MPEG
3
第一节 数据压缩编码概述
1.1 多媒体数据压缩编码的重要性 1.2 多媒体数据压缩编码的可能性 1.3 多媒体数据压缩编码的分类
《多媒体技术》电子教案:多媒体数据压缩编码技术

多媒体技术电子教案:多媒体数据压缩编码技术一、多媒体数据压缩编码技术概述多媒体技术是指利用计算机技术将文字、图像、音频、视频等多种形式的信息进行集成,并能够对它进行处理、传输和存储,以提供更好的用户体验。
在多媒体技术中,数据压缩编码技术是非常重要的一个部分。
数据压缩编码技术可以将多媒体数据进行压缩,以便更有效地存储和传输。
该技术可以通过减少数据冗余、淘汰不必要的数据等方式来降低多媒体文件的大小。
数据压缩编码技术有很多种不同的方法,如无损压缩和有损压缩等。
二、无损压缩技术无损压缩技术是将多媒体数据进行无损压缩,即在不损失数据质量的情况下,将文件大小进行压缩。
常见的无损压缩技术包括:Run Length Encoding(RLE)、标志赋值编码、霍夫曼编码等。
1. Run Length Encoding(RLE)Run Length Encoding(RLE)是一种简单的数据压缩编码技术,它通过识别文件中连续出现的相同数据并进行编码来压缩多媒体数据。
例如,当一张图像中有大量相同的像素时,RLE可以将它们表示为一个像素值和一个重复次数的序列,从而达到压缩数据的目的。
2. 标志赋值编码标志赋值编码也是一种简单的无损压缩技术,它可以通过对多媒体数据中的不同符号/颜色赋予不同的标志来将其进行压缩。
例如,一种常见的标志赋值编码技术是算术编码。
3. 霍夫曼编码霍夫曼编码是一种无损压缩技术,它利用统计学原理来压缩多媒体数据。
该编码技术通过对多媒体数据中出现频率较高的符号/颜色分配短码,对出现频率较低的符号/颜色分配长码,从而达到对数据进行压缩的目的。
三、有损压缩技术有损压缩技术是将多媒体数据进行有损压缩,即在一定程度上损失数据质量的情况下,将文件大小进行压缩。
常见的有损压缩技术包括:数据降采样、量子化、离散余弦变换(DCT)、离散小波变换(DWT)等。
1. 数据降采样数据降采样也是一种简单的有损压缩技术,它通过减少音频和视频数据的采样率和比特率来达到压缩文件大小的目的。
第四章 多媒体数据压缩编码技术

MPEG(Motion picture Experts Group) 是运动图像专家小组的英文缩写 MPEG标准主要有MPEG-l、MPEG-2、 MPEG-4和正在制定的MPEG-7等
多媒体数据压缩编码的国际标准
1.静态图像压缩编码的国际标准(JPEG)
– JPEG(Joint Photographic Experts Group
– JPEG专家组开发了两种基本的压缩算法: 采用以DCT为基础的有损压缩算法 采用以预测技术为基础的无损压缩算法
– 在JPEG标准中定义了四种编码模式: 顺序编码 累进编码 无失真编码 分层编码
多媒体数据压缩编码的国际标准
JPEG图像的压缩比与质量
JPEG在使用DCT进行有损压缩时,压缩比可 调整在压缩10~30倍后,图像效果仍然不错, 因此得到了广泛的应用。
(a) 原图
(b) 压缩效果图
图 d 四次小波变换编码的实验结果
预测编码
预测编码的基本原理 自适应预测编码 帧间预测编码
变换编码
变换编码不是直接对空域图像信号进行编码,而是 首先将空域图像信号映射变换到另一个正交矢量空间 (变换域或频域),产生一批变换系数,然后对这些 变换系数进行编码处理。变换编码是一种间接编码方 法,其中关键问题是在时域或空域描述时,数据之间 相关性大,数据冗余度大,经过变换在变换域中描述, 数据相关性大大减少,数据冗余量减少,参数独立, 数据量少,这样再进行量化,编码就能得到较大的压 缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、 沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、 余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。
多媒体数据压缩编码技术ppt课件

(1)信源符号按概率大小顺序排列,按逆次 序分配码字的长度。
(2)出现概率最小的两个符号概率相加合成 一个新概率。
(3) 将合成概率看成一个新组合符号概率, 重复上述做法,直到最后只剩下两个符号 概率为止。
(4) 反过来逐步向前编码,每层有两个分 支,分别赋予0和1,构成Huffman码字。
可编辑ppt
可编辑ppt
2
多媒体数据压缩的可能性
• 空间冗余 • 时间冗余 • 结构冗余 • 知识冗余 • 视觉冗余 • 图像区域的相同性冗余 • 纹理的统计冗余
可编辑ppt
3
多媒体数据压缩方法的分类
按压缩方法分:(根据质量) (1) 有损压缩 (2) 无损压缩
可编辑ppt
4
按压缩方法分: (1) 脉冲编码调制 (2) 预测编码 (3) 变换编码 (4) 统计编码 (5) 混合编码
10
哈夫曼编码
• 变字长编码定理:最佳编码定理
在变字长编码中,对于出现概率大的信 息符号,编以短字长的码,对于出现概 率小的信息符号编以长字长的码,如 果码字长度严格按照符号概率的大小 的相反顺序排列,则平均码字长一定 小于按任何其他符号顺序排列方式得 到的码字长度。
可编辑ppt
11
哈夫曼编码步骤
运动补偿方法是跟踪画面内的运动情况 对其加以补偿之后再进行帧间预测。
可编辑ppt
22
预测编码方法的特点
• 算法简单,速度快,易于硬件实现 • 编码压缩比不太高 • 误码易于扩散,抗干扰能力差
可编辑ppt
23
4.5.1 变换编码
• 变换编码是进行一种函数变换,映射 变换从信号域变换到另一个信号域。
可编辑ppt
5
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章多媒体数据压缩编码技术
单项选择题1-7:
1、下列哪些说法是正确的:
(1)冗余压缩法不会减少信息量,可以原样恢复原始数据。
(2)冗余压缩法减少冗余,不能原样恢复原始数据。
(3)冗余压缩法是有损压缩法。
(4)冗余压缩的压缩比一般都比较小。
(a)(1)(3)、(b)(1)(4)、(c)(1)(3)(4)、(d)仅(3)
答:(b)
2、图象序列中的两幅相邻图象,后一幅图象与前一幅图象之间有较大的相关,这是:
(a)空间冗余(b)时间冗余(c)信息熵冗余(d)视觉冗余
答:(b)
3、下列哪一种说法是不正确的:
(a)预测编码是一种只能针对空间冗余进行压缩的方法
(b)预测编码是根据某一种模型进行的
(c)预测编码需将预测的误差进行存储或传输
(d)预测编码中典型的压缩方法有dpcm、adpcm
答:(a)
4、下列哪一种说法是正确的:
(a)信息量等于数据量与冗余量之和
(b)信息量等于信息熵与数据量之差
(c)信息量等于数据量与冗余量之差
(d)信息量等于信息熵与冗余量之和
答:(c)
5、p′64k是视频通信编码标准,要支持通用中间格式cif,要求p至少为:
(a)1 (b)2 (c)4 (d)6
答:(d)
6、在mpeg中为了提高数据压缩比,采用了哪些方法:
(a)运动补偿与运行估计(b)减少时域冗余与空间冗余
(c)帧内图象数据与帧间图象数据压缩(d)向前预测与向后预测
答:(c)
7、在jpeg中使用了哪两种熵编码方法:
(a)统计编码和算术编码(b)pcm编码和dpcm编码
(c)预测编码和变换编码(d)哈夫曼编码和自适应二进制算术编码
答:(d)
8、简述mpeg和jpeg的主要差别。
答:mpeg视频压缩技术是针对运动图象的数据压缩技术。
为了提高压缩比,帧内图象数据和帧间图象数据压缩技术必须同时使用。
mpeg通过帧运动补偿有效地压缩了数据的比特数,它采用了三种图象,帧内图、预测图和双向预测图。
有效地减少了冗余信息。
对于mpeg来说,帧间数据压缩、运动补偿和双向预测,这是和jpeg主要不同的地方。
而jpeg和mpeg相同的地方均采用了dct帧内图象数据压缩编码。
在jpeg压缩算法中,针对静态图象对dct系数采用等宽量化,而是mpeg中视频信号包含有静止画面(帧内图)和运动信息(帧间预测图)等不同的内容,量化器的设计不能采用等宽量化需要作特殊考虑。
从两方面设计,一是量化器综合行程编码能使大部分数据得到压缩;另一方面是通过量化器、编码器使之输出一个与信道传输速率匹配的比特流。
8、信源符号及其概率如下:
求其
解:
a1 0.5--------------------------------0---------- 0
a2 0.25--------------------------------0------0.5------1 10
a3 0.125--------------------------0------0.25-------1 110
a4 0.625-------0-----0.125------1 1110
a5 0.625-------1 1111
则:a1=0 a2=10 a3=110 a4=1110 a5=1111
信息熵:
a1-a5码长分别为1,2,3,4,4
则平均码长
10、详述jpeg静态图象压缩编码原理及实现技术。
答:jpeg是由国际电报咨询委员会(ccitt)和国际标准化协会(osi)联合组成的一个图象专家小组开发研制的连续色调、多级灰度、静止图象的数字图象压缩编码方法。
jpeg适于静止图象的压缩,此外,电视图象序列的帧内图象的压缩编码也常采用jpeg压缩标准。
jpeg数字图象压缩文件作为一种数据类型,如同文本和图形文件一样地存储和传输。
基于离散余弦变换(dct)的编码方法是jpeg算法的核心内容。
算法的编解码过程如教材136页图4.25-4.26所示。
编码处理过程包括原图象数据输入、正向dct变换器、量化器、熵编码器和压缩图象数据的输出,除此之外还附有量化表和熵编码表(即哈夫曼表);接收端由信道收到压缩图象数据流后,经过熵解码器、逆量化器、逆变换(idct),恢复并重构出数字图象,量化表和熵编码表同发送端完全一致。
编码原图象输入,可以是单色图象的灰度值,也可以是彩色图象的亮度分量或色差分量信号。
dct的变换压缩是对一系列8*8采样数据作块变换压缩处理,可以对一幅像,从左到右、从上到下、一块一块(8*8/块)地变换压缩,或者对多幅图轮流取8*8采样数据块压缩。
解码输出数据,需按照编码时的分块顺序作重构处理,得到恢复数字图象。
具体的实现技术如下:
(1)首先把一幅图象分8*8的子块按图中的框图进行离散余弦正变换(fdct)和离散余弦逆变换(idct)。
在编码器的输入端,原始图象被分成一系列8*8的块,作为离散余弦正变换(fdct)的输入。
在解码器的输出端,离散余弦逆变换(idct)输出许多8*8的数据块,用以重构图象。
8*8 fdct 和8*8 idct数学定义表达式如下:
fdct:
idct:
两式中,
离散余弦正变换(fdct)可看作为一个谐波分析仪,把离散余弦逆变换(idct)看作一个谐波合成器。
每个8*8二维原图象采样数据块,实际上是64点离散信号,该信号是空间二维参数x和y的函数。
fdct把这些信号作为输入,然后把它分解成64个正交基信号,每个正交信号对应于64个二维(2d)空间频率中的一个,这些空间频率是由输入信号的频谱组成。
fdct的输出是64个基信号的幅值(即dct系数),每个系数值由64点输入信号唯一地确定,即离散余弦变换的变换系数。
在频域平面上变换系数二维频域变量u和v的函数。
对应于u=0,v=0的系数,称做直流分量(dc系数),其余63个系数称做交流分量(ac系数)。
因为在一幅图象中像素之间的灰度或色差信号变化缓慢,在8*8子块中像素之间相关性很强,所以通过离散余弦正变换处理后,在空间频率低频范围内集中了数值大的系数,这样为数据压缩提供了可能。
远离直流系数的高频交流系数大多为零或趋于零。
如果fdct和idct变换计算中计算精度足够高,并且dct
系数没有被量化,那么原始的64点信号就能精确地恢复。
(2)量化
为了达到压缩数据的目的,对dct系数f(u,v)需作量化处理。
量化处理是一个多到一的映射它是造成dct编解码信息损失的根源。
在jpeg标准中采用线性均匀量化器。
量化定义为,对64个dct变换系数f(u,v)除以量化步长q(u,v)后四舍五入取整。
表达式为:
即量化器步长是量化表的元素,量化表元素随dct变换系数的位置而改变,同一像素的亮度量化表和色差量化表不同值,量化表的尺寸也是64,与64个变换系数一一对应。
量化表中的每一个元素值为1至255之间的任意整数,其值规定了对应位置变换系数的量化器步长。
在接收端要进行逆量化,逆量化的计算公式为:
F Q'=F Q(u,v)•Q(u,v)。
不同频率的余弦函数对视觉的影响不同,量化处理是在一定的主观保真度图像质量的前提下,可据不同频率的视觉阈值来选择量化表中的元素值的大小。
根据心理视觉加权函数得到亮度化表和色度量化表。
dct变换系数f(u,v)除以量化表中对应位置的量化步长,其幅值下降,动态范围变窄,高频系数的零值数目增加。
(3)熵编码
为进一步达到压缩数据的目的,需对量化后的dc系数和行程编码后的ac系数进行基于统计特性的熵编码。
64个变换系数经量化后,坐标u=v=0的值是直流分量(即dc系数)。
dc系数是64个图像采样平均值。
因为相邻的8×8块之间有强的相关性,所以相邻块的dc系数值很接近,对量化后前后两块之间的dc系数差值进行编码,可以用较少的比特数。
dc系数包含了整个图像能量的主要部分。
经量化后的63个ac系数编码时从左上方ac(u=7,v=7)开始,沿箭头方向,以“z”字形行程扫描,直到ac(u=7,v=7)扫描结束。
量化后特编码的ac系数通常有许多零值,沿“z”字形路径行进,可使零ac系数集中,便于使用行程编码方法。
63个ac系数行程编码和码字,可用两个字节表示。
jpeg建议使用两种熵编码方法:huffman编码和自适应二进制算术编码。
熵编码可分成两步进行,首先把dc和ac系数转换成一个中间格式的符号序列,第二步是给这些符号赋以变长码字。