第四章 预测编码和变换编码
《多媒体技术》 第二讲 多媒体数据压缩技术(第1—2节)课堂笔记及练习题

多媒体技术第二讲多媒体数据压缩技术(第1—2节)课堂笔记及练习题主题:第二讲多媒体数据压缩技术(第1—2节)学习时间: 4月4日--4月10日内容:第二讲多媒体数据压缩技术第一节多媒体数据和信息转换一、多媒体间的信息转换为了便于交流信息,需要对不同的媒体信息进行转换。
下表是部分媒体之间说明:*易**较困难***很困难二、多媒体数据文件格式多媒体文件的格式很多,下表介绍常用文件格式的特点和应用场合。
三、多媒体数据的信息冗余多媒体计算机系统主要采用数字化方式,对声音、文字、图形、图像、视频等媒体进行处理。
数字化处理的主要问题是巨大的数据量。
一般来说,多媒体数据中存在以下种类的数据冗余:1)空间冗余:一些相关性的成像结构在数字化图像中就表现为空间冗余。
2)时间冗余:两幅相邻的图像之间有较大的相关性,这反映为时间冗余。
3)信息熵冗余(编码冗余):信息熵是指一组数据所携带的信息量。
如果图像中平均每个像素使用的比特数大于该图像的信息熵,则图像中存在冗余,这种冗余称为信息熵冗余。
4)结构冗余:有些图像从大域上看存在着非常强的纹理结构,例如布纹图像和草席图像,我们说它们在结构上存在冗余。
5)知识冗余:有许多图像的理解与某些基础知识有较大的相关性。
这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。
6)视觉冗余:人类视觉系统对于图像场的任何变化,并不是都能感知的。
这类冗余我们称为视觉冗余。
7)其他冗余:例如由图像的空间非定常特性所带来的冗余。
以上所讲的是多媒体数据的信息冗余。
设法去掉信号数据中的冗余,就是数据压缩。
第二节常用的数据压缩技术一、数据压缩编码方法1)根据解码后数据与原始数据是否完全一致来进行分类:① 可逆编码(无失真编码),如Huffman编码、算术编码、行程长度编码等。
② 不可逆编码(有失真编码),常用的有变换编码和预测编码。
2)根据压缩的原理进行划分:① 预测编码:它是利用空间中相邻数据的相关性,利用过去和现在出现过的点的数据情况来预测未来点的数据。
多媒体通信技术预测编码及变换编码解析

3. 绝对均值MAD
多媒体通信技术:预测编码及变换编码
宁波大学
Ningbo University
信息科学与工程学院
4. 匹配像素个数NTAD
NTAD(i , j ) f (T0 , | bk (m, n) bk 1 (m i , n j ) |)
m 1 n 1 M N
其中
3、存在误码扩散现象。
多媒体通信技术:预测编码及变换编码
宁波大学
Ningbo University
信息科学与工程学院
可以证明:在相同的均方量化误差下,e(n)比
x(n)要求较少的量化级数,即传送e(n)的数据率 比x(n)低。
实际实现中: 将量化器置于 预测环路之内,通 过反馈回路,可以 减少量化误差的积 累。
信息科学与工程学院
差分脉冲编码调制
x(n)
D1 a1 D2 a2
预测器
+
e(n)
Q
DQ +
+
y(n)
-
^ x (n )
· · ·
DN
aN
多媒体通信技术:预测编码及变换编码
宁波大学
Ningbo University
信息科学与工程学院
由原理图可知:
1、收发两端必须具有相同的预测条件。 2、预测系数为固定的情况称线性预测,根据 均匀误差最小准则获得的线性预测称最佳线 性预测,此时压缩比最大。
第04讲 预测编码及变换编码
多媒体通信技术:预测编码及变换编码
宁波大学
Ningbo University
信息科学与工程学院
预测编码
原理:利用前面的一个或多个信号对下一个
信号进行预测,然后对实际值和预测值的差 (预测误差)进行编码。
多媒体技术量化和变换编码和预测编码

量化分类
量化可以分为两类:
(1) 标量量化:
输入信号的所有分量使用同一个量化器进行量化,每 个分量的量化都和其它分量无关,也称为零记忆量化。
(2)矢量量化:
从码本集合中选出最适配于输入信号的一个码字作为 输入信号的近似,这种方法以输入信号与选出的码字 之间失真最小为依据。
矢量量化与标量量化相比有更大的数据压缩能力。
xˆn1 Tn1n sˆn1
有 xˆn1 xn1
为什么变换
变换的本质就是将信号在一组基函数上投影,得 到一组投影值,即信号的变换域表达。
变换的目的就是将一个实际的物理信号分解为变 换域(频域)上有限的或无限的小的信号“细胞”, 以便了解信号的性质,提取信号的有用信息
为什么变换
犏
犏犏臌eTM - 1
e1 ... en- 1 ]
轾 犏 e0T
Cy=犏 犏 犏 犏 e1T [e0
犏 犏 犏 臌 eTn-1
e1...
轾 犏 l0
en-1]犏 犏 犏l1
犏 犏 犏 臌
轾 犏e0T
Cy
=
犏 犏 犏e1T 犏
[Cxe0 Cxe1 ...Cxen- 1]
犏
犏 犏 臌eTM- 1
轾 犏 l0 =犏 犏 犏l1
邋 邋 = M 1 M i= - 0 1 X iX iT -m x ( M 1 M i= - 0 1 X iT ) -( M 1 M i= - 0 1 X i) m x T + M 1 M i= - 0 1 m x m x T
å =M 1M i= -0 1X iX iT-m xm xT-m xm xT+m xm xT å =M 1 M i=-01XiXiT- mxmxT
多媒体技术_多媒体数据压缩编码技术

4.知识冗余
图像的理解与某些基础知识有关。 例:人脸的图像有同样的结构:嘴的上方有鼻子, 鼻子上方有眼睛,鼻子在中线上…… 知识冗余是模型编码主要利用的特性。
5.视觉冗余
人的视觉系统对图像场的敏感性是非均匀、 非线性的。 (1)对图像亮度和色差的敏感性相差很大 Y:U:V=8:4:4 或者Y:U:V=8:2:2 (2)随着亮度增加,视觉系统对量化误差的敏感 度降低。 (3)人的视觉系统把图像边缘和非边缘区域分开 处理。
第四章、多媒体数据压缩编码技术
本章要点
(1)多媒体数据压缩编码的重要性和分类。 (2)量化的基本原理和量化器的设计思想。 (3)常用压缩编码算法的基本原理及实现技术、 预测编码、变换编码、统计编码(Huffman编码、 算术编码)。 (4)静态图像压缩编码的国际标准(JPEG)原 理、实现技术,以及动态图像压缩编码国际标 准(MPRG)的基本原理。
4.2.2 标量量化器的设计
量化器的设计要求 通常设计量化器有下述两种情况: 1. 给定量化分层级数,满足量化误差最小。 2. 限定量化误差,确定分层级数,满足以尽 量小的平均比特数,表示量化输出。
量化方法有标量量化和矢 量量化之分,标量量化又可分 为,均匀量化、非均匀量化和 自适应量化。
(1)均匀量化
例如:从64个数中选出某一个数。可先问“是 否大于32?”消除半数的可能,这样只要6次就可选 出某数。 如果要选择的数是35,则过程如下: 1.大于/小于 32? 大 2.大于/小于 32+16=48? 小 3.大于/小于 48-8=40? 小 4.大于/小于 40-4=36? 小 5.大于/小于 36-2=34? 大 6.大于/小于 34+1=35 等
(4)混合编码
第四章 有限失真信源编码

消息
R=C;PE=0,
压缩冗余度
§4.1:概述-3
有噪信道编码定理回顾:
只要R<C,总可以找到一种信道编码方法,使在信 道上能够以尽可能小的PE传输信息。
消息
信 源 编 码
信 道 编 码
信道
R< C; PE=ε,
增加冗余度,最好地匹配信 道特性
§4.1:概述-4
第四章限失真信源编码
简介:和无失真编码比较,(失真和熵率 值比较)熵压缩编码在的允许失真条件下, 编码后的熵率压缩到最小(无译码器) (解释两种编码的必要性) 信息速率失真函数R(D): 是熵压缩编码的基础,把信息和失真两个度 量可联系在一起,为信号处理中同时考虑 两个因素提供可解。
引入限失真的必要性
j=1~s) 信源的失真矩阵可表示为: d (u1 , v1 ).......d (u1 , vs ) . D . d (ur , v1 ).......d (ur , vs ) 共r×s个元素
§4.2:失真的度量-5
平均失真度
平均失真度:
∵U,V是随机变量;∴ d(ui,vj)也是随机变量 平均失真度:
本章节讨论顺序
从最简单的离散无记忆信源入手 讨论失真的度量 讨论率失真函数的定义和性质 讨论在最简单的二进制对称离散信源和高斯连续信 源条件下率失真函数R(D)的计算方法 讨论限失真信源编码定理 信息率失真理论的探讨及应用举例 香农三大定理的关系和比较
§4.2:失真的度量-1
§4.2:失真的度量-8
平均失真度
信源平均失真度 1 DN N D (N )
4.4.5变换编码

余弦变换的完备正交归一函数
1 (0, t ) N
(i, t )
2 (2i 1) cos , t (0, T ) N 2T
对函数在(0,T)内取N个样值,即得离散余弦变换 的元 a0 k 1 N (2k 1)i 2 aik cos N N
12
1 1 2 2 y0 y 2 2 cos cos 1 2N 2N N ( N 1) yN 1 cos cos 3( N 1) 2N 2N
4
连续函数变换 设函数f(t), 0<t<T,则
T
0
f 2 (t )dt
函数是希尔伯特(Hilbert)空间L2(0,T)上的一个矢 量,维数是可数的,无限的.它的坐标系可用一个完 备正交函数系来表征. 设有一完备正交函数系φ(i,t),i=0,1,2,…正交性为
归一性为
T
0
(i, t ) ( j, t )dt 0, i j
T
0
2 (i, t )dt 0
5
则可以把f(t)展开为
f (t ) ai (i, t )
i 0
ai为待定系数.利用函数的正交性和归一性可得
ai f (t ) (i, t )dt
0 T
与欧氏空间类比,正交变换可以把函数的矢量分解 成各坐标分量,即把函数f(t)投影到φ(i,t)上去. 通过这一变换,函数f(t)变换成一系列的ai,若已知 系数,则恢复函数而无误差,即变换是可逆的.
2
预测编码的最大特点是直观、简洁、易于实现 ,特别是容易设计出具有实时性的硬件结构,在 空间和时间域上压缩信源数据冗余量的。但是 预测编码的不足在于压缩能力有限。具有更高 压缩能力的方法和目前最为成熟的方法是变换 编码,特别是正交变换编码方法和目前尚处于 研究阶段的小波变换编码,这两种方法都具有 很强的数据压缩能力。
图像编码常用方法介绍(五)

图像编码是将图像数据转换为数字信号的过程。
在数字图像领域中,图像编码是非常重要的一部分,因为它可以减少图像数据的存储空间和传输带宽。
在本文中,我们将介绍一些常用的图像编码方法。
一、无损编码方法无损编码方法是指将图像数据进行压缩,但压缩后的数据能够完全恢复为原始图像数据。
这种编码方法适用于对图像质量要求较高的场景,如医学图像和卫星图像等。
1. 预测编码(Predictive coding)预测编码是一种利用前后像素之间的相关性来进行编码的方法。
通过对图像的像素值进行预测,然后将预测误差编码,可以实现对图像数据的无损压缩。
2. 统计编码(Entropy coding)统计编码基于信息论原理,通过对图像数据中出现的符号进行统计分析,按照符号出现的概率进行编码。
在统计编码中,常用的方法有霍夫曼编码和算术编码。
二、有损编码方法有损编码方法是指在压缩图像数据的同时,会引入一定的信息损失,从而导致压缩后的图像质量下降。
这种编码方法适用于对图像质量要求不那么严格的场景,如网络传输和存储等。
1. 变换编码(Transform coding)变换编码是一种将图像数据转换为频域表示的方法。
最常用的变换编码方法是离散余弦变换(DCT),它可以将图像数据从时域转换到频域,然后对频域表示的系数进行量化和编码。
2. 预测编码(Predictive coding)预测编码不仅可以用于无损压缩,也可用于有损压缩。
在有损预测编码中,通过对图像的像素值进行预测,然后对预测误差进行量化和编码,从而实现压缩图像数据。
3. 算术编码(Arithmetic coding)算术编码是一种基于符号概率进行编码的方法。
它可以根据每个符号出现的概率来动态调整编码的长度,从而实现对图像数据的高效压缩。
总结起来,图像编码是数字图像领域中的重要研究方向。
无损编码方法可以实现对图像数据的无损压缩,而有损编码方法可以实现更高比例的压缩,但会引入一定的信息损失。
第四章多媒体技术基础总结

ASF文件—— .ASF/.WMA ASF和WMA都是微软公司针对Real公司开发的 新一代网上流式数字音频压缩技术。这种压缩技 术的特点是同时兼顾了保真度和网络传输需求, 所以具有一定的先进性。可以利用WinAMP或媒 体播放机播放。
AIFF文件——.AIF/.AIFF
苹果公司开发的声音文件格式,被Macintosh平 台和应用程序所支持。
奈奎斯特采样定理:采样频率≥2×信号最高频率。 目前最常用的三种采样频率分别为:电话效果(11 kHz)、FM电台效果(22 kHz)和CD效果(44.1 kHz)。
20
2)量化
量化:对声波波形幅度的数字化。
量化位数:量化时采用的二进制位数,位数 越多,精度也越高,音质越细腻。 例如, 用16个二进制位(bit)表示声音,可将声 音强度分为216 =65536级。 每秒声音的数据量 =采样频率×量化位数×声道数/8(字节)
2)图像量化是将采样值划分成各种等级,用一 定位数的二进制数(量化字长)来表示采样 的值。
量化字长(也称颜色深度)越大,则越能真 实地反映原有图像的颜色。但得到的数字图 像的容量也越大。
3)图像编码是按一定的规则,将量化后的数据 用二进制数据存储在文件中。 位图文件(.bmp):Microsoft Windows 中使用的一种非压缩图像文件格 35 式。
RGB模型(显示):将红(Red)、绿 (Green)、蓝(Blue)三原色的色光以不同 的比例相加,以产生多种多样的色光。 CMYK模型(打印):印刷四分色模式利用色 料的三原色混色原理,加上黑色油墨,共计四 种颜色混合叠加,形成所谓“全彩印刷”。四 种标准颜色是:
C:Cyan = 青色;
M:Magenta = 品红色(洋红色)。 Y:Yellow = 黄色。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、静止图像的二维预测编码
选择值 预测值
c a
b d x
0
1 2 3 4
非预测
a b c a+b-c a+(b-c)/2 b+(a-c)/2
三邻域预测法
5 6
7
(a+b)/2
这种压缩算法被应用到JPEG标准的无损压缩模式之中, 中等复杂程度的图像压缩比可达到2:1。 Lossless JPEG
发送端预测器带有存储器,把tn时刻以前的采样值x1, x2, x3,…, xk-1
^ ek为xn与Xk的差值, ek’为ek经量化器量化的值
xk’是接收端的输出信号 误差ek为
^ 存储起来并据此对xk进行预测,得到预测值 X
k
^ ek= xk- xk’= xk-( k +ek’)= (xkXk )- ek’= ek - ek’ X
自适应量化
在一定量化级数下减少量化误差或在同样的误
差条件下压缩数据,根据信号分布不均匀的特 点,希望系统具有随输入信号的变化区间足以 保持输入量化器的信号基本均匀的能力,这种 能力叫自适应量化。
示例二:
ADPCM采用与DPCM相同的预测器,但对误差量化时采用自 适应改变量化器的量化阶数的压缩结果
^
实际上就是发送端的量化器对误差ek’量化的误差 对 ek’的量化越粗糙,压缩比越高,失真越大.
为接纳量化步骤,需要改变图4-1中的无损编码器以使编码器和解 码器所产生的预测能相等。为此在图4-2中将有损编码器的预测器 放在1个反馈环中。这个环的输入是过去预测和与其对应的量化误 差的函数
’ =e ’ + ^ x k k Xk
DM编码失真示例
4.1.3 自适应差分脉冲调制(ADPCM)预测
输入数据不是平稳的随机过程 自适应差分脉冲调制(ADPCM)预测 定期重新调整预测器的预测参数,使预测器随输入数据的变化 而变化 自适应改变量化器的量化阶数,用小量化阶量化小差值,大量 化阶量化大差值 分为线性自适应预测与非线性自适应预测两种
Xk
发送端ekຫໍສະໝຸດ 译码器+^
接收端
Xk
整数舍入 预测器
Xk
当输入信号序列X(k=1,2、…)逐个进入编码器时,预测器根据若 干个过去的输入产生当前输入的预测(估计)值。将预测器的输出舍入 ^ 成最接近的整数 ,并用来计算预测误差ek Xk ek = xk ^ Xk
这个误差可用符号编码器借助变长码进行编码以产生压缩信号数据流 的下—个元素。 在解码器方根据接收到的变长码字重建预测误差,并执行以下操作以 得到解码信号 xk =ek+
4.1.4 图像信号的预测编码
一幅数字图像可以看成一个空间点阵,图像信号不仅在水平方向 是相关的,在垂直方向也是相关的。根据已知样值与待预测样值 间的位置关系,可以分为:
(1)一维预测(行内预测):利用同一行上相邻的样值进 行预测。 (2)二维预测(帧内预测):利用同一行和前面几行的数 据进行预测。
Modulation:差值脉冲编码调制是利用信号的相关性找出可 以反映信号变化特征的一个差值量进行编码。
ADPCM:自适应差分脉冲调制预测,Adaptive Differential
Pulse Code Modulation
4.1.1 无损预测编码原理
图4-1
Xk 预测器 整数舍入
-
ek
^
编码器
为了自适应地选择最佳参数,通常将信源数据分区间编码,编码
时自动地选择一组预测参数,使该实际值与预测值的均方误差最 小。随着编码区间的不同,预测参数自适应地变化,以达到准最 佳预测。
示例三:
4个不同的预测器如下所示 其中第4个预测器是自适应预测器,它通过计算图像的局部方向性来 选择合适的预测值以达到保持图像边缘的目的。
^
代入
x k ai xi
i 1
^
k 1
得到联立方程组,解方程定出ai。
4.1.2 有损预测编码原理(DPCM)
图4-2
Xk
-
^
ek
量化器 Xk’
ek’
编码器
Xk
发送端
预测器
’ =e ’ + ^ x k k Xk
+
译码器
ek’
+
^
接收端
Xk
预测器
Xk’
有损预测编码( DPCM )
在无损预测编码系统的基础上加一个量化器构成 压缩过程
原理 为达到目的,可以通过不同的路径——殊途同归 例1: 数学计算机中,经常利用某些数学函数略加转换可以找出一条计 算的捷径。 乘法:1000000X100000=100000000000 运算时,数据很大,可以变成对数进行加法
1000000 取对数 lg106 算法 变换
X
100000=100000000000 取对数 取指数
DPCM/Huffman Codign DPCM/Arithmetic Coding
Results
DPCM at 1.0 bpp
Results
DPCM at 2.0 bpp
Results
DPCM at 3.0 bpp
二、活动图像的帧间预测编码
视频信号的冗余度主要体现在空间相关性(帧内)、时间相 关性(帧间)和色度空间表示上的相关性。 对于每秒25帧(30)的电视信号,其相继帧之间存在极强 的相关性。所以在活动图像序列中可以利用前面的帧来预测 后面的帧,以实现数据压缩。 帧间预测编码技术被广泛应用到H.261、H.263、MPEG-1和 MPEG-2等视频压缩标准之中。
x k xk 1
^
最佳线性预测
使误差函数 达到最小值的预测方程式叫做最佳 线性预测。 求最佳线性预测的各个参数ai, 列方程组:
^ m se E ( xk xk ) 2
E[( xk xk ) 2 ] 0, (i 1,2,...,n 1) ai
外,还要传送位移矢量以及区域分割信息。
运动补偿帧间预测编码
图像输入
编码器
预测误差输出 译码器
-
运动 补偿 运动 估值
帧 缓存 运动矢量输出
4.2 变换编码
利用预测编码可以去除图象数据的时间和空间的冗余。它 的优点是直观、简捷、易于实现,特别是用于硬件实现。 但压缩能力有限,DPCM一般只能压缩到2~4bit/像素。 变换编码是进行一种函数变换,映射变换从信号域变换到 另一个信号域。 预测编码希望通过对信源建模来尽可能的预测源数据;而 变换编码则考虑将原始数据变换到另一个表示空间,使数 据在新的空间上尽可能相互独立,而能量更集中。
第四章 预测编码和变换编码
4.1 预测编码
4.2 变换编码
4.1 预测编码
预测编码是数据压缩理论的一个重要分支。根据离散信号之间存在一 定相关性的特点,利用前面的一个或多个信号对下一个信号进行预测, 然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准 确,那么误差信号就会很小,就可以用较少的码位进行编码,以达到 数据压缩的目的。
x k f ( x1 , x2 , x3 ,..., xN , k ), k N
K>N表示x1, x2,…, xN 的时序在xk 之前。
线性预测是指预测方程式的右方是各个xi的线性函数:
^
xk
^
a (k ) x
i 1 i
k 1
i
如果ai (k)是常数,则为时不变线性预测。 最简单的预测方程:
三、具有运动补偿的帧间预测
活动图像序列中的一个画面可以大致划分为3个区域:
背景区:相邻两个画面的背景区基本相同。
运动物体区:可以视为由前一个画面的某一区域的像素平移而
成。(位移矢量)
暴露区:指物体运动后而显露出来的曾被遮盖的背景区域。
运动补偿预测就是将前一个画面的背景区+平移后的运 动物体区作为后一个画面的预测值。
第n个符号Xn的熵满足:
H ( xn ) H ( xn | xn1 ) H ( xn | xn1 xn2 ) ...... H ( xn | xn1 xn2 ...x1 )
n越大考虑更多元素之间的依赖关系时,熵值进一步降低,得到的熵 越接近于实际信源所含的实际熵(极限熵)。
lim H n ( x ) lim H n ( xn | xn 1 xn 2 ...x1 )
n n
所以参与预测的符号越多,预测就越准确,该信源的不确定性就越小, 数码率就可以降低。
原理
利用以往的样本值对新样本值进行预测,将新样本值的实际值
与其预测值相减,得到误差值,对该误差值进行编码,传送此 编码即可。
这样一个闭环结构能防止在解码器的输出端产生误差。这里解码 器的输出也由上式给出。
示例一:德尔塔调制(DM或ΔM)
最简单的有损预测编码方法是德尔塔(或称增量)调制(DM或ΔM) 方 法,早期在数字电话中采用,是一种最简单的差值脉冲编码 。 其预测器和量化器分别定义为
其中a是预测系数(一般小于等于1),c是1个正的常数。 因为量化器的输出可用单个位符表示(输出只有2个值),所以编码器 中的符号编码器可以只用长度固定为1比特的码。由DM方法得到的码 率是1比特/像素。
自适应预测
预测参数的最佳化依赖信源的特征,要得到最佳预测参数显然是
一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性 能。为了能使性能较佳,又不致于有太大的工作量,可以采用自 适应预测。
为了减少计算工作量,预测参数仍采用固定的,但此时有多组预
测参数可供选择,这些预测参数根据常见的信源特征求得。编码 时具体采用哪组预测参数需根据特征来自适应地确定。