多媒体数据压缩的基本技术

合集下载

《多媒体技术》 第二讲 多媒体数据压缩技术(第1—2节)课堂笔记及练习题

《多媒体技术》 第二讲 多媒体数据压缩技术(第1—2节)课堂笔记及练习题

多媒体技术第二讲多媒体数据压缩技术(第1—2节)课堂笔记及练习题主题:第二讲多媒体数据压缩技术(第1—2节)学习时间: 4月4日--4月10日内容:第二讲多媒体数据压缩技术第一节多媒体数据和信息转换一、多媒体间的信息转换为了便于交流信息,需要对不同的媒体信息进行转换。

下表是部分媒体之间说明:*易**较困难***很困难二、多媒体数据文件格式多媒体文件的格式很多,下表介绍常用文件格式的特点和应用场合。

三、多媒体数据的信息冗余多媒体计算机系统主要采用数字化方式,对声音、文字、图形、图像、视频等媒体进行处理。

数字化处理的主要问题是巨大的数据量。

一般来说,多媒体数据中存在以下种类的数据冗余:1)空间冗余:一些相关性的成像结构在数字化图像中就表现为空间冗余。

2)时间冗余:两幅相邻的图像之间有较大的相关性,这反映为时间冗余。

3)信息熵冗余(编码冗余):信息熵是指一组数据所携带的信息量。

如果图像中平均每个像素使用的比特数大于该图像的信息熵,则图像中存在冗余,这种冗余称为信息熵冗余。

4)结构冗余:有些图像从大域上看存在着非常强的纹理结构,例如布纹图像和草席图像,我们说它们在结构上存在冗余。

5)知识冗余:有许多图像的理解与某些基础知识有较大的相关性。

这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。

6)视觉冗余:人类视觉系统对于图像场的任何变化,并不是都能感知的。

这类冗余我们称为视觉冗余。

7)其他冗余:例如由图像的空间非定常特性所带来的冗余。

以上所讲的是多媒体数据的信息冗余。

设法去掉信号数据中的冗余,就是数据压缩。

第二节常用的数据压缩技术一、数据压缩编码方法1)根据解码后数据与原始数据是否完全一致来进行分类:① 可逆编码(无失真编码),如Huffman编码、算术编码、行程长度编码等。

② 不可逆编码(有失真编码),常用的有变换编码和预测编码。

2)根据压缩的原理进行划分:① 预测编码:它是利用空间中相邻数据的相关性,利用过去和现在出现过的点的数据情况来预测未来点的数据。

多媒体技术_多媒体数据压缩编码技术

多媒体技术_多媒体数据压缩编码技术

4.知识冗余
图像的理解与某些基础知识有关。 例:人脸的图像有同样的结构:嘴的上方有鼻子, 鼻子上方有眼睛,鼻子在中线上…… 知识冗余是模型编码主要利用的特性。
5.视觉冗余
人的视觉系统对图像场的敏感性是非均匀、 非线性的。 (1)对图像亮度和色差的敏感性相差很大 Y:U:V=8:4:4 或者Y:U:V=8:2:2 (2)随着亮度增加,视觉系统对量化误差的敏感 度降低。 (3)人的视觉系统把图像边缘和非边缘区域分开 处理。
第四章、多媒体数据压缩编码技术
本章要点
(1)多媒体数据压缩编码的重要性和分类。 (2)量化的基本原理和量化器的设计思想。 (3)常用压缩编码算法的基本原理及实现技术、 预测编码、变换编码、统计编码(Huffman编码、 算术编码)。 (4)静态图像压缩编码的国际标准(JPEG)原 理、实现技术,以及动态图像压缩编码国际标 准(MPRG)的基本原理。
4.2.2 标量量化器的设计
量化器的设计要求 通常设计量化器有下述两种情况: 1. 给定量化分层级数,满足量化误差最小。 2. 限定量化误差,确定分层级数,满足以尽 量小的平均比特数,表示量化输出。
量化方法有标量量化和矢 量量化之分,标量量化又可分 为,均匀量化、非均匀量化和 自适应量化。
(1)均匀量化
例如:从64个数中选出某一个数。可先问“是 否大于32?”消除半数的可能,这样只要6次就可选 出某数。 如果要选择的数是35,则过程如下: 1.大于/小于 32? 大 2.大于/小于 32+16=48? 小 3.大于/小于 48-8=40? 小 4.大于/小于 40-4=36? 小 5.大于/小于 36-2=34? 大 6.大于/小于 34+1=35 等
(4)混合编码

多媒体数据的压缩与传输技术

多媒体数据的压缩与传输技术

多媒体数据的压缩与传输技术随着计算机和互联网的不断发展,多媒体数据在我们的生活中扮演着越来越重要的角色,如音频、视频、图像等。

随之而来的问题就是如何保证这些数据的高效传输和存储。

本文将探讨多媒体数据的压缩与传输技术,以及优化这些技术的方法。

一、多媒体数据的压缩技术多媒体数据的压缩技术是指通过对数据进行编码和压缩,减少数据传输和存储所占用的空间和带宽。

常见的压缩技术包括有损压缩和无损压缩两种。

1. 有损压缩有损压缩是指通过丢弃一部分数据来减小数据的大小,以达到压缩的目的。

这种压缩方法适用于音频和视频等数据,一般情况下,这些数据对人的感知有一定的误差容忍度,可以通过有损压缩的方法将数据体积大幅度压缩。

常见的有损压缩算法包括MP3、JPEG、MPEG等。

2. 无损压缩与有损压缩相比,无损压缩可以确保数据在压缩后不会有任何信息丢失。

无损压缩适用于图像和文本等数据,这些数据对精确性要求较高。

常见的无损压缩方法包括GIF、PNG和ALAC等。

二、多媒体数据的传输技术多媒体数据的传输技术一般分为实时传输和非实时传输两类。

1. 实时传输实时传输是指数据的传输需要在某个时间点到达并得到有效处理的传输方法。

此类传输方法通常用于视频通话、游戏直播等场景中。

因此,实时传输需要具备低延迟、高质量和可靠性三个特点。

常见的实时传输技术包括传统的TCP/IP协议与User Datagram Protocol(UDP)协议相对应的RTCP(Real-time Transfer Control Protocol)和RTP(Real Time Transport Protocol)协议。

同时,目前应用最广泛的实时传输协议是WebRTC技术。

2. 非实时传输非实时传输则是指数据的传输不需要在某个时间点到达并得到有效处理的传输方式,该传输方法常用于文件下载、在线视频播放等场景中。

此类数据传输相对于实时传输,对于时间要求更为宽松,但需要对数据传输的可靠性和完整性进行保证。

多媒体数据压缩

多媒体数据压缩

多媒体数据压缩1. 引言多媒体数据压缩是当今数字技术中的重要问题之一。

随着互联网的发展以及多媒体应用的广泛应用,对数据的传输和存储的需求也越来越大。

多媒体数据常常具有巨大的数据量,传输和存储所需的带宽和存储空间也相应增加。

为解决这一问题,多媒体数据压缩技术应运而生。

2. 多媒体数据压缩的基本原理多媒体数据压缩的基本原理是通过减少多媒体数据中的冗余信息来降低数据的传输和存储成本。

冗余信息是指数据中重复或不必要的部分,可以通过一定的算法进行识别和剔除。

多媒体数据压缩主要涉及到图像、音频和视频等不同类型的数据。

对于图像数据,常用的压缩算法包括无损压缩和有损压缩。

无损压缩通过对图像进行编码和解码来实现数据的压缩和恢复,保证了压缩前后数据的完全一致性。

有损压缩则通过牺牲一定的图像质量来实现更高的压缩比,常见的有损压缩算法包括JPEG和PNG等。

对于音频数据,压缩技术主要包括无损压缩和有损压缩。

无损压缩常用的算法有FLAC和ALAC等,它们主要通过减小数据中的冗余部分来实现音频数据的压缩。

而有损压缩则通过对音频信号进行一定的量化和编码来实现更高的压缩比,例如MP3和AAC等。

对于视频数据,压缩技术主要包括基于帧间压缩和基于帧内压缩。

帧间压缩通过对相邻帧之间的差异进行编码来实现数据的压缩,常见的压缩算法有MPEG-2和H.264等。

而帧内压缩则通过对单帧图像进行编码来实现压缩,常见的压缩算法有MPEG-1和H.265等。

3. 多媒体数据压缩的应用多媒体数据压缩技术在各个领域都有广泛的应用。

互联网上的图片和视频网站常常需要处理大量的多媒体数据,通过压缩技术可以减少带宽的占用和存储空间的消耗,提高网站的加载速度和用户体验。

在音频和视频传输领域,多媒体数据压缩技术可以实现音视频流的实时传输,满足实时通信和视频会议等应用的需求。

多媒体数据压缩技术还广泛应用于存储介质,例如CD、DVD和蓝光光盘等,通过压缩技术可以在有限的存储空间中存储更多的多媒体内容。

多媒体数据压缩技术

多媒体数据压缩技术


Huffman编码
◦ 1952年提出,基本思想是概率出现大的信源符号分配短码, 反之分配长码

算术编码
◦ 被编码的符号串[0,1)上的一个子区间

行程编码(游程编码,Run-length Encoding)
◦ 一维信号的分段常数逼近(位置信号和信号值) ◦ 差分方式和绝对值方式


最常用的统计编码是Huffman编码。它对于出现频 率大的符号用较少的位数来表示,而对出现频率小 的符号用较多的位数来表示。 其编码效率主要取决于需编码的符号出现的概率分 布,越集中则压缩比越高。

通过下列计算公式可完成数据转换
◦ Y=0.2990R+0.5870G+0.1140B ◦ Cb =-0.1687R-0.3313G+0.5000B+128 ◦ Crr=0.5000R-0.4187G-0.0813B+128

通常有两种采样方式:
◦ YUV411 ◦ YUV422

它们所代 表的意义是Y、 Cb 和Cr三个成份的数据 取样比例
图像格 式
24位 BMP
24位 JPEG
8位 GIF
24位 TIFF
24位 TGA
文件长 度 921,654 17,707 177,152 923,044 768,136 (Byte)
无失真过程
顺序型模式 累进工作方式 分层工作方式

采用预测编码及Huffman编码(或算术编码) 可保证重建图像数据与原始图像数据完全相同
◦ 符合JPEG标准的硬软件编码/解码器都必须支持和实现这 个过程

另两个过程是可选扩展,对一些特定的应用项目有 很大实用价值

多媒体数据压缩基本原理

多媒体数据压缩基本原理
但实际上很难确定各码元的概率,因此, 一般总取 b(x1)= b(x2)= ...= b(x n),即 分配给每个码元的比特数相等(等长码),这样 所得的D必然大于H,从而形成了信息冗余。
数据冗余的类别
1 空间冗余
这是图像数据中经常存在的 一种冗余。在同一幅图像中, 规则物体和规则背景的表面 物理特性具有相关性,这些 相关的光成像结构在数字化 图像中就表现为数据冗余。
多媒体技术与应用
多媒体数据压缩基本原理 1.1 多媒体数据压缩的必要性和可能性 1.2 数据冗余的基本概念与种类 1.3 图像压缩预处理技术 1.4 量化及其质量 1.5 数据压缩算法综合评价指标
1.1 多媒体数据压缩的必要性和可能性
数据压缩的必要性——数据量大
多媒体信息数据巨大是多媒体计算机系统所面 临的最大难题之一。在各种媒体信息中,视频信息数 据量最大,其次是音频信号,因此,为了处理和传输 多媒体信息不仅需要很大的存储容量,而且要有很高 的传输速度.
标量量化的量化特性采用阶梯形函数的 形式。图2.2给出了几种均匀量化器的量化特 性
y
yi+1
yi
xi xi+1
x
y x
y x
(a)中平型
(b)中升型
死区 (c)具有死区的中平型
图2.2 均匀量化特性
图中量化器的特性都是对称的,且
yi1 yi xi1 xi
(i 1,2,, N 1) (i 1,2,, N 1)
6 知识冗余
由图像记录方式与人对图像的知识之 间的差异所产生的冗余称为知识冗余。 例如 人脸的图像就有固定的结构,鼻子位于脸的
中线上,上方是眼睛,下方是嘴等
又如 建筑物的门和窗的形状、位置、大小比例 等,这些规律的结构可由先验知识和背景知识得到。

多媒体数据压缩基础

多媒体数据压缩基础

.2.3 压缩和解压速度
在许多应用中,压缩和解压可能丌同时 使用,所以压缩和解压速度分别估计。 静态图像中,压缩速度没有解压速度严 格;动态图象中,压缩、解压速度都有 要求,因为需要实时的从摄像机或VCR 中抓取动态视频
.2.4 软硬件处理能力
软硬件压缩、解压时需要有统一的标准。
软件:photoshop、kmplayer、暴风 影音 硬件:显卡、声卡
仙农-范诺编码算法需要用到下面两个基本概 念: (1)熵(Entropy) 某个事件的信息量(又称自信息)用Ii = log2 pi表示,其中pi为第i个事件的概率,0< pi ≤ 1。 信息量Ii的概率平均值叫做信息熵,或简称熵。 熵是信息量的度量方法,它表示某一事件出现 的消息越多,事件发生的可能性就越小,数学 上就是概率越小。
三、多媒体数据压缩算法
3.1熵编码
熵编码是基亍统计的,可变码长的压缩 编码方法
方法:识别一个给定的数据流中出现频 率最高的比特或字节模式,幵用比原始 比特更少的比特数来对其编码;即出现 频率多的模式,编码位数越少,而出现 频率少的模式,其编码位数越多。
.3.1.1仙农—范诺编码 仙农-范诺(Shannon-Fano)编码的目的是 产生具有最小冗余的码词(code word)。其 基本思想是产生编码长度可变的码词。码词长 度可变指的是,被编码的一些消息的符号可以 用比较短的码词来表示。估计码词长度的准则 是符号出现的概率。符号出现的概率越大,其 码词的长度越短。
多媒体数据压缩基础
本节介绍
多媒体数据压缩原理 多媒体数据压缩性能指标 多媒体数据压缩的常用算法
课后作业
1. 为什么要迚行压缩、主要的数据冗 _、 ___、__和软件、硬件的处理能力

多媒体数据压缩

多媒体数据压缩
式中,E为信息熵,N为数据的种类(或称码元)个数, Pi为第i个码元出现的概率。 一组数据的数据量显然等于各记录码元的二进制位数 (即编码长度)与该码元出现的概率乘积之和,即
N 1
D pibi i0
式中,D为数据量,为第i个码元的二进制位数。
一般取 b0 b1 bN1(如ASCII编码把所有码元都编码为7
16
下列哪一种说法是正确的: A. 信息量等于数据量与冗余量之和 B. 信息量等于信息熵与数据量之差 C. 信息量等于数据量与冗余量之差 D. 信息量等于信息熵与冗余量之和
17
6.1.3 数据压缩技术的发展过程
20世纪40年代,人们开始系统地研究数据压缩技术;主要表现在 数据压缩算法方面:
首先是Claude Shannon与R.M.Fano的Shannon-Fano编码方法; 1952年,D.A.Huffman提出了Huffman编码方法; 1968年,P.Elias 发展了Shannon-Fano编码,构造出更为完美的 Shannon-Fano-Elias 编码。 1976年,J.Rissanen 提出了一种可以成功地逼近信息熵极限的编码 方法——算术编码。 1982年,Rissanen 和ngdon 一起改进了算术编码。 1977年,Jacob Ziv和Abraham Lempel提出了LZ77编码算法,78年 又作了改进,被称为LZ78编码算法。 1984年,Terry Welch提出了LZ78算法的变种算法——LZW。 LZ77、LZ78、LZW三种压缩技术就是目前无损压缩领域中最为流 行的、被称为“字典式编码”的压缩技术。
M=D-∆d 其中M表示实际媒体信息,D表示数字化后的采 样数据,∆d表示数据冗余量。
数据压缩就是从采样数据中去除冗余,即保留原始信息 中变化的、特征性信息,去除重复的、确定的或可推知的 信息,在实现更接近实际媒体信息描述的前提下,尽可能 的减少描述用的信息量。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

◇ 在子带编码中,如果各个子带的宽度ΔWk 是相同的,则称为等宽子带编码; 如果ΔWk 是互不相同的,则称为变带宽子带编码。 ◇ 对于等带宽子带编码,有:
Wk W W / M ,
◇ 对于变带宽子带编码,通常有:
k 1,2,, M
Wk 1 Wk ,
k 1,2,, M
子带编码 (Subband Coding,SBC)


是一种在频域中进行数据压缩的方法 子带编码用滤波器组将输入信号分割成 一组具有不同频率分量的信号,再进行 处理、编码。 主要介绍以下四方面的内容:



1.子带编码工作原理 2.子带编码的比特分配 3.整数带滤波器组 4.正交镜象滤波器组
k
M
M
k 1
k 1
◇ 如果各子带都采用PCM编码,并且各量化器性能因子同全带PCM编码性能因子相 同,那么子带PCM编码相对于全带PCM编码SNR的增益为:
GSBC
r2, PCM 2 r ,SBC
2 *2 22 R x 2 2 R 2 2 * xkkM源自k 1子带编码的编码器
W1
带通滤波
W2
频率搬移
f s1 2W1
f s 2 2W2
量化编码
带通滤波
频率搬移
量化编码
s ( n)
合 发信码 路
WM
带通滤波
频率搬移
f sM 2WM
量化编码
SBC编码器
子带编码的解码器
W1
解码
fs
fs
频率搬移
带通滤波
W2
频率搬移 带通滤波
sr ( n)
3. 整数带滤波器组
◇ 整数带分割是指各子带的下截止频率 flk 恰好是该子带宽度的整数倍,即:
flk nWk ,
n 1,2,;
k 1,2,, M
·根据带通信号的采样定理,可用 fsk=2Δ
Wk 直接对子带信号采样,而不发生混叠。
·若输入是采样后的信号,通过抽取可实现频谱搬移,合成时通过插值恢复带通信号。 ·子带的下截止频率 flk 是该子带宽度的偶数倍时,经抽取后频谱直接平移到基带; 为奇数倍时,在抽取搬移时,频谱会倒置,插值搬移时再倒置一次,恢复原方向 。 ·抽取和插值比例分别是:Lk:1 和 1:Lk 。其中Lk是全带信号带宽和第k个子带带宽之比 (W/ΔWk)。抽取和插值可以和滤波结合,一步实现。
◇ 如果使用整数带滤波器组,频率搬移和改变采样率可由采样插值来实现。 ◇ 为了减小相邻子带的交迭区或间隔,滤波器的滚降特性应该比较陡,代 价是增加滤波器阶数。
H ( j )
H ( j )
1
2
3
4
1
W
2
3
4
W
理想四子带滤波器组幅频特性
H ( j )
H ( j )
1
W 4
2
3
4
W
1
2
3
max{ GSBC }

M i 1
2 x
2 1/ M M { xi }

1 M
M i 1

i 1
M
2 xi
2 1/ M { xi }
等于各子带功率的算术平均值同几何平均值之比,此值总是大于或等于一。 子带增益随子带分带数目加大而增加,但复杂度和编码延时也会加大。 子带PCM编码的信噪比为:
解码 收信码 分 路
WM
解码
fs
频率搬移 SBC解码器
带通滤波
子带编码的优点:
1.)可以利用人耳(或人眼)对不同频率 信号的感知灵敏度不同的特性,在人的 听觉(或视觉)不敏感的频段采用较粗 糙的量化,从而达到数据压缩的目的; 2.)各个子带的量化噪声都束缚在本子带 内,这就可以避免能量较小的频带内的 信号被其它频段中的量化噪声所淹没; 3.)通过合理分配比特,可以获得更好的 主观质量。
4
W
W 3W 2 4
四子带滤波器组幅频特性
2. 子带编码的比特分配
◇ 编码总速率为:
I f sk Rk
k 1
M
式中 fsk 和 Rk 分别是第 k 个子带的采样频率和每样点编码比特数。 ◇ 设使用理想等带宽子带滤波器组,有:
2W I M
R
k 1
M
k
◇ 如果用 R 表示各子带每样点编码所用比特数的平均值,那么:
R
k 1
M
k
MR
I 2WR
◇ 设采用等子带编码,且各滤波器为理想滤波器。这时全带输入信号功率等于各 子带编码器输入信号功率之和,即:
2 2 x xk k 1 M
◇ 以及全带重建误差功率等于各子带重建误差功率之和,即:
2 2 r2,SBC rk *2k 22 R xk
SNRSBC
2 x 10 lg 2 r , SBC
10 lg(
r2, PCM
2 x
r2, PCM 2 ) r ,SBC
SNRPCM 10 lg GSBC
子带编码的比特分配小结:



频域分带和时域预测能获得同样的效果。 子带编码随子带分带数目加大可以更好 的利用信号频谱特性,获得更大的编码 增益。 比特分配随信号短时特性自适应可获得 更好的编码效果。
◇ 某子带分配到的最佳比特数由该子带的功率与各子带几何平均功率比值确定。 全带相应的最小重建误差为:
min{
2 r , SBC
} *2 2
k 1
M
2 Rk ,opt
2 xk
M 2
2 *
2 R
2 1/ M { xi } i 1
M
◇ PCM子带编码相对于全带PCM编码最大SNR增益为:
1. 子带编码工作原理


用一组带通滤波器将输入信号分成若干个在不 同频率段上的子带信号,然后将这些子带信号 经过频率搬移变换成基带信号,再对它们在奈 氏频率上分别取样。取样后的信号经过量化和 编码,合并成一个总的码流传送给接收端。 在接收端,首先把码流分成与原来的各个子带 信号相对应的子带码流,然后解码、将频谱搬 移至原来的位置,最后经带通滤波、相加得到 重建的信号。
◇ 它的大小取决于各子带的比特分配。各子带比特分配的选择应使总的重建误差功率 最小,并受约束条件
R
限制,因此有:
k 1
M
k
MR
Rk
可以得到:
M 2 M 2 Rk 2 * 2 xk MR Rk 0, k 1 k 1 k 1,2,, M
2 x 1 1 2 Rk log2 [2 * ln 2] log2 , k 1,2,, M 2 2
利用约束条件,解出 λ代入上式,得最佳比特分配为:
Rk ,opt
1 R log2 2
2 xk 2 1/ M { xi } i 1 M
, k 1,2,, M
相关文档
最新文档