音频压缩编码原理及标准共69页文档

语音的压缩编码

应用于声音的传输（通信）:
长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing)
应用于全频带数字声音的表示/存储:
CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2)
原理：声音信号具有很强的相关性，可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本，实际样本值与预测值之间的误差往往很小。利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值，效果：量化位数可以显著减少，从而降低了总的码率。
+
预测值
差值
重建信号
DPCM
编码输出
CCITT G.721 ADPCM编码器
A
量化阶适配器
自适应
( 4 位 )
6阶自适应线性预测， 4位的自适应量化器，输出码率： 8k x 4 = 32 kbps
ADPCM 小结
PCM话音质量 4.5级 ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。 ADPCM应用：数字语音通信多媒体应用中的语音（解说词）
ADPCM自适应差分脉冲编码调制 (Adaptive Differential PCM)
增量调制(DM)
差分脉冲编码调制 DPCM
实际样本值
利用样本与样本之间存在的相关性进行编码，即根据前面的样本估算当前样本的大小，然后对预测误差进行量化编码。
差值
线性预测公式： Xn = A1*Xn-1 + A2*Xn-2 + ... + Am*Xn-m
举例
根据输入样本幅度的大小来改变量化阶大小。可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

音频编码和解码原理.doc

每张CD光盘重放双声道立体声信号可达74分钟。

VCD视盘机要同时重放声音和图像，图像信号数据需要压缩，其伴音信号数据也要压缩，否则伴音信号难于存储到VCD光盘中。

一、伴音压缩编码原理伴音信号的结构较图像信号简单一些。

伴音信号的压缩方法与图像信号压缩技术有相似性，也要从伴音信号中剔除冗余信息。

人耳朵对音频信号的听觉灵敏度有其其规律性，对于不同频段或不同声压级的伴音有其特殊的敏感特性。

在伴音数据压缩过程中，主要应用了听觉阈值及掩蔽效应等听觉心理特性。

1、阈值和掩蔽效应(1) 阈值特性人耳朵对不同频率的声音具有不同的听觉灵敏度，对低频段(例如100Hz以下)和超高频段(例如16KHZ 以上)的听觉灵敏度较低，而在1K－5KHZ的中音频段时，听觉灵敏度明显提高。

通常，将这种现象称为人耳的阈值特性。

若将这种听觉特性用曲线表示出来，就称为人耳的阈值特性曲线，阈值特性曲线反映该特性的数值界限。

将曲线界限以下的声音舍弃掉，对人耳的实际听音效果没有影响，这些声音属于冗余信息。

在伴音压缩编码过程中，应当将阈值曲线以上的可听频段的声音信号保留住，它是可听频段的主要成分，而那些听觉不灵敏的频段信号不易被察觉。

应当保留强大的信号，忽略舍弃弱小的信号。

经过这样处理的声音，人耳在听觉上几乎察觉不到其失真。

在实际伴音压缩编码过程中，也要对不同频段的声音数据进行量化处理。

可对人耳不敏感频段采用较粗的量化步长进行量化，可舍弃一些次要信息；而对人耳敏感频段则采用较细小的量化步长，使用较多的码位来传送。

(2)掩蔽效应掩蔽效应是人耳的另一个重要生理特征。

如果在一段较窄的频段上存在两种声音信号，当一个强度大于另一个时，则人耳的听觉阈值将提高，人耳朵可以听到大音量的声音信号，而其附近频率小音量的声音信号却听不到，好像是小音量信号被大音量信号掩蔽掉了。

由于其它声音信号存在而听不到本声音存在的现象，称为掩蔽效应。

根据人耳的掩蔽特性，可将大音量附近的小音量信号舍弃掉，对实际听音效果不会发生影响。

第三讲音频压缩编码.

•据心理声学的掩蔽模型，对同一子带内相邻三个比例因子，可丢弃较小的因子，以减少传输比例因子的比特数。
Effect of temporal and frequency masking
depending on both time and closeness in frequency.
Li & Drew
23
15500
22050
6550
12
1720
2000
280
在时间上相邻的声音之间也有掩蔽现象。时域掩蔽又分为超前掩蔽和滞后掩蔽。超前掩蔽很短，只有大约5～20 ms，而滞后掩蔽可以持续50～200 ms。
4、时域掩蔽
t
后掩蔽
前掩蔽
同期掩蔽强音
时间掩蔽利用
•基于时间掩蔽效应的编码策略是，编码时将时间上相继的一些样值归并成块，并计算每块内最大样值的比例因子；
信噪比(SNR=20lgL/N
信噪比(SNR=6.02n+1.76
N:量化噪声电平,n:量化比特数
重要结论：量化比特数增加1，
量化信噪比提高6dB
。
5、感知编码器原理
•放弃物理上的同一性
•得到感知上的同一性
降低数据率
掩蔽的用途
q去除会被掩蔽的信号分量
v因为即使传输了也不会被听见§同听阈以下的信号部分不能被人耳听到（称不相关部分），不必传送。（去除不相关部分）
–500Hz以下每个临界频带的带宽大约是100Hz，从500Hz起，临界频带带宽线性增加。
–一个临界频带的带宽单位为1巴克（bark。
0Hz
500Hz
20000Hz f
… …
临界频带单位巴克（Bark）
•对于任何掩蔽频率，巴克被定义为一个临界频带的宽度；

音频压缩编码技术

要的作用。由于人们的听觉系统存在着某些不敏感效应，某些情况下的音频不能被感知，因此从感知效果来看这些不敏感的音频分量可认为是知觉冗余。如果将这部分冗余压缩掉，可提高编码效率，这是音频压缩的另一个理论基础。ຫໍສະໝຸດ 4、对音频数据压缩的两个途径
（1）利用信号本身的统计特性，在完全不丢失信息的情况下进行高效的熵编码（平均信息量编码）（2）利用人们对音频信号的感知特性，通过省略人们所不能分辨或不敏感的信息来压缩信息量，这就是知觉编码。
就找出信噪比的新估计值，重新计算该子带的掩蔽噪声比。上述过程重复进行，直到再没有多余的比特可分配了为止，这个过程称为比特分配。按输入信号的大小来改变量化步长，输入信号小时用较小的量化步长，输入信号大时用较大的量化步长。因此，需要将码中的比特分为两组，一组比特用来量化步长大小，这组比特代表幅度值的“比例因子”，其余比特用来均匀量化与这些量化步长对应的信号，这组比特代表幅度值的“尾数”。通常量化信噪比SNR取决于位数的比特数。 MPEG-1音频数据是一帧一帧传送的，Layer1每帧有32个子带组成，每个子带包括12个样值每帧有384个
PCM输入
32子带滤波器组
MDCT
非线性量化比特率控制
Huffman 编码
复
码流输出
用 1024点FFT 心理声学模型辅助数据编码
Layer3音频编码器框图
声音码流
Huffman 编码解复用纠错边信息编码
比例因子恢复
IM DCT
32子带综合样滤波器组值
输出
Layer3音频解码器框图
，如比特率标记。然后是长度为16bit的循环冗余码，接着是用于描述比特分配长度为4bit的比特分配域，长度为6bit的比例因子域，以及子带样值域等。

视频压缩编码和音频压缩编码的基本原理

视频压缩编码和⾳频压缩编码的基本原理本⽂介绍⼀下视频压缩编码和⾳频压缩编码的基本原理。

事实上有关视频和⾳频编码的原理的资料很的多。

可是⾃⼰⼀直也没有去归纳和总结⼀下，在这⾥简单总结⼀下，以作备忘。

1.视频编码基本原理（1）视频信号的冗余信息以记录数字视频的YUV分量格式为例，YUV分别代表亮度与两个⾊差信号。

⽐如对于现有的PAL制电视系统。

其亮度信号採样频率为13.5MHz。

⾊度信号的频带通常为亮度信号的⼀半或更少，为6.75MHz或3.375MHz。

以4：2：2的採样频率为例，Y信号採⽤13.5MHz。

⾊度信号U和V採⽤6.75MHz採样，採样信号以8bit量化，则能够计算出数字视频的码率为：13.5*8 + 6.75*8 + 6.75*8= 216Mbit/s如此⼤的数据量假设直接进⾏存储或传输将会遇到⾮常⼤困难，因此必须採⽤压缩技术以降低码率。

数字化后的视频信号能进⾏压缩主要根据两个基本条件：l 数据冗余。

⽐如如空间冗余、时间冗余、结构冗余、信息熵冗余等，即图像的各像素之间存在着⾮常强的相关性。

消除这些冗余并不会导致信息损失，属于⽆损压缩。

l 视觉冗余。

⼈眼的⼀些特性⽐⽅亮度辨别阈值，视觉阈值，对亮度和⾊度的敏感度不同，使得在编码的时候引⼊适量的误差，也不会被察觉出来。

能够利⽤⼈眼的视觉特性。

以⼀定的客观失真换取数据压缩。

这样的压缩属于有损压缩。

数字视频信号的压缩正是基于上述两种条件，使得视频数据量得以极⼤的压缩，有利于传输和存储。

⼀般的数字视频压缩编码⽅法都是混合编码，即将变换编码，运动预计和运动补偿。

以及熵编码三种⽅式相结合来进⾏压缩编码。

通常使⽤变换编码来消去除图像的帧内冗余，⽤运动预计和运动补偿来去除图像的帧间冗余。

⽤熵编码来进⼀步提⾼压缩的效率。

下⽂简介这三种压缩编码⽅法。

（2）压缩编码的⽅法（a）变换编码变换编码的作⽤是将空间域描写叙述的图像信号变换到频率域。

然后对变换后的系数进⾏编码处理。

压缩编码标准

2、数据压缩方法
无损压缩有损压缩
统计编码
行程编码哈夫曼编码香农编码算 LZW 术编编码码
PCM编码 PCM编码
预测编码
变换编码
混合编码
DPCM编码 DPCM编码 ADPCM编码 ADPCM编码帧间预测编码
离散余弦变换 K-L变换小波变换
JPEG MPEG H.261
二、有损压缩：压缩时会丢失部分数据，且丢失的数据无法恢复。是不可逆的压缩，即解压缩以后的数据将模拟量经过采样、量化和编码得到其数字编码。（脉冲编码调制）根据算法模型，用已有的样本值对新样本进行预测，得到一个预测值，将实际值与预测值相减得到预测误差，再对该误差值进行编码，如果预测越准确，误差值就对该误差值进行编码，对该误差值进行编码越小（那误差的幅度肯定小于原始信号），那编码所需的位数就可以减少，达到压缩的目的。将原始信号从一个域（如时间域）变换到另一个域（如频率域），然后对变换后的信号进行编码。主要用于图像数据的压缩。
第6章多媒体数据的压缩
6.1 数据压缩概述
数据压缩的必要性数据冗余
6.2 数据压缩的基本原理
信息编码基础数据压缩方法
6.3 数据压缩的编码算法
统计编码（统计编码（行程编码预测编码变换编码
哈夫曼编码
算术编码）算术编码）
6.4 常用多媒体数据压缩标准
音频压缩编码标准静态图像压缩标准动态图像压缩标准视频压缩编码标准
6.1
数据压缩概述
声音、图像、声音、图像、视频和动画的数据量太大
1、压缩的必要性
声音分钟立体声音乐采样频率为44.1KHZ 16位量化精度的数据量为 44.1KHZ， 1分钟立体声音乐采样频率为44.1KHZ，16位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首4分钟的歌曲约需40MB 存储一首4分钟的歌曲约需40MB 图像

音频压缩编码原理及标准69页PPT

谢谢！
51、天下之事常成于困约，而败于奢靡。——陆游 52、生命不等于是呼吸，生命是活动。——卢梭
53、伟大的事业，需要决心，能力，组织和责任感。 ——易卜生 54、唯书籍不朽。——乔特
1、不要轻言放弃，否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人，常是愿意去做，并愿意去冒险的人。“稳妥”之船，从未能从岸边走远。-戴尔．卡耐基。
梦境
3、人生就像一杯没有加糖的咖啡，喝起来是苦涩的，回味起来却有久久不会退去的余香。
音频压缩编码原理及标准 4、守业的最好办法就是不断的发展。 5、当爱不能完美，我宁愿选择无悔，不管来生多么美丽，我不愿失去今生对你的记忆，我不求天长地久的美景，我只要生生世世的轮回里有你。
55

音频压缩编码原理及标准.共69页

音频压缩编码原理及标准.
11、获得的成功越大，就越令人高兴。野心是使人勤奋的原因，节制使人枯萎。 12、不问收获，只问耕耘。如同种树，先有根茎，再有枝叶，尔后花实，好好劳动，不要想太多，那样只会使人胆孝懒惰，因为不实践，甚至不接触社会，难道你是野人。(名言网) 13、不怕，不悔(虽然只有四个字，但常看常新。 14、我在心里默默地为每一个人祝福。我爱自己，我用清洁与节制来珍惜我的身体，我用智慧和知识充实我的头脑。 15、这世上的一切都借希望而完成。农夫不会播下一粒玉米，如果他不曾希望它长成种籽；单身汉不会娶妻，如果他不曾希望有小孩；商人或手艺人不会工作，如果他不曾希望因此而有收益。-- 马钉路德。
25、学习是劳动，是充满思想的劳动。——乌申斯基
谢谢！
21、要知道对好事的称颂过于夸大，也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤，荒于嬉；行成于思，毁于随。——韩愈
23、一切节省，归根到底都归——莎士比亚