(完整版)音频基础知识及编码原理

合集下载

音频编码和解码的原理和实践

音频编码和解码的原理和实践音频编码和解码是指将模拟音频信号转换成数字形式进行传输和存储，并在接收端将数字信号重新还原为模拟音频信号的过程。

本文将详细介绍音频编码和解码的原理和实践。

一、音频编码的原理音频编码是将模拟音频信号转换为数字信号的过程。

它的目的是通过去除冗余信息和压缩信号来降低数据量，以便更有效地进行传输和存储。

常见的音频编码方法包括脉冲编码调制（PCM）、脉冲编码调制调幅（PCM-FM）、有损编码和无损编码等。

1. PCM编码PCM（Pulse Code Modulation）编码是最常见的音频编码方法之一。

它将连续的模拟信号量化为不连续的数字信号，然后再对数字信号进行编码。

PCM编码的基本原理是将音频信号的振幅值按照一定的量化间隔进行离散化，然后将每个采样值编码为对应的二进制码。

由于PCM编码是无损编码，所以还原的音频质量会完全与原始音频一致。

2. 有损编码有损编码是指在进行音频编码时采用某种算法对音频信号进行压缩，从而减少数据量，但在还原时会导致一定的误差。

有损编码方法的典型代表是MP3、AAC等。

这些编码方法通过去除听觉上不敏感的信号成分、减少重复信号等方式来实现压缩。

有损编码的原理是基于人类听觉特性的研究。

我们的听觉系统对于一些细微的变化不敏感，因此对于这些变化可以进行一定程度的压缩。

这样，在不影响听觉质量的前提下，就可以大幅度地降低数据量。

3. 无损编码无损编码是指在进行音频编码时保持原始音频质量不变的编码方法。

无损编码方法的典型代表是FLAC、ALAC等。

无损编码方法通常基于预测编码原理，通过对音频信号进行数学建模，并将预测的误差进行编码来实现压缩。

二、音频解码的原理音频解码是将数字信号还原为模拟音频信号的过程。

它的目的是将编码后的音频信号通过逆向操作还原为原始音频信号。

常见的音频解码方法与编码方法相对应，包括PCM解码、有损解码和无损解码等。

1. PCM解码PCM解码是将经过PCM编码的音频信号重新转换为模拟音频信号的过程。

音频压缩编码原理及标准.

声音压缩编码的声学原理
声音信号的频率范围？ 20Hz-20KHz
声音频谱的特点: 高频段快速下降，高幅值大部分集中在中频段，有的延伸到低频段
电平分布特点：声音信号的电平存在冗余
声音压缩编码的声学原理
掩蔽效应
一个较弱的声音（被掩蔽音）的听觉感受被另一个较强的声音（掩蔽音）影响
掩蔽量
时频变化的方法：离散余弦变换DCT 、改进的离散余弦变换MDCT
离散余弦变换（DCT）
时频变换（DFT）
逆变换
变换时将PCM样值分为N长的一块块进行变换块长：一块中包含的样本数N 窗长：N ×（1/Fs）频率分辨率：Fs/N 频率轴上的所能得到的最小频率间隔块越长，变化编码的频率分辨率越高，但损失了时域分辨率
MPEG-1 层1原理方框图
MPEG-1 层1 1、子带分析滤波器组
将宽频带信号分割成32个子带信号子带为等宽的均匀划分
2、标定
将每个子带中12个采样值归并成一个块找出12个采样值中绝对值最大的样本值根据其值的大小确定比例因子（查表得到，大于该绝对值的一系列值中的最小值定为比例因子）将12个采样值用比例因子归一化（标定）
可预先定义压缩后的数码率
编码后的数据流支持循环冗余校验支持数据流中载带附加信息
MPEG-1 音频压缩编码的基本原理
MPEG-1音频压缩的基础是量化
MPEG-1使用感知音频编码来达到压缩音频数据又尽可能保证音质的目的。
感知音频编码的理论依据是听觉系统的掩蔽特性。基本思想是在编码过程中，保留有用的信息而丢掉被掩蔽的信号。
MPEG-1 层2
、
SCPSI 比例因子选择信息
为了降低传送比例因子的码率，信号平稳变化时，只传送其中1个或2个较大的比例因子；对于瞬态变化的信号，3个比例因子都传递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子

音频基础知识及编码原理

音频基础知识及编码原理音频是我们日常生活中不可或缺的一部分，它通过我们的耳朵传达声音信息。

音频的基础知识和编码原理对于我们理解音频的特性和进行音频处理都是非常重要的。

一、音频基础知识1.音频信号：音频信号是一种连续时间变化的模拟信号，它可以通过声音的压力波来传递声音信息。

在计算机中，音频信号会被采样和量化为离散的数字信号。

2.音频频率：音频频率是指声音中的振荡周期数量。

它以赫兹（Hz）为单位表示，描述了声波的频率。

人类可以听到的频率范围约为20Hz到20kHz，不同的生物和设备有着不同的频率感知范围。

3.音频幅度：音频幅度是指声音的强度或振幅。

它可以通过声音的声压级来表示，单位为分贝（dB）。

声压级越高，声音就越大；声压级越低，声音就越小。

4. 音频声道：音频声道是指音频信号的通道数量。

单声道（mono）只有一个通道，立体声（stereo）有两个通道，多声道（multi-channel）有三个或更多个通道。

5.音频采样率：音频采样率是指音频信号在单位时间内进行采样的次数。

它以赫兹（Hz）为单位表示，描述了数字音频的采样精度。

常见的采样率有44.1kHz和48kHz，高采样率可以提高音频的质量。

二、音频编码原理音频编码是将模拟音频信号转换为数字音频信号的过程。

在音频编码中，采样和量化是两个主要步骤。

1.采样：采样是将连续时间的模拟音频信号转换为离散时间的数字音频信号的过程。

采样率决定了采样的频率，即每秒钟采样的次数。

采样过程会将每个采样点的幅度值记录下来，形成一个采样序列。

2.量化：量化是将连续的模拟音频信号转换为离散的数字音频信号的过程。

它将每个采样点的幅度值映射到一个有限的数值范围内，通常使用固定的比特数来表示每个采样点的幅度。

3.压缩编码：为了减小数字音频的文件大小，音频信号通常会经过压缩编码的处理。

压缩编码可以通过去除信号中的冗余信息或者使用有损压缩算法来实现。

常见的音频压缩编码格式有MP3、AAC和FLAC等。

音频编码和解码原理.doc

每张CD光盘重放双声道立体声信号可达74分钟。

VCD视盘机要同时重放声音和图像，图像信号数据需要压缩，其伴音信号数据也要压缩，否则伴音信号难于存储到VCD光盘中。

一、伴音压缩编码原理伴音信号的结构较图像信号简单一些。

伴音信号的压缩方法与图像信号压缩技术有相似性，也要从伴音信号中剔除冗余信息。

人耳朵对音频信号的听觉灵敏度有其其规律性，对于不同频段或不同声压级的伴音有其特殊的敏感特性。

在伴音数据压缩过程中，主要应用了听觉阈值及掩蔽效应等听觉心理特性。

1、阈值和掩蔽效应(1) 阈值特性人耳朵对不同频率的声音具有不同的听觉灵敏度，对低频段(例如100Hz以下)和超高频段(例如16KHZ 以上)的听觉灵敏度较低，而在1K－5KHZ的中音频段时，听觉灵敏度明显提高。

通常，将这种现象称为人耳的阈值特性。

若将这种听觉特性用曲线表示出来，就称为人耳的阈值特性曲线，阈值特性曲线反映该特性的数值界限。

将曲线界限以下的声音舍弃掉，对人耳的实际听音效果没有影响，这些声音属于冗余信息。

在伴音压缩编码过程中，应当将阈值曲线以上的可听频段的声音信号保留住，它是可听频段的主要成分，而那些听觉不灵敏的频段信号不易被察觉。

应当保留强大的信号，忽略舍弃弱小的信号。

经过这样处理的声音，人耳在听觉上几乎察觉不到其失真。

在实际伴音压缩编码过程中，也要对不同频段的声音数据进行量化处理。

可对人耳不敏感频段采用较粗的量化步长进行量化，可舍弃一些次要信息；而对人耳敏感频段则采用较细小的量化步长，使用较多的码位来传送。

(2)掩蔽效应掩蔽效应是人耳的另一个重要生理特征。

如果在一段较窄的频段上存在两种声音信号，当一个强度大于另一个时，则人耳的听觉阈值将提高，人耳朵可以听到大音量的声音信号，而其附近频率小音量的声音信号却听不到，好像是小音量信号被大音量信号掩蔽掉了。

由于其它声音信号存在而听不到本声音存在的现象，称为掩蔽效应。

根据人耳的掩蔽特性，可将大音量附近的小音量信号舍弃掉，对实际听音效果不会发生影响。

PCM编码与解码技术

PCM编码与解码技术PCM（Pulse Code Modulation）编码与解码技术是一种数字信号处理技术，主要用于音频信号的传输与处理。

本文将详细介绍PCM编码与解码技术的原理、应用及其在音频领域的重要性。

一、PCM编码原理PCM编码是将连续时间模拟信号转换为离散时间数字信号的一种方法。

它通过对模拟信号进行采样和量化，将连续变化的模拟信号转换为离散的数字信号，然后再通过编码将数字信号转换为二进制数据。

1. 采样：采样是将模拟信号按照一定时间间隔进行测量和记录，获得一系列离散的采样值。

采样的时间间隔应足够小，以保证样点之间的信号变化不会丢失。

2. 量化：量化是指将采样得到的连续信号幅值值分成有限的几个级别，并用离散的数值来表示。

量化过程中需要确定量化级的数量，即每个样本可以取得的离散数值。

3. 编码：编码是将量化后的离散数值转化为二进制数据，以便传输和存储。

常用的编码方式有自然二进制编码、格雷码编码等。

二、PCM解码原理PCM解码是将经过编码和传输的数字信号重新恢复为模拟信号的过程。

解码过程与编码过程相反，主要包括解码、还原和重构三个步骤。

1. 解码：解码是将二进制数据转化为离散的数字信号，恢复出量化的幅值值。

2. 还原：还原是将离散的数字信号转化为特定幅值的样本点，通过插值技术将样本点之间的信号变化补充完整。

3. 重构：重构是将还原后的离散信号通过低通滤波器进行滤波处理，去除高频噪声成分，最终得到还原的模拟信号。

三、PCM技术的应用PCM编码与解码技术在音频领域得到广泛应用，主要体现在以下几个方面：1. 音频传输：PCM技术可以将模拟音频信号转化为数字信号传输，通过数字信号传输可以提高音频的传输质量和抗干扰性能。

2. 数字音频存储：PCM技术可以将模拟音频信号转化为数字信号存储，通过数字信号存储可以提高音频的保真度和持久性。

3. 语音通信：PCM技术在电话语音通信领域得到广泛应用，通过将语音信号转化为数字信号进行传输，实现电话语音通信的数字化。

音频基础知识

一. 音频基础知识1. 音频编解码原理数字音频的出现，是为了满足复制、存储、传输的需求，音频信号的数据量对于进行传输或存储形成巨大的压力，音频信号的压缩是在保证一定声音质量的条件下，尽可能以最小的数据率来表达和传送声音信息。

信号压缩过程是对采样、量化后的原始数字音频信号流运用适，当的数字信号处理技术进行信号数据的处理，将音频信号中去除对人们感受信息影响可以忽略的成分，仅仅对有用的那部分音频信号，进行编排，从而降低了参与编码的数据量。

数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余A．幅度分布的非均匀性：信号的量化比特分布是针对信号的整个动态范围而设定的，对于小幅度信号而言，大量的比特数据位被闲置。

B．样值间的相关性:声音信号是一个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本身相比，数据量要小的多。

C．信号周期的相关性:声音信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作用，即特征频率，这些特征频率会以一定的周期反复出现，周期之间具有相关关系。

D．长时自我相关性:声音信息序列的样值、周期相关性，在一个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很高的相关系数。

E．静音:声音信息中的停顿间歇，无论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2 频域冗余A．长时功率谱密度的非均匀性：任何一种声音信息，在相当长的时间间隔内，功率分布在低频部分大于高频部分，功率谱具有明显的非平坦性，对于给定的频段而言，存在相应的冗余。

B．语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值，而在另一些频率上出现谷值，这些共振峰频率具有较大的能量，由它们决定了不同的语音特征，整个语言的功率谱以基音频率为基础，形成了向高次谐波递减的结构。

1.3 听觉冗余根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型，将通过听觉领悟信息的复杂过程，包括接受信息，识别判断和理解信号内容等几个层次的心理活动，形成相应的连觉和意境，由此构成声音信息集合中的所以数据，并非对人耳辨别声音的强度、音调、方位都产生作用，形成听觉冗余，由听觉冗余引出了降低数据率，实现更高效率的数字音频传输的可能。

音频编解码原理

音频编解码原理
音频编解码原理是一种将音频信号从模拟形式转换为数字形式并相互转换的技术。

编码是将模拟音频信号转换为数字形式，而解码则是将数字音频信号转换为模拟形式。

在音频编码过程中，模拟音频信号经过采样步骤将其转换为一系列离散的样本。

然后，对采样到的数据进行量化，将其映射到固定数量的离散值中，从而将连续的模拟信号转换为离散的数字信号。

接下来，将量化后的离散数据进行编码。

编码的目标是通过使用较少的位数来表示音频信号，以减小数据量并提高传输效率。

常用的音频编码算法包括PCM（脉冲编码调制）、ADPCM （自适应差分脉冲编码调制）、MP3（MPEG-1音频第三层）、AAC（高级音频编码）等。

在音频解码过程中，首先将编码后的数字音频数据还原为离散的量化数据。

然后，将量化数据反量化，将其转换回原始的离散数值。

最后，使用重构滤波器将离散数据重新插值为连续的模拟信号，以便在扬声器或耳机中进行音频回放。

音频编解码原理在许多应用领域中发挥着重要作用，例如音频压缩、音频传输、音频存储等。

通过使用合适的编码算法，可以实现高质量的音频传输和存储，并在一定程度上减小数据量，提高系统的效率和性能。

音频编解码原理讲解和分析

音频编码原理讲解和分析作者：谢湘勇，算法部，**************************简述 (2)音频基本知识 (2)采样(ADC) (3)心理声学模型原理和分析 (3)滤波器组和window原理和分析 (6)Window (6)TDAC：时域混叠抵消,time domain aliasing cancellation (7)Long and short window、block switch (7)FFT、MDCT (8)Setero and couple原理和分析 (8)量化原理和分析 (9)mp3、AAC量化编码的过程 (9)ogg量化编码的过程 (11)AC3量化编码的过程 (11)Huffman编码原理和分析 (12)mp3、ogg、AC3的编码策略 (12)其他技术原理简介 (13)比特池技术 (13)TNS (13)SBR (13)预测模型 (14)增益控制 (14)OGG编码原理和过程详细分析 (14)Ogg V orbis的引入 (14)Ogg V orbis的编码过程 (14)ogg心理声学模型 (15)ogg量化编码的过程 (16)ogg的huffman编码策略 (17)主要音频格式编码对比分析 (19)Mp3 (19)Ogg (20)AAC (21)AC3 (22)DRA（A VS内的中国音频标准多声道数字音频编码） (23)BSAC，TwinVQ (24)RA (24)音频编码格式的对比分析 (25)主要格式对比表格如下 (26)语音编码算法简介 (26)后处理技术原理和简介 (28)EQ (28)SRS WOW (29)环境音效技术(EAX) (29)3D (30)Dolby多项后处理技术 (30)多声道介绍 (30)简述音频编解码目前主流的原理框图如图1，下面我希望由浅入深的对各算法原理作一说明。

音频基本知识▪人类可听的音频频率范围为20-20khz▪全音域可分为8度音阶（Octave）概念，每octave又可以分为12份，相当于1—7的每半音为一份（1/12 octave）▪音调和噪音：音调有规律的悦耳的声音（如乐器的1—7），噪音是无规律的难听的声音。

音频解码原理

音频解码原理音频解码是指将数字信号转换为模拟音频信号的过程。

在数字音频系统中，音频信号首先被采样并量化为数字信号，然后通过解码器将数字信号还原为模拟音频信号。

音频解码原理涉及到数字信号处理、信号解压缩、数模转换等技术，下面将详细介绍音频解码的原理和过程。

1. 数字音频信号。

数字音频信号是通过模数转换器（ADC）将模拟音频信号转换为数字信号。

在这个过程中，音频信号会以固定的时间间隔进行采样，然后通过量化器将采样后的信号转换为数字形式。

这样就得到了一个由数字组成的音频信号，也就是数字音频信号。

2. 音频编码。

在数字音频系统中，为了减小数据量和节省存储空间，通常会对数字音频信号进行编码。

常见的音频编码格式有MP3、AAC、WMA等。

这些编码格式采用了不同的压缩算法，将原始的数字音频信号进行压缩编码，以便于传输和存储。

3. 音频解码器。

音频解码器是用于将编码后的数字音频信号还原为模拟音频信号的设备或软件。

它包括了解压缩、数字信号处理和数模转换等功能模块。

解码器首先对编码后的数字音频信号进行解压缩，将其还原为原始的数字音频信号。

然后通过数字信号处理技术对信号进行滤波、均衡、混响等处理，最终通过数模转换器将数字信号转换为模拟音频信号输出。

4. 数字信号处理。

数字信号处理是音频解码过程中的重要环节，它包括了滤波、均衡、混响等处理。

滤波是指对数字音频信号进行滤波器处理，以去除噪声和杂音，增强音频信号的质量。

均衡是指对音频信号的频率特性进行调整，使得音频在不同频段上的音量均衡。

混响是指模拟不同的音频环境，使得音频信号具有不同的音响效果。

5. 数模转换。

数模转换是将数字信号转换为模拟信号的过程。

在音频解码中，数模转换器将经过数字信号处理后的数字音频信号转换为模拟音频信号输出。

数模转换器的精度和采样率会影响到音频信号的还原质量，因此在音频解码器中，数模转换器的设计和性能至关重要。

总结。

音频解码原理涉及到数字音频信号的采样、量化、编码、解压缩、数字信号处理和数模转换等技术。

mp3 编码原理

mp3 编码原理MP3是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。

它被设计用来大幅度地降低音频数据量。

利用MPEG Audio Layer 3 的技术，将音乐以1:10 甚至1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。

以下是MP3编码的基本原理：1. 采样：这是音频编码的第一步。

MP3在创建时，会以160000Hz的频率对音频信号进行采样。

这意味着每秒钟会获取160000个样本。

2. 量化：在采样后，每个样本都会被转化为一个数字。

在MP3中，这个数字的范围是-32768到32767。

这个过程被称为量化。

3. 编码：量化后的数据需要进行编码，才能被计算机理解和存储。

在MP3中，使用了Huffman编码和Run-Length Encoding（RLE）等压缩技术。

4. 心理声学模型：这是MP3编码中最核心的部分。

通过使用心理声学模型，MP3编码器可以预测哪些频率和声音人类难以察觉，从而进一步压缩数据。

5. 压缩：经过心理声学模型处理后，音频数据会被进一步压缩，以减少存储空间的需求。

6. 解码：当播放MP3时，解码器会逆转上述过程，从压缩的音频数据中还原出原始的音频信号。

7. 解码器：最后，音频信号会被送入扬声器或其他设备进行播放。

需要注意的是，这个过程是一个复杂且精细的过程，涉及到许多数字信号处理和心理学知识。

尽管如此，它仍然是现代音频编码的基础之一，影响了许多其他的音频编码和压缩技术。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、基本概念1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。

2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。

响度主要随声音的强度而变化，但也受频率的影响。

总的说，中频纯音听来比低频和高频纯音响一些。

3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。

采样率是指每秒钟采集多少个样本。

Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。

二、常见音频格式1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。

2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。

它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。

MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。

把这些指令发送给声卡，由声卡按照指令将声音合成出来。

3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。

MP3能够以高音质、低采样率对数字音频文件进行压缩。

应用最普遍。

4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。

MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。

它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。

5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。

MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。

它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。

6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。

WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。

此外，WMA还可以通过DRM（Digital Rights Management）保护版权。

7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio主要适用于网络上的在线播放。

现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。

8. Audible拥有四种不同的格式：Audible1、2、3、4。

网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种专用音频格式中的一种提供保护。

每一种格式主要考虑音频源以及所使用的收听的设备。

格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。

Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件9．AAC实际上是高级音频编码的缩写。

AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。

AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。

AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。

它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。

总之，AAC 可以在比MP3文件缩小30%的前提下提供更好的音质。

10. Ogg Vorbis 是一种新的音频压缩格式，类似于MP3等现有的音乐格式。

但有一点不同的是，它是完全免费、开放和没有专利限制的。

Vorbis 是这种音频压缩机制的名字，而Ogg则是一个计划的名字，该计划意图设计一个完全开放性的多媒体系统。

VORBIS也是有损压缩，但通过使用更加先进的声学模型去减少损失，因此，同样位速率(Bit Rate)编码的OGG与MP3相比听起来更好一些。

11. APE是一种无损压缩音频格式,在音质不降低的前提下，大小压缩到传统无损格式WAV 文件的一半.12 .FLAC即是Free Lossless Audio Codec的缩写，是一套著名的自由音频无损压缩编码，其特点是无损压缩。

三、音频编码基本原理语音编码致力于：降低传输所需要的信道带宽，同时保持输入语音的高质量。

语音编码的目标在于：设计低复杂度的编码器以尽可能低的比特率实现高品质数据传输。

1 静音阈值曲线：只在安静环境下，人耳在各个频率能听到声音的阈值。

2 临界频带由于人耳对不同频率的解析度不同，MPEG1/Audio将22khz内可感知的频率范围，依不同编码层，不同取样频率，划分成23~26个临界频带。

下图列出理想临界频带的中心频率与频宽。

图中可看到，人耳对低频的解析度较好。

图53 频域上的掩蔽效应：幅值较大的信号会掩蔽频率相近的幅值较小的信号，如下图：4 时域上的遮蔽效应：在一个很短的时间内，若出现了2个声音，SPL（sound pressure level）较大的声音会掩蔽SPL较小的声音。

时域掩蔽效应分前向掩蔽（pre-masking）和后向掩蔽(post-masking),其中post-masking的时间会比较长，约是pre-masking的10倍。

时域遮蔽效应有助于消除前回音。

四、编码基本手段1 量化和量化器量化和量化器：量化是把离散时间上的连续信号，转化成离散时间上的离散信号。

常见的量化器有：均匀量化器，对数量化器，非均匀量化器。

量化过程追求的目标是：最小化量化误差，并尽量减低量化器的复杂度（这2者本身就是一个矛盾）。

（a）均匀量化器：最简单，性能最差，仅适应于电话语音。

（b）对数量化器：比均匀量化器复杂，也容易实现，性能比均匀量化器好。

（c）Non-uniform量化器：根据信号的分布情况，来设计量化器。

信号密集的地方进行细致的量化，稀疏的地方进行粗略量化。

2 语音编码器语音编码器分为三种类形：（a）波形编器；（b）声码器；（c）混合编码器。

波形编码器以构造出背景噪单在内的模拟波形为目标。

作用于所有输入信号，因此会产生高质量的样值并且耗费较高的比特率。

而声码器（vocoder）不会再生原始波形。

这组编码器会提取一组参数，这组参数被送到接收端，用来导出语音产生模形。

声码器语音质量不够好。

混合编码器，它融入了波形编码器和声器的长处。

2.1 波形编码器波形编码器的设计常独立于信号。

所以适应于各种信号的编码而不限于语音。

1 时域编码a）PCM：pulse code modulation,是最简单的编码方式。

仅仅是对信号的离散和量化，常采用对数量化。

b）DPCM：differential pulse code modulation，差分脉冲编码，只对样本之间的差异进行编码。

前一个或多个样本用来预测当前样本值。

用来做预测的样本越多，预测值越精确。

真实值和预测值之间的差值叫残差，是编码的对象。

c）ADPCM：adaptive differential pulse code modulation，自适应差分脉冲编码。

即在DPCM 的基础上，根据信号的变化，适当调整量化器和预测器，使预测值更接近真实信号，残差更小，压缩效率更高。

（2）频域编码频域编码是把信号分解成一系列不同频率的元素，并进行独立编码。

a）sub-band coding：子带编码是最简单的频域编码技术。

是将原始信号由时间域转变为频率域，然后将其分割为若干个子频带，并对其分别进行数字编码的技术。

它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。

将各子带通过等效于单边带调幅的调制特性，将各子带搬移到零频率附近，分别经过BPF(共m个)之后，再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样，并对取样数值进行通常的数字编码，其设置m路数字编码器。

将各路数字编码信号送到多路复用器，最后输出子带编码数据流。

对不同的子带可以根据人耳感知模型，采用不同量化方式以及对子带分配不同的比特数。

b）transform coding：DCT编码。

6 声码器channel vocoder:利用人耳对相位的不敏感。

homomorphic vocoder：能有效地处理合成信号。

formant vocoder:以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。

linear predictive vocoder：最常用的声码器。

7 混合编码器波形编码器试图保留被编码信号的波形，能以中等比特率（32kbps）提供高品质语音，但无法应用在低比特率场合。

声码器试图产生在听觉上与被编码信号相似的信号，能以低比特率提供可以理解的语音，但是所形成的语音听起来不自然。

混合编码器结合了2者的优点。

RELP：在线性预测的基础上，对残差进行编码。

机制为：只传输小部分残差，在接受端重构全部残差（把基带的残差进行拷贝）。

MPC:multi-pulse coding,对残差去除相关性，用于弥补声码器将声音简单分为voiced和unvoiced，而没有中间状态的缺陷。

CELP:codebook excited linear prediction，用声道预测其和基音预测器的级联，更好逼近原始信号。

MBE:multiband excitation，多带激励，目的是避免CELP的大量运算，获得比声码器更高的质量。