音频解码标准样本

合集下载

音频的编解码

音频编码解码基本概念介绍对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。

音频信息在编码技术中通常分成两类来处理，分别是语音和音乐，各自采用的技术有差异。

语音编码技术又分为三类：波形编码、参数编码以及混合编码。

波形编码：波形编码是在时域上进行处理，力图使重建的语音波形保持原始语音信号的形状，它将语音信号作为一般的波形信号来处理，具有适应能力强、话音质量好等优点，缺点是压缩比偏低。

该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。

非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点，通过为小信号分配小的量化阶，为大信号分配大的量阶来减少总量化误差。

我们最常用的G.711标准用的就是这个技术。

自适应差分编码是利用过去的语音来预测当前的语音，只对它们的差进行编码，从而大大减少了编码数据的动态范围，节省了码率。

自适应量化技术是根据量化数据的动态范围来动态调整量阶，使得量阶与量化数据相匹配。

G.726标准中应用了这两项技术，G.722标准把语音分成高低两个子带，然后在每个子带中分别应用这两项技术。

参数编码：广泛应用于军事领域。

利用语音信息产生的数学模型，提取语音信号的特征参量，并按照模型参数重构音频信号。

它只能收敛到模型约束的最好质量上，力图使重建语音信号具有尽可能高的可懂性，而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。

这种编码技术的优点是压缩比高，但重建音频信号的质量较差，自然度低，适用于窄带信道的语音通讯，如军事通讯、航空通讯等。

美国的军方标准LPC-10，就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。

MPEG-4标准中的HVXC声码器用的也是参数编码技术，当它在无声信号片段时，激励信号与在CELP时相似，都是通过一个码本索引和通过幅度信息描述；在发声信号片段时则应用了谐波综合，它是将基音和谐音的正弦振荡按照传输的基频进行综合。

音频编码及常用格式

音频编码及常用格式音频编码标准发展现状国际电信联盟（ITU）主要负责研究和制定与通信相关的标准，作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。

其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成，并广泛应用于全球的电话通信系统之中。

目前，随着Internet网络及其应用的快速发展，在2005到2008研究期内，ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。

在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器（相应于64Kb/s的比特率）。

该量化器所采用的技术在1972年由CCITT （ITU-T的前身）标准化为G.711。

在1983年，CCIT规定了32Kb/s的语音编码标准G.721，其目标是在通用电话网络上的应用（标准修正后称为G.726）。

这个编码器价格虽低但却提供了高质量的语音。

至于数字蜂窝电话的语音编码标准，在欧洲，TCH-HS是欧洲电信标准研究所（ETSI）的一部分，由他们负责制定数字蜂窝标准。

在北美，这项工作是由电信工业联盟（TIA）负责执行。

在日本，由无线系统开发和研究中心（称为RCR）组织这些标准化的工作。

此外，国际海事卫星协会（Inmarsat）是管理地球上同步通信卫星的组织，也已经制定了一系列的卫星电话应用标准。

音频编码标准发展现状音频编码标准主要由ISO的MPEG组来完成。

MPEG1是世界上第一个高保真音频数据压缩标准。

MPEG1是针对最多两声道的音频而开发的。

但随着技术的不断进步和生活水准的不断提高，有的立体声形式已经不能满足听众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。

而在三维声音技术中最具代表性的就是多声道环绕声技术。

目前有两种主要的多声道编码方案：MUSICAM环绕声和杜比AC-3。

常见的音频编码标准

常见的音频编码标准在自然界中人类能够听到的所有声音都称之为音频，它可能包括噪音、声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音乐软件处理。

把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。

而音频只是储存在计算机里的声音。

演讲和音乐，如果有计算机加上相应的音频卡，我们可以把所有的声音录制下来，声音的声学特性，音的高低都可以用计算机硬盘文件的方式储存下来。

反过来，我们也可以把储存下来的音频文件通过一定的音频程序播放，还原以前录下的声音。

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。

PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

然而，3G网络带来了移动多媒体业务的蓬勃发展，视频、音频编解码标准是多媒体应用的基础性标准，但其种类较多，有繁花渐欲迷人眼之感。

那么常见的编码技术就是我们必须知道的，下面我们介绍一下最常见的编码技术。

1.PCMPCM 脉冲编码调制是Pulse Code Modulation的缩写。

PCM编码的最大的优点就是音质好，最大的缺点就是体积大。

我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

2.W A VWA V是Microsoft Windows本身提供的音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。

实际上是Apple电脑的AIFF格式的克隆。

通常我们使用W A V格式都是用来保存一些没有压缩的音频，但实际上W A V格式的设计是非常灵活（非常复杂）的，该格式本身与任何媒体数据都不冲突，换句话说，只要有软件支持，你甚至可以在W A V格式里面存放图像。

之所以能这样，是因为W A V文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据。

在WINDOWS 平台上通过ACM（Audio Compression Manager）结构及相应的驱动程序（通常称为CODEC，编码/解码器），可以在W A V文件中存放超过20种的压缩格式，比如ADPCM、GSM、CCITT G.711、G.723等等，当然也包括MP3格式。

我国自主的CMMB音频编解码技术标准

频标准 )
，
该标准由广东省广晟资产经营有限公司属下的广州广晟
，
高质量主观音质要求
。
数码技术有限公司自主研发并经电子行业标准管理部门审核编制
而成的
。
至此
．
我国目前唯
一
完全独立自主知识产权的音频编解码
2 DRA
D RA 是
维普资讯
●
== =
^
u
我国自主的 C M M R
U
立
目l _ 卜_
频
编解码技术标准
，文／数维科技 (北京 ) 有限公司／
1 C M M B 昔频介绍
2006
视系统测试实验室对 DRA 编码算法进行了严格测试在 3 8 4 k b p s 码率
：
根据掩蔽门限和比特率进行最佳比特分配并对谱系数进行标量量
化以使量化噪声低于掩蔽门限从而实现感觉无失真编码达到
．
，
．
音频不相关信息压缩的目的
码进
，
一
．
然后对量化系数进行 h u f f m
：
a n
熵编
步去除信号中的冗余度最后将各种辅助信息和熵编码的
T SJ ／ 1 1 3 6 8 2 0 0 6
-
声音质量测试包括在日本B DA 成员专家进行的主观测试和好莱坞
片商组织的主观测试测试表明 D RA 音频编码算法都满足其严格的

音频编码标准

2013-7-16
第二章音频信息处理音频编码标准
8
ITU Recommendations
•
所采用的算法
算法 PCM μ(A) 波形编码 APCM DPCM μ(A) 自适应量化差值量化公共网 ISDN 话音名称均匀量化数据率 64kb/s 标准 G.711 应用质量
4.0～4.5
2013-7-16
第二章音频信息处理音频编码标准
10
ITU Recommendations
•
ADPCM编/解码器
A律或μ律PCM输入信号转换成均匀的PCM。差分信号等于均匀的PCM输入信号与预测信号之差。 “自适应量化器”用4位二进制数表示差分信号，但只用其中的15个数(即15个量级)来表示差分信号，这是为防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号，这样就构成了一个负反馈回路
•
G.711：话音的PCM编码建议
给出了话音信号编码的推荐特性话音的抽样率为8000Hz 每个样值采用8位二进制编码推荐使用A律和μ律量化。分别给出A律和μ律的定义，将13位PCM码按A律、14位PCM码按μ律转换8位编码
•
G.721：自适应差值脉冲编码调制
1986年作了进一步修订它用于64kbit/s的A律或μ律PCM到32kbit/s ADPCM之间的转换，实现了对PCM信道的扩容
•
International Telecommunication Union http://www.itu.int/home/
CCITT：the International Consultative Committee

acs-3 acs-4 标准

acs-3 acs-4 标准ACS-3和ACS-4是一种音频编解码器标准，用于压缩和解压缩数字音频信号。

以下是关于ACS-3和ACS-4标准的详细内容：1. ACS-3标准：ACS-3是一种高效的音频编解码器标准，旨在提供高质量的音频压缩和解压缩。

ACS-3采用了先进的音频编码算法，能够在保持音质的同时，显著减小音频文件的大小。

这使得ACS-3非常适合在带宽有限或存储空间有限的环境下使用。

2. ACS-4标准：ACS-4是ACS-3标准的升级版本，它在音频压缩和解压缩方面进一步提升了性能。

ACS-4采用了更先进的编码算法和技术，能够更好地保留音频信号的细节和动态范围。

ACS-4还提供了更高的压缩比，使得音频文件更小，便于传输和存储。

3. 主要特点：- 高音质：ACS-3和ACS-4标准都能够提供高质量的音频压缩和解压缩，使得压缩后的音频信号与原始信号几乎无差别。

- 高效压缩：ACS-3和ACS-4能够显著减小音频文件的大小，从而节省带宽和存储空间。

- 低延迟：ACS-3和ACS-4标准都具有低延迟的特点，适用于实时音频传输和处理的应用场景。

- 广泛应用：ACS-3和ACS-4广泛应用于各种音频应用领域，包括音乐、电影、通信、游戏等。

4. 应用场景：- 数字音乐传输和存储：ACS-3和ACS-4可以将音乐文件压缩为较小的大小，便于传输和存储，同时保持高音质。

- 电影和视频制作：ACS-3和ACS-4可以对电影和视频中的音频进行高效压缩，提供出色的音频效果。

- 通信和语音传输：ACS-3和ACS-4可以在低带宽网络环境下传输音频，保持音质的同时减少网络传输延迟。

- 游戏音效：ACS-3和ACS-4可以为游戏提供逼真的音效，提升游戏体验。

总之，ACS-3和ACS-4标准是一种高效的音频编解码器标准，能够在保持音质的同时，显著减小音频文件的大小。

它们广泛应用于音乐、电影、通信、游戏等领域，为用户提供出色的音频体验。

标准音频编解码

标准音频编解码64kbits/s PCM脉冲编码调制编解码是波形编解码中最简单的一种形式。

它只对语音进行采样和量化。

通常把已有的话音编译码器分成以下三种类型：波形编译码器(waveform codec)，音源编译码器(source codec)和混合编译码器(hybrid codec)。

一般来说．波形编译码器的话音质量高，但数据率也很高；音源编译码器的数据率很低、产生的合成话音的音质有待提商；混合编译码器使用音源编译码技术和波形编译码技术，数据率和音质介于它们之间。

波形编译码的想法是．不利用生成话音信号的任何知识而企图产生一种重构信号，它的波形与原始话音波形尽可能地一致。

一船来说，这种编译码器的复杂程度比较低，数据速率在16kb／s以上，质量相当高。

低于这个数据速率时，音质急剧下降。

典型的窄带语音的带宽限制在4KHz，采样频率是8KHz，然后每一个语音样本必须进行量化。

如果要获得高一点的音质，样本精度要用12位，它的数据率就等于96kb/s，这个数据率可以采用非线性量化来降低。

采用非线性量化，可以使用近似于对数的对数量化器(logarithmic quantizer)．产生的样本精度为8位．它的数据率为64kb／s时，重构的话音信号几乎与原始的话音信号没有什么差别。

这种量化器在20世纪80年代就已经标准化，而且直到今天还在广泛使用。

在北美的压扩(companding)标准是µ律(µ—law)，在欧洲的压扩标准是A 律(A—1aw)。

它的优点是编译码器简单，延迟时间短、音质高。

但不足之处是数据速率比较高，对传输通道的错误比较敏感。

µ和A均为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。

PCM的编码原理比较直观和简单，如图所示。

在这个编码框图中，它的输入是模拟声音信号，它的输出是PCM样本。

图中的“防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”’，“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。

音频标准对比

音频编解码标准PCMU(G.711U)类型：Audio制定者：ITU-T所需频宽：64Kbps(90.4)特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优缺点：占用的带宽较高应用领域：voip版税方式：Free备注：PCMU and PCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。

如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，G729需要8kbps）。

如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

PCMA(G.711A)类型：Audio制定者：ITU-T所需频宽：64Kbps(90.4)特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优缺点：占用的带宽较高应用领域：voip版税方式：Free备注：PCMU and PCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。

如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

ADPCM(自适应差分PCM)类型：Audio制定者：ITU-T所需频宽：32Kbps特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM 系统的差分特性，是一种性能比较好的波形编码。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音频编解码标准
PCMU(G.711U)
类型: Audio
制定者: ITU-T
所需频宽: 64Kbps(90.4)
特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。

优点: 语音质量优
缺点: 占用的带宽较高
应用领域: voip
版税方式: Free
备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。

如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。

如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。

PCMA(G.711A)
类型: Audio
制定者: ITU-T
所需频宽: 64Kbps(90.4)
特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。

优点: 语音质量优
缺点: 占用的带宽较高
应用领域: voip
版税方式: Free
备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。

如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。

ADPCM(自适应差分PCM)
类型: Audio
制定者: ITU-T
所需频宽: 32Kbps
特性: ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性, 是一种性能比较好的波形编码。

它的核心想法是:
①利用自适应的思想改变量化阶的大小, 即使用小的量化阶(step-size)去编码小的差值, 使用大的量化阶去编码大的差值;
②使用过去的样本值估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。

优点: 算法复杂度低, 压缩比小( CD音质>400kbps) , 编解码延时最短( 相对其它技术)
缺点: 声音质量一般
应用领域: voip
版税方式: Free
备注: ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一
种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 因此压缩比 1:4. 而压缩/解压缩算法非常的简单, 因此是一种低空间消耗,高质量声音获得的好途径。

LPC(Linear Predictive Coding, 线性预测编码)
类型: Audio
制定者:
所需频宽: 2Kbps-4.8Kbps
特性: 压缩比大, 计算量大, 音质不高, 廉价
优点: 压缩比大,廉价
缺点: 计算量大, 语音质量不是很好, 自然度较低
应用领域: voip
版税方式: Free
备注: 参数编码又称为声源编码, 是将信源信号在频率域或其它正交变换域提取特征参数, 并将其变换成数字代码进行传输。

译码为其反过程, 将收到的数字序列经变换恢复特征参量, 再根据特征参量重建语音信号。

具体说, 参数编码是经过对语音信号特征参数的提取和编码, 力图使重建语音信号具有尽可能高的准确性, 但重建信号的波形同原语音信号的波形可能会有相当大的差别。

如: 线性预测编码( LPC) 及其它各种改进型都属于参数编码。

该编码比特率可压缩到2Kbit/s- 4.8Kbit/s, 甚至更低, 但语音质量只能达到中等, 特别是自然度较低。

CELP(Code Excited Linear Prediction, 码激励线性预测编码)
类型: Audio
制定者: 欧洲通信标准协会( ETSI)
所需频宽: 4～16Kbps的速率
特性: 改进语音的质量:
① 对误差信号进行感觉加权, 利用人类听觉的掩蔽特性来提高语音的主观质量;
②用分数延迟改进基音预测, 使浊音的表示更为准确, 特别改进了女性语音的质量;
③ 使用修正的MSPE准则来寻找”最佳”的延迟, 使得基音周期延迟的外形更为平滑;
④根据长时预测的效率, 调整随机激励矢量的大小, 提高语音的主观质量; ⑤ 使用基于信道错误率估计的自适应平滑器, 在信道误码率较高的情况下也能合成自然度较高的语音。

结论:
① CELP算法在低速率编码环境下能够得到令人满意的压缩效果;
②使用快速算法, 能够有效地降低CELP算法的复杂度, 使它完全能够实时地实现;
③CELP能够成功地对各种不同类型的语音信号进行编码, 这种适应性对于真实环境, 特别是背景噪声存在时更为重要。

优点: 用很低的带宽提供了较清晰的语音
缺点:
应用领域: voip
版税方式: Free
备注: 1999年欧洲通信标准协会( ETSI) 推出了基于码激励线性预测编码( CELP) 的第三代移动通信语音编码标准自适应多速率语音编码器( AMR) , 其中最低速率为4.75kb/s, 达到通信质量。

CELP 码激励线性预测编码是Code Excited Linear Prediction的缩写。

CELP是近来最成功的语音编码算法。

CELP语音编码算法用线性预测提取声道参数, 用一个包含许多典型的激励矢量的码本作为激励参数, 每次编码时都在这个码本中搜索一个最佳的激
励矢量, 这个激励矢量的编码值就是这个序列的码本中的序号。

CELP已经被许多语音编码标准所采用, 美国联邦标准FS1016就是采用CELP的编码方法, 主要用于高质量的窄带语音保密通信。

CELP (Code-Excited Linear Prediction) 这是一个简化的LPC 算法, 以其低比特率著称(4800-9600Kbps), 具有很清晰的语音品质和很高的背景噪音免疫性。

CELP是一种在中低速率上广泛使用的语音压缩编码方案。

G.711
类型: Audio
制定者: ITU-T
所需频宽: 64Kbps
特性: 算法复杂度小, 音质一般
优点: 算法复杂度低, 压缩比小( CD音质>400kbps) , 编解码延时最短( 相对其它技术)
缺点: 占用的带宽较高
应用领域: voip
版税方式: Free
备注: 70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。

G.721
类型: Audio
制定者: ITU-T
所需频宽: 32Kbps
特性: 相对于PCMA和PCMU, 其压缩比较高, 能够提供2: 1的压缩比。

优点: 压缩比大
缺点: 声音质量一般
应用领域: voip
版税方式: Free
备注: 子带ADPCM( SB-ADPCM) 技术。

G.721标准是一个代码转换系统。

它使用ADPCM转换技术, 实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。

G.722
类型: Audio
制定者: ITU-T
所需频宽: 64Kbps
特性: G722能提供高保真的语音质量
优点: 音质好
缺点: 带宽要求高
应用领域: voip
版税方式: Free
备注: 子带ADPCM( SB-ADPCM) 技术
G.723(低码率语音编码算法)
类型: Audio
制定者: ITU-T
所需频宽: 5.3Kbps/6.3Kbps
特性: 语音质量接近良, 带宽要求低, 高效实现, 便于多路扩展, 可利用C5402片内16kRAM实现53coder。

达到ITU-TG723要求的语音质量, 性能稳定。

可用于IP电话语音信源编码或高效语音压缩存储。