aac编码介绍

音频编码流程：

硬件采集→PCM编码[原始量化点|样值] →分帧[960|1024][生成原始帧raw frame|原始数据块] →封装[ADTS|LATM(较主流)] 待续

Ps:原始数据块以帧的形式存在，故又称为原始帧。

AAC:最初为MPEG-2音频编码标准，后来经过优化又被加入到MPEG-4音频标准之中；相对于mp3,wmv,mp2,ac3，等在相同播放质量码率更低，有效地节约了传输带宽，在移动广播领域，互联网流媒体，IPTV中有着很广泛的应用。

其最常见的封装格式为：ADTS AND LATM这是广播电视、通信领域常用的封装格式。RTP 协议采用的AAC封装格式是LATM格式，这里ADTS LATM间的转换尤为重要，

AAC格式压缩编码标准：

AAC编码规格：

LC-AAC：地复杂度编码

HE-ACC：高效率编码，这里引入了SBR[频段复制技术]技术，又称为AAC+技术HE-AAC-V2：在AAC+的基础之上又引入了PS[参数化立体声]技术

封装格式：

ADTS格式：short for ：audio data transform stream

对前述原始帧进行ADTS封装就形成ADTS帧，

ADTS帧：帧头+帧净荷组成，帧头存储了音频的相关参数信息：采样率，声道数，帧长度等关键信息[用帧净荷数据的解析解码]。帧净荷主要有原始帧组成[960|1024个样值]。可包含1~4个原始帧。

LATM格式：Low overhead MPEG-4 audio transport Multiplex.[低开销因音频传输复用] LATM也以帧为单位，组成为：AudioSpecificConfig+音频负载组成。AudioSpecificConfig描述了一个LATM帧的信息，音频负载主要由PayloadLengthInfo及音频负载组成[多组]。AudioSpecificConfig可以是带内传输也可以带外传输，AudioSpecificConfig一般不变，所以只需发送一次，由此可见AudioSpecificConfig采用带内传输可以适应编码信息不断变化的情况，而采用带外传输，可以节省音频传输码率，带内和带外由muxConfigPresent标志决定[0:带外|1:带内]。例如流媒体中可设置muxConfigPresent 为0，这样LATM帧将不含哟AudioSpecificConfig部分，LATM通过RTP包发送,而

AudioSpecificConfig通过SDP发送一次[针对编码信息不变的情况]就行。AudioSpecificConfig 主要参数如下:

LATM帧组成：AudioSpecificConfig+音频负载

其中音频负载主要由若干子帧组成，每个子帧组成：

PayloadLengthInfo+PayloadMux[净荷]

PayloadMux可以复用多个节目的音频流

由于每个原始帧没有起始信息，需要PayloadLengthInfo来描述

***ADTS与LATM帧的转换

这两种格式之间的转换是十分重要的。

ADTS转换为LATM举例：

1 读取ADTS帧头信息，获得采样率，声道配置，aac算法方面的参数，帧长信息等

2 提取原始帧并保存

3 按照提取的ADTS头参照AAC标准，生成对应的LATM头,即：AudioSpecificConfig头根据原始帧长度信息生成PayloadLengthInfo信息，再由PayloadLengthInfo信息与原始帧数据生成LATM音频负载，再与AudioSpecificConfig联合生成LATM帧。

Add： CMMB目前是唯一被国家广电总局颁布为行业标准的自主知识产权移动多媒体广播标准。

一、什么是CMMB？

CMMB是英文China Mobile Multimedia Broadcasting （中国移动多媒体广播）的简称。它是国内自主研发的第一套面向手机、PDA、MP3、MP4、数码相机、笔记本电脑多种移动终端的系统，利用S波段卫星信号实现“天地”一体覆盖、全国漫游，支持25套电视节目和30套广播节目，2006年10月24日，国家广电总局正式颁布了中国移动多媒体广播(俗称手机电视)行业标准，确定采用我国自主研发的移动多媒体广播行业标准。

中国移动多媒体广播系统(简称CMMB)行业标准，规定了在广播业务频率范围内，移动多媒体广播系统广播信道传输信号的帧结构、信道编码和调制，该标准适用于30MHz到3000MHz频率范围内的广播业务频率，通过卫星和/或地面无线发射电视、广播、数据信息等多媒体信号的广播系统，可以实现全国漫游，传输技术采用STiMi技术。

7种常见的音频格式简析

7种常见的音频格式简析（MP3，WMA，WAV，APE，FLAC，OGG，AAC） MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer Ⅲ），是当今最为流行的一种数字音频编码和有损压缩格式，在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量，而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。简单地说，MP3就是一种音频压缩技术，由于这种压缩方式的全称叫MPEG Audio Layer3，所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术，将音乐以1:10 甚至1:12 的压缩率，压缩成容量较小的文件。换句话说，能够在音质丢失很小的情况下把文件压缩到更小的程度，而且还可以较好的保持了原来的音质。另外，正是因为MP3体积小，音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小，这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩（解码），这样，高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式，它丢弃掉脉冲编码调制（PCM）音频数据中对人类听觉不重要的数据（类似于JPEG是一个有损图像压缩），从而达到了小得多的文件大小（其在较大的压缩率以及基本保持低音频部分不失真的情况下，以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件）。 MP3音频可以按照不同的位速进行压缩，提供了在数据大小和声音质量之间进行权衡的一个范围。另外，MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如，我们平时在网上见到的一些低质的MP3有64kbps，但好的也有320kbps的，两者声音差距也相当明显。 WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名，一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密，未经许可（即未获得许可证书），即使是非法拷贝到本地，也是无法收听的。同时，微软公司开始时宣称的：同文件比MP3体积小一倍而音质不变，也得到了兑现。事实上，这个说法，仅仅适用于低比特率的情况，另外，微软公司在WMA 9大幅改进了其引擎，实际上几乎可以在同文件同音质下比MP3体积少1/3左右，因此非常适合用于网络串流媒体及行

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。二、W A VE 这是一种古老的音频文件格式，由微软开发。W A V是一种文件格式，符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头，这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念，我们拿A VI做个示范，因为A VI和WAV在文件结构上是非常相似的，不过A VI多了一个视频流而已。我们接触到的A VI 有很多种，因此我们经常需要安装一些Decode才能观看一些A VI，我们接触到比较多的DivX 就是一种视频编码，A VI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，W AV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的W A V，但这不表示W A V只能使用PCM编码，MP3编码同样也可以运用在W A V中，和A VI一样，只要安装好了相应的Decode，就可以欣赏这些W A V了。在Windows平台下，基于PCM编码的W A V是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，W A V也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的W A V被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。三、MP3编码 MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG（MPEG：Moving Picture Experts Group）Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。 VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪

AAC解码算法原理详解

AAC解码算法原理详解原作者：龙帅 (loppp138@https://www.360docs.net/doc/0316888890.html,) 此文章为便携式多媒体技术中心提供，未经站长授权，严禁转载，但欢迎链接到此地址。本文详细介绍了符合ISO/IEC 13818-7(MPEG2 AAC audio codec) , ISO/IEC 14496-3(MPEG4 Audio Codec AAC Low Complexity)进行压缩的的AAC音频的解码算法。 1、程序系统结构下面是AAC解码流程图： AAC解码流程图在主控模块开始运行后，主控模块将AAC比特流的一部分放入输入缓冲区，通过查找同步字得到一帧的起始，找到后，根据ISO/IEC 13818-7所述的语法开始进行Noisless Decoding(无噪解码)，无噪解码实际上就是哈夫曼解码，通过反量化(Dequantize)、联合立体声（Joint Stereo），知觉噪声替换（PNS）,瞬时噪声整形（TNS），反离散余弦变换（IMDCT），频段复制（SBR）这几个模块之后，得出左右声道的PCM码流，再由主控模块将其放入输出缓冲区输出到声音播放设备。

2. 主控模块主控模块的主要任务是操作输入输出缓冲区，调用其它各模块协同工作。其中，输入输出缓冲区均由DSP控制模块提供接口。输出缓冲区中将存放的数据为解码出来的PCM数据，代表了声音的振幅。它由一块固定长度的缓冲区构成，通过调用DSP控制模块的接口函数，得到头指针，在完成输出缓冲区的填充后，调用中断处理输出至I2S接口所连接的音频ADC芯片（立体声音频DAC和DirectDrive 耳机放大器）输出模拟声音。 3. 同步及元素解码同步及元素解码模块主要用于找出格式信息，并进行头信息解码，以及对元素信息进行解码。这些解码的结果用于后续的无噪解码和尺度因子解码模块。 AAC的音频文件格式有以下两种： ADIF：Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始，不需进行在音频数据流中间开始的解码，即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。 ADTS：Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。 AAC的ADIF格式见下图： 3.1 ADIF的组织结构 AAC的ADTS的一般格式见下图： 3.2 ADTS的组织结构图中表示出了ADTS一帧的简明结构，其两边的空白矩形表示一帧前后的数据。ADIF和ADTS的header是不同的。它们分别如下所示：

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称，是当今比较流行的一种数字音频编码和有损压缩格式（有Layer 3，也必然有Layer1和Layer2，也就是MP1和MP2，但不在本文讨论范围之内）。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制（PCM）音频数据中对人类听觉不重要得数据，从而达到了较高的压缩比（高达12：1－10：1）。简单地说，MP3在编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成有较高压缩比的MP3文件，并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency，以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1，48和32 kHz三种频率，比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME，它完全遵循LGPL的MP3编码器，有着良好的速度和音质。一．概述： MP3 文件是由帧(frame)构成的，帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频文件，MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG 音频文件是MPEG1 标准中的声音部分，也叫MPEG 音频层，它根据压缩质量和编码复杂程度划分为三层，即 Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3 这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG 音频编码的层次越高，编码器越复杂，压缩率也越高，MP1 和MP2 的压缩率分别为4：1 和 6：1-8：1，而MP3 的压缩率则高达10：1-12：1，也就是说，一分钟CD 音质的音乐，未经压缩需要10MB 的存储空间，而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3 文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。二．整个MP3文件结构： MP3 文件大体分为三部分：TAG_V2(ID3V2)，Frame, TAG_V1(ID3V1) ID3V2 包含了作者，作曲，专辑等信息，长度不固定，扩展了ID3V1 的信息量。 Frame 一系列的帧，个数由文件大小和帧长决定

什么是AAC格式

AAC(Advanced Audio Coding)，中文称为高级音频编码，出现于1997年，基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony(索尼)等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC 重新集成了其特性，加入了SBR 技术和PS技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。 Advanced Audio Coding。一种专为声音数据设计的文件压缩格式，与Mp3不同，它采用了全新的算法进行编码，更加高效，具有更高的性价比。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。AAC格式可以用苹果iTunes转换或千千静听(六组件) 苹果ipod、诺基亚手机和Sony随身听也支持AAC格式的音频文件。优点：相对于mp3等有损格式，AAC格式的音质更佳，文件更小。不足：AAC属于有损压缩的格式，与时下流行的APE、FLAC等无损格式相比音质存在本质上的差距。加之，目前传输速度更快的USB3.0和16G以上大容量MP3正在加速普及，也使得AAC头上小巧的光环不复存在了。前景：以发展的眼光来看，正如高清正在被越来越多的人所接受一样，无损必定是未来音乐格式的绝对主流。AAC这种有损格式的前景不容乐观。从MP3到AAC 早在1987年，Fraunhofer IIS就开始了EUREKA project EU147，Digital Audio Broadcasting (DAB)的研发，而这就是MP3的前身。通过和Dieter Seitzer教授的合作，他们开发出了著名的ISO-MPEG Audio Layer-3压缩算法。1993年这个算法被整合到MPEG-1标准中，从此MP3被投入使用。1996年底Fraunhofer IIS在美国获得MP3的专利，并在1998年对外声明将收取MP 3的专利使用费。而从1999年初开始，MP3格式广泛流行起来。特别是出现了很多免费提供MP3的音乐网站，MP3随身听也像洪水般涌进市场，种种因素促使MP3成为了极其主流的音频格式。尽管之后有VQF、WMA等挑战者，但MP3牢固的根基使它至今仍稳稳地坐在老大的位置上。但是音频格式就像电脑软硬件一样，终归要更新换代的，像磁带不是被CD淘汰了吗?而CD也将要被DVD-Audio所代替。随着时间的推移，MP3越来越不能满足我们的需要了，比如压缩率落后于Ogg、WMA、VQF等格式，音质也不够理想(尤其是低码率下)，仅有两个声道于是Fraunhofer IIS与AT&T、索尼、杜比、诺基亚等公司展开合作，共同开发出了被誉为21世纪的数据压缩方式的Advanced Audio Coding(简称AAC)音频格式，以取代MP3的位置。其实AAC的算法在1997年就完成了，当时被称为MPEG-2 AAC，因为还是把它作为MPEG-2(MP2)标准的延伸。但是随着MPEG-4(MP4)音频标准在2000年成型，MPEG-2 AAC也被作为它的编码技术核心，同时追加了一些新的编码特性，所以我们又叫MPEG-4 AAC(M4A)。

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

aac编码介绍

音频编码流程：硬件采集→PCM编码[原始量化点|样值] →分帧[960|1024][生成原始帧raw frame|原始数据块] →封装[ADTS|LATM(较主流)] 待续 Ps:原始数据块以帧的形式存在，故又称为原始帧。 AAC:最初为MPEG-2音频编码标准，后来经过优化又被加入到MPEG-4音频标准之中；相对于mp3,wmv,mp2,ac3，等在相同播放质量码率更低，有效地节约了传输带宽，在移动广播领域，互联网流媒体，IPTV中有着很广泛的应用。其最常见的封装格式为：ADTS AND LATM这是广播电视、通信领域常用的封装格式。RTP 协议采用的AAC封装格式是LATM格式，这里ADTS LATM间的转换尤为重要， AAC格式压缩编码标准： AAC编码规格： LC-AAC：地复杂度编码 HE-ACC：高效率编码，这里引入了SBR[频段复制技术]技术，又称为AAC+技术HE-AAC-V2：在AAC+的基础之上又引入了PS[参数化立体声]技术封装格式： ADTS格式：short for ：audio data transform stream 对前述原始帧进行ADTS封装就形成ADTS帧， ADTS帧：帧头+帧净荷组成，帧头存储了音频的相关参数信息：采样率，声道数，帧长度等关键信息[用帧净荷数据的解析解码]。帧净荷主要有原始帧组成[960|1024个样值]。可包含1~4个原始帧。 LATM格式：Low overhead MPEG-4 audio transport Multiplex.[低开销因音频传输复用] LATM也以帧为单位，组成为：AudioSpecificConfig+音频负载组成。AudioSpecificConfig描述了一个LATM帧的信息，音频负载主要由PayloadLengthInfo及音频负载组成[多组]。AudioSpecificConfig可以是带内传输也可以带外传输，AudioSpecificConfig一般不变，所以只需发送一次，由此可见AudioSpecificConfig采用带内传输可以适应编码信息不断变化的情况，而采用带外传输，可以节省音频传输码率，带内和带外由muxConfigPresent标志决定[0:带外|1:带内]。例如流媒体中可设置muxConfigPresent 为0，这样LATM帧将不含哟AudioSpecificConfig部分，LATM通过RTP包发送,而

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.360docs.net/doc/0316888890.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.360docs.net/doc/0316888890.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

音频编码及常用格式

音频编码及常用格式音频编码标准发展现状国际电信联盟（ITU）主要负责研究和制定与通信相关的标准，作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成，并广泛应用于全球的电话通信系统之中。目前，随着Internet网络及其应用的快速发展，在2005到2008研究期内，ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器（相应于64Kb/s的比特率）。该量化器所采用的技术在1972年由CCITT （ITU-T的前身）标准化为G.711。在1983年，CCIT规定了32Kb/s的语音编码标准G.721，其目标是在通用电话网络上的应用（标准修正后称为G.726）。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准，在欧洲，TCH-HS是欧洲电信标准研究所（ETSI）的一部分，由他们负责制定数字蜂窝标准。在北美，这项工作是由电信工业联盟（TIA）负责执行。在日本，由无线系统开发和研究中心（称为RCR）组织这些标准化的工作。此外，国际海事卫星协会（Inmarsat）是管理地球上同步通信卫星的组织，也已经制定了一系列的卫星电话应用标准。音频编码标准发展现状音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高，有的立体声形式已经不能满足听众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案：MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案，它是MPEG2音频编码的核心，是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法，一种称为MPEG2后向兼容多声道音频编码标准，简称MPEG2BC；另一种是称为高级音频编码标准，简称MPEG2AAC，因为它与MPEG1不兼容，也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用，它具有高度的灵活性和可扩展性。与以前的音频标准相比，MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起，并在诸多领域内给予高度的灵活性。

各种音频编码方式的对比

各种音频编码方式的对比内容简介：文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等，包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型：Audio 制定者：ITU-T 所需频宽： Kbps 特性：音源信息完整，但冗余度过大优点：音源信息保存完整,音质好缺点：信息量大，体积大，冗余度过大应用领域：voip 版税方式：Free 备注：在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型：Audio 制定者：微软公司所需频宽：320～112kbps（压缩10～12倍）

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k 是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。缺点：当Bitrate大于128K时，WMA音质损失过大。WMA标准不开放，由微软掌握。应用领域：voip 版税方式：按个收取备注：WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质，再加上WMA有微软的Windows Media Player做其强大的后盾，所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型：Audio 制定者：ITU-T 所需频宽：32Kbps 特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是： ①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值； ②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）缺点：声音质量一般应用领域：voip

音频基础知识及编码原理

1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的

各种音频编码格式对比

WAVE: 是微软公司开发的一种声音文件格式，它符合Resource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。WAVE 文件作为最经典的Windows 多媒体音频格式，应用非常广泛，它使用三个参数来表示声音：采样位数、采样频率和声道数。声道有单声道和立体声之分，采样频率一般有11025Hz（11kHz）、22050Hz（22kHz）和44100Hz（44kHz）三种。 “*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。 WAV音频格式的优点包括：简单的编/解码(几乎直接存储来自模/数转换器(ADC)的信号)、普遍的认同/支持以及无损耗存储。WAV格式的主要缺点是需要音频存储空间。对于小的存储限制或小带宽应用而言，这可能是一个重要的问题。WAV格式的另外一个潜在缺陷是在32位WAV文件中的2G限制，这种限制已在为SoundForge开发的W64格式中得到了改善。 MP3： MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用＊.mp3格式来储存，一般只有＊.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。文件尺寸小，音质好；MP3没有版权保护技术。 MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。格式特点： 1.MP3是一个数据压缩格式。 2.它丢弃掉脉冲编码调制音频数据中对人类听觉不重要的数据，从而达到了小得多的文件大小。 3.MP3音频可以按照不同的位速进行压缩，提供了在数据大小和声音质量之间进行权衡的一个范围。MP3格式使用了混合的转换机制将时域信号转换成频域信号。 4.32波段多相积分滤波器（PQF）。 5.36或者12 tap 改良离散余弦滤波器（MDCT）；每个子波段大小可以在0...1和2 (31) 之间独立选择。 6.MP3不仅有广泛的用户端软件支持，也有很多的硬件支持比如便携式媒体播放器（指MP3播放器）DVD和CD播放器。 MIDI： MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。＊.mid 文件重放的效果完全依赖声卡的档次。＊.mid格式的最大用处是在电脑作曲领域。＊.mid 文

音频视频文件格式中文名称

中文名称：音频---视频文件格式版本：原创发行时间：2007年地区：大陆语言：普通话简介：音频---视频文件格式一、影音文件 ●AVI格式：它的英文全称为Audio Video Interleaved，即音频视频交错格式。它于1992年被Microsoft公司推出，随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”，就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好，可以跨多个平台使用，其缺点是体积过于庞大，而且更加糟糕的是压缩标准不统一，最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频，而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频，所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放，但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题，如果用户在进行AVI格式的视频播放时遇到了这些问题，可以通过下载相应的解码器来解决。 ●nAVI格式：newAVI的缩写，是一个名为ShadowRealm的地下组织发展起来的一种新视频格式(与我们上面所说的AVI格式没有太大联系)。它是由Microsoft ASF压缩算法的修改而来的，但是又与下面介绍的网络影像视频中的ASF视频格式有所区别，它以牺牲原有ASF 视频文件视频“流”特性为代价而通过增加帧率来大幅提高ASF视频文件的清晰度。 ●DV-AVI格式：其英文是Digital Video Format，是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi，所以也叫DV-AVI格式。 ●MPEG格式：其全称为Moving Picture Expert Group，即运动图像专家组格式，家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准，它采用了有损压缩方法减少运动图像中的冗余信息，说的更加明白一点就是MPEG的压缩方法依据是相邻两幅画面绝大多数是相同的，把后续图像中和前面图像有冗余的部分去除，从而达到压缩的目的(其最大压缩比可达到200:1)。目前MPEG格式有三个压缩标准，分别是MPEG－1、MPEG－2、和MPEG－4，另外，MPEG-7与MPEG-21仍处在研发阶段。MPEG－1：制定于1992年，它是针对1.5Mbps以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准。也就是我们通常所见到的VCD制作格式。经过MPEG-1标准压缩后，视频数据压缩率为1/100-1／200，音频压缩率为1／6.5。MPEG-1提供每秒30帧352*240分辨率的图像，当使用合适的压缩技术时，具有接近家用视频制式（VHS）录像带的质量。MPEG-1允许超过70分钟的高质量的视频和音频存储在一张CD-ROM盘上。VCD采用的就是MPEG-1的标准，该标准是一个面向家庭电视质量级的视频、音频压缩标准。其文件扩展名包括.mpg、.mlv、.mpe、.mpeg及VCD光盘中的.dat文件等 MPEG－2：制定于1994年，设计目标为高级工业标准的图像质量以及更高的传输率。其文件扩展名包括.mpg、.mpe、.mpeg、.m2v及DVD光盘上的.vob文件等。MPEG-2主要针对高清晰度电视（HDTV）的需要，传输速率为10Mbps，与MPEG-1兼容，适用于1.5-60Mbps 甚至更高的编码范围。MPEG-2有每秒30帧704*480的分辨率，是MPEG-1播放速度的四倍。它适用于高要求的广播和娱乐应用程序，如DSS卫星广播和DVD，MPEG-2是家用视频制式（VHS）录像带分辨率的两倍。

aac

adts_sequnce() { while(nextbits==syncword) { adts_frame() } } //一般的syncword总是存在，则激活adts_frame() adts_frame() { adts_fixed_header(); adts_variable_header(); adts_error_check(); for(i=0;i

种音频格式介绍及音质压缩比的比较

目录前言 (1) 1. 数码音乐简介 (2) 2. WMV格式 (4) 3. MP3格式 (4) 4. WMA格式 (5) 5. Mp3Pro格式 (5) 6. MOD格式 (6) 7. RA系列 (6) 8. MD格式 (7) 9. ASF格式 (7) 10. AAC格式 (7) 11. VQF格式 (8) 12. MID格式 (8) 13. OGG格式 (9) 14. M4A格式 (9) 15. AAC+格式 (10) 16. AIFF与AU格式 (10) 17. CD格式 (11) 18. WAV格式 (11) 19. FLAC格式 (12) 20. APE格式 (13) 21. 压缩比比较： (13) 22. 音质比较： (14) 前言

在日常生活中，我们会听各种音乐，而这些音乐大多数都是以数码的形式传播的，无论是在电脑上试听或下载还是在MP3或CD机上试听。当然也会经常看到各式各类的诸如MP3、WMV、APE等格式，但你是否明白这些格式的意思呢？下面小编就为你整理了一些这方面的内容，希望能有帮助。 1.数码音乐简介数字音源，也就是数字音频格式，最早指的是CD，CD经过压缩之后，又衍生出多种适于在随身听上播放的格式，这些压缩过的格式，我们可以分为两大类：有损压缩的和无损压缩的。这里所说的压缩，是指把PCM编码的或者是WAV格式的音频流经过特殊的压缩处理，转换成其他格式，从而达到减小文件体积的效果。有损／无损，是指经过压缩过后，新文件所保留的声音信号相对于原来的PCM/WAV 格式的信号是否有所削减。 PCM编码是Pulse Code Modulation的缩写，又叫脉冲编码调制，它是数字通信的编码方式之一，其编码主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。数码音频信号的最终形式仍然是“0/1”构成的。它们可能是任何排列和组合，比如“0001110101”或者“11100001010”。当然，组合不同，其效果当然就不一样。看到这里，应该有朋友注意到了。如果声音是用“00101010”这样的形式来记录，那最终形态岂不就是一个“点”，也就是一个简单的“开关”过程而已。声音是连续不断的，怎么能用“点”来记录呢？这样我们听到的声音不就应该是一段一段的吗？道理不难理解。回家打开日光灯，你能发现日光灯在闪吗？不能？其实日光灯的确是在不停闪烁的。看过动画片吧，那些都是用一格一格的静止的图画连接成的。一格一格的图画我们也可以简单的理解为一个一个的“点”。人对自然界的感觉是有极限的，视觉和听觉都是如此。动画片能产生连贯的动作是因为这些“点”在人的视觉未能及时做出反映的情况下让人产生的一种错觉，除了机器，人是无法把这些“点”区分开的。声音也是如此。如果声音闪动的频率很快，人也是