各种音频编码方式的对比

各种音频编码方式的对比
各种音频编码方式的对比

内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。

PCM编码(原始数字音频信号流)

类型:Audio

制定者:ITU-T

所需频宽: Kbps

特性:音源信息完整,但冗余度过大

优点:音源信息保存完整,音质好

缺点:信息量大,体积大,冗余度过大

应用领域:voip

版税方式:Free

备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。

WMA(Windows Media Audio)

类型:Audio

制定者:微软公司

所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k

是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。

优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。

缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。

应用领域:voip

版税方式:按个收取

备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。

ADPCM( 自适应差分PCM)

类型:Audio

制定者:ITU-T

所需频宽:32Kbps

特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。

它的核心想法是:

①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;

②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。

优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)

缺点:声音质量一般

应用领域:voip

版税方式:Free

备注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比1:4而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。

LPC(Linear Predictive Coding,线性预测编码)

类型:Audio

制定者:

所需频宽:

特性:压缩比大,计算量大,音质不高,廉价

优点:压缩比大,廉价

缺点:计算量大,语音质量不是很好,自然度较低

应用领域:voip

版税方式:Free

备注:参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号的波形同原语音信号的波形可能会有相当大的差别。如:线性预测编码(LPC)及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。

CELP(Code Excited Linear Prediction码激励线性预测编码)

类型:Audio

制定者:欧洲通信标准协会(ETSI)

所需频宽:4~16Kbps的速率

特性:改善语音的质量:

①对误差信号进行感觉加权,利用人类听觉的掩蔽特性来提高语音的主观质量;

②用分数延迟改进基音预测,使浊音的表达更为准确,尤其改善了女性语音的质量;

③使用修正的MSPE准则来寻找“最佳”的延迟,使得基音周期延迟的外形更为平滑;

④根据长时预测的效率,调整随机激励矢量的大小,提高语音的主观质量;

⑤使用基于信道错误率估计的自适应平滑器,在信道误码率较高的情况下也能合成自然度较高的语音。结论:

① CELP算法在低速率编码环境下可以得到令人满意的压缩效果;

②使用快速算法,可以有效地降低CELP算法的复杂度,使它完全可以实时地实现;

③CELP可以成功地对各种不同类型的语音信号进行编码,这种适应性对于真实环境,尤其是背景噪声存在时更为重要。

优点:用很低的带宽提供了较清晰的语音

缺点:-

应用领域:voip

版税方式:Free

备注:1999年欧洲通信标准协会(ETSI)推出了基于码激励线性预测编码(CELP)的第三代移动通信语音编码标准自适应多速率语音编码器(AMR),其中最低速率为s,达到通信质量。CELP码激励线性预测编码是Code Excited Linear Prediction的缩写。CELP是近10年来最成功的语音编码算法。CELP语音编码算法用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。CELP已经被许多语音编码标准所采用,美国联邦标准FS1016就是采用CELP的编码方法,主要用于高质量的窄带语音保密通信。CELP(Code-Excited Linear Prediction) 这是一个简化的 LPC 算法,以其低比特率著称(4800-9600Kbps),具有很清晰的语音品质和很高的背景噪音免疫性。CELP是一种在中低速率上广泛使用的语音压缩编码方案。

MPEG-1 audio layer 1

类型:Audio

制定者:MPEG

所需频宽:384kbps(压缩4倍)

特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)

缺点:频宽要求较高

应用领域:voip

版税方式:Free

备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:

--层1(Layer 1):编码简单,用于数字盒式录音磁带

--层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等

--层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)

类型:Audio

制定者:MPEG

所需频宽:256~192kbps(压缩6~8倍)

特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)

缺点:

应用领域:voip

版税方式:Free

备注:同MPEG-1 audio layer 1

MP3(MPEG-1 audio layer 3)

类型:Audio

制定者:MPEG

所需频宽:128~112kbps(压缩10~12倍)

特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM 和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。优点:压缩比高,适合用于互联网上的传播

缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失

应用领域:voip

版税方式:Free

备注:同MPEG-1 audio layer 1

MPEG-2 audio layer

类型:Audio

制定者:MPEG

所需频宽:与MPEG-1层1,层2,层3相同

特性:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1、层2和层3的结构也相同,但它能支持声道和声道的环绕立体声。

优点:支持声道和声道的环绕立体声

缺点:-

应用领域:voip

版税方式:按个收取

备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1、层2和层3的结构也相同,但它能支持声道和声道的环绕立体声。

AAC(Advanced Audio Coding ,先进音频编码)

类型:Audio

制定者:MPEG

所需频宽:96-128 kbps

特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48个主要音频通道,16 个低频增强通道,16 个集成数据流, 16 个配音,16 种编排。

优点:支持多种音频声道组合,提供优质的音质

缺点:-

应用领域:voip

版税方式:一次性收费

备注:AAC于1997年形成国际标准ISO 13818-7。先进音频编码(Advanced Audio Coding--AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。

在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。

HR

类型:Audio

制定者:飞利浦

所需频宽:8Kbps

特性:以增加GSM网络容量为目的,但是会损害语音质量;由于现在网络频率紧缺,一些大的运营商已经在大城市密集地带开通此方式以增加容量。

优点:系统容量大

缺点:语音质量差

应用领域:GSM

版税方式:按个收费

备注:HR半速率,是一种GSM语音编码方式。

FR

类型:Audio

制定者:飞利浦

所需频宽:13Kbps

特性:是一般的GSM手机的通信编码方式,可以获得达到左右Qos的语音通信质量(国际电联规定语音通信质量Qos满分为5)

优点:语音质量得到了提高

缺点:系统容量降低

应用领域:GSM

版税方式:按个收费

备注:FR全速率,是一种GSM语音编码方式

EFR

类型:Audio

制定者:飞利浦

所需频宽:13Kbps

特性:用于GSM手机基于全速率13Kbps的语音编码和发送,可以获得更好更清晰的语音质量(接近需要网络服务商开通此项网络功能,手机才能配合实现。

优点:音质好

缺点:需要网络服务商开通此项网络功能,且系统容量降低

应用领域:GSM

版税方式:按个收费

备注:EFR增强型全速率,一种GSM网络语音的编码方式。

GSM-AMR(Adaptive Multi-Rate)

类型:Audio

制定者:飞利浦

所需频宽:8Kbps Kbps~ Kbps)

特性:可以对语音进行替换和消音,平滑噪音,支持间断式传输,对语音进行动态侦查。能在各种网络条件下提供优质的语音效果。

优点:音质出色

缺点:-

应用领域:GSM

版税方式:按个收费

备注:GSM-ASM是一种广泛使用在GPRS和W-CDMA网络上的音频标准。在规范ETSI 中对GSM-AMR进行了定义。AMR语音编码是GSM2+和WCDMA的默认编码标准,是第三代无线通讯系统的语音编码标准。GSM-AMR 标准基于ACELP(代数激励线性预测)编码。它能在广泛的传输条件下提供高品质的语音效果。

EVRC(Enhanced Variable Rate Coder,增强型可变速率编码器)

类型:Audio

制定者:美国Qualcomm通信公司(即高通)

所需频宽:8Kbps或13Kbps

特性:支持三种码率( Kbps, Kbps 和 Kbps),噪声抑制,邮件过滤。能在各种网络条件下提供优质的语音效果。

优点:音质出色

缺点:-

应用领域:CDMA

版税方式:按个收费

备注:EVRC编码广泛使用于CDMA网络。EVRC标准遵循规范TIA IS-127的内容。EVRC编码基于RCELP (松弛码激励线性预测)标准。该编码可以以Rate 1(171bits/packet),Rate1/2(80bits/packet)或是Rate1/8(16bits/packet)的容量进行操作。在要求下,它也能产生空包(0bits/packet)。

QCELP(QualComm Code Excited Linear Predictive,受激线性预测编码)

类型:Audio

制定者:美国Qualcomm通信公司(即高通)

所需频宽:8k的语音编码算法(可工作于4/8/等固定速率上,而且可变速率地工作于800Kbps~9600Kbps 之间)

特性:使用适当的门限值来决定所需速率。QCELP是一种8k的语音编码算法(可以在8k的速率下提供接近13k的话音压缩质量)。这是一种可变速率话音编码,根据人的说话特性(大家应该能够体会我们日常的沟通和交流时并不是一直保持某种恒定的方式讲话,有间断、有不同的声音频率等都是人的自然表达)而采取的一种优化技术。

优点:话音清晰、背景噪声小,系统容量大

缺点:不是Free

应用领域:CDMA

版税方式:每年支付一笔使用权费用

备注:QCELP,即Qualcomm Code Excited Linear Predictive(Qualcomm受激线性预测编码)。美国Qualcomm通信公司的专利语音编码算法,是北美第二代数字移动电话(CDMA)的语音编码标准(IS95)。这种算法不仅可工作于4/8//s等固定速率上,而且可变速率地工作于800bit/s~9600bit/s之间。QCELP算法被认为是到目前为止效率最高的一种算法,它的主要特点之一,是使用适当的门限值来决定所需速率。门限值随背景噪声电平变化而变化,这样就抑制了背景噪声,使得即使在喧闹的环境中,也能得到良好的话音质量,CDMA8Kbit/s的话音近似GSM 13Mbit/s的话音。CDMA采用QCELP编码等一系列技术,具有话音清晰、背景噪声小等优势,其性能明显优于其他无线移动通信系统,语音质量可以与有线电话媲美。无线辐射低。

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 二、W A VE 这是一种古老的音频文件格式,由微软开发。W A V是一种文件格式,符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头,这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念,我们拿A VI做个示范,因为A VI和WAV在文件结构上是非常相似的,不过A VI多了一个视频流而已。我们接触到的A VI 有很多种,因此我们经常需要安装一些Decode才能观看一些A VI,我们接触到比较多的DivX 就是一种视频编码,A VI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,W AV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的W A V,但这不表示W A V只能使用PCM编码,MP3编码同样也可以运用在W A V中,和A VI一样,只要安装好了相应的Decode,就可以欣赏这些W A V了。 在Windows平台下,基于PCM编码的W A V是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,W A V也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的W A V被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。 三、MP3编码 MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group)Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。 VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪

7种常见的音频格式简析

7种常见的音频格式简析 (MP3,WMA,WAV,APE,FLAC,OGG,AAC) MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。 简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件)。 MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。 WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名,一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络串流媒体及行

常见的视频编码详解

常见的视频编码详解 A VI所采用的压缩算法并无统一的标准。也就是说,同样是以A VI为后缀的视频文件,其采用的压缩算法可能不同,需要相应的解压软件才能识别和回放该A VI文件。除了Microsoft 公司之外,其他公司也推出了自己的压缩算法,只要把该算法的驱动(Codec)加到Windows 系统中,就可以播放用该算法压缩的A VI文件。最新流行的MPEG-4视频也借用A VI的名称,只要机器安装了它的编码解码,也能够实现正常的播放。这些A VI都能够在用Authorware 或PowerPiont开发的作品当中正常放映。各种编码Codec所生成的A VI文件的大小和质量是不同的,对系统和硬件要求也不同。 因此在压缩A VI时,必须根据计算机的软硬件情况,来考虑采用什么Codec算法,否则你的作品中视频放映是难以令人满意的。下面就是对各种常见编码解码Codec的说明。 常见的视频编码 1、Cinepak Codec by Radius 它最初发布的时候是用在386的电脑上看小电影,在高数据压缩率下,有很高的播放速度。利用这种压缩方案可以取得较高的压缩比和较快的回放速度,但是它的压缩时间相对较长。 2、Microsoft Video 1 用于对模拟视频进行压缩,是一种有损压缩方案,最高仅达到256色,它的品质就可想而知,一般还是不要使用它来编码A VI。 3、Microsoft RLE 一种8位的编码方式,只能支持到256色。压缩动画或者是计算机合成的图像等具有大面积色块的素材可以使用它来编码,是一种无损压缩方案。 4、Microsoft H.261和H.263 Video Codec 用于视频会议的Codec,其中H.261适用于ISDN、DDN线路,H.263适用于局域网,不过一般机器上这种Codec是用来播放的,不能用于编码。 5、Intel Indeo Video R3.2 所有的Windows版本都能用Indeo video 3.2播放A VI编码。它压缩率比Cinepak大,但需要回放的计算机要比Cinepak的快。 6、Intel Indeo Video 4和5

常见的几种高清视频编码格式

高清视频的编码格式有五种,即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类是经过MPEG-2标准压缩,以tp和ts为后缀的视频流文件;一类是经过WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv是一样的。真正效果好的高清视频更多地以H.264与VC-1这两种主流的编码格式流传。 H.264编码 H.264编码高清视频 H.264是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H.264 最具价值的部分是更高的数据压缩比,在同等的图像质量,H.264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高1.5~2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,H.264只需要1Mbps~2Mbps 的传输速率,目前H.264已经获得DVD Forum与Blu-ray Disc Association采纳,成为新一代HD DVD的标准,不过H.264解码算法更复杂,计算要求比WMA-HD 还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对H.264硬解码的支持。与MPEG-4一样,经过H.264压缩的视频文件一般也是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质,相同效果的MPEG2与H.264影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,H.264不仅能够节省HDTV的存储空间,而且还可以

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

数字音频技术_MP3_的压缩编码原理与制作方法

第4卷第2期2004年6月 长沙航空职业技术学院学报 CHAN GSHA AERONAU TICAL VOCA TIONAL AND TECHN ICAL COLL EGE JOURNAL Vol.4No.2 J un.2004 收稿日期:2004-03-20 作者简介:张晓婷(1964-),女,上海市人,讲师,主要从事计算机教学与研究。 数字音频技术(MP3)的压缩编码原理与制作方法 张晓婷 (珠海市工业学校,广东珠海 519015) 摘要:本文从音频压缩理论的角度,阐述MP3音频格式、压缩编码原理,同时介绍专业制作 MP3的方法。 关键词:MP3音频格式;压缩编码原理;制作经验与技巧中图分类号:TN919.3+11 文献标识码:A 文章编号:1671-9654(2004)02-051-06 Compression Coding Principle and F acture of Digital Audio Frequency T echnique (MP 3) ZHAN G Xiao 2ting (Zhuhai Indust ry School ,Zhuhai Guangdong 519015) Abstract : From the perspective of Audio Compression Theory ,the paper discusses format of audio Frequency tech 2 nique (MP3)and compression coding principle and also introduces the facture of audio Frequency technique (MP3). K ey w ords : Fomat of audio Frequency technique (MP3);compression coding principle ;facture 一、引言 数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。 二、MP3简介 (一)数字音频MP3的格式 MP3音频格式诞生于20世纪80年代,全名MPEG Audio layer 3,是MPEG (Moving PicturesEx 2pert Group 运动图像专家组)当初和影像压缩格式同时开发的音频压缩格式,是MPEG 21标准中的第三个层次,是综合了MPEG Audio layer 2和ASPEC 优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s 。 (二)数字音频MP3压缩的优点 使用数字音频MP3压缩方式的处理,能增加更多的存储空间。由于MP3的压缩比约在十到十二倍之间,一分钟的CD 音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s ,只有CD 音乐每通道大约十分之一的码流,非常适合网上传输。更重要的是,即使压缩比如此惊人,音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应(Masking Effect )的缘故。MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。 三、MP3压缩编码原理在MPEG 21的音频压缩中,采样频率可分为32、44.1和48KHz ,可支持的声道有单声道(mono 2phonic )、双—单声道(dual 2monophonic )、立体声模式 ? 15?

国际主流视频编码标准优化代码的对比测试-文档资料

国际主流视频编码标准优化代码的对比测试 王中元(1972- ),男,湖北英山人,讲师,博士,主要研究方向为视频编/ 解码、多媒体通信; 朱福喜(1957- ),男,湖北新洲人,教授,博导,博士,主要研究方向为人工智能等. (武汉大学a. 计算机学院; b. 国家多媒体软件工程技术研究中心; c. 档案馆,武汉430072) 以H.263、MPEG-4、H.264 三种标准作为测试对象,在 Win/Intel 平台上测试了优化后编码器的计算效率、编码效率和码率控制精度,并对测试结果进行了比较和分析。测试数据为开发人员在一定硬件性价比的约束条件下实现视频编码器提供了参考。 Test?Band?Bcomparison?Bon?Boptimized?Bcode?Bof?Bmajor?B international?Bvideo?Bcoding?Bstandards LI Naa,c, WANG Zhong-yuanb, ZHU Fu-xia (a.School of Computer, b.National Multimedia Software Engineering Research Center, c.Archives, Wuhan University, Wuhan 430072, China) This paper selected H.263,MPEG-4 and H.264 video

coding standards as test object to measure such performance index as compression efficiency,calculation efficiency and rate control accuracy on Win/Intel platform. And illustrated the-analysis and comparison on experiment results too. These test datum could be served as a reference guide for designer who would develop video coding application with the constraint on hardware performance and price ratio. 几乎在每一种视频标准的制定过程中或者发布后,都有专家将该标准与它前期的同类标准作压缩效率和计算复杂度的客观比较测试[1] 。这些测试数据尽管有它一定的学术意义,但是对实际开发的指导价值非常有限。其原因有两点:a) 测试过程往往涵盖了编码工具的全集,而在实际应用中不太可能启用所有编码选项,因此,这样测试的压缩效率数据已经背离了实际应用条件; b) 在计算复杂度的对比测试中,一般均使用伴随标准发布的参考源码,而这些源码仅仅是用来验证算法的,它充其量也只是对算法的一种数学描述。在标准的实现过程中,免不了要对编/ 解码器(CODE)展开算法优化和代码 优化,这些优化往往又要结合

音视频编码技术

音视频编码技术报告 姓名: 学号: 学院(系):电子与信息工程学院 专业: 电子与通信工程 题目: 基于DCT变换的图像压缩技术的仿真

1.引言 在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。 本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像 信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信 号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。 2.图像压缩编码的简介 从信息论的角度看,图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多,其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差(对原图像的保真程度),图像编码压缩分为无误差(亦称无失真、无损、信息保持)编码和有误差(有失真或有损)编码两大类。 无损压缩(冗余度压缩、可逆压缩):是一种在解码时可以精确地恢复原图像,没有任何损失的编码方法,但是压缩比不大,通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合,例如复制、保存十分珍贵的历史、文物图像等。 有损压缩(不可逆压缩):只能对原始图像进行近似的重建,而不能精确复原,适合大数工用于存储数字化了的模拟数据。压缩比大,但有信息损失,本文采用有损压缩。 DCT图像压缩编码可以概括成图2.1的框图。 图2.1 DCT压缩编码过程简化 3.DCT变换 最小均方误差下得到的最佳正交变化是K-L变换,而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换,目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是,将图像分为8×8的子块或16×16的子块,并对每一个子块进行单独的DCT变换,然后对变换结果进行量化、编码。

多媒体技术 音频编码基础和标准

2.3 音频编码基础和标准 2.3.1 音频编码基础 2.3.2 音频编码标准

2.3.1 音频编码基础 一、压缩编码的必要性 二、音频编码基础 三、音频编码的分类

多媒体音频数据的存储和传输中,必须 压缩数据。利用音频编码压缩数据。 高质量音频采样数据率(每秒比特数): 信号类型频率范围 (H Z ) 采样率(KH Z )量化精度(位)数据率(位/秒)电话话音 200~34008864k 高质量音频 20~20K 44.116705.6k 压缩编码数据率: 信号类型数据率 (位/秒) 压缩编码标准数据率(位/秒)数据率(字节/分钟)IP 电话话音 64k G.723 5.3k 40K 705.6k 44.1128k 960k

数据压缩造成音频质量的下降、计算量的增加。人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。 各领域的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。 高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。

音频编码基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。 1、时域信息的冗余度 2、频域信息的冗余度 3、人的听觉感知机理

1、时域信息的冗余度 幅度的非均匀分布 一般语音中小幅度样本比大幅度样本出现的概率要高,并且通话中必然会有间隙,更会出现大量低电平样本。因此.语音信号取样值的幅度分布是非均匀的,可以采用非均匀量化对其编码。样本间的相关 对语音波形的分析表明,取样数据的最大相关性存在于邻近样本之间,并且取样速率越高,样本间相关性越强。根据相关性,可利用N阶差 分编码技术,进行有效的数据压缩。

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称,是当今比较流行的一种数字音频编码和有损压缩格式(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:1)。简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency,以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1,48和32 kHz三种频率,比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。 一.概述: MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和 6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB 的存储空间,而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式,为了降 低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉 噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3 文件,并使压 缩后的文件在回放时能够达到比较接近原音源的声音效果。 二.整个MP3文件结构: MP3 文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1) ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1 的信息量。 Frame 一系列的帧,个数由文件大小和帧长决定

各种主流视频格式介绍

3GP: 3GP是一种3G流媒体的视频编码格式,主要是为了配合3G网络的高传输速度而开发的,也是目前手机中最为常见的一种视频格式。 3GP是新的移动设备标准格式,应用在手机、PSP等移动设备上,优点是文件体积小,移动性强,适合移动设备使用,缺点是在PC机上兼容性差,支持软件少,且播放质量差,帧数低,较AVI等传统格式相差很多。诺基亚提供的PC套件可以很好的支持3GP文件,暴风影音也可播放。 : (MPEG的全名为[Moving Pictures Experts Group],中文译名是动态图像专家组。 MPEG标准 MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。(注意,没有MPEG-3,大家熟悉的MP3 只是MPEG Layeur 3)该专家组建于1988年,专门负责为CD建立视和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由 ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。 MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩 编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。 MPEG-1 MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。 MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。 MPEG-2 MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率:表示经过编码(压缩)后的音频数据每秒钟需要用多少个比特来表示,单位常为kbps。 2 响度和强度:声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化,但也受频率的影响。总的说,中频纯音听来比低频和高频纯音响一些。 3 采样和采样率:采样是把连续的时间信号,变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律:采样率大于或等于连续信号最高频率分量的2倍时,采样信号可以用来完美重构原始连续信号。 二、常见音频格式 1. WAV格式,是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持,压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式,规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议,可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件,在MIDI文件中存储的是一些指令。把这些指令发送给声卡,由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3,它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18。此外,WMA还可以通过DRM(Digital Rights Management)保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式,最大的特点就是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM (RealMedia,RealAudio G2)、RMX(RealAudio Secured)等三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式:Audible1、2、3、4。https://www.360docs.net/doc/945427486.html,网站主要是在互联网上贩卖有声书籍,并对它们所销售商品、文件通过四种https://www.360docs.net/doc/945427486.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩,而格式4采用更低的采样率和MP3相同的解码方式,所得到语音吐辞更清楚,而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具,这就是Audible Manager,使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽: Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k 是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型:Audio 制定者:ITU-T 所需频宽:32Kbps 特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。 它的核心想法是: ①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术) 缺点:声音质量一般 应用领域:voip

常见的音频编码标准

常见的音频编码标准 在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。 虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。 由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

相关文档
最新文档