音频基本知识

音频基本知识

第一部分模拟声音-数字声音原理

第二部分音频压缩编码

第三部分和弦铃声格式

第四部分单声道、立体声和环绕声

第五部分 3D环绕声技术

第六部分数字音频格式和数字音频接口

第一部分模拟声音-数字声音原理

一、模拟声音数字化原理

声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。

图1 模拟声音数字化的过程

声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。

声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。

采样频率

采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。

量化精度

光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。

压缩编码

经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。

常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等

二、问题

1、为什么要使用音频压缩技术?

我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比:

PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。

MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为

表1 相同音质下各种音乐大小对比

2、频率与采样率的关系

采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。

3、流特征

随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。

第二部分音频压缩编码

一.有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式

未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的PCM 或WAV音轨。

无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频一般不使用于影音世界,但是存在的格式有无损WMA或Matroska里的FLAC。

有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据,有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件,包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio.

我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式(例如wav 转MP3),质量上有损失,那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式(例如Mp3转AAC)更槽糕,因为它不仅会引入原文件存在的损失,而且第2次编码也会有损失。

二、语音(Voice)编码和音频(Audio)编码

语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。音频编码最常见的是MPEG的音频编码。

语音的编码技术通常分为三类:波形编码、参量编码和混合编码。其中,波形编码和参量编码是两种基本类型。

波形编码是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。

脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),自适应差分编码(ADPCM)等,都属于波形编码技术。它们分别在64以及16Kbit/s的速率上,能给出高的编码质量,当速率进一步下降时,其性能会下降较快。

参量编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参量,并将其变换成数字代码进行传输。具体说,参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码,比特率可压缩到2Kbit/s-4.8Kbit/s ,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都不一定能听出讲话人是谁。线性预测编码(LPC )及其它各种改进型都属于参量编码。

混合编码将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码(MPLPC ),规划脉冲激励线性预测编码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。很显然,混合编码是适合于数字移动通信的语音编码技术。

三、无线通信中常见语音编码

PHS为32kbit/s的ADPCM编码,GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码,WCDMA使用的是自适应多速率编码(AMR),cdma2000使用的是可变速率编码(IS-773,IS-127)。

1、AMR编码

(介绍它的原因是因为手机中有使用AMR铃声)。在3G多媒体通信的发展过程中,音视频编码有了很大的发展。1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR声码器采用代数码本激励线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR标准针对不同的应用,分别提出了AMR-NB,AMR-WB和AMR-WB+三种不同的协议。AMR-NB应用于窄带,而AMR-WB和AMR-WB+则应用于宽带通信中。

对于手机铃声,AMR-NB对应的铃声文件扩展名是.amr,AMR-WB对应铃声文件扩展名是.awb。它们不是音乐,而是录音得到的原声。

2、ADPCM编码

自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。

20世纪80年代以来,32kb/s的ADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kb/s的自适应量化器,并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正,称G726建议。

ADPCM不适合作音乐的编码,常用于录音。雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术,其中PCM和ADPCM就是模拟音效,包括人声。

四、各种主流音频编码(或格式)的介绍

1、PCM编码

PCM(Pulse Code Modulation),即脉冲编码调制,指模拟音频信号只经过采样、模数转换直接形成的二进制序列,未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。在计算机应用中,能够达到最高保真水平的就是PCM编码,在CD、DVD以及我们常见的WAV文件中均有应用。

2、WAVE格式(铃声)

这是一种古老的音频文件格式,由微软开发。WAV对音频流的编码没有硬性规定,除了

PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,只要安装好了相应的Decode,就可以欣赏这些WAV了。

在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。

3、 MP3编码(铃声)

MP3,众所周知也就是MPEG-1 Layer 3,是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。Layer 3不是MPEG Layer 1或Layer 2的新版,只是与它们不同的复杂的编码方案。现在有许多可用的MP3编码器,其中最高品质的莫过于Lame,同时它也是开源免费的。

MP3技术上支持多声道(多于2个声道),但从未实施过或者今后也不会了。事实上,你可以编码源文件为pro logic (II)的多声道文件变换成立体声MP3。

MP3有不同的采样率和比特率(注意比特率并不是量化精度,而是代表压缩比),代表不同的音质。网络上流行的MP3是44.1KHz采样率,128Kbps比特率的。下表中列出了不同品质的MP3,其中列表示SR(采样频率),范围8KHz~48KHz,行表示BR(比特率),范围

8Kbps~320Kbps。

表二 MP3对应的不同采样率和比特率

4、OGG编码(铃声)

网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG的信念就是:

OPEN!FREE!Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案,官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO 抓轨软件的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样,Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR(可变比特率)。

5、MPC 编码

MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。

6、mp3PRO 编码

2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。7、WMA(铃声)

WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,而是网络。竞争对手就是网络媒体市场中著名的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。

8、RA

RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的

在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。

9、APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。

10、AMR(铃声)

AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格式,也就是说我们用手机录音而成的文件就是这种格式的。AMR格式压缩率较高但是音质相对较差了一点。优点就是我们可以随心所欲地录制。

11、AAC/AAC+

什么是AAC?

AAC代表Advanced Audio Coding(高级音频解码),是一种由MPEG-4标准定义的有损音频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主要的贡献者。它被认为是MP3的继承者。AAC能够在一条音轨中包括48条全带宽(直到96khz)音频声道,加上15条低频增强(LFE,限制到120Hz)声道,直到15条数据流并且更多。

其实,AAC的技术早在1997年就成型了,当时被称为MPEG-2 AAC,但是随着2000年MPEG-4音频标准的出台,MPEG-2 AAC被用在这一标准中,同时追加了一些新的编码特性,所以它就改称为MPEG-4 AAC。与MP3不同,AAC的技术掌握在多家厂商手中,这使得AAC 编码器非常多,既有纯商业的编码器,也有完全免费的编码器。纯商业的编码器如Fraunhofer IIS的FhG、杜比公司的Dolby AAC,免费的有Free AAC、苹果公司的iTune,Nero也通过它的Nero 6提供了Nero AAC。

AAC是一种高压缩比的音频压缩算法,它的压缩比可达20:1,远远超过了AC-3、MP3等较老的音频压缩算法。一般认为,AAC格式在96Kbps码率的表现超过了128Kbps的MP3音频。AAC另一个引人注目的地方就是它的多声道特性,它支持1~48个全音域音轨和15个低频音轨。除此之外,AAC最高支持96KHz的采样率,其解析能力足可以和DVD-Audio的PCM 编码相提并论,因此,它得到了DVD论坛的支持,成为了下一代DVD的标准音频编码。

AAC的家族非常庞大,有9种规格,可适应不同场合应用的需要。其中LC低复杂性规格去掉了预测和增益控制模块,降低了复杂度,提高编码效率,是目前使用得最多的规格。

目前,苹果、AT&T和RealNetworks已经开始提供收费的AAC音乐下载服务。AAC也得到了众多硬件厂商的支持,除了苹果的iPOD随身听,还有诺基亚的多款手机及松下的部分随身听产品可支持AAC音频的播放。另外,目前已经有部分MPEG-1/2解码芯片中加入了AAC 解码功能,出现支持AAC音频播放的DVD影碟机肯定是迟早的事情。

什么是HE-AAC(也称AAC+)和LC-AAC?

AAC有两种LC AAC与HE AAC,HE AAC是较新的。LC意思是"low complexity"(低复杂性)而HE意思是 "high efficiency"(高效性)。

HE-AAC也称之为AAC SBR/AAC+/aacplus等。注意HE-AAC注重于低码流的编码并很适合多声道文件(更小的文件尺寸)。

从学术上讲,HE-AAC混合了AAC与SBR技术,处理低比特率能有较好的效果。SBR代表的是Spectral Band Replication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或产生令人不快的噪音信号。SBR解决问题的方法是让核心编码去编码低频信号,而SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号(通常码流极低,~2 kbps)。这也是为什么被叫做Spectral Band Replication的原因,它只是增加音频的带宽,而非重建。(类似的技术也用在mp3 pro 64kbps能媲美128kbps的mp3就是这道理)

MP4与AAC

MP4最初是一种音频格式,和MPEG-4没有太大的关系,就像MP3和MPEG-3没有关系一样。MP3是MPEG-1 Audio Layer 3 的缩写;而MP4是MPEG-2 AAC,完完全全是一种音频压缩格式,增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性,最重要的是,MP4通过特殊的技术实现数码版权保护,这是MP3所无法比拟的。

现在市面上的MP4多数偏向于多媒体播放器,能够播放AAC的,可以说是凤毛麟角。甚至有媒体把MP4说成是MPEG4的缩写,这在以前看来是一个谬论,但是经过商家不断的炒作,这个谬论也就成为了真理。现在若果你去电脑城听到MP4这个词,绝对是能播放视频格式的多媒体播放器的概念,而不是能播放音频MP4 AAC的随身听。出现这种怪现象不是毫无原因的,上面已提到AAC有版权保护功能,这也是众多唱片公司支持AAC的原因,要使自己的播放器支持AAC,还得支持付一定的版权费或专利费,另外,AAC的来源也是个问题,不像MP3那么开放,网上来源极少,所以目前音频MP4播放器发展尚不成熟,鉴于以上现状,众商家干脆“借尸还魂”,把MP4等同MPEG-4缩写而论,这样也恰好应了MP4是MP3的下一代这条规律,除了支持MP3所具有的音乐播放功能外,还具备强大的MPEG-4视频播放能力,另外,恰好“4”在“3”后,从这点出发,把MP4等同MPEG-4是合理的。

第三部分和弦铃声格式

与音乐不同的是,和弦铃声都是制作出来的。播放的时候,只需要合成(或解码)就可以输出PCM格式的数据,然后PCM格式的数据可以通I2S接口传输,然后经过数-模转换输出。

1、MIDI合成音乐

什么是MIDI?

MIDI(Musical Instrument Digital Interface)音乐设备数字化接口,也称为数字音序。“MIDI”文件(*.MID)不是声音文件,不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。可以做这样的比喻:如果数字音频是一个人独奏吉它时的录音带,MIDI文件则相当于该独奏曲的乐谱。虽然乐谱本身不能产生出任何实际的声音来,但是乐谱确定了音乐演奏得有多快,拨哪个音符,以及应该用多大的力度弹奏吉它。 我们可以从以下几点说明“MIDI”文件(*.MID)的特性:

1. 首先,正如上所说,它不是声音文件,只是一组指导声卡如何发声的指令,因此它生成的文件比较小。

2. 它只能应用于电子音乐设备(如电脑声卡等),而不能应用于人声。原因很简单,它发出的声音只能来自声卡中的内置音源(例如波表ROM中存储的音色)。自然界中那么丰富的音乐的和非音乐的声音,都是不能包括在内的。要在MIDI中混合自然界的模拟音效,一般是在在MIDI上叠加PCM/ADPCM。

3. midi格式是记录每个音的音色、音名、响度、角度、时间等,根据记录查询音色库,

得到应发声音。简单的说,每个音轨对应一种乐器,上面以特定的格式记录每时刻该乐器所演奏的乐音。比如,在某时刻被定义为钢琴的音轨上记录着上面所说的135组成的和弦,那么芯片就查询音色库得到所对应的音效,然后合成、播放。所以音色库是关系midi是否动听的关键因素,好的音色库是很占地方的。手机中记录音乐的方法与电脑上的midi相同或相似,不同的是它所记录的全是单音,而复杂的和弦音效没有记录。手机和弦芯片中的音色库都预先存储在内置的波表ROM中。

MIDI的分类:

MIDI格式后缀名是.MID,但其有MIDI0、MIDI1、MIDI2、SP-MIDI、XGMIDI等多种规范。

MIDI0和MIDI1:MIDI0是单音轨,MIDI1是多音轨。手机的和弦数目等于midi格式中的音轨数,手机的每个音轨都是单音音轨。网上的绝大多数MIDI音乐都是多音轨的。另外,MIDI0的读入和处理速度要快些,有的硬件可以直接读软盘上的MIDI文件回放(即时回放),而MIDI1的做不到。

SMF(Standard MIDI Format):是标准的MIDI格式,SMF分为format0和format1两种格式,即MIDI0和MIDI1。

SP-MIDI:MIDI协会(MMA)推出一个新的规定Scalable Polyphony MIDI(简称SP-MIDI),大概可以译成“可升级的MIDI复音”。据介绍,这个规定主要作用是当合成器或音源的同时发音数小于作品的要求时,可以根据作曲家的事先决定省略某些音符或声部。例如一部为GM2音源写作的作品(要求32复音)在GM1或GM Lite音源上演奏的时候,由于同时发音数不足,必然有一些音符被忽略掉。过去这个决定权在机器方面,带有随机的性质,可能把乐曲搞得残缺不全。现在依据“可升级的MIDI复音”规定,控制权转移到作曲家手中,创作音乐的时候就可以设计好不同的“乐队编制”,使MIDI乐曲的正确演奏更有保证。另外,SP-MIDI标准为使用MIDI消息实现对振动提示的控制定义了一种可选方法, SP-MIDI内容中可以同时含有音频和振动两种表现形式。振动控制被定义为弦乐器。

什么是音乐合成技术?

音乐合成的途径

1. 采样合成(波表合成):这是最常见的音乐合成方式,为了得到钢琴声,就把钢琴在不同音阶下发出的声音录制保存下来,当播放音乐需要钢琴声时,录制下来的样本被调用并通过计算来获得正确的音符。其缺点是需要许多存储空间来保存高质量的声音样本。例如,大多数PC使用采样合成,其波表将占用8MB或更多存储空间,这对移动电话电话来说是一个非常大的开销。

2. 波谱匹配:Yamaha的调频合成(FM合成)同润威公司的GAP都属于这种类型。这种方式包括找到一个数学公式来调制乐器声音输出使得其像真正的乐器那样。这种方式使用很少的系统开销,同时也比采样合成使用的存储空间少很多。

MIDI的三个标准:GS、GM、XG

音乐的要素之一是音色。在MIDI中,一种乐器就是一种音色(Patch,Program和Timbre)。现实的情况是不同的合成器和音源的制造者为了使自己的产品有独特之处,总是开发出若干种特殊音色,因而不同品牌的设备在音色种类和音色排列顺序方面会大不相同。这就导致了一个缺陷的出现:使用甲合成器制作的MIDI文件,换了乙合成器就不能正确播放。其原因在于甲合成器上01号音色可能是钢琴,而在乙合成器上,01号音色可能是打击乐或其他音色。总而言之。每一种MIDI设备的音色设置(以及其他方面)都具有排他性。这就使音乐家受到了设备的制约。为了有利于音乐家广泛地使用不同的合成器设备和促进MIDI文件的交流, MIDI协会(MMA)于1991年制订了“通用MIDI”(GM)标准。该标准以日本Roland 公司的通用合成器(GS)标准为基础而制订。

值得注意的是,虽然现在有了国际通用的GM标准可供电子乐器生产厂家参照,但仍有

另外两个标准与GM标准共存,一个是GS标准,为Roland公司的产品所专用,它产生于GM 标准出现之前,也是GM的前身。另一个是后来出现的XG标准,为YAMAHA公司的产品所专用。

1、GS标准。 GS为General Synthesizer的缩写,意为“通用合成器”,是罗兰公司创立的一种 MIDI标准。该标准具有有以下五种主要功能:1)16个声部。2)最大复音数为24或更多。3)GS格式的乐器音色排列,该格式包含有各种不同风格的音乐所使用的乐器音色和打击乐音色。4)鼓音色可以通过音色改变信息进行选择。5)包含两种可调节的效果,有混响和合唱。

2、GM标准。 GM是 General MIDI Mode(通用MIDI)的缩写,即GMM,通常缩写为GM。该标准是MIDI协会以罗兰公司的通用合成器(GS)标准为基础而建立的标准。该标准为一般合成器所共有的128种乐器音色(分成16组)规定了序号,将47种标准的非旋律性打击乐器分配在第10通道,并为这47种打击乐器规定了音符序号(35(B2)-81(A6))。以下

表三 GM音色表

3、XG标准。XG-MIDI是Extended General MIDI(扩展的通用MIDI)的缩写。XG是继GM标准建立之后,雅马哈公司于1994年推出的新的音源控制规格。XG在保持与GM兼容的同时,又增加了许多新的功能,其中包括音色库(音色数量)的增加,和启用更多的控制器对音色亮度等方面进行控制等等。

2、SMAF格式(文件扩展名.MMF)

合成音乐移动应用格式(Synthetic music Mobile Application Format,缩写为SMAF),是雅马哈公司首创的一种移动电话内容标准,是目前手机上使用非常多的和弦铃声,网络上有非常多的铃声资源可供下载。最常见的为MA2,MA3,MA5。MA2对应16和弦,MA3对应40和弦,MA5对应64和弦。与MIDI相比,它采用了MIDI+PCM/ADPCM的技术,故而支持真人铃声。

3、VMD

VMD技术是针对手机平台的新一代多媒体技术,该技术可以用于制作铃声、音乐、卡拉OK、动画、移动电视、流媒体播放等,为手机用户提供完美的多媒体体验。这标志着移动多

媒体应用产业链的核心技术层面已经取得了关键性的突破,业内人士认为它将成为未来多媒体手机的新趋势。以铃声应用为例,目前普遍采用的MIDI播放效果受播放器或合成器的限制,由于文件尺寸较小无法嵌入人声、水声(wave或mp3)等自然界的声音,表现力不足;而WAVE和MP3文件格式可以保存自然界和乐器的声音。但 MP3需要快速解码,WAVE也需要格式转换。VMD格式中对MIDI音乐指令作了全面优化——这种格式对MIDI的指令合并精简,在保留完全相同音质的情况下,使得MIDI音乐指令的长度更小;VMD文件的组织结构也经过专门设计,使得文件组织模块化,从多轨转换为单轨,在这方面比其它格式更适合硬件平台处理。在文件格式上VMD吸取了SMIL等规范的优点,使得VMD-MIDI和WAV、MP3、JPEG 等数据可以保留原有存储方式,也可以独立解析;MIDI部分不包含专门针对合成器硬件的繁琐的控制信息,能够广泛地被合成器厂商支持;VMD格式中对歌词、版权等文本信息使用UNICODE编码,可支持多国语言。此外,在VMD文件中还可以控制手机的LED和马达,实现声、光和震动一体化的效果,并嵌入音色库和音效库。

第四部分单声道、立体声和环绕声

一、单声道(Mono):

所谓的单声道,就是声音只由一只音箱产生,听众可以很明显地听出声音的来源就是音箱所摆放的位置,其本身的表现力较为平淡;当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱正中间传递到我们耳朵里的。

二、立体声(Stereo):

它利用了两个独立声道进行录音,整个过程不加任何的声音处理。立体声系统的再现需要一对音箱来完成,它通过调整系统中两只音箱发出声音的大小,让我们误认为声源来自两只音箱之间直线段中的任意位置。特别是当使用耳机的时候,由于左右两边的声音串音情况很少发生,所以声音的定位比较准确;再加上比较真实的音场感觉,它的表现力比单声道真实得多。但(Stereo)的缺陷也十分明显,最明显就是对音箱的位置摆放要求较高,摆位的不好会直接影响声音的表达。

图2 立体声及其音场

四、3D环绕声 (3D Surround)

有时也称作3D增强立体声(3D Enhancement)。它是一种模拟环绕声系统。左、右声道的

立体声信号,经过数字信号处理后,通过左、右两路音箱,产生三维的环绕声场效果。它使用一般双声道创建一个具有三维感觉的环绕声音场,比立体声好,但与编码式环绕系统有相当的差距。常见的有SRS实验室的SRS WOW、Q-sound实验室的Qxpander、Spatializer实验室的Spatializer 3D等技术,主要针对普通双声道立体声信号进行处理,对于杜比环绕声信号不作解码,采用强制处理的方式,显而易见不可能处理AC-3信号。

图3 3D环绕声及其音场

五、环绕声系统与虚拟环绕声(Virtual Surround):

比较出名的有杜比AC-3(也称Dolby Digital,杜比数字)、DTS(Digital Theater System,数字影院系统)、THX家庭影院系统。以著名的AC-3杜比数码环绕声系统为例。杜比实验室在1991年开发出一种杜比数码环绕声系统(Dolby Surround DigitaI), 即AC-3系统。 AC-3杜比数码环绕声系统由5个完全独立的全音域声道和一个超低频声道组成, 有时又将它们称为5.1声道。其中5个独立声道为: 前置左声道、前置右声道、中置声道、环绕左声道和环绕右声道;另外还有一个专门用来重放120Hz以下的超低频声道, 即0.1声道。

图4 5.1声道立体环绕声

在环绕声的实现上,无论是杜比AC3还是DTS,都有一个特点,就是回放时需要多个音箱,一般一个声道对应至少一个音箱,比如用杜比数字系统,起码需要5个全音频范围的音箱,再加上一个低音炮,由于价格及空间方面的原因,有的消费者,如多媒体电脑的用户,

并没有足够的音箱,这时候就需要一种技术,能够把多声道的信号经过处理,在两个平行放置的音箱中回放出来,并且能够让人感觉到环绕声的效果,这就是虚拟环绕声技术。

与3D环绕技术不同的是,它是对杜比类环绕声信号进行解码,再利用单耳效应和双耳效应对环绕声信号进行虚拟化处理,尽管仅有两个重放声道,但让听众感到多声道效果,即产生所谓的扬声器虚拟幻像。虚拟环绕声技术主要有SRS公司的SRS TruSurround、Q-sound 公司的Qsurround、Aureal公司的A3D、Spatializer公司的N-2-2DVS等技术,当然还有杜比实验室的杜比虚拟环绕声VSS(Virtual Surround Sound)技术,非杜比实验室的技术一般也获得了杜比实验室的认可,可以用于回放杜比定向逻辑和杜比数字信号。

图5 虚拟环绕声

第五部分 3D环绕声技术

在MP3中用到的最多的音效有BBE Sound的BBE音效和SRS实验室的SRS音效。在音乐芯片FT1960中采用了SRS公司的 WOW XT Surrond Sound技术;在松下的立体声功放AN12974A中采用了Spatializer 3D技术;在雅吗哈的YMU788芯片中采用了DVX技术。

一、SRS音效

这里介绍SRS实验室的SRS WOW(立体声增强技术)。SRS Labs根据人类听觉的基本元素,开发出“心理声音”(psychoacoustic)音响技术,包括SRS(环绕声)、TrueBass(低音增强)、FOCUS(声场提升)及WOW(Trubass+SRS),让人类感觉到受器材限制而听不出的声音。

现在MP3播放器所用的SRS音效是SRS WOW,它由SRS(环绕声), TruBass(低音增强)和FOCUS(声场提升)组成。

官方对WOW的描述如下(可能翻译的并不准确):

WOW:可以突破小型扬声器和耳机的固有局限,通过提供3D音频图象在水平及垂直方位上扩展声音使其超越器材本身的能力。这样,小型音频设备,电视,无线和个人/便携产品的制造商不用增大扬声器尺寸便可显著改善其产品的声响效果。特别在诸如MP3,WMA和音频CD这些经数码压缩使空间感被极大削弱的单声道或立体声音频格式上,WOW 的修饰效果尤其显著。

SRS: SRS能恢复被传统录制和播放设备掩盖住的空间信息。通过将立体声信号分解为

多个部分,它可以分离并恢复空间信号或原始录音所呈现的环境信息。并且把它们放在直接声音的正常空间。这些空间信号被专利幅频响应校正曲线所处理。这样,再现的声音会非常接近艺术家最初设想的那种现场效果。SRS没有所谓的最佳听音位置(sweet spot),因此,音乐和声音好像充满了房间,使听者完全处在全三维声音包围中。

TruBass: TruBass是一种SRS专利技术,运用人类声音心理学专利技术来增强低音性能。这些技术能利用原始音源中表现的和声再现低频信息。恢复基本低频音调的感觉-即使该信息低于扬声器和耳机的低频极限。因此TruBass可以呈现出比小型、中型和大型扬声器和耳机的低频极限还低八度,并且深邃丰富的听感。

FOCUS: FOCUS通过提升声场来生成声音图象的高度感。当于SRS 3D结合时,FOCUS 会放大声音图像,产生一个非常高广,最佳听音位置(sweet spot)宽广的声场。另外,FOCUS能改善高频通透度让听者沉浸其中。在扬声器低于音场的产品中,比如内投影电视或固定在门板上的汽车扬声器,FOCUS将可用电子学方法调节重新将声场定位于听者前方的最佳位置上。

二、BBE音效

BBE音效的3D环绕立体声技术包括, BBE、BBE Mach3Bass、BBE MP三种。

BBE系统具有两个基本功能,其中之一是调节低、中和高频相位之间的关系。第二个功能是增强了高频和低频信号。此外,BBE还具有静噪功能。BBE电路内部设有噪声门和高截止滤波器,能对输入的杂散信号进行衰减。

BBE Mach3Bass用电子学方法扩展特定扩音器的低音响应并能精确调整需要的低频极限。在世界知名的BBE处理相位误差校正技术的帮助下,BBE Mach3Bass可提供比标准低音提升电量更深,更密,更精确的低音频率。BBE Mach3Bass不影响中低段声音,否则会在中低频段产生混浊并改变角色的嗓音。

BBE MP (最小化多项非线性饱和)技术通过数字压缩复原和增强谐波损失,进而提高经数字压缩处理的音频(如MP3)音效。BBE MP从原始资料中复原声音,因而有效地恢复声音的温暖感、细腻感和细微差别。BBE MP可将声级平均提高3个分贝,同时保持峰间摇摆不变。由于声音输出高出3个分贝,信噪比也相应地得到了改善。

通过上面技术描述的对比可以发现,虽然都可以提升低音,但两者对音乐的实质影响是完全不同的,SRS WOW带给音乐的改变是在空间感方面,就是听上去感觉声音范围更大了,而BBE提高声音的清晰度,整个声场强度都上了个台阶。

三、Spatializer 3D

Spatializer实验室的3D增强技术。具体不详。

四、DVX技术

日本DiMAGIC公司的DiMAGICVirtu-alizerX(DVX)环绕立体声技术。具体不详。

第六部分数字音频格式和数字音频接口

一、数字音频格式

1、PCM格式及其分类

PCM 是未压缩(无损)的数字音频格式。其采样速率为可以为6、8、11.025、16、22.05、32、44.1、48、64、88.2、96、192KHz,采样精度可以为8、12、13、16, 20, 或24 bits。可以有1到8个声道。最大比特速率为6.144 Mbps,如果有5个或更多声道,这个最大速率就限制了采样率和比特位数。例如音频CD为44.1 kHz/16 bits/双声道;DVD不仅能够播放2声道的超高保真音响(192KHz/24bit/双声道),还能播放线性PCM 最多6个声道的环绕声

音响(96kHz/24bit/6声道)。

PCM格式又根据其量化方式可以分为线性PCM(linear PCM)和非线性PCM(non-linear PCM),前者是均匀量化得到的,后者是非均匀量化得到的。

均匀量化

如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图6所示。

图6 均匀量化

非均匀量化

非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图7所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。

在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为u律压扩(companding)算法,另一种称为A律压扩算法。

u律(u-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。它的输入和输出关系是对数关系,所以这种编码又称为对数PCM。A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中。A律压扩的前一部分是线性的,其余部分与u律压扩相同。

对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用u律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位。

图8 非均匀量化

2、DSD音频格式

PCM脉码调制数字音频格式是70年代末发展起来的,记录媒体之一的CD,80年代初由飞利浦和索尼公司共同推出。PCM的音频格式也被DVD-A所采用,它支持立体声和5.1环绕声,1999年由DVD讨论会发布和推出的。

PCM的比特率,从14-bit发展到16-bit、18-bit、20-bit直到24-bit;采样频率从44.1kHz发展到192kHz。到目前为止PCM这项技术可以改善和提高的方面则越来越来小。只是简单的增加PCM比特率和采样率,不能根本的改善它的根本问题。其原因是PCM的主要问题在于: 1)任何PCM数字音频系统需要在其输入端设置急剧升降的滤波器,仅让20 Hz - 22.05 kHz的频率通过(高端22.05 kHz是由于CD 44.1 kHz的一半频率而确定),这是一项非常困难的任务。2)在录音时采用多级或者串联抽选的数字滤波器(减低采样率),在重放时采用多级的内插的数字滤波器(提高采样率),为了控制小信号在编码时的失真,两者又都需要加入重复定量噪声。这样就限制了PCM技术在音频还原时的保真度。

为了全面改善PCM 数字音频技术,获得更好的声音质量,就需要有新的技术来替换。近年来飞利浦和索尼公司再次联手,共同推出一种称为直接流数字编码技术DSD的格式, 其记录媒体为超级音频CD即SACD,支持立体声和5.1环绕声。

DSD音频格式简化了信号流程,去掉了PCM使用的多级滤波器,将模拟音频直接以2.8224MHz的高采样频率,按1-bit的数字脉冲来记录。虽然DSD格式表示的声音信号是数字化数据,但是它又与真正的声波非常接近,可完整的记录当今最佳模拟系统的信息。最好的30ips半英寸模拟录音机能记录的频率能超过50KHz,而DSD格式的频率响应指标为从DC 到100KHz。能覆盖高级模拟调音台的动态范围,通过其音频频段的剩余噪声功率,保持在-120dB。DSD的频率响应和动态范围,是任何数字和模拟的录音系统无法与之比拟的。从声音的质量上来说, 数字音频技术是为了接近模拟声音的质量。DSD音频格式的发展将更有利的与模拟音频系统配合。

二、数字音频接口

常见的数字音频接口有I2S接口、PCM接口和SPDIF接口。这里只作简要介绍。

I2S接口:

只能传输单声道或双声道立体声的数字音频,数据格式为PCM格式。该接口又派生出三类:左对齐格式、右对齐格式、I2S格式。I2S时差性能要优于SPDIF,适合短距离通讯。

PCM接口:

也叫DSP模式音频接口。一般用来传输单声道或双声道立体声的数字音频,但是理论上

也可以传输多声道的数字音频。数据格式为PCM格式。

SPDIF接口:

SPDIF(Sony Phillips Digital Interface) SONY、PHILIPS数字音频接口。它的传输载体有同轴和光纤两种,后者抗干扰能力更强。SPDIF能传输PCM流,也能传输杜比数字(Dolby Digital)、DTS这类环绕声压缩音频信号。PCM流是原始、未经压缩的音频信号,杜比数字、DTS也是来源于PCM流。

相关文档
最新文档