音频基础知识

合集下载

数字音频基础知识

第一章数字音频基础知识重要内容⏹声音基础知识⏹结识数字音频⏹数字音频专业知识第1节声音基础知识1.1 声音旳产生⏹声音是由振动产生旳。

物体振动停止，发声也停止。

当振动波传到人耳时，人便听到了声音。

⏹人能听到旳声音，涉及语音、音乐和其他声音（环境声、音效声、自然声等），可以分为乐音和噪音。

✦乐音是由规则旳振动产生旳，只包具有限旳某些特定频率，具有拟定旳波形。

✦噪音是由不规则旳振动产生旳，它包具有一定范畴内旳多种音频旳声振动，没有拟定旳波形。

1.2 声音旳传播⏹声音靠介质传播，真空不能传声。

✦介质：可以传播声音旳物质。

✦声音在所有介质中都以声波形式传播。

⏹音速✦声音在每秒内传播旳距离叫音速。

✦声音在固体、液体中比在气体中传播得快。

✦15ºC 时空气中旳声速为340m/s 。

1.3 声音旳感知⏹外界传来旳声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。

⏹双耳效应旳应用：立体声⏹人耳能感受到（听觉）旳频率范畴约为20Hz~20kHz，称此频率范畴内旳声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。

⏹人旳发音器官发出旳声音（人声）旳频率大概是80Hz～3400Hz。

人说话旳声音（话音voice / 语音speech）旳频率一般为300Hz～3000 Hz（带宽约3kHz）。

⏹老式乐器旳发声范畴为16Hz (C2)～7kHz(a5)，如钢琴旳为27.5Hz (A2)～4186Hz(c5)。

1.4 声音旳三要素⏹声音具有三个要素：音调、响度（音量/音强）和音色⏹人们就是根据声音旳三要素来辨别声音。

音调（pitch ）⏹音调：声音旳高下（高音、低音），由“频率”（frequency）决定，频率越高音调越高。

✦声音旳频率是指每秒中声音信号变化旳次数，用Hz 表达。

例如，20Hz 表达声音信号在1 秒钟内周期性地变化20 次。

音频基础知识及编码原理

音频基础知识及编码原理音频是我们日常生活中不可或缺的一部分，它通过我们的耳朵传达声音信息。

音频的基础知识和编码原理对于我们理解音频的特性和进行音频处理都是非常重要的。

一、音频基础知识1.音频信号：音频信号是一种连续时间变化的模拟信号，它可以通过声音的压力波来传递声音信息。

在计算机中，音频信号会被采样和量化为离散的数字信号。

2.音频频率：音频频率是指声音中的振荡周期数量。

它以赫兹（Hz）为单位表示，描述了声波的频率。

人类可以听到的频率范围约为20Hz到20kHz，不同的生物和设备有着不同的频率感知范围。

3.音频幅度：音频幅度是指声音的强度或振幅。

它可以通过声音的声压级来表示，单位为分贝（dB）。

声压级越高，声音就越大；声压级越低，声音就越小。

4. 音频声道：音频声道是指音频信号的通道数量。

单声道（mono）只有一个通道，立体声（stereo）有两个通道，多声道（multi-channel）有三个或更多个通道。

5.音频采样率：音频采样率是指音频信号在单位时间内进行采样的次数。

它以赫兹（Hz）为单位表示，描述了数字音频的采样精度。

常见的采样率有44.1kHz和48kHz，高采样率可以提高音频的质量。

二、音频编码原理音频编码是将模拟音频信号转换为数字音频信号的过程。

在音频编码中，采样和量化是两个主要步骤。

1.采样：采样是将连续时间的模拟音频信号转换为离散时间的数字音频信号的过程。

采样率决定了采样的频率，即每秒钟采样的次数。

采样过程会将每个采样点的幅度值记录下来，形成一个采样序列。

2.量化：量化是将连续的模拟音频信号转换为离散的数字音频信号的过程。

它将每个采样点的幅度值映射到一个有限的数值范围内，通常使用固定的比特数来表示每个采样点的幅度。

3.压缩编码：为了减小数字音频的文件大小，音频信号通常会经过压缩编码的处理。

压缩编码可以通过去除信号中的冗余信息或者使用有损压缩算法来实现。

常见的音频压缩编码格式有MP3、AAC和FLAC等。

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。

这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。

有关音频的物理属性由于过于专业，请大家参考其他资料。

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。

PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

一、音频基本概念1、什么是采样率和采样大小（位/bit）。

声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。

波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。

我们常见的CD，采样率为。

光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。

量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。

采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。

如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。

采样率和采样大小的值越大，记录的波形更接近原始信号。

2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。

电视音频技术的基础知识

电视音频技术的基础知识电视音频技术是指在电视广播和电视节目制作中所涉及的音频相关技术。

音频在电视中扮演着重要的角色，它不仅可以提供声音的传输，还能为观众带来更具沉浸感的观影体验。

以下是一些关于电视音频技术的基础知识。

1. 音频信号：在电视中，声音通过电子设备被转换为可传输的电信号。

这些电信号可以是模拟信号或数字信号。

模拟信号是连续的波形，而数字信号是用离散的数值来表示声音的。

2. 音频编码：为了将声音传输或存储，音频编码技术被使用。

音频编码是将声音信号转换成数字格式的过程。

其中一种常用的音频编码格式是MPEG（Moving Picture Experts Group）音频编码，如MP3。

3. 音频采样率：音频采样率指音频信号在一秒钟内被采样的次数。

常见的音频采样率有44.1kHz和48kHz。

较高的采样率能提供更好的音质，但也需要更多的存储空间和传输带宽。

4. 立体声和多声道声音：电视广播中最常见的音频格式是立体声，它将声音分为左右两个声道进行传输。

而在电影院和一些家庭影院系统中，多声道音频技术被使用。

多声道音频可以提供更真实的环绕声效果，常见的多声道配置包括5.1声道和7.1声道。

5. 声音混合：在电视广播和电视节目制作中，常常需要将不同来源的声音进行混合。

声音混合是指将多个音频信号合并成单一的混合信号。

这样可以控制音量和平衡不同音频源之间的比例。

6. 音频处理：音频处理是指对音频信号进行滤波、均衡和增强等技术。

音频处理可以改善音质，使声音更加清晰和饱满。

7. 音频同步：音频同步是指在电视广播和电视节目制作中保持音频和视频之间的同步。

这是非常重要的，以确保观众可以准确地听到与所看到的画面相符的声音。

总结起来，电视音频技术是一项复杂而重要的技术，它涉及到音频信号的传输、编码、采样率、立体声和多声道音频以及音频处理等方面。

了解这些基础知识可以帮助我们更好地理解和欣赏电视音频的质量和效果。

电视音频技术是电视广播和电视节目制作中至关重要的一部分。

音频基础知识

Audio知识简介干一行专一行VS学一行丢一行第一部分：HTS基本概念：HTS（Home Theater System）通俗的讲就是将电影院搬到家里，然后就成了家庭影院，就公司的产品而言可以简单的理解为：DVD/BD player + 功放+ Speaker 组成：节目源（碟片+碟机等）+ 放声系统（AV功放+音箱组等）+显示部分（电视机/投影仪）配置家庭影院的好处：高清晰的如水晶般的画面，环绕的立体声，清晰的人声，震撼的低音效果，可以提供几乎身临其境的感觉。

在强烈的视听冲击下，能感受到现实和虚拟的完美交汇，触发更深的人生感悟。

第二部分：Audio百度定义：1.Audio指人说话的声音频率，通常指300Hz---3400Hz的频带2.指存储声音内容的文件3.在某些方面能指作为波滤的振动。

音频这个专业术语，人类能够听到的所有声音都称之为音频，它可能包括噪音，声音被录制下来以后，无论是说话声，歌声乐器都可以通过数字音乐软件处理。

把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。

而音频只是储存在计算机里的声音，演讲和音乐，如果有计算机加上相应的音频卡，可以把所有的声音录制下来，声音的声学特性，音的高低都可以用计算机硬盘文件的方式储存下来，反过来，也可以把眄来的音频文件通过一定的音频程序播放，还原以前录下的声音。

Audio的分类：按编码格式分类：mp3,wav, aac, ogg, flac, aiff, ac3(亦称之Dolby digital), dts, pcm, Dolby true hd(HD), Dolby digital plus(HD), dts hd master audio(HD), dts hd high resolution audio(HD), dts hd low bit rate(HD)多声道音频的分类：C:center L: left front R: Right frontLS: Left surround RS: right surround S: surround(单个环绕声道)LB：left back surround RB: right back surroundCs: Center surround1.带LFE声道的分法：根据码流中实际的通道数分X的值为0/1，0表示不带LFE通道，1表示含LFE通道1.x C 如1.0 为C，1.1为C+LFE2.x->L+R3.x->C+L+R4.x->L+R+LS+RS5.x->L+R+C+LS+RS6.x->L+R+C+LS+RS+Cs7.x->L+R+C+LS+RS+LB+RB2.不带LFE声音的分法：根据喇叭摆放的位置分其中C/L/R均摆放在前面，LS/RS/S/LB/RB均摆在两边/后面，如下图1/0->C2/0->L+R3/0->C+L+R2/1->L+R+S2/2->L+R+LS+RS3/1->L+R+C+S3/2->L+R+C+LS+RS3/3->L+R+C+LS+RS+Cs3/4->L+R+C+LS+RS+LB+RB3.声音信号的传输：（1）定义及I2S总线构成：I2S（Inter-IC Sound）总线是飞利浦公司为数字音频设备之间的音频数据传输而制定的一种总线标准，该总线专责于音频设备之间的数据人，广泛应用于各种多媒体系统。

音频入门知识

音频入门知识声音的概念.1. 声音是一种机械振动状态的传播现象，它表现为一种机械被即声波。

产生声波的条件:a) 有作机械振动的物体：声源 b) 有能传播机械振功的弹性介质声波示意（L. A. Rowe ）2.声波频率声压变化可以是周期性的和非周期性频率概念循环（cycle）- 压缩/稀薄过程频率（frequency）：每秒cycle 数，单位 hertz (Hz) 周期 – cycle 的持续时间 (1/frequency)声音信号一般由许多频率不同的信号组成，称为复合信号；而单一频率的信号称为分量信号时间幅度频率范围频率小于20Hz 一般称为次声波（subsonic)人的听觉器官能感知的声音频率范围约为20Hz～20kHz的信号称为音频(Audio)信号人发音器官发声频率约是80～3400Hz，但人说话的信号频率约为300～3000Hz，即话音(speech)信号高于20kHz的信号称为超声波 (ultrasonic)超声波及次声波一般不能引起人听觉器官的感觉，但可借助一些仪器设备进行观察和测量乐音与噪音1.一般乐音指具有确定的基频以及与该基频有较小整数倍关系的各阶谐频（harmonic tone）2.频率比基音高的所有分音统称泛音(over tone)，泛音的频率不必与基音成整数倍关系3.在主观上把令人不愉快或不需要的声音定义为噪音4.噪音的频谱较为复杂，具有无规则的振幅和波形的连续频谱声音三要素1.响度（音响）loudness到达人耳的声扰动振幅所产生的听觉的大小声振动能量是物理特性，可用声强（sound pressure）定义，单位:帕斯卡 (Pa)实用上通常都以对数方式的声压级 (sound pressure level)表示，单位:分贝(db)响度是主观量，不能用任何仪器正确地测量声音响度使用了以两个声强之比的对数为基础的相对标度，单位：宋（sone）2.音调（音高）pitch或tone人对声音刺激频率的主观判断与估量，称之为音调 (Pitch)，单位：美（Mel）Frequency是物理量，而音调是人的感觉听觉经验一般女生的声音比男生高较大物体振动的音调较低3.音色（音质）timber由其频谱决定: 不同乐器发出同一音高的乐音，仍然可以分辨可以把音色描述为音的瞬时横截面，即用谐音（泛音）的数目、强度、分布和相位来描述。

音频的基础知识

音频的基础知识一、计算机和网络是怎样存储、处理和传递声音的？计算机和网络存储、处理和传递的是二进制数据。

用二进制数字序列表示声音，是利用现代信息技术处理和传递声音信号的前提。

数字声音的获取有以下两种方式：1、将声音数字化2、利用MIDI设备输入或用计算机软件编写MIDI音乐二、声音的数字化模拟音频信号：声波通过话筒转变为时间上连续的电压波，电压波与引起电压波的声波的变化规律是一致的，因此可以利用电压波来模拟声音信号，这种电压波被称为模拟音频信号。

模拟/数字转换：计算机内部只能处理数字信息，因此必须借助于一种设备，将时间上连续的模拟音频信号转变为用来表示声音的数据序列，计算机才能进行识别和处理，也就是通过话筒以及相关电压放大电路把声波转换成电压的波形。

通过“采样”和“量化”可以实现模拟量的数字化，这个过程称为“模数转换”（A/D转换），承担转换任务的电路和芯片称为“数模转换器”（ADC）采样：按一定的频率，即每个一小段时间，测得模拟信号的模拟量值。

量化：采样时测的的模拟电压值，要进行分级量化。

方法是按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

通过采样和量化，一个连续的波形变成了一系列二进制数字表示的数据。

数字化的声音的质量取决于采样频率和量化分级的细密程度。

量化的分辨率越高，所得数字化的声音的保真程度也越好，数据量也越大。

在播放时，计算机还要将数字信号转化成模拟信号。

例题：在某声音的数字化过程中，使用44.1KHZ的取样频率，16位量化位数，则采集四声道的此声音1分钟所需的储存空间约为__A165.75MB B21.168MBC20.672MB D10.584MB波形声音的码率（kb/s）=44.1 * 16 * 4=2822.4kb/s2822.4kb/s=2822.4/8=352.8KB/s352.8KB/s* 60s=21168KB=20.672MB选C三、MIDI音乐MIDI是音乐设备数字接口。

音频基础知识

⾳频基础知识⼀.⾳频基础知识1.⾳频编解码原理数字⾳频的出现，是为了满⾜复制、存储、传输的需求，⾳频信号的数据量对于进⾏传输或存储形成巨⼤的压⼒，⾳频信号的压缩是在保证⼀定声⾳质量的条件下，尽可能以最⼩的数据率来表达和传送声⾳信息。

信号压缩过程是对采样、量化后的原始数字⾳频信号流运⽤适，当的数字信号处理技术进⾏信号数据的处理，将⾳频信号中去除对⼈们感受信息影响可以忽略的成分，仅仅对有⽤的那部分⾳频信号，进⾏编排，从⽽降低了参与编码的数据量。

数字⾳频信号中包含的对⼈们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余．幅度分布的⾮均匀性：信号的量化⽐特分布是针对信号的整个动态范围⽽设定的，对于⼩幅度信号⽽⾔，⼤量的⽐特数A．幅度分布的⾮均匀性据位被闲置。

B．样值间的相关性:声⾳信号是⼀个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本⾝相⽐，数据量要⼩的多。

C．信号周期的相关性:声⾳信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作⽤，即特征频率，这些特征频率会以⼀定的周期反复出现，周期之间具有相关关系。

D．长时⾃我相关性:声⾳信息序列的样值、周期相关性，在⼀个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很⾼的相关系数。

E．静⾳:声⾳信息中的停顿间歇，⽆论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2频域冗余．长时功率谱密度的⾮均匀性：任何⼀种声⾳信息，在相当长的时间间隔内，功率分布在低频部分⼤于⾼频部分，功率谱A．长时功率谱密度的⾮均匀性具有明显的⾮平坦性，对于给定的频段⽽⾔，存在相应的冗余。

B．语⾔特有的短时功率谱密度:语⾳信号在某些频率上会出现峰值，⽽在另⼀些频率上出现⾕值，这些共振峰频率具有较⼤的能量，由它们决定了不同的语⾳特征，整个语⾔的功率谱以基⾳频率为基础，形成了向⾼次谐波递减的结构。

音频的基础知识

录音制作全集（知识使用）1、人耳能听到的频率范围是20—20KHZ。

2、把声能转换成电能的设备是传声器。

3、把电能转换成声能的设备是扬声器。

4、声频系统出现声反馈啸叫，通常调节均衡器。

5、房间混响时间过长，会出现声音混浊。

6、房间混响时间过短，会出现声音发干。

7、唱歌感觉声音太干，当调节混响器。

8、讲话时出现声音混浊，可能原因是加了混响效果。

9、声音三要素是指音强、音高、音色。

10、音强对应的客观评价尺度是振幅。

11、音高对应的客观评价尺度是频率。

12、音色对应的客观评价尺度是频谱。

13、人耳感受到声剌激的响度与声振动的频率有关。

14、人耳对高声压级声音感觉的响度与频率的关系不大。

15、人耳对中频段的声音最为灵敏。

16、人耳对高频和低频段的声音感觉较迟钝。

17、人耳对低声压级声音感觉的响度与频率的关系很大。

18、等响曲线中每条曲线显示不同频率的声压级不相同,但人耳感觉的响度相同。

19、等响曲线中，每条曲线上标注的数字是表示响度级。

20、用分贝表示放大器的电压增益公式是20lg（输出电压/输入电压）。

21、响度级的单位为phon。

22、声级计测出的dB值，表示计权声压级。

23、音色是由所发声音的波形所确定的。

24、声音信号由稳态下降60dB所需的时间，称为混响时间。

25、乐音的基本要素是指旋律、节奏、和声。

26、声波的最大瞬时值称为振幅。

27、一秒内振动的次数称为频率。

28、如某一声音与已选定的1KHz纯音听起来同样响，这个1KHz纯音的声压级值就定义为待测声音的响度。

29、人耳对1~3KHZ的声音最为灵敏。

30、人耳对100Hz以下，8K以上的声音感觉较迟钝。

31、舞台两侧的早期反射声对原发声起加重和加厚作用，属有益反射声作用。

32、观众席后侧的反射声对原发声起回声作用，属有害反射作用。

33、声音在空气中传播速度约为340m/s。

34、要使体育场距离主音箱约34m的观众听不出两个声音，应当对观众附近的补声音箱加0.1s延时。

音频基础知识及编码原理

音频基础知识及编码原理音频是指能够被人耳所听到的声音信号，其本质是一种机械波，通过空气或其他物质传播。

音频编码是将这种声音信号转化为数字信号的过程，使其能够被计算机处理和传输。

下面将介绍音频的基础知识以及音频编码的原理。

一、音频基础知识1.声音的特性声音由振动体产生，通过空气或其他介质以波的形式传播。

声音具有频率、振幅和波形等特性。

频率决定了声音的音调，振幅决定了声音的响度，波形决定了声音的音色。

2.声音的数字化声音的数字化是将连续的模拟声音信号转换为离散的数字信号的过程。

通过采样、量化和编码三个步骤完成。

采样是将连续的声音信号在时间上离散化，量化是将采样后的幅度值离散化，编码是将离散化的采样值和量化值转换为二进制码流。

二、音频编码原理1.基于脉冲编码调制（PCM）的编码PCM是一种常用的音频编码方式，它将声音信号的采样值转换为相应的二进制码。

PCM编码包括采样、量化和编码三个步骤。

采样率决定了每秒采样的次数，采样位数决定了每个采样点的量化级别，位深度决定了每个采样点的分辨率。

2.基于压缩编码的编码压缩编码是为了减小音频数据的存储空间和传输带宽而设计的一种编码方案。

常见的压缩编码标准有MP3、AAC、WMA等。

压缩编码通过去除不重要的音频信号，减小冗余信息的存储和传输量。

压缩编码分为有损压缩和无损压缩两种，有损压缩会对音频信号进行一定程度的失真，而无损压缩则能够完全恢复原始音频信号。

3.基于声学模型的编码基于声学模型的编码将人耳对声音的感知特性引入编码过程中，通过对声音的重建模拟来实现更高的压缩效率。

常见的基于声学模型的编码标准有Opus、AAC-ELD等。

这种编码方式可以根据人耳对声音细节的察觉程度来决定信号的重建，从而实现压缩效率的提升。

总结起来，音频编码是将声音信号转化为数字信号的过程，使其能够被计算机处理和传输。

常见的音频编码方式包括PCM编码、基于压缩编码的编码和基于声学模型的编码。

不同的编码方式有着不同的特点和应用场景，在实际使用中需要根据具体的需求来选择合适的编码方式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一. 音频基础知识1. 音频编解码原理数字音频的出现，是为了满足复制、存储、传输的需求，音频信号的数据量对于进行传输或存储形成巨大的压力，音频信号的压缩是在保证一定声音质量的条件下，尽可能以最小的数据率来表达和传送声音信息。

信号压缩过程是对采样、量化后的原始数字音频信号流运用适，当的数字信号处理技术进行信号数据的处理，将音频信号中去除对人们感受信息影响可以忽略的成分，仅仅对有用的那部分音频信号，进行编排，从而降低了参与编码的数据量。

数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余A．幅度分布的非均匀性：信号的量化比特分布是针对信号的整个动态范围而设定的，对于小幅度信号而言，大量的比特数据位被闲置。

B．样值间的相关性:声音信号是一个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本身相比，数据量要小的多。

C．信号周期的相关性:声音信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作用，即特征频率，这些特征频率会以一定的周期反复出现，周期之间具有相关关系。

D．长时自我相关性:声音信息序列的样值、周期相关性，在一个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很高的相关系数。

E．静音:声音信息中的停顿间歇，无论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2 频域冗余A．长时功率谱密度的非均匀性：任何一种声音信息，在相当长的时间间隔内，功率分布在低频部分大于高频部分，功率谱具有明显的非平坦性，对于给定的频段而言，存在相应的冗余。

B．语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值，而在另一些频率上出现谷值，这些共振峰频率具有较大的能量，由它们决定了不同的语音特征，整个语言的功率谱以基音频率为基础，形成了向高次谐波递减的结构。

1.3 听觉冗余根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型，将通过听觉领悟信息的复杂过程，包括接受信息，识别判断和理解信号内容等几个层次的心理活动，形成相应的连觉和意境，由此构成声音信息集合中的所以数据，并非对人耳辨别声音的强度、音调、方位都产生作用，形成听觉冗余，由听觉冗余引出了降低数据率，实现更高效率的数字音频传输的可能。

2. 常见音频编解码标准2.1 AAC(Advanced Audio Codin)AAC于1997年形成国际标准ISO 13818-7。

先进音频编码AAC开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。

在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。

但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。

理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2AAC。

换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

类型：Audio制定者：MPEG所需频宽：96-128 kbps优点：支持多种音频声道组合，提供优质的音质。

应用领域：voip特性：AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。

它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。

AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。

具有48 个主要音频通道，16 个低频增强通道，16 个集成数据流, 16 个配音，16 种编排。

2.2 PCM编码(原始数字音频信号流)类型：Audio制定者：ITU-T所需频宽：1411.2 Kbps特性：音源信息完整，但冗余度过大。

优点：音源信息保存完整,音质好。

缺点：信息量大，体积大，冗余度过大。

2.3 WMA(Windows Media Audio)类型：Audio制定者：微软公司所需频宽：320～112kbps（压缩10～12倍）优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。

缺点：当Bitrate大于128K时，WMA音质损失过大。

WMA标准不开放，由微软掌握。

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。

2.4 PCMU(G.711U)类型：Audio制定者：ITU-T所需频宽：64Kbps(90.4)特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.5 PCMA(G.711A)类型：Audio制定者：ITU-T所需频宽：64Kbps(90.4)特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.6 MP3MP3（CBR、VBR、ABR）MP3应该算目前使用用户最多的有损压缩数字音频格式了。

它的全称MPEG(MPEGMoving Picture Experts Group) Audio Layer-3，1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。

刚出现时它的编码技术并不完善，它更像一个编码标准框架，留待人们去完善。

早期的MP3编码采用的的是固定编码率的方式（CBR ），我们常看到的128KBPS，就是代表它是以128KBPS固定数据速率编码——你可以提高这个编码率，最高可以到320KBPS，音质会更好，自然，文件的体积会相应增大。

因为MP3的编码方式是开放的，你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。

它的原理就是利用将一首歌的复杂部分用高 bitrate 编码，简单部分用低 bitrate 编码，通过这种方式，进一步取得质量和体积的统一。

当然，早期的Xing 编码器的 VBR 算法很差，音质与 CBR （固定码率）相去甚远。

但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。

目前公认比较好的首推 LAME，它完美地实现了 VBR 算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。

3. 音频采样通过将声波波形转换成一连串的二进制数据来再现原始声音，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。

将一串的样本连接起来，就可以描述一段声波了，这就是音频采集。

4. 常见音频参数4.1 采样位数采样位数可以理解为采集卡处理声音的解析度。

这个数值越大，解析度就越高，录制和回放的声音就越真实。

采集卡的位数客观地反映了数字声音信号对输入声音信号描述的准确程度。

市面上常用的采集卡位数如下：8位代表2的8次方--25616位则代表2的16次方--64K4.2 位速说明位速是指在一个数据流中每秒钟能通过的信息量。

您可能看到过音频文件用―128–Kbps MP3‖或―64–Kbps WMA‖进行描述的情形。

Kbps 表示―每秒千字节数‖，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是64–Kbps WMA 文件的两倍，并占用两倍的空间。

（不过在这种情况下，这两种文件听起来没什么两样。

原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，64–Kbps WMA 文件的音质与128–Kbps MP3 的音质相同。

）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。

为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是1150 Kbps，音频必须是 224 Kbps。

典型的206 MHz Pocket PC 支持的MPEG 视频可达到400 Kbps—超过这个限度播放时就会出现异常。

位速还有三种不同形式的：VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；ABR（Average Bitrate）平均比特率是VBR的一种插值参数。

LAME针对CBR 不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。

ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。

相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高。

4.3 音频采样级别（音频采样频率）数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。

将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。

采样频率越高所能描述的声波频率就越高。

采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。

在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。

对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

4.4 音频采样频率音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。

对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值；5kHz的采样率仅能达到人们讲话的声音质量；11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一；22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率；44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。