音频基础知识

一. 音频基础知识

1. 音频编解码原理

数字音频的出现，是为了满足复制、存储、传输的需求，音频信号的数据量对于进行传输或存储形成巨大的压力，音频信号的压缩是在保证一定声音质量的条件下，尽可能以最小的数据率来表达和传送声音信息。信号压缩过程是对采样、量化后的原始数字音频信号流运用适，当的数字信号处理技术进行信号数据的处理，将音频信号中去除对人们感受信息影响可以忽略的成分，仅仅对有用的那部分音频信号，进行编排，从而降低了参与编码的数据量。

数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余

A．幅度分布的非均匀性：信号的量化比特分布是针对信号的整个动态范围而设定的，对于小幅度信号而言，大量的比特数据位被闲置。

B．样值间的相关性:声音信号是一个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本身相比，数据量要小的多。

C．信号周期的相关性:声音信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作用，即特征频率，这些特征频率会以一定的周期反复出现，周

期之间具有相关关系。

D．长时自我相关性:声音信息序列的样值、周期相关性，在一个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很高的相关系数。

E．静音:声音信息中的停顿间歇，无论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2 频域冗余

A．长时功率谱密度的非均匀性：任何一种声音信息，在相当长的时间间隔内，功率分布在低频部分大于高频部分，功率谱具有明显的非平坦性，对于给定

的频段而言，存在相应的冗余。

B．语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值，而在另一些频率上出现谷值，这些共振峰频率具有较大的能量，由它们决定了不同的语

音特征，整个语言的功率谱以基音频率为基础，形成了向高次谐波递减的结

构。

1.3 听觉冗余

根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型，将通过听觉领悟信息的复杂过程，包括接受信息，识别判断和理解信号内容等

几个层次的心理活动，形成相应的连觉和意境，由此构成声音信息集合中的所以数

据，并非对人耳辨别声音的强度、音调、方位都产生作用，形成听觉冗余，由听觉

冗余引出了降低数据率，实现更高效率的数字音频传输的可能。

2. 常见音频编解码标准

2.1 AAC(Advanced Audio Codin)

AAC于1997年形成国际标准ISO 13818-7。先进音频编码AAC开发成功，

成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。

在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多

声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2

AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不

同的工具。

类型：Audio

制定者：MPEG

所需频宽：96-128 kbps

优点：支持多种音频声道组合，提供优质的音质。

应用领域：voip

特性：AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道，16 个低频增强通道，

16 个集成数据流, 16 个配音，16 种编排。

2.2 PCM编码(原始数字音频信号流)

类型：Audio

制定者：ITU-T

所需频宽：1411.2 Kbps

特性：音源信息完整，但冗余度过大。

优点：音源信息保存完整,音质好。

缺点：信息量大，体积大，冗余度过大。

2.3 WMA(Windows Media Audio)

类型：Audio

制定者：微软公司

所需频宽：320～112kbps（压缩10～12倍）

优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。

缺点：当Bitrate大于128K时，WMA音质损失过大。WMA标准不开放，由微软掌握。

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k是WMA一个槛，当Bitrate再往上提升

时，不会有太多的音质改变。

2.4 PCMU(G.711U)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.5 PCMA(G.711A)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，

需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.6 MP3

MP3（CBR、VBR、ABR）MP3应该算目前使用用户最多的有损压缩数字音频格式了。它的全称MPEG(MPEGMoving Picture Experts Group) Audio Layer-3，

1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善，它更像一个编码标准框架，留待人们去完善。早期的MP3编码采用的的是固定编码率的方式（CBR ），我们常看到的128KBPS，就是代表它是以128KBPS固定数据速率编码——你可以提高这个编码率，最高可以到320KBPS，音质会更好，自然，文件的体积会相应增大。因为MP3的编码方式是开放的，你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。它的原理就是利用将一首歌的复杂部分用高 bitrate 编码，简单部分用低 bitrate 编码，通过这种方式，进一步取得质量和体积的统一。当然，早期的Xing 编码器的 VBR 算法很差，音质与 CBR （固定码率）相去甚远。但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。目前公认比较好的首推 LAME，它完美地实现了 VBR 算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。

3. 音频采样

通过将声波波形转换成一连串的二进制数据来再现原始声音，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，这就是音频采集。

4. 常见音频参数

4.1 采样位数

采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。采集卡的位数客观地反映了数字声音信号对输入声音信号描述的准确程度。市面上常用的采集卡位数如下：

8位代表2的8次方--256

16位则代表2的16次方--64K

4.2 位速说明

位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用―128–Kbps MP3‖或―64–Kbps WMA‖进行描述的情形。Kbps 表示―每秒千字节数‖，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是64–Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，64–Kbps WMA 文件的音质与128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。

为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是1150 Kbps，音频必须是 224 Kbps。典型的

206 MHz Pocket PC 支持的MPEG 视频可达到400 Kbps—超过这个限度播放时就会出现异常。位速还有三种不同形式的：

VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；

ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR 不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高。

4.3 音频采样级别（音频采样频率）

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自

然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

4.4 音频采样频率

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05KHz只能达到FM广播的声音品质，

44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采

样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值；5kHz的采样率仅能达到人们讲话的声音质量；11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一；22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率；44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。

5.影响音频质量的因素

比特率、数据压缩率、压缩技术。

录音技术基础知识

个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上

数字音频基础知识

第一章数字音频基础知识主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。 ?人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。 ?乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。 ?噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。 1.2 声音的传播 ?声音靠介质传播，真空不能传声。 ?介质：能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。 ?双耳效应的应用：立体声 ?人耳能感受到（听觉）的频率范围约为20Hz~ 20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。 ?人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。 ?传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素：音调、响度（音量/音强）和音色 ?人们就是根据声音的三要素来区分声音。音调（pitch ） ?音调：声音的高低（高音、低音），由―频率‖（frequency）决定，频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。 ?低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度（loudness ） ?响度：又称音量、音强，指人主观上感觉声音的大小，由―振幅‖（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）音色（music quality） ?音色：又称音品，由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。 1.5 声道

音视频技术基本知识一

https://www.360docs.net/doc/da3347458.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式？C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式？B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式？D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式？D a)MP4：AVC+AAC b)3GP：AVC+AMR-NB c)FLV：H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端（iphone，ipod，ipad）本地播放器支持以下哪种视频编码？B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架（Profile）？D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称？A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps，需要每秒2个关键帧，则每隔多少帧需设置一个关键帧？A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的？D a)H.264+MP3，350K+32K，15fps，22050，320x240 b)H.264+MP3，350K+32K，15fps，22050，320x240 H.264+MP3，500K+64K，25fps，44100，480x320 c)H.264+MP3，500K+64K，25fps，44100，480x320 H.264+MP3，800K+64K，25fps，44100，640x480 d)ONVP6+MP3，300K+32K，12fps，22050，480x320 ONVP6+MP3，400K+32K，12fps，22050，320x240 ONVP6+MP3，500K+32K，12fps，22050，240x180

录音技术基础知识

录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

录音技术基础知识

录音技术基础知识基本录音/多轨录音无论是盒式磁带录音机、数码多轨录音机、硬盘录音机，还是其它录音媒体，其录音过程大致相同，目的都是将声音获取到缩混带上。做此工作，录音工程师采用两个步骤： 1、多轨录音——各种乐器和人声的录音与叠加录音的过程，每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上（“母带录音”），可以用某种播放系统如CD播放机或磁带卡座等进行再制作。录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，以便在播放任意一种音色时，同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。换言之，假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.360docs.net/doc/da3347458.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.360docs.net/doc/da3347458.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

日常生活中的音视频功能端口基础知识

Composite Video Output(模拟信号) 复合视频端子也叫AV端子或者Video端子，是声、画分离的视频端子，一般由三个独立的RCA插头（又叫梅花接口RCA端子）组成的，其中的V接口连接混合视频信号，为黄色插口；L接口连接左声道声音信号，为白色插口；R接口连接右声道声音信号，为红色插口。 S-Video Output（不适用于高清视频，其信号最高分辨率有限） S端子也是非常常见的端子，其全称是Separate Video，也称为SUPER VIDEO。S端子实际上是一种五芯接口，由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成 HDMI Output 高清晰度多媒体接口（英文：High Definition Multimedia Interface，HDMI）是一种数字化视频/音频接口技术，是适合影像传输的专用型数字化接口，其可同时传送音频和影音信号，最高数据传输速度为5Gbps。同时无需在信号传送前进行数/模或者模/数转换。 DVI DVI的英文全名为Digital Visual Interface，中文称为“数字视频接口”。是一种视频接口标准，设计的目标是通过数字化的传送来强化个人电脑显示器的画面品质。

RJ45 / Ethernet RJ45 型网线插头又称水晶头，共有八芯做成，广泛应用于局域网和ADSL 宽带上网用户的网络设备间网线（称作五类线或双绞线）的连接。10 100base tx RJ45接口是常用的以太网接口，支持10兆和100兆自适应的网络连接速度，常见的RJ45接口有两类：用于以太网网卡、路由器以太网接口等的DTE类型，还有用于交换机等的DCE类型。常见音视频格式： MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III）。是当今较流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量WMA(Windows Media Audio)是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3 Dolby Digital杜比数字技术（英文名称：Dolby Digital），是杜比实验室发布的新一代家庭影院环绕声系统。其数字化的伴音中包含左前置、中置、右前置、左环绕、右环绕5个声道的信号。它是DVD-Video影碟的指定音频标准。广泛应用于卫星电视机顶盒、数字有线等领域。Dolby Digital Plus 杜比数字+技术是专为所有的高清节目与媒体所设计的下一代音频技术。杜比数字+技术建立在杜比数字技术的基础之上，杜比数字技术是全世界DVD和高清广播节目的多声道音频标准。 Dolby TrueHD 杜比TrueHD是专为高清光盘媒体所开发的下一代无损压缩技术。特点100％无损的编码技术。码率高达18 Mbps。支持多达八个分离式24比特/96 kHz全频带声道。碟片类型种类： CD 英语：Compact Disc），是一种用以储存数字资料的光学碟片。容量：700MB CD-R Compact Disk-Recordable, CD-R是一种一次写入、永久读的标准。其工作原理是通过激光照射到盘片上的“凹陷”和“平地”其反射光的变化来读取的；CD-ROM的“凹陷”是印制的，而CD-R是由刻录机烧制而成。 CD-RW 可擦写光盘。盘片由于采用了相变技术，它的激光反射率比一般的CD盘片要低很多。D-RW驱动器的激光头有两种波长设置，分别为写（P-Write）和擦除（P-Eraze），刻录时（500～700摄氏度）使该物质的分子自由运动，多晶结构被改变，呈现一种非晶状（随即）状态（反射率只有5％）。而擦除数据就利用（200℃）温度让刻录层物质恢复到多晶结构（即CD-RW 光盘初始状态）。 DVD 数字多功能光盘（英文：Digital Versatile Disc），简称DVD，是一种光盘存储器，通常用来播放标准电视机清晰度的电影，高质量的音乐与作大容量存储数据用途。 DVD-R 采用有机染料的方法制成，容量：4.7GB。 DVD-RW 可重写超过1,000次。容量都是4.7GB

音频基础知识

一般认为20Hz－20kHz是人耳听觉频带，称为“声频”。这个频段的声音称为“可闻声”，高于20kHz的称为“超声”，低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别，所以二者的接线方法是不一样的，应引起注意。声学的基本概念音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如： 1．语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定，即以主观打分（MOS）来度量，它分为以下五级：5（优），不察觉失真；4（良），刚察觉失真，但不讨厌；3（中），察觉失真，稍微讨厌；2（差），讨厌，但不令人反感；

专业音频中的十个知识点

专业音频中的十个知识点 1.如果音乐家们在舞台上能够听到他们所需要的声音，那他们会感觉非常舒适，在舞台上的表现往往也会更好。当然，那些经验丰富的监听技术人员还有录音技术人员肯定是知道这一点的。但是对那些经验不足的人来说，了解这一点是非常重要的。这并不是一个关于需要使用多大的功率的问题，也不是一个关于需要使用什么样的楔形返听音箱的问题。这其实是一个关于心理学的问题。而且我认为，如果您了解了舞台监听的技术，并且知道如何取悦舞台上的音乐家们，那么您就已经达到了成为一名优秀的混音工程师90%的条件。当然，最后的那10%可能要靠天赋，运气等等其他因素，但是如果没有之前的那90%的基础，无论您有多好的天赋和运气都没有用。 2.在海拔高度为海平面高度，温度为68华氏度，相对湿度为4%的条件下，声音的传播速度是每秒1,130英尺。这是非常重要的信息，因为如果您对声音传播的方式有着足够的了解，那么在工作中，您会对麦克风的架设，延迟塔的设置，以及平衡前后延迟这类问题拥有更深入的了解。不仅如此，您还应该知道，声音的传播速度是会随着空气的温度，湿度和海拔高度的变化而变化。(如果您对此还不了解，那么请尽快学习一下相关的知识。)

3.反平方定律。如果距离声源的距离每增加一倍，那么声功率就会减少为原来的四分之一，我想这一点很多人都是知道的。这一定律几乎可以适用于所有的地方，无论是麦克风还是扬声器阵列。了解这一定律，对于我们确定功率放大器所需的功率十分重要。例如，如果您通常所使用的扬声器阵列所能覆盖的观众席区域是从20英尺到60英尺，而在某一个演出当中，观众席的区域是在40到100英尺之间，那么您需要使用多大的功率才能在观众席内维持相同的声功率?答案是：大约四倍的功率! 反平方定律，如上图所示 4.人类听觉系统的等响度曲线(等响曲线)。早在20世纪30年代，Harvey Fletcher和他在贝尔实验室领导的团队就通过了一系列试验，获得了如下这张等响曲线图。从图中我们可以看出人类的耳朵对于中高频率信号最为敏感，而对于频率非常低和频率非常高的声音信号，最不敏感。换句话说，如果我们想让100 Hz的音调与3.5 kHz的音调听起来一样大，100 Hz时的声音必须比3.5 kHz时的声音大上15 dB!(这里我们假设3.5 kHz的音调为85 dB SPL)

现代录音基础知识

现代录音基础知识（上）快速录音基础知识入门连载（一）录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。什么是叠加？假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可以找到），XLR（一般用于话筒）和1/4inch（一般用于乐器）。

视频音频编码知识

audio。AAC（Advanced Audio Coder)区别于ac3，mp3（全称MPEG1 Layer3，可不是MPEG3的缩写哦)等等，aac是Mp4官方指定的mp4音频规格。和video一样，她也有两个profile： - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据，HE比LC更高级一些，允许你在相同音质下已更低的bitrate编码。帧间压缩。其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。