音频基础知识

很多音乐爱好者都想选购适合自己的耳机，但是，看到复杂的耳机参数和商家的宣传后就不知道该如何选择了，因此总结该帖子，希望能给大家点帮助。

1、耳机的类型

耳机根据其换能方式分类，主要有动圈方式、静电式和等磁式。从结构上分开方式，半开放式和封闭式。从佩带形式上则有耳塞式，挂耳式和头带式。

2、开放式与密闭式耳机的区别

开放式耳机的外壳是开放的，开放式耳机质量轻，声音自然，无压迫感。因为是开放的，声音外泄，外界噪声也会进入。

半开放耳机是指耳机的开放是选择性的，即只对某些频率开放对其他频率是封闭的，或者是在一定方向上是开放的在其他方向是封闭的。

封闭式耳机的外壳是封闭的，防止外界声音进入，声音外泄减少，在专业监听中使用的很多。声音一般来说非常清晰，细节丰富，低频响应非常好，对大多数人来说封闭式耳机佩带有密闭只感。

3、什么是高保真耳机？

国际电工委员会IEC581-10标准高保真耳机的主要性能是：频率响音不低于50Hz到12500Hz；典型频率响应的允许误差±3dB；频率响应曲线的斜率不超过没倍频程9dB在250Hz-800Hz内左右单元在同一倍频程带宽内平均声压级之差不超过2dB，100Hz-5000Hz范围内，声压级为94dB时，谐波失真不超过1%，100dB时不超过3%；耳机的频率响应在2KHz- 5KHz之间允许有所下降，以改善透明度和空间感。

4、什么是耳机的频响范围？

频响范围是指耳机能够放送出的频带的宽度，优秀的耳机频响宽度可达

5Hz- 40000Hz，而人耳的听觉范围仅在20Hz-20000Hz。值得注意的是界定频响宽度的标准是不同的，例如以低于平均输出幅度的1/2为标准或低于1/4为标准，这显然是不一样的。一般的生产商是一输出幅度降低1/2为标准测出频响宽度，这就是说以-3dB为标准，但是由于所采用的测试标准不同，有一些产品是以-10dB为测量的。这实际上是等于低于正常值1/16下为标准测量的。因此频响宽度的啊大展宽。用户在选购时，应注意不同品牌的耳机的频响宽度可能可能有不用的测试标准。

5、什么叫耳机的阻抗？

耳机的阻抗是其交流阻抗的简称，它的大小是线圈直流电阻抗在200Ω以上，这是为了有专业机上的耳机插口匹配。在台式机或功放、VCD、DVD电视等有耳机插孔输出的机器上，一般使用中高阻抗的耳机比较适宜。如果使用低阻

耳机，一定先要把音量调低再插上耳机，再一点点把音量调上去，阻止耳机过载将耳机烧坏或是音圈变形错位造成破音，阻抗的耳机一般比较容易推动，因此随身听等便携、省电的机器应选择低阻抗耳机，同时还要注意灵敏度要高，对随身听来说灵敏度指标更加重要。

6、什么是耳机的谐波失真？

谐波失真就是一种波形失真，在耳机指标中有标示，失真越小，音质也就越好。

7、什么是耳机的灵敏度？

通俗的讲，耳机的灵敏度就是指在同样的响度的情况下，需要输入的功率的大小，灵敏度越高所需要的输入功率越小。对于随身听等便携设备来说，灵敏度是一个很值得重视的指标。当然，对于台式机来说，这个指标相对来说就不那么重要了。

8、线材对于耳机声音的影响。

线材对于耳机声音的影响已经是不争的事实。大多数耳机线都以铜为原料，一般的纯度越高导电性越好，信号失真越小，常见的线材有TPC（电解铜）：纯度为99.5%；OFC（无氧铜）：纯度为99.995%；C-OFC（线形结晶无氧铜或结晶无氧铜）：纯度在99.995%以上；OCC（单晶无氧铜）：纯度最高，在99.996%以上。在HI-FI系统中不同的信号线、音箱都明显地改变声音的特质，耳机当然也不例外，最近几年国外推出了几款线材，为HD580和600换线材提供了条件，著名的线材如瑞典的Clou和美国的卡达时等。

9、在什么情况下要给耳机配备功放？

给耳配功放有如下三种情况，一是所用的音源，例如CD/DVD机上没有耳机专用输出插孔，这时可以配一只耳机功放，从CD/DVD机的音频线路输出（LINE OUT）用两条信号线接到功放的音频输入插口即可。

第二种情况是，低灵敏度、高阻抗的耳机，用现有的音源如随身听推不动，那么也要选购耳机功放。

第三种情况是中高档的耳机，用现有的耳机插孔推出这类耳机还不能发挥出耳机的潜能，增加一个耳机功放能使音质进一步的提升，这种情况下，我们就应该考虑添置一个高品质的耳机功放了。

10、电子管耳机功放货物晶体管耳机功放该如何选购？

目前市场上的电子管耳机功放大都采用阴级输出器做末级功放，这种类型的电路结构应该说是很合理的。因此被多数厂家采用。但是这种电路输出阻抗高，只能配200、300欧以上的耳机，并且阻抗越高失真越小。

晶体管耳机的功放末级采用OTL电路，对阻抗的要求不严格，而且阻抗越低，输出电流越大，功率也越大。因此晶体管功放高、中、低阻通吃，但以以推中低阻抗耳机为佳。

发烧理论之一！人声效果的精细处理对人声效果的处理，大多数人都是使用反复试探性调节的方法，以寻找音感效果最好的处理效果。此种调音方式的不足十分明显：

（1）寻找一个理想的调音效果，需经多次猜测，所以需要教长的时间。（2）较好的调音效果常常是偶然遇到的，这对于调音规律的归纳总结没什么帮助，并且以后也不易再现。

（3）不同设备的各项固定参数和可调参数都不尽相同，因而使用某一设备的经验，通常都无法用于另一设备。

发展到目前的效果处理设备，用于改变音源音色的技术手段并不太多，其中比较常用的只有频率均衡、延时反馈、限幅失真等3种基本方法，然而这些效果处理设备的不同参数组合所产生的音色则大相径庭。

效果处理器的参数设置可以有很多项，尤其是延时反馈，这种模拟混响效果参数的设置理论上可达几十项之多。当然这些专业性极强的参数，大多数人都难以理解，也不知道如何理解。因此，大部分效果处理设备都只设置一、二个可调参数，并且其可调范围也比较狭窄。这种调整简单的效果处理设备容许人们在上面进行尝试性调整，而不会出现太大的问题。

频率均衡

很明显，频率均衡的分段越多，效果处理的精细程度也就越高。除了图示均衡，一般调音的均衡单元通常只有三四个频段，这显然满足不了精确处理音源的要求。为了能足够灵活的对人声进行任意的均衡处理，我们建议使用增益、频点和宽度都可调整的四段频率均衡。

多数频率均衡的可调参数只有增益一项，然而这并不意味着其他两项参数不存在，而且这两项参数为不可调的固定参数。当然这两项参数设置为可调也并非难事，但这些会增加设备的成本，并使其调整变得复杂化。所以增益、频点和宽度都可调整的参量均衡电路，通常只有在高档设备上才能见到。

实际上，增益、频点和宽度都是可调整的频率均衡，几乎不可能使用胡猜乱试的方法找出一个理想的音色。在这里我们必须研究音频信号的物理特性、技术参数以及他在人耳听感上的对应关系。

人声音源的频谱分布比较特殊，就其发音方式而言，他有三个部分：一个是由声带震动所产生的乐音，此部分的发音最为灵活，不同音高、不同发音方式所产生的频谱变化也很大；二是鼻腔的形状较为稳定，因而其共鸣所产生的谐音频谱分布变化不大；三是口腔气流在齿缝间的摩擦声，这种齿音与声带震动所产生的乐音基本无关。

频率均衡可以大致的将这三部分频谱分离出来

用语调节鼻音的频率段在500Hz，以下均衡的中点频率一般在80~150Hz，均衡带宽为4个倍频程。例如，可以将100Hz定为频率均衡的中点，均衡曲线应从100~400Hz平缓的过渡，均衡增益的调节范围可以为+10Db~ -6dB。

人声乐音的频谱随音调的变化也很大，所以调节乐音的均衡曲线应非常平缓，

均衡的中点频率可在1000~3400Hz，均衡带宽为六个倍频程。此频段控制着歌唱发音的明亮感，向上调节可温和地提升人声的亮度。然而如需降低人声的明亮度，情况就会更复杂一些。一般音感过分明亮的人声大多都是2500Hz附近的频谱较强，这里我们可用均衡带宽为1/2倍频程，均衡增益为-4dB左右的均衡处理，在2500Hz附近寻找一个效果最好的频点即可。

人声齿音的频谱分布在4kHz以上。由于此频段亦包含部分乐音频谱，所以建议调节齿音的频段应为6~16KHz，均衡带宽为3个倍频程，均衡中点频率一般在10~12KHz，均衡增益最大向上可调至+10Db；如需向下降低人声齿音的响度，则应使用均衡带宽为1/2倍频程，均衡中点频率为6800Hz的均衡处理，其均衡增益最低可向下降至-10dB。

由以上分析可以看出，对人声进行频率均衡处理时，为突出某一音感而进行的频段提升，都尽量使用曲线平缓的宽频带均衡。这是为了使人声鼻音、乐音、齿音三部分的频谱分布均匀连贯，以使其发音自然、顺畅。从理论上讲，应使人声在发任何音时，其响度都保持恒定。

为了在不破坏人生自然感的基础上对其进行特定效果的处理可以使用1/5倍频

程的均衡处理，具体有以下几种情形：

（1）音感狭窄，缺乏厚度，可在800Hz处使用1/5倍频程的衰减处理，衰减的最大值可以在-3dB。

（2）卷舌齿音的音感尖啸，"嘘"音缺乏清澈感，可在2500Hz处使用1/5倍频程的衰减处理，衰减的最大值可以在-6dB。

对音源的均衡处理，最好是使用能显示均衡曲线的均衡器。一般数字调音台均衡器上的均衡增益调节钮用"G"来标识，均衡频率调节钮用"F"来标识，均衡带宽调节钮用"F"或"Q"来标识。

延时反馈

延时反馈是效果处理当中应用最为广泛，但也是最为复杂的方式。其中，混响、合唱、镶边、回声等效果，其基本处理方式都是延时反馈。

1、混响

混响效果主要是用于增加音源的融合感。自然音源的延时声阵列非常密集、复杂，所以模拟混响效果

的程序也复杂多变。常见参数有以下几种：

混响时间：能逼真的模拟自然混响的数码混响器上都有一套复杂的程序，其上虽然有很多技术参数可

调，然而对这些技术参数的调整都不会比原有的效果更为自然，尤其是混响时间。高频滚降：此项参数用于模拟自然混响当中，空气对高频的吸收效应，以产生较为自然的混响效果。

一般高频混降的可调范围为0.1~1.0。此值较高时，混响效果也较接近自然混响；此值较低时，混响效

果则较清澈。

扩散度：

此项参数可调整混响声阵密度的增长速度，其可调范围为0~10，其值较高时，混响效果比较丰厚、

温暖：

其值较低时，混响效果则较空旷、冷僻。

预延时：

自然混响声阵的建立都会延迟一段时间，预延时即为模拟次效应而设置。

声阵密度：

此项参数可调整声阵的密度，其值较高时，混响效果较为温暖，但有明显的声染色；其值较低时，混响效果较深邃，切声染色也较弱。

频率调制：

这是一项技术性的参数，因为电子混响的声阵密度比自然混响稀疏，为了使混响的声音比较平滑、连贯，需要对混响声阵列的延时时间进行调制。此项技术可以有效的消除延时声阵列的段裂声，可以增加混响声的柔和感。

调治深度：指上述调频电路的调治深度。

混响类型：

不同空间的自然混响声阵列差别也较大，而这种差别也不是一两项参数就能表现的。在数码混响器当中，不同的自然混响需要不同的程序。

空间尺寸：这是为了配合自然混响效果而设置的，很容易理解。

空间活跃度：活跃度，就是一个空间的混响强度，他与空间周围吸声特性有关，此项参数即用于调节此特性。

早期反射声与混响声的平衡：

混响的早期反射声与其处理效果特性关系密切，而混响声阵的音感则不那么变化多端，所以数码混响器的这两部分的生成是分开的，本参数就是用于调整早期反射声与混响声阵之间响度平衡。

早期反射声与混响声的延时时间：即早期反射声与混响声阵之间的延时时间控制。此时间较长，混响效果的前段就较清澈；此时间较短，早期反射声与混响声就会重叠在一起，混响效果的前段就较浑浊。

除以上可调参数之外，混响效果还有一些其他附属参数，例如低通滤波、高通滤波、直达/混响声的响度平衡控制等。

2、延时

延时就是将音源延迟一段时间后，再欲播放的效果处理。依其延迟时间的不同，可分别产生合唱、镶边、回音等效果。

当延迟时间在3~35ms之间时人耳感觉不到滞后音的存在，并且他与原音源叠加后，会因其相位干涉而产生"梳状滤波"效应，这就是镶边效果。如果延迟时间在50ms以上时，其延迟音就清晰可辨，此时的处理效果才是回音。回音处理一般都是用于产生简单的混响效果。

延时、合唱、镶边、回音等效果的可调参数都差不多，具体有以下几项：

*延时时间（Dly），即主延时电路的延时时间调整。

*反馈增益（FB Gain），即延时反馈的增益控制。

*反馈高频比（Hi Ratio），即反馈回路上的高频衰减控制。

*调制频率（Freq），指主延时的调频周期。

*调制深度（Depth），指上述调频电路的调制深度。

*高频增益（HF），指高频均衡控制。

*预延时（Ini Dly），指主延时电路预延时时间调整。

*均衡频率（EQ F），这里的频率均衡用于音色调整，此为均衡的中点频率选择。

由于延时产生的效果都比较复杂多变，如果不是效果处理专家，建议使用设备提供的预置参数，因为这些预置参数给出的处理效果一般都比较好。

声激励

对音源信号进行浅度的限幅处理，音响便会产生一种类似"饱和"的音感效果从而使其发音在不提高其实际响度的基础上有响度增大的效果。

一些数码效果器上也配有非线性饱和效果，他就是对信号的振幅处理，模拟大电瓶信号在三极管上的饱和所引起的非线性，从而产生出"发硬"的音感效果。由于限幅失真所引起的主要是产生额外的高次谐波成分，因而新设计的激励器，为了使其处理效果柔和一些，都是通过在音源中家置高次载波成分来模拟限幅失真，营造不那么"嘶哑"的声激励效果。

另外，通过一个用于加强高次谐波的高通滤波器对原信号进行处理，然后再叠加在经延时的原信号上，可以营造出音头清澈的声效果。显然、这种处理方式可以产生出不那么嘈杂的激励处理。

激励处理类似于音响设备的过载失真，因而对音源的过量激励，会产生令人不悦的嘈杂感。由于早期音响设备的保真度都不高，人们已经习惯了那种稍显嘈杂的音响，而对于音感清洁的高保真度音响，反而不太习惯，感觉其发音过分柔弱。在人声音源当中，除了一少部分经过专门训练的人之外，大部分的发言都缺乏劲度，因而这里的激励处理是十分必要的。

对人声的激励处理有下面几种情形：

(1)对人声乐音的激励处理，其频谱分布以2500Hz为中点。此种激励的效果比较自然舒适、对增加音源突出感的作用也比较明显。

(2)对人声鼻音的激励处理，其频谱分布以500Hz为中点。此种激励可以有效地增大人声的劲度感。

(3)对人声800Hz附近进行激励，可以增加音源的喧嚣感，当然此处理方式的使用应十分谨慎，最好是只用于摇滚乐的演唱。

(4)对人声3500-6800Hz范围内的频谱，不宜使用激励处理，因为它容易使音源产生令人不悦的嘈杂声响。

(5)对人声的齿音一般应避免使用激励处理，因为此频段的失真很容易被人察觉。当然如果是使用激励效果比较柔和的数字式激励器，也可以对齿音做轻微的激励处理，以用于加重齿音的清析感。其处理的频谱应在7200Hz以上。

歌唱发音的激励处理通常要保守一些。在实际的调音当中，激励处理的音感效果有可能随长时间的听音而逐渐弱化，所以在调节激励效果时，时间不要超过10分钟。

对人声音源的激励处理，最好是使用数码效果处理器。它通常有以下几项调整参量：

1.输入增益(Gmn)，用于调节输入电平，注意此处切勿使设备产生过载。

2.调谐频率(Tuning)，根据需要处理的频段，选择一个合适的频率。

3.驱动电平(Drive)，用于调整激励的深度。驱动电平较大时，效果比较嘈杂；驱动电平较小时，效果则比较温和。

4.混合比率(Mix)，即原信号与效果信号的响度比。

效果处理的整体规划

对人声音源的精细处理，需要使用1台全数字式调音台，至少3台数字式效

果器和一台数字式激励器，其连接方式如附图所示。

首先在调音台上，使用通道均衡控制单元对人声进行音色调整，以使其音感得以改善，这里给出几个常用的例子。

(1)8OOHz附近的频段可使人产生某种厌烦感，因而是可在此频段予以最大为15dB的衰减，频带宽度为1／5倍频程，用于改善人声发音的总印象；

(2)68O0Hz附近的频段可使人声产生尖啸、刺耳的感觉，可在此频段予以最大为10dB的衰减，频带宽度为l／5倍频程，用以减弱齿音的尖啸感；

(3)对于发音过亮、有炸耳棍子的感觉者，可在3400Hz处予以最大为8dB的衰减，频带宽度为1／3倍频程；

(4)对于鼻音过重者，可在500Hz以下频段适当衰减，衰减带宽为3倍频程；

(5)齿音的超高频段由于受人耳灵敏度的影响，需对12KHz处提升6dB(频带宽度为2倍频程)，其响度才能与人声的乐音平衡。

最后就是调整混响效果。这里的混响效果包含两个方面，一个是基础润饰，另一个是强染色。

混响处理的基础润饰，主要是为了增加音源的融和性，但又不能让人听出有房间残响。此处的混响处理的强染色效果，

主要是用于为音源生成余音缭绕渲染性，其处理方式有以下3种情形：

(1)生成空间感。使用厅堂或房间混响效果。模拟余音明显的自然混响效果，是混响处理简单而又有效

的方式，对此效果通道上3500Hz附近的频段稍作提升，可以产生穿透感良好的高亮度声响。当然，也有一个缺点，即处理的效果比较浑浊，有时带有一种"闷罐"声响。

(2)生成回音。长延时时间的延时反馈处理，可以模拟山谷回音效果；处理的延时时间一般都与演唱歌曲的节奏合拍。为使其效果更具有遥远感，可对其1600Hz以下和3800Hz以上的频段适量衰减。模拟山谷回音效果，很多数码效果处理器上都有现成的程序可供使用。

(3)生成融和的声背景。余音缭绕的混响效果对人声音源的美化作用非常有效，几乎所有的人声演唱都要使用混响。在不导致其发音变浑，或引起"闷罐"声的前提下，我们认为混响效果越强越好，但实际常常是混响效果还很弱时，其发音已经变浑，并引起明显的"闷罐"声。

发烧理论之二！对人声音色的调节无论人声、歌声，还是乐器的声音，它们都不是一个单音，而是一个复合音。

也就是由声音的基音和一系列的泛音所构成。这些泛音都是基音频率的位数，物理学叫分音，电声学叫谐波，音乐中叫泛音。它对音色的特性有非常重要的影响。这些泛音的数量和泛音幅茺的不同构成音色的频率特性曲线。这条曲线就体再了音色的表现力。例如，钢琴的最低音频率是27.5Hz,最高音频率是4186Hz，而钢琴有十几个泛音，它的高频可达10Kh ~ 20kHz，一般可测到16个泛音或24个泛音。这些泛音可分为低频泛音、中频泛音和高频泛音,如果

低频泛音的幅度较强，音色就表现得混厚；

中频泛音的幅度比较强，音色就表现得圆润、自然、和谐；

高频泛音的幅度比较强，音色就表现得明亮、清透、解析力强。

频谱曲线:就是将音色的各泛凌晨幅度的顶点在坐标上连接起来，这个包路线就

是这个凌晨色的频谱曲线。

一个音色的频谱曲线各不相同，这和发声体的物质结构、状态和发声的力度以及共振体的不同而各不相同。

什么是最佳的音色呢？

根据意大利美声学的观点，就是将基音到第16个泛音的强度在坐标上连成一条直线，这条直线就被称为最佳美声线，如图2所示。那么，哪个音色的频率特性曲线越接近这条直线，哪个音色的低、中、高频泛音的比例也最为均衡，其音色的艺术表现力也最为尚佳。

在对人声的美化、修饰上，可以通过调音台上面的输入通道中的四段均衡器，对音色进行频率处理，来提高音色的艺术表现力。调音台中的四段均衡器分为的4个频段，根据德车柏林音乐研究所资料介绍，它们是：

HF：6-16 kHz，影响音色的表现力、解析力。

MID HF：600Hz~6 kHz，影响音色的明亮度、清晰度。

MID HF：200~600Hz，影响音色和力茺和结实度。

LF：20~200Hz，影响音色的混厚度和丰满度。

如果高频段频率过弱，其音色就变得色彩、韵味、个性的失落；如果高频段频率过强，音色就会变得尖噪、嘶哑、刺耳。

如果中高频段的频率过弱，音色就变得暗淡、朦胧；如果中高频段的频率过强，其音色就会变得呆板。

如果中低频段的频率过弱，音色会变得空虚、无力、软绵绵的；如果中低频段的频率过强，音色会变得生硬、失去活力。

如果低频段的频率过弱，音色将会变得单薄、苍白；如果低频段的频率过强，音色会变得浑浊不清。

四频段的音色特性如附表所示。

四段均衡器的频率特性

附表：

频段\感觉\状态

人耳的听觉感受过低丰满过高

6-20kHz韵味失落色彩鲜明富于表现力尖噪、嘶哑刺耳

600Hz-6kHz暗淡、朦胧明亮、清晰呆板

200-600Hz空虚无力圆润有力生硬

20-200Hz苍白单溥丰满、混厚深沉浑浊不清

要使音色有美感，就要泛音丰富、有层次，使歌声有音响美，听众听起来悦耳动听，提升量不易过强。LF（低音）过量，声音混浊不清；HF（高音）过量，声音尖噪刺耳。提升某一频段后，还工考虑对其他频段的影响，要总体地考虑歌声的清晰度和丰满度。

下面介绍几种曲型人声的调音手法。

1 对主持人的调音

主持人多为小姐，其语音特性是清晰流畅，富于表情。她可以影响观众的情绪，因此要把她的音色调好。

低语调型：轻声细语、感情细腻，可采取近距离拾音，话筒与口型很近，这样可增加亲切感，可拾取纤细、微弱的声调。其缺点是存在近讲效应，低频过强。具体处理手段：

（1）要衰减LF：在100Hz附近衰减6dB左右，最大可衰减到10dB。

（2）对于MID：在250Hz-2kHz提升3-6dB。250Hz-2kHz是语言的重要频段。（3）对HF：6KHz以上频段衰减3-6dB，以减小高频噪声。

（4）主持人的话筒不要使用效果处理器进行混响（REV）和回声（ECHO）处理，否则会失去真实感和亲切感。

2 对普通人的调音

在歌厅里，有一些歌唱爱好者和业余歌手，也有一些人仅是娱乐消遗，他们多为自己演唱。其中有的人没有受过基本专业训练，缺乏演唱技巧，甚至有噪音不好和不会使用话筒的人，其中，男声易出现喉音和沙哑，女声易出现气息噪音和声带噪声。

为消除以上现象采用如下具体处理手段。

（1）在100Hz以下要切除，消除低频噪声，使音色更加纯净。

（2）在500-800Hz要小量衰减，使音色不要太生硬。

（3）在MID频段提升3-6dB，以增强明亮度，使声音清晰、明亮；

（4）一般人声音都较低，而且缺乏响度，所以音量要开得大一些；亦可把

200-300Hz范围频率加以提升，以增加声音的响度。

业余歌手动态范围不大，勿用自动音量控制。

3 对专业歌手的调音

歌厅里常有专业歌手，被朋友邀请到歌厅里做客，有时唱上两曲为朋友和客人们助兴。专业歌手有响亮的歌喉，从发声、叹息、吐字、共鸣演唱基本功都具有一定的水平，而每人都具有一定的演唱风格。

调音要求：

（1）要了解歌手的音色特点、网络流派，高、中、低泛音特性；

（2）要了解歌手的音域宽度和动态范围；

（3）要熟悉歌曲、歌词感情，调凌晨的基本手法要与歌曲的意境直辖市一致；（4）要注意歌曲的风格和歌手的演唱情绪；

（5）话筒的档次要高：宽频响、小失真、大动态。

演员站在歌坛上，利用歌坛声场，使其音色既有电声，也有自然声。所以，要求歌坛具有良好的声学特性。

女声：

女声在高频部分容易产生S音（嘶声）；在7-10KHz衰减了3dB，可以消除S 音。

男声：

男声音域比女声低一个8度音程，频率低一个倍频，在100Hz衰减了3dB左右，可以增加清晰度。

发烧理论之三！声音质量的评价所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD -DA 质量，其信号带宽为10Hz-20kHz；调频广播FM质量，其信号带宽为

20Hz-15kHz；调幅广播AM质量，其信号带宽为50Hz- 7kHz；电话的话音质量，其信号带宽为200Hz-3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。

对模拟音频来说，再现声音的频率成分越多，失真与干扰越小，声音保真度越高，

音质也越好。如在通信科学中，声音质量的等级除了用音频信号的频率范围外，还用失真度、信噪比等指标来衡量。

对数字音频来说，再现声音频率的成分越多，误码率越小，音质越好。通常用数码率（或存储容量）来衡量，取样频率越高、量化比特数越大，声道数越多，存储容量越大，当然保真度就高，音质就好。

声音的类别特点不同，音质要求也不一样。如，语音音质保真度主要体现在清晰、不失真、再现平面声象；乐音的保真度要求较高，营造空间声象主要体现在用多声道模拟立体环绕声，或虚拟双声道3D环绕声等方法，再现原来声源的一切声象。

音频信号的用途不同，采用压缩的质量标准也不一样。如，电话质量的音频信号采用ITU－TG?711标?

录音技术基础知识

个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上

数字音频基础知识

第一章数字音频基础知识主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。 ?人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。 ?乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。 ?噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。 1.2 声音的传播 ?声音靠介质传播，真空不能传声。 ?介质：能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。 ?双耳效应的应用：立体声 ?人耳能感受到（听觉）的频率范围约为20Hz~ 20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。 ?人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。 ?传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素：音调、响度（音量/音强）和音色 ?人们就是根据声音的三要素来区分声音。音调（pitch ） ?音调：声音的高低（高音、低音），由―频率‖（frequency）决定，频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。 ?低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。响度（loudness ） ?响度：又称音量、音强，指人主观上感觉声音的大小，由―振幅‖（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）音色（music quality） ?音色：又称音品，由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。 1.5 声道

音视频技术基本知识一

https://www.360docs.net/doc/be1446665.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式？C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式？B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式？D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式？D a)MP4：AVC+AAC b)3GP：AVC+AMR-NB c)FLV：H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端（iphone，ipod，ipad）本地播放器支持以下哪种视频编码？B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架（Profile）？D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称？A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps，需要每秒2个关键帧，则每隔多少帧需设置一个关键帧？A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的？D a)H.264+MP3，350K+32K，15fps，22050，320x240 b)H.264+MP3，350K+32K，15fps，22050，320x240 H.264+MP3，500K+64K，25fps，44100，480x320 c)H.264+MP3，500K+64K，25fps，44100，480x320 H.264+MP3，800K+64K，25fps，44100，640x480 d)ONVP6+MP3，300K+32K，12fps，22050，480x320 ONVP6+MP3，400K+32K，12fps，22050，320x240 ONVP6+MP3，500K+32K，12fps，22050，240x180

录音技术基础知识

录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可

音频基础知识

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。有关音频的物理属性由于过于专业，请大家参考其他资料。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。一、音频基本概念 1、什么是采样率和采样大小（位/bit）。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。 2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有

录音技术基础知识

录音技术基础知识基本录音/多轨录音无论是盒式磁带录音机、数码多轨录音机、硬盘录音机，还是其它录音媒体，其录音过程大致相同，目的都是将声音获取到缩混带上。做此工作，录音工程师采用两个步骤： 1、多轨录音——各种乐器和人声的录音与叠加录音的过程，每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上（“母带录音”），可以用某种播放系统如CD播放机或磁带卡座等进行再制作。录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，以便在播放任意一种音色时，同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。换言之，假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。按传统方式，录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。 3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。二、常见音频格式 1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM （RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式：Audible1、2、3、4。https://www.360docs.net/doc/be1446665.html,网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种https://www.360docs.net/doc/be1446665.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

日常生活中的音视频功能端口基础知识

Composite Video Output(模拟信号) 复合视频端子也叫AV端子或者Video端子，是声、画分离的视频端子，一般由三个独立的RCA插头（又叫梅花接口RCA端子）组成的，其中的V接口连接混合视频信号，为黄色插口；L接口连接左声道声音信号，为白色插口；R接口连接右声道声音信号，为红色插口。 S-Video Output（不适用于高清视频，其信号最高分辨率有限） S端子也是非常常见的端子，其全称是Separate Video，也称为SUPER VIDEO。S端子实际上是一种五芯接口，由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成 HDMI Output 高清晰度多媒体接口（英文：High Definition Multimedia Interface，HDMI）是一种数字化视频/音频接口技术，是适合影像传输的专用型数字化接口，其可同时传送音频和影音信号，最高数据传输速度为5Gbps。同时无需在信号传送前进行数/模或者模/数转换。 DVI DVI的英文全名为Digital Visual Interface，中文称为“数字视频接口”。是一种视频接口标准，设计的目标是通过数字化的传送来强化个人电脑显示器的画面品质。

RJ45 / Ethernet RJ45 型网线插头又称水晶头，共有八芯做成，广泛应用于局域网和ADSL 宽带上网用户的网络设备间网线（称作五类线或双绞线）的连接。10 100base tx RJ45接口是常用的以太网接口，支持10兆和100兆自适应的网络连接速度，常见的RJ45接口有两类：用于以太网网卡、路由器以太网接口等的DTE类型，还有用于交换机等的DCE类型。常见音视频格式： MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III）。是当今较流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量WMA(Windows Media Audio)是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3 Dolby Digital杜比数字技术（英文名称：Dolby Digital），是杜比实验室发布的新一代家庭影院环绕声系统。其数字化的伴音中包含左前置、中置、右前置、左环绕、右环绕5个声道的信号。它是DVD-Video影碟的指定音频标准。广泛应用于卫星电视机顶盒、数字有线等领域。Dolby Digital Plus 杜比数字+技术是专为所有的高清节目与媒体所设计的下一代音频技术。杜比数字+技术建立在杜比数字技术的基础之上，杜比数字技术是全世界DVD和高清广播节目的多声道音频标准。 Dolby TrueHD 杜比TrueHD是专为高清光盘媒体所开发的下一代无损压缩技术。特点100％无损的编码技术。码率高达18 Mbps。支持多达八个分离式24比特/96 kHz全频带声道。碟片类型种类： CD 英语：Compact Disc），是一种用以储存数字资料的光学碟片。容量：700MB CD-R Compact Disk-Recordable, CD-R是一种一次写入、永久读的标准。其工作原理是通过激光照射到盘片上的“凹陷”和“平地”其反射光的变化来读取的；CD-ROM的“凹陷”是印制的，而CD-R是由刻录机烧制而成。 CD-RW 可擦写光盘。盘片由于采用了相变技术，它的激光反射率比一般的CD盘片要低很多。D-RW驱动器的激光头有两种波长设置，分别为写（P-Write）和擦除（P-Eraze），刻录时（500～700摄氏度）使该物质的分子自由运动，多晶结构被改变，呈现一种非晶状（随即）状态（反射率只有5％）。而擦除数据就利用（200℃）温度让刻录层物质恢复到多晶结构（即CD-RW 光盘初始状态）。 DVD 数字多功能光盘（英文：Digital Versatile Disc），简称DVD，是一种光盘存储器，通常用来播放标准电视机清晰度的电影，高质量的音乐与作大容量存储数据用途。 DVD-R 采用有机染料的方法制成，容量：4.7GB。 DVD-RW 可重写超过1,000次。容量都是4.7GB

音频基础知识

一般认为20Hz－20kHz是人耳听觉频带，称为“声频”。这个频段的声音称为“可闻声”，高于20kHz的称为“超声”，低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别，所以二者的接线方法是不一样的，应引起注意。声学的基本概念音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。音频频率范围一般可以分为四个频段，即低频段（３０￣１５０Ｈｚ）；中低频段（３０￣１５０Ｈｚ）；中低频（１５０￣５００Ｈｚ）；中高频段（５００￣５０００Ｈｚ）；高频段（５０００￣２００００Ｈｚ）。３０￣１５０Ｈｚ频段：能够表现音乐的低频成分，使欣赏者感受到强劲有力的动感。１５０￣５００Ｈｚ频段：能够表现单个打击乐器在音乐中的表现力，是低频中表达力度的部分。５００￣５０００Ｈｚ频段：主要表达演唱者或语言的清淅度及弦乐的表现力。５０００￣２００００Ｈｚ频段：主要表达音乐的明亮度，但过多会使声音发破。所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如： 1．语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定，即以主观打分（MOS）来度量，它分为以下五级：5（优），不察觉失真；4（良），刚察觉失真，但不讨厌；3（中），察觉失真，稍微讨厌；2（差），讨厌，但不令人反感；

专业音频中的十个知识点

专业音频中的十个知识点 1.如果音乐家们在舞台上能够听到他们所需要的声音，那他们会感觉非常舒适，在舞台上的表现往往也会更好。当然，那些经验丰富的监听技术人员还有录音技术人员肯定是知道这一点的。但是对那些经验不足的人来说，了解这一点是非常重要的。这并不是一个关于需要使用多大的功率的问题，也不是一个关于需要使用什么样的楔形返听音箱的问题。这其实是一个关于心理学的问题。而且我认为，如果您了解了舞台监听的技术，并且知道如何取悦舞台上的音乐家们，那么您就已经达到了成为一名优秀的混音工程师90%的条件。当然，最后的那10%可能要靠天赋，运气等等其他因素，但是如果没有之前的那90%的基础，无论您有多好的天赋和运气都没有用。 2.在海拔高度为海平面高度，温度为68华氏度，相对湿度为4%的条件下，声音的传播速度是每秒1,130英尺。这是非常重要的信息，因为如果您对声音传播的方式有着足够的了解，那么在工作中，您会对麦克风的架设，延迟塔的设置，以及平衡前后延迟这类问题拥有更深入的了解。不仅如此，您还应该知道，声音的传播速度是会随着空气的温度，湿度和海拔高度的变化而变化。(如果您对此还不了解，那么请尽快学习一下相关的知识。)

3.反平方定律。如果距离声源的距离每增加一倍，那么声功率就会减少为原来的四分之一，我想这一点很多人都是知道的。这一定律几乎可以适用于所有的地方，无论是麦克风还是扬声器阵列。了解这一定律，对于我们确定功率放大器所需的功率十分重要。例如，如果您通常所使用的扬声器阵列所能覆盖的观众席区域是从20英尺到60英尺，而在某一个演出当中，观众席的区域是在40到100英尺之间，那么您需要使用多大的功率才能在观众席内维持相同的声功率?答案是：大约四倍的功率! 反平方定律，如上图所示 4.人类听觉系统的等响度曲线(等响曲线)。早在20世纪30年代，Harvey Fletcher和他在贝尔实验室领导的团队就通过了一系列试验，获得了如下这张等响曲线图。从图中我们可以看出人类的耳朵对于中高频率信号最为敏感，而对于频率非常低和频率非常高的声音信号，最不敏感。换句话说，如果我们想让100 Hz的音调与3.5 kHz的音调听起来一样大，100 Hz时的声音必须比3.5 kHz时的声音大上15 dB!(这里我们假设3.5 kHz的音调为85 dB SPL)

现代录音基础知识

现代录音基础知识（上）快速录音基础知识入门连载（一）录音基础/多轨录音多轨录音指多种乐器或人声的互相“叠加”，多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带（实际32轨，因为盒式磁带是立体声，有两个轨），从而具备了每轨录制不同乐器的潜力。什么是叠加？假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音，用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子，音符要互相合拍，播放时，听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他，既然每个乐器都录在各自音频上，就要先播放前三个轨，使吉他手在第四轨上录制主音吉他时，能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式录音师要先录制“节奏轨”，包括：鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声，所有都录在一起。下一步，录音师开始做叠加，加入其它节奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

奏，主声部，背景人声，所有其它乐器，最后录制主音人声。而现代录音方式通常是一次制作一个轨，按排序的乐器、鼓的循环，或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后，混音过程才能开始。录音基础/多轨缩混缩混的目的是将你所录制的轨道缩到两个轨道（立体声）上或一个轨（单声）上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。按传统方法，多轨录音机连在多通道的调音台上，这样每一个轨在调音面板上都可以被单独进行处理了。换句话说，多轨录音机的每一个输出都连接到调音台的每一个输入通道上，从那里再进行合并，成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。在合并许多通道到两个通道时，调音台还处理其它一些重要工作，如： -调节乐器的频率内容，一般称为EQ。 -给乐器增加效果，如混响，回声或合唱。 -调节每一轨的音量，保证不会有单独的乐器音量太过于大或者小。如今，多轨录音机，多通道调调音台，均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。一般连接端子输入端子在开始录音之前，你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型，如：RCA型（在家用的立体声设备上也可以找到），XLR（一般用于话筒）和1/4inch（一般用于乐器）。

视频音频编码知识

audio。AAC（Advanced Audio Coder)区别于ac3，mp3（全称MPEG1 Layer3，可不是MPEG3的缩写哦)等等，aac是Mp4官方指定的mp4音频规格。和video一样，她也有两个profile： - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据，HE比LC更高级一些，允许你在相同音质下已更低的bitrate编码。帧间压缩。其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。