音频基础知识

音频基础知识
音频基础知识

一般认为20Hz-20kHz是人耳听觉频带,称为“声频”。这个频段的声音称为“可闻声”,高于20kHz的称为“超声”,低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别,所以二者的接线方法是不一样的,应引起注意。

声学的基本概念音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如: 1.语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定,即以主观打分(MOS)来度量,它分为以下五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;

1(劣),极其讨厌,令人反感。一般再现语音频率若达7kHz以上,MOS可评5分。这种评价标准广泛应用于多媒体技术和通信中,如可视电话、电视会议、语音电子邮件、语音信箱等。 2.乐音音质乐音音质的优劣取决于多种因素,如声源特性(声压、频率、频谱等)、音响器材的信号特性(如失真度、频响、动态范围、信噪比、瞬态特性、立体声分离度等)、声场特性(如直达声、前期反射声、混响声、两耳间互相关系数、基准振动、吸声率等)、听觉特性(如响度曲线、可听范围、各种听感)等。所以,对音响设备再现音质的评价难度较大。所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM 质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。

音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如: 1.语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定,即以主观打分(MOS)来度量,它分为以下五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;1(劣),极其讨厌,令人反感。一般再现语音频率若达7kHz以上,MOS可评5分。这种评价标准广泛应用于多媒体技术和通信中,如可视电话、电视会议、语音电子邮件、语音信箱等。 2.乐音音质乐音音质的优劣取决于多种因素,如声源特性(声压、频率、频谱等)、音响器材的信号特性(如失真度、频响、动态范围、信噪比、瞬态特性、立体声分离度等)、声场特性(如直达声、前期反射声、混响声、两耳间互相关系数、基准振动、吸声率等)、听觉特性(如响度曲线、可听范围、各种听感)等。所以,对音响设备再现音质的评价难度较大。通常用下列两种方法:一是使用仪器测试技术指标;二是凭主观聆听各种音效。由于乐音音质属性复杂,主观评价的个人色彩较浓,而现有的音响测试技术又只能从某些侧面反映其保真度。所以,迄今为止,还没有一个能真正定量反映乐音音质保真度的国际公认的评价标准。但也有报道,国际电信联盟(ITU-T)近期已批准一种客观评价音质的被称之为电子耳的新型测量方法,可对任何音响器材的音质进行客观听音评价,也可用于检测电话通讯语音编码系统的缺陷。

现将乐音音质评价方法综述如下:

(1)主观听判音效通常,据乐音音质听感三要素,即响度、音调和愉快感的变化和组合来主观评价音质的各种属性,如低频响亮为声音丰满,高频响亮为声音明亮,低频微弱为声音平滑,高频微弱为声音清澄。下面结合声源、声场及信号特性介绍几种典型的听感。

①立体感主要由声音的空间感(环绕感)、定位感(方向感)、层次感(厚度感)等所构成的听感,具有这些听感的声音称为立体声。自然界的各种声场本身都是富有立体感的,它是模拟声源声象最重要的一个特征。德·波尔效应证明,人耳的生理特点是:人耳在两声源的对称轴上,当声压差△p=0dB和时间差△t=0ms时,感觉两声源声象相同,分不出有两个声源;而当△p>15dB或△t>3ms时,人耳就感觉到有两个声源,声像往声压大或导前的声源移动,每5dB的声压差相当于lms的时间差。哈斯效应又进一步证明,当△t=5ms~35ms 时,人耳感到有两个声源;而当近次反射声、滞后直达声或两个声源的时间差△t>50ms时,即使一次反射声(又称近次或前期反射声)或滞后声的响度比直达声或导前声的响度大许多倍,声源方位仍由直达声或导前声决定。根据人耳的这个生理特点,只要通过对声音的强度、延时、混响、空间效应等进行适当控制和处理,在两耳人为的制造具有一定的时间差△t、相位差△θ、声压差△P的声波状态,并使这种状态和原声源在双耳处产生的声波状态完全相同,人就能真实、完整地感受到重现声音的立体感。与单声道声音相比,立体声通常具有声象分散、各声部音量分布得当、清晰度高、背景噪声低的特点。

②定位感若声源是以左右、上下、前后不同方位录音后发送,则接收重放的声音应能将原声场中声源的方位重现出来,这就是定位感。根据人耳的生理特点,由同一声源首先到达两耳的直达声的最大时间差为0.44ms~0.5ms,同时还有一定的声压差、相位差。生理心理学证明:20Hz~200Hz低音主要靠人两耳的相位差定位,300Hz~4kHz中音主要靠声压差定位,更高的高音主要靠时间差定位。可见,定位感主要由首先到达两耳的直达声决定,而滞后到达两耳的一次反射声和经四面八方多次反射的混响声主要模拟声象的空间环绕感。

③空间感一次反射声和多次反射混响声虽然滞后直达声,对声音方向感影响不大,但反射声总是从四面八方到达两耳,对听觉判断周围空间大小有重要影响,使人耳有被环绕包围的感觉,这就是空间感。空间感比定位感更重要。

④层次感声音高、中、低频频响均衡,高音谐音丰富,清澈纤细而不刺耳,中音明亮突出,丰满充实而不生硬,低音厚实而无鼻音。⑤厚度感低音沉稳有力,重厚而不浑浊,高

音不缺,音量适中,有一定亮度,混响合适,失真小。除此之外,还有许多评价音质的听感,象力度感、亮度感、临场感、软硬感、松紧感、宽窄感等。

(2)客观测试技术指标

①失真度谐波失真,主要引起声音发硬、发炸;而稳态或瞬态互调失真主要引起声音毛糙、尖硬和混浊。二者均使音质劣化,若失真度超过3%时,音质劣化明显。音响系统的音箱失真度最大,一般最小的失真度也要超过1%。相位失真,主要引起1kHz以下的低频声音模糊,同时影响中频声音层次和声象定位。抖晃失真,主要是电机转速不稳,主导轴-压带轮压力不稳,磁头拍打磁带等造成磁带震动和卷带量变化,进而使信号频率被调制,声音音调出现混浊、颤抖。抖晃通常用音调变化的均方根值表示,通常,录音机的抖晃率<

0.1%,Hi-Fi录音机<0.005%,普通录像机<0.3%,视盘机<0.001%。

②频响与瞬态响应频响,指音响设备的增益或灵敏度随信号频率变化的情况,用通频带宽度和带内不均匀度表示(如优质功放的频响1Hz~200kHz±ldB)。带宽越宽,高、低频响应越好:不均匀度越小,频率均衡性能越好。通常,30Hz~150Hz低频使声音有一定厚度基础,150Hz~500Hz中低频使声音有一定力度,300Hz~500Hz中低频声压过分加强时,声音浑浊,过分衰减时,声音乏力;500Hz~5kHz中高频使声音有一定明亮度,过分加强时,声音生硬;过分衰减时,声音散、飘;5kHz~10kHz高频段使声音有一定层次、色彩;过分加强时,声音尖刺;过分衰减时,声音暗淡、发闷。按此规律,可根据各种听感,定量调节音响系统的频响效果。瞬态响应,是指音响系统对突变信号的跟随能力。实质上它反映脉冲信号的高次谐波失真大小,严重时影响音质的透明度和层次感。瞬态响应常用转换速率V/μs 表示,指标越高,谐波失真越小。如,一般放大器的转换速率>10V/μs。

③信噪比信噪比,表示信号与噪声电平的分贝差,用S/N或SNR(dB)表示。噪声频率的高低,信号的强弱对人耳的影响不一样。通常,人耳对4~8kHz的噪声最灵敏,弱信号比强信号受噪声影响较突出。而音响设备不同,信噪比要求也不一样,如Hi-Fi音响要求SNR>70dB,CD机要求SNR>90dB。

④声道分离度和平衡度声道分离度,是指不同声道间立体声的隔离程度,用一个声道的信号电平与串入另一声道的信号电平差来表示。这个差值越大越好。一般要求Hi-Fi音响分离度>50dB。声道平衡度,是指两个声道的增益、频响等特性的一致性。否则,将造成声道声象的偏移。

判断音质的依据,通常分为主观评价标准与技术(客观)评价标准两方面,音响系统的音质评价,应采用主观评价与客观评价相结合的方法。一般来说,主观评价很差的系统,客观评价也不会很好;主观评价很好的系统,客观评价不会很差;客观评价很差的系统,主观评价一定很差;客观评价很好的系统,主观评价评价不会很差;客观评价很差的系统,主观评价一定很差;客观评价很好的系统,主观评价分贝是什么? 根据人耳以上两个特性,为正确反映和概括可听范围,规定用"对数"标度表示声强。这样,对测定声强、计算和仪器的设计上都非常方便。当声压按"几何级数"增加时,而对数标度的读数却按"算术级数"呈均匀、缓慢地增加。这种用对数标度来表示声音压力的等级叫声压级。通常规定,以最低的刚能听到的声压(一般用0.0002微巴)为基准来量度任何一个未知声压。若想知道一个求知声压是多大,只要求出它和基准声压的比值,取其对数再乘20便可获得。声压级的单位叫贝尔,1贝尔等于10分贝尔简称"分贝"。分贝是测量声音大小的一种相对单位,而不是绝对单位。当某一声音压力是基准声压的10倍时,声压级则为20分贝,0倍时为40分贝,1000倍时是60分贝,100万倍时是120分贝……依此类推。可见,从听阈或痛阈,如果按声压绝对值计算,两者相差是100万倍,用声压级计算就大大简化了,只是从0到120分贝,这样就给测量声音大小带来了极大的方便。以上还可推算,当声压增加12%,也就是某一未知声压是基准声压的1.12倍时,声压级刚好是1分贝。1分贝之差有多大呢?概括地说,1分贝相当于正常人耳刚能觉察出来的声音强度的变化,也就是声强提高1分贝,人耳才能感觉到两个声音强度的不同。分贝是计量声音强度相对大小的单位,分贝值表示的是声音的量度单位。分贝值每上升 10 ,表示音量增加 10 倍,即从 1 分贝到 20 分贝表示音量增加了 100 倍。人耳刚刚能听到的声音是 0 - 10 分贝,人低声耳语约为 30 分贝,大声说话为 60 - 70 分贝。分贝值在 60 以下为无害区, 60 - 110 为过渡区, 110 以上是有害区。人们长期生活在 85 - 90 分贝的噪声环境中,就会得"噪声病"。

什么是基带信号,什么是载波信号?答:未经调制的电脉冲信号呈现方波形式,所占据的频带通常从直流和低频开始,因而称为基带信号. 在远程传输过程中,特别是通过无线信道或光信道进行的数据传输过程中,将由编码表示的数字基带信号通过高频调制后能在信道中进行传输的信号称为载波信号.

平衡与非平衡响的连接中有平衡和非平衡之分。非平衡又叫单端输入或单端输出。一个信号端和一个参考端(地)。平衡又叫双端输入或双端输出。两个信号端其中一个正向另一个反向。电子平衡中还有"地"。

平衡电路有两种: 1、变压器平衡:它是真正意义上的平衡。它有极高的共摸抑制比、输入输出完全隔离、无直流、无地线引起的交流声、接成非平衡时,反向输出端接地,增益无变化。它的缺点是平衡变压器造价昂贵,频响较难做到平直。 2、电子平衡:用电子线路做成的平衡。它的共摸抑制比一般不会高于集成电路的供电电压(约正负15伏)。输入输出不隔离,有可能因重复接地引起交流声、接成非平衡输出时,反向输出端必须悬空不能接地,且增益降低6dB。接成非平衡输入时,反向输入端必须接地不能悬空。它的优点是造价低廉,频响较易做到平直。虽然变压器平衡有许多优点,但是由于其造价昂贵(频响平直的变压器)所以很少采用。现在我们用的调音台和周遍包括功放大多采用"电子平衡"。

人们之所以能够听到声音,是由于声波振动引起的,并通过传声媒质(如:空气、水、混凝土等弹性物质)传播进入人耳。从声源或振动源直接传入人耳的叫"直达声",声音通过物体反射传入人耳的叫"反射声"。人的双耳距离大约有15~17厘米,这个距离使人耳具有非常准确的判断声源位置的特性。比如说:声音从左方首先进入左耳,右耳听到的声音比左耳晚一些其时间差=双耳距离/声速,为0.44~0.5mS。这个时间差使听音者感觉声音来自左方。所以直达声对判别声源的位置起决定性作用。因此人们在欣赏音乐时具有立体感和空间感。

在反射声中较早到达人耳的声波较强,这个较强的反射波称之为早期反射声,在此之后的反射声的总和称为混响声。人耳的听音范围是20Hz~20KHz。低于20Hz叫次声波,高于20KHz 的叫超声波。声波振动一周所传播的距离叫"波长"用λ表示声波一秒钟传播的距离叫"波速"用c表示声波一秒钟振动的次数叫"频率"用 f表示它们之间的关系:λ=c/f 声波在传输过程中具有相互干涉作用。两个频率相同、振动方向相同且步调一致的声源发出的声波相互叠加时就会出现干涉现象。如果它们的相位相同,两波叠加后幅度增加声压加强;反之,它们的相位相反,两波叠加后幅度减小声压减弱,如果两波幅度一样,将完全抵消。

由于声波的干涉作用,常使空间的声场出现固定的分布,形成波峰和波谷(从频响曲线上看似梳状滤波器的效果),即:音响术语中常说的----驻波现象。在厅堂内扩声时由于墙壁的反射也会出现声波的干涉现象。如果是纯音(正弦波)信号,这种干涉现象必然会引起空间声场的很大差异,即:有的地方声波会加强、有的地方声波会减弱甚至完全抵消,成为"死点"(听不到声音)。好在语言和音乐不是正弦波而是复杂的波形,这种复杂的波形用傅立叶级数展开是多个不同频率、不同幅度的正弦波。所以有"此起彼落""填平补齐"的效果,

使干涉效应不太明显。但是!由于不同的频率信号所产生的干涉效果不同,某些频率信号加强,另一些频率信号减弱,所以常常导致房间传输特性不均匀,这就是为什么要使用"房间均衡"的道理。由上所述,声音为一串串稀疏稠密交替变化的波,而疏和密就是空气压强的变化,再通过人的耳膜对空气压力的反映传入大脑,从而听到声音。

声波是描述声音的物理现象,常用波形表示。注意!声波具有一切"波"的性质。所以产生声音的必要条件有两个:1、必须要有振动体或振动源。2、声波的传递必须依靠传播媒介。声音听觉理论(1) 由于人耳听觉系统非常复杂,迄今为止人类对它的生理结构和听觉特性还不能从生理解剖角度完全解释清楚。所以,对人耳听觉特性的研究目前仅限于在心理声学和语言声学。人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音高、音色可以在主观上用来描述具有振幅、频率和相位三个物理量的任何复杂的声音,故又称为声音"三要素";而在多种音源场合,人耳掩蔽效应等特性更重要,它是心理声学的基础。下面简单介绍一下以上问题。

一、声音三要素 1.响度响度,又称声强或音量,它表示的是声音能量的强弱程度,主要取决于声波振幅的大小。声音的响度一般用声压(达因/平方厘米)或声强(瓦特/平方厘米)来计量,声压的单位为帕(Pa),它与基准声压比值的对数值称为声压级,单位是分贝(dB)。对于响度的心理感受,一般用单位宋(Sone)来度量,并定义lkHz、40dB的纯音的响度为1宋。响度的相对量称为响度级,它表示的是某响度与基准响度比值的对数值,单位为口方(phon),即当人耳感到某声音与1kHz单一频率的纯音同样响时,该声音声压级的分贝数即为其响度级。可见,无论在客观和主观上,这两个单位的概念是完全不同的,除1kHz 纯音外,声压级的值一般不等于响度级的值,使用中要注意。响度是听觉的基础。正常人听觉的强度范围为0dB-140dB(也有人认为是-5dB-130dB)。固然,超出人耳的可听频率范围(即频域)的声音,即使响度再大,人耳也听不出来(即响度为零)。但在人耳的可听频域内,若声音弱到或强到一定程度,人耳同样是听不到的。当声音减弱到人耳刚刚可以听见时,此时的声音强度称为"听阈"。一般以1kHz纯音为准进行测量,人耳刚能听到的声压为0dB(通常大于0.3dB即有感受)、声强为10-16W/cm2 时的响度级定为0口方。而当声音增强到使人耳感到疼痛时,这个阈值称为"痛阈"。仍以1kHz纯音为准来进行测量,使人耳感到疼痛时的声压级约达到140dB左右。实验表明,闻阈和痛阈是随声压、频率变化的。闻阈和痛阈随频率变化的等响度曲线(弗莱彻-芒森曲线)之间的区域就是人耳的听觉范围。通

常认为,对于1kHz纯音,0dB-20dB为宁静声,30dB--40dB为微弱声,50dB-70dB为正常声,80dB-100dB为响音声,110dB-130dB为极响声。而对于1kHz以外的可听声,在同一级等响度曲线上有无数个等效的声压-频率值,例如,200Hz的30dB的声音和1kHz的10dB的声音在人耳听起来具有相同的响度,这就是所谓的"等响"。小于0dB闻阈和大于140dB痛阈时为不可听声,即使是人耳最敏感频率范围的声音,人耳也觉察不到。人耳对不同频率的声音闻阈和痛阈不一样,灵敏度也不一样。人耳的痛阈受频率的影响不大,而闻阈随频率变化相当剧烈。人耳对3kHz-5kHz声音最敏感,幅度很小的声音信号都能被人耳听到,而在低频区(如小于800Hz)和高频区(如大于5kHz)人耳对声音的灵敏度要低得多。响度级较小时,高、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。通常200Hz--3kHz语音声压级以60dB-70dB为宜,频率范围较宽的音乐声压以

80dB-90dB最佳。

2.音高音高也称音调,表示人耳对声音调子高低的主观感受。客观上音高大小主要取决于声波基频的高低,频率高则音调高,反之则低,单位用赫兹(Hz)表示。主观感觉的音高单位是"美",通常定义响度为40方的1kHz纯音的音高为1000美。赫兹与"美"同样是表示音高的两个不同概念而又有联系的单位。 .噪音对纯音的掩蔽噪音是由多种纯音组成,具有无限宽的频谱若掩蔽声为宽带噪声,被掩蔽声为纯音,则它产生的掩蔽门限在低频段一般高于噪声功率谱密度17dB,且较平坦;超过500Hz时大约每十倍频程增大10dB。若掩蔽声为窄带噪声,被掩蔽声为纯音,则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。所谓临界频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这一带宽称为临界频带宽度。临界频带的单位叫巴克(Bark),1Bark=一个临界频带宽度。频率小于500Hz时,1Bark约等于freq/100;频率大于500Hz时,1Bark 约等于9+41og(freq/1000),即约为某个纯音中心频率的20%。通常认为,20Hz--16kHz 范围内有24个子临界频带。而当某个纯音位于掩蔽声的临界频带之外时,掩蔽效应仍然存在。

2.掩蔽类型 (1)频域掩蔽所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远的弱音不容易被掩蔽。例如,-个1000Hz的音比另一个900Hz的音

高18dB,则900Hz的音将被1000Hz的音掩蔽。而若1000Hz的音比离它较远的另一个1800Hz 的音高18dB,则这两个音将同时被人耳听到。若要让1800Hz的音听不到,则1000Hz的音要比1800Hz的音高45dB。一般来说,低频的音容易掩蔽高频的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。 (2)时域掩蔽所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有3ms-20ms,而滞后掩蔽却可以持续50ms-100ms。

阻抗:专指"交流电里的阻力、抗力。阻抗并不是单一的的东西,它是由直流电流的阻力(Resistance)、电感对频率的反应特性(感抗,Inductive Reactance)以及电容对频率的阻力特性(容抗,Capacitive Reactance)所组成。不过,由于通常我们谈到阻抗值多少时,仅以欧姆表示,所以很容易让人误以为阻抗仅是单纯的"直流电流的阻力"而已。

同轴线:同轴线两条导线,其中一条居于中心位置,另一条则以网状结构环绕在中心线周围,中心线与网状线之间有绝缘材料隔离。由于中心线与网状层呈同轴排列,所以得名。光纤: 光纤就是可以传送光线的纤维。平衡线:所有的信号线都需要用两条导线,其中一条出,一条进,也就是说一条是信号的输出通路,另一条是信号的回路。一般的信号线里把这两条导线分为正负,正线就是输出通路,负线就是信号回路与接地共享。另有一种信号线使用在平衡系统上,它内部有三条导线,外部以XLR端子连接。内部三条导线中,其中一条负责传送正相信号,另一条负责传送反相信号,另第三条负责接地 RGB:红绿蓝。这是"视讯"的红绿蓝,而非印刷、相片、物体的红绿蓝。又被称为三原色 (Primary),是说所有视讯系统里能够看到的色彩都是由红绿蓝三色组成。

均衡器

1.均衡器的调整方法:超低音:20Hz-40Hz,适当时声音强而有力。能控制雷声、低音鼓、管风琴和贝司的声音。过度提升会使音乐变得混浊不清。低音:40Hz-150Hz,是声音的基础部份,其能量占整个音频能量的70%,是表现音乐风格的重要成份。适当时,低音张弛得宜,声音丰满柔和,不足时声音单薄,150Hz,过度提升时会使声音发闷,明亮度下降,鼻音增强。中低音:150Hz-500Hz,是声音的结构部分,人声位于这个位置,不足时,演唱声

会被音乐淹没,声音软而无力,适当提升时会感到浑厚有力,提高声音的力度和响度。提升过度时会使低音变得生硬,300Hz处过度提升3-6dB,如再加上混响,则会严重影响声音的清晰度。中音:500Hz-2KHz,包含大多数乐器的低次谐波和泛音,是小军鼓和打击乐器的特征音。适当时声音透彻明亮,不足时声音朦胧。过度提升时会产生类似电话的声音。中高音:2KHz-5KHz,是弦乐的特征音(拉弦乐的弓与弦的摩搡声,弹拔乐的手指触弦的声音某)。不足时声音的穿透力下降,过强时会掩蔽语言音节的识别。高音:7KHz-8KHz,是影响声音层次感的频率。过度提升会使短笛、长笛声音突出,语言的齿音加重和音色发毛。极高音:8KHz-10KHz 合适时,三角铁和立*的金属感通透率高,沙钟的节奏清晰可辨。过度提升会使声音不自然,易烧毁高频单元。

2.平衡悦耳的声音应是: 150Hz以下(低音)应是丰满、柔和而富有弹性; 150Hz-500Hz (中低音)应是浑厚有力百不混浊; 500Hz-5KHz(中高音)应是明亮透彻而不生硬; 5KHz 以上(高音)应是纤细,园顺而不尖锐刺耳。整个频响特性平直时:声音自然丰满而有弹性,层次清晰园顺悦耳。频响多峰谷时:声音粗糙混浊,高音刺耳发毛,无层次感扩声易发生反馈啸叫。

3.频率的音感特征: 30~60Hz 沉闷如没有相当大的响度,人耳很难感觉。 60~100Hz 沉重 80Hz附近能产生极强的"重感"效果,响度很高也不会给人舒服的感觉,可给人以强烈的刺激作用。 100~200Hz 丰满 200~500Hz 力度易引起嗡嗡声的烦闷心理。 500~1KHz 明朗800Hz附近如提升10dB,会明显产生一种嘈杂感,狭窄感。 1K~2KHz 透亮 2800Kz附近明亮感关系最大。 2K~4Kz 尖锐 6800Hz形成尖啸,锐利的感觉。 4K~8Kz 清脆 3400Hz易引起听觉疲劳。 8K~16Kz 纤细>7.5KHz音感清彻纤细。

均衡器的发展趋势运用数字滤波器组成的均衡器称为数字均衡器,数字均衡器即可作成图示EQ,有可做成参量EQ,还可以做成两者兼有的EQ,它不仅各项性能指标优异,操作方便,而且还可同时储存多种用途的频响均衡特性,供不同节目要求选用,可多至储存99种频响特性曲线。SONY的SRP-E300是一款多功能2通道的数字均衡器具有10段参量均衡和29段图示均衡,可同时或独立工作,带有限制器和噪声门功能,高精度的48kHz取样,20比特线性模数/数模转换;带有模拟和数字输入/输出;RS-232C C接口,可用于外部遥控,它的出现会逐步淘汰普通的模拟均衡器,是一款专业音频扩声领域具有极高性价比的产品。

P.S. 20~40这个频段声音的大部分感觉是松软的低音,而不是强劲有力,通过试验就可以知道。看看给地鼓提升这个频段会有什么效果。

2、40~150是声音的基础没错,但是绝占不到70%,而且人声的鼻音也不在这个频段,大概在250左右。

3、150~500这频段,是个要在处理的时候非常小心的频段,绝不能靠提升这频段来获得人声的力度。稍不小心就会一团遭。整个频响特性平直时:声音自然丰满而有弹性,层次清晰园顺悦耳。频响多峰谷时:声音粗糙混浊,高音刺耳发毛,无层次感扩声易发生反馈啸叫。

4、"300Hz处过度提升3-6dB,如再加上混响,则会严重影响声音的清晰度。"应该说只要在低频部分加混响,都会影响声音的清晰度。当然,在现在的混音技巧中,这个规则已经不是很重要了。因为,我们经常会在欧美及港台的录音室里见到他们为地鼓和贝司加超短程混响。

(!)数字式混响器工作原理数字式混响器的演算理论,早在六十所代就已经建立了。由于硬件的原因,直至八十年代才逐渐使数字混响器在技术指标、工作性能、自动化程度上有了长足的进步。数字式混响器的工作原理。它完全采用数字方法处理信号,采样随同延迟一起插入循环存贮器,每一延迟的采样乘以代表其反射声幅度的系数,把反射声加在一起获得混响,然后送回存贮器,并用2的乘幂指数作乘法运算。莱克斯康(LEXICON)数字混响器,已经打破了以往数字混响器的"预延时模拟混响平均衰减衰减时间可调"这种模式,而效仿自然混响的特点,以数字技术模仿出新的、没有渲染、但又可变化的声音。真正的房间混响,并不是在激励声后先出现一段时间上的空白延迟才进入大密度混响的,而是渐进的,扩散是无规则的。480L的预延时间正是根据这个理论,设计了一种扩散极不规则的组合,延时根据不同房间的大小、形状、扩散而定出混响的形状,从强弱与形状对比的变化、混响的长短,来反映和追求自然声场。可见数字混响器的研究已进入更深的层次。

(2)数字混响器的功能就数字混响器的功能而言,远胜其它种类的混响系统。数字混响器可以单路输入信号,经信息处理后分成四个独立的音频信号输出,也可以分成两对双声道,立体声输出或四声道输出。若只当延时器使用时,它可以同时送出中个不同的延迟量。在数字屏显示器上,可方便地读出电平、工作状态、时间数据、波形响应等。在驳接方式上也更多元化了。就莱克斯康混响器而言,背板上除了两路主输入和四路输出外,还有三路MIDI接口、数码录音接口、计算机接口,并有两路遥控接口。在前面板上还设有程序存储盒,磁盘起用,带走都方便。 LEXICON 480L数字音频效果系统的预定程序,分为9个存库程序,每组预定了多种数据,它可以模拟绝对没有规则的环境混响声,如:鼓房内的不同反射面、森林环境、停车场的感觉……等等。当然,厂家存库的预定值是可以改变的。数字混响器在预延时、混响时间、扩散时间、以及衰减形式等方面都是可调的,关键的问题是怎样使用这些时间参数,这就是我们下期要谈的问题。

2.数字磁记录原理(1)磁化状态与数字信息的逻辑状态在数字磁记录中,由于要记录的信息只有"0"和"1"两种逻辑状态,因此可用介质不同的磁化方向来表示"0"和"1"。相应的写入电流和读出电流也有两个不同的方向,一个方向表示"0",另一个方向表示"1"。① 数字信息写入过程写过程是把要记录的数据经过写电路形成写电流,写电流通过磁头线圈,产生与数据相对应的磁场,磁化磁头缝隙下的磁层,完成"电→磁"转换。当磁媒体在磁头下面做恒速运动时,不同的数据信号脉冲序列不断改变磁头电流的方向,即不断改变磁场的方向,则在磁场表面的磁介质上留下一串与输入数据信号脉冲序列相对应的小磁化单元,完成磁媒介记录数据的过程。② 数字信息读取过程读过程是把写入的二进制数据信号从磁媒体中还原出来,完成"磁→电"转换。当已写入数据的磁媒体恒速转动,相对磁头运动时,磁头线圈切割磁媒体上小磁化单元产生的磁力线在线圈中产生了感应电动势。这个信号经过读电路放大和处理后,就还原出原来写进去的数据信号脉冲序列。

3.数字磁记录方式(1)数字磁记录方式用磁记录设备存储从计算机或其他信息源送来的二进制数据时,为了提高磁记录设备上数据存储的位密度,将原始数据序列变换成满足一定条件的记录序列,即将一连串的二进制数据按一定的规律,在磁记录介质上转换成相应的磁化翻转,这种变换称为磁记录编码,也称为磁记录方式。①归零制归零制(RZ)记录方式是将一连串正脉冲表示"1"、负脉冲表示"0"的脉冲电流送入磁头线圈,若记录"1"的磁化状态规定为正方向,则记录"0"的方向就为负方向。②不归零1制这种记录方式在不归零制NRZ(Non-Return to Zero)记录方式的基础上发展出来的,它规定记录"1"时,磁化翻转;记录"0"时,不产生磁化反转而保持原来的磁化状态。③调频(FM)制它是以NRZ1编码为基础,加上同步信息,叠加后的信息以不归零制写入,是串行二进制数据记录。FM制的编码规律是:在位单元的中心写数据位;在位单元的开始写时钟位。④改进调频(MFM)制它采用的编码规律是:在位单元的中心写数据位;在当前的位单元以及它以前的位单元中都无数据时,则在当前的位单元开始处写时钟位。即两位或两位以上连续为"0"时,就在两个单元边界写时钟位。⑤三单元调制码(3PM码) 3PM(3 Position Modulation)是由FM制和MFM 制演变而来的,它将数据序列和记录序列,按每3位一组变换成与其对应的6位码,所以称为3PM码;记录序列满足以下约束条件:在编码后的记录序列中,任何两个相邻的"1"之间,至少插入2个"0",最多为11个"0"。即任何两次相邻的磁性翻转之间,至少有3位间距。

数字音频、视频信号的压缩 4.1 数字视频信号的压缩(信源编码)

(1)压缩的原因:由ITU-601标准可知,数字视频的数据码率高达216Mb/s。其码率之高,数据量之大,无论是对于网络的数据传输,还是对于存储介质的数据存储,都构成了巨大的压力。因此,只有在保持信号质量的前提下,降低码率及数据量,才能使标准得到应用。(2)压缩的原理: 信源之所以可以压缩是因为图像信息内存在着大量的规律性或称相关性,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置的样值内容。

(3)压缩的方法①去除信息中的相关性,去除冗余码,使样值独立,提高熵值,降低信息码流。②可以采用一些特殊的编码方式,使平均比特数降低,从而可进一步降低信息码流。

(4)信源编码: 降低码率的过程,称为压缩编码,也叫信源编码。光盘数据的写入与读出普通光盘的记录原理是采用在盘片上压制凹坑的方式,利用凹坑的边缘来记录"1",而凹坑和非凹坑的平坦部分记录"0",从而通过光学读出头对不同的反射光束的拾取来读出数据的。数字音频矩阵是特别为专业演播室和广播应用中作为独立信号切换和分配开发出来的。③调频(FM)制它是以NRZ1编码为基础,加上同步信息,叠加后的信息以不归零制写入,是串行二进制数据记录。FM制的编码规律是:在位单元的中心写数据位;在位单元的开始写时钟位。④改进调频(MFM)制它采用的编码规律是:在位单元的中心写数据位;在当前的位单元以及它以前的位单元中都无数据时,则在当前的位单元开始处写时钟位。即两位或两位以上连续为"0"时,就在两个单元边界写时钟位。⑤三单元调制码(3PM码) 3PM(3 Position Modulation)是由FM制和MFM制演变而来的,它将数据序列和记录序列,按每3位一组变换成与其对应的6位码,所以称为3PM码;记录序列满足以下约束条件:在编码后的记录序列中,任何两个相邻的"1"之间,至少插入2个"0",最多为11个"0"。即任何两次相邻的磁性翻转之间,至少有3位间距。

数字音频、视频信号的压缩 4.1 数字视频信号的压缩(信源编码)

(1)压缩的原因:由ITU-601标准可知,数字视频的数据码率高达216Mb/s。其码率之高,数据量之大,无论是对于网络的数据传输,还是对于存储介质的数据存储,都构成了巨大的压力。因此,只有在保持信号质量的前提下,降低码率及数据量,才能使标准得到应用。(2)压缩的原理: 信源之所以可以压缩是因为图像信息内存在着大量的规律性或称相关性,在传输的前一个样值中也包含了后一个样值或后一帧中相关位置的样值内容。

(3)压缩的方法①去除信息中的相关性,去除冗余码,使样值独立,提高熵值,降低信息码流。②可以采用一些特殊的编码方式,使平均比特数降低,从而可进一步降低信息码流。

(4)信源编码: 降低码率的过程,称为压缩编码,也叫信源编码。光盘数据的写入与读出普通光盘的记录原理是采用在盘片上压制凹坑的方式,利用凹坑的边缘来记录"1",而凹坑和非凹坑的平坦部分记录"0",从而通过光学读出头对不同的反射束的拾取来读出数据的。

数字音频矩阵是特别为专业演播室和广播应用中作为独立信号切换和分配开发出来的。专业机柜安装结构CD播放即时选曲启动功放音量控制自动排列自动电平控制功能 EEPROM(只读储存器)提高了操作的安全性配有高效寻址功能,内置时间选择日录不平衡RCA模拟输出,S/PDIF数字输出可以遥控推子启动和项目启动±12%音调调节,1%进级

工作站是一种用来处理、交换信息、查询数据的计算机系统。数字音频工作站(Digital Audio Workstation,简称DAW)是一种用来处理、交换音频信息的计算机系统。它是随着数字音频技术的发展和计算机技术的突飞猛进,将两者相结合的新型设备。数字音频工作站的出现,实现了广播系统高质量的节目录制和自动化播出,使广播电台、电视台的音频节目录制、编辑和播出工作有了全面的改变,同时也创造了更加良好高效的工作环境。音频工作站是以计算机控制的硬盘为主要记录媒体,具有很强功能、性能优异和良好的人机界面的设备。音频工作站用于节目的录制、编辑、播出时,与传统的模拟方式相比,具有节省人力、物力、提高节目质量、节目资源共享、操作简单、编辑方便、播出及时安全等优点,因此音频工作站的建立可以认为是声音节目制作由模拟走向数字的必由之路.

如果你见到朋友有一张你梦寐以求的CD,怎么办?还用说嘛,当然是用刻录机制作一张属于自己的音乐CD了!预备知识音乐CD不同于我们平时使用的普通数据光盘,虽然它们都是用0、1来记录数据,但音乐CD和普通数据光盘在数据存放格式上有很大不同,其中重要一点就是音乐CD中没有用于对数据精确定位的扇区标识(Sector Mark)。当我们"拷贝"音乐时一旦出现硬盘或光驱的缓存满载,数据的传输就必须停止,当缓存可以再次利用时就继续"拷贝",不过由于音乐CD没有扇区标识而无法精确定位到刚才的"断点",所以这时"拷贝"下来的音乐很容易出现爆音。另外,光盘上Pit(激光照射后不反射的"小坑")和Land (激光照射后能反射的"平面")的长度都是有规定的,分别为3T、4T、5T……11T九个长度,而实际刻录到光盘上每个Pit(Land)的长度和规定长度的偏差值就用Jitter表示。Jitter 是无法避免的,而且受制于盘片和刻录条件的影响,Jitter值是不固定的--即使我们使用同一品牌的盘片和同一台刻录机。在我们回放音乐CD时,Jitter是使音质变差的重要原因之一。不同的Pit(Land)长度在回放时所产生的音质也是不一样的,也就是说通过刻录这

种手段,我们无法得到和源盘完全一样音质的音乐CD!正因为音乐CD有这些特点,我们不能直接简单地用刻录软件所提供的诸如"CD复制"这样的功能来复制音乐CD,那样不仅会使音质极大恶化(设计简陋的"软声卡"加上20元的耳机也许觉察不到),而且严重了还会产生不能忍受的爆音。所以我们想复制音乐CD就须遵循先抓音轨再刻录的原则,而且为了尽量减少Jitter值,音乐CD的刻录还要注意以下一些问题。

刻录盘的选择目前市场上主要存在两种盘片:蓝盘和白金盘。由于每款CD播放设备上激光头的功率不同,所以我们一定要选择兼容性好的盘片。刻录音乐首选蓝盘(特别是深蓝盘),其次是白金盘。无论是选择蓝盘或白金盘,都尽量选择低速的产品,因为它更适合低速的刻录环境。刻录速度的选择刻录音乐CD一定要坚持"低速光盘低速刻"的原则。我们此前讲过,如果想最大限度地保持音质不变,Jitter值就要尽量小。低速刻录不仅能减小盘片在转动时产生的振荡,而且较低的线速度(对激光头来说)也使激光头在刻录盘片时更容易控制Pit(Land)的长度。这些对减少Jitter值都有帮助。如何抓音轨复制一张现有的音乐CD,抓音轨这一步至关重要!因为如果抓下来的WAV文件就已经产生了很大的音质差异,那么刻录出的CD只能比这个更差。这里我们推荐读者使用EAC(Exact Audio Copy)这款专业的抓音轨软件(http://www.exactaudiocopy.de/),目前最新的版本是V0.95 PreBeta 5。由于EAC的设置有些复杂而且专业,所以这里只是用图片说明抓音轨中需要注意的问题,想详细了解这些设置的朋友可以查阅相关资料。在"驱动器"设置中(图1),"驱动器读取指令"可以让软件自动检测:在驱动器中放入一张音乐CD,然后点击"现在自动检测读取指令"按钮就行了,不同的驱动器指令各不相同。在"偏移/速度"选项卡中(图2),如果你的驱动器资料中有"读取(写入)偏移值"的资料,那么就在"读取采样偏移校正值"中填入"相反的"读取偏移值。比如笔者的刻录机给出的是-120,那么就填入+120。如果没有给出,填0就可以了。

指原有频率的各种倍频的有害干扰。放大1kHz正弦波时将会产生2kHz的二次谐波和3kHz 的三次谐波以及许多更高次的谐波。谐波失真(harmonic distortion)失真设备的输出不能完全复现其输入,产生了波形的畸变或者信号成分的增减谐波失真由于放大器不够理想,输出的信号除了包含放大了的输入成分之外,还新添了一些原信号的2倍、3倍、4倍……甚至更高倍的频率成分(谐波),致使输出波形走样。这种因谐波引起的失真叫做谐波失真。阻抗匹配一件器材的输出阻抗和所连接的负载阻抗之间所应满足的某种关系,以免接上负载后对器材本身的工作状态产生明显的影响。对电子设备互连来说,例如信号源连放大

器,前级连后级,只要后一级的输入阻抗大于前一级的输出阻抗5-10倍以上,就可认为阻抗匹配良好;对于放大器连接音箱来说,电子管机应选用与其输出端标称阻抗相等或接近的音箱,而晶体管放大器则无此限制,可以接任何阻抗的音箱。分贝电功率增益和声强的量度单位,由单位贝尔的十分之一而得名,功率每增加一倍为增加3分贝,每增加lo 倍为增加10分贝。

非平衡连接音频信号连接方式之—,由屏蔽网和芯线组成,大二芯和荷花插头属于非平衡传输。非平衡传输抗干扰能力略逊于平衡传输,适用于线路电平音频信号传输和对抗干扰要求不十分高的场合,由于连接方法简单,在音响系统中(尤其在民用音响系统中)非平衡连接被普遍采用。高通亦称低切,高于某给定频率的信号可有效传输,而低于此频率的信号受到很大衰减的滤波器,这个给定频率称为滤波器的截止频率,高通滤波器可切去话筒近讲时的气息噗噗声、不需要的低音成分,还可以切去声音信号失真时产生的直流分量,防止烧毁低音箱。在音箱分频电路中,高通滤波器将音频功率信号分频后,将高频信号送到高音扬声器。平衡连接音响系统的连接方式之一,将两根彼此绝缘的芯线包在金属屏蔽网中,一根为信号高端(亦称热端,为红色),另一根为低端(亦称冷端),此种连接具有良好的抗干扰特性,适用于话筒等弱信号传输或对信号噪声要求高的场合(如录音)。输出阻抗电路的输出阻抗就是输出端所具有的内阻。在音响系统中,功率放大器的输出阻抗应等于音箱阻抗,以获得最大和最佳功率输出;系统间配接时,前级设备的输出阻抗应远远小于后级设备的输入阻抗,这样才能保证不被后级设备连接所影响,故要求设备的输出阻抗应尽可能小。输入阻抗设备输入端阻抗,即输入端电压与电流的比值。音响设备要求输入阻抗尽可能大,以便作为后级设备时,与前级设备连接后不致对前级输出造成不良影响。

线路电平在音响系统中通常是以在600欧姆负载上产生1毫瓦的功率定义为基准功率,此时的电平称为线路电平(或零电平、绝对电平),其电压值为0.775伏,计量值为0分贝。

谐波失真非线性失真的一种,信号通过重放设备后产生新谐波分量的波形失真,以输出信号中的谐波成分与总输出声音信号之比来表示失真的大小。研究表明,奇次谐波对声音音色破坏最大,如三次谐波使声音变尖,五次谐波产生金届感,七次及以上奇次谐波会产生极尖锐刺耳的声音;而偶次谐波则不同,如二次谐波比基频高八度,听起来不但没有不和谐感,反而能够使音色更丰富,现代激励器就是利用这个特性,人为地给声音增加了偶次谐波成分,

从而改善了再现声音音色。但任何严重的谐波失真都会使声音发劈、发破、发毛、发炸,要尽量减少音响设备的谐波失真。

可能是由于录音师在录音时未能正确区别模拟和数字PPM表的指示而发生的:电平被设定为在模拟PPM表上为+18dB时,在数字PPM表(或者DAT放机的PPM表)上为0dBFS。这样的峰值节目电平在欧洲广播网上是不可接受的,却可能发生了这种情况)。当模拟PPM表指示为+9dB时,数字PPM表(或DAT放机的PPM表)的刻度应该是-9dBFS,这才是(欧洲广播卫星)可以接受的节目峰值最大电平。对混合系统的模拟和数字电平校准关系不准确对模拟和数字混合系统如何校准模拟和数字工作电平未做出统一的标准规定,各单位数字和模拟设备接口电平随意性极大,导致节目声响差别扩大。例如,我台混合的有线电视系统,模拟频道的设备购置的是欧洲标准设备,其模拟输入电平为0dBm(600欧姆额定阻抗老式标准),而我台主控输出的模拟信号为+4dBu。在模拟域电平已经偏高4dB,又没做衰减处理。有线系统的数字频道输入电平为-18dBFS,而我台主控输出的数字信号为-20dBFS,比输入要求低了2dB,又没做电平提升。结果在有线电视同一平台上,数字频道比模拟频道偏低6dB。另外,原录为模拟的节目进入数字系统播出时,要进行A/D转换,转换时如果不是将模拟基准电平与数字基准电平对齐(+4dBu对应-20dBFS),而是采用满度电平对齐,即把模拟节目信号中的最高的峰值与数字播出系统的0dBFS对齐,由于模拟录音工艺的峰值储备最高只有14dB,比数字系统的峰值储备低6dB,采取这种校准方法,会使数字播出系统中原录为模拟的节目声音比原录为数字的节目响6dB。再加上前期节目制作中存在的电平处理不当,按EBU R 68标准中的说法,在实际电平操作中的人为误差有可能达到6dB。综合以上三项因素,我台数字有线电视系统中,频道之间声音的响度理论差别应该18dB,接近我们的测试结果。数字制作设备电平监测仪表配置不当在数字节目制作中仍然采用模拟的VU表和模拟的PPM表监测电平,由于模拟PPM表最高量程的限制,录音师无法观察到数字系统预留的更高峰值储备空间,据理论推算,我国I型PPM表与VU表的校准点为-9dB,最高量程为+5dB,也就是说使用PPM表只能观察到14dB的峰值范围,满度电平值为+18dBu,录音师不可能在观察不到电平指示的情况下盲目地再把电平推上去。数字系统具有18或20dB的峰值储备,满度电平值为+24dBu,因此,如果按照PPM表控制节目峰值,将会损失6dB的峰值储备,使信号强度减低。甚至还由于少数情况仅根据VU表来控制录音,损失的峰值储备就更大。最严重的情况是同一设备只有一块表,但是一表两制,可通过内部菜单任选VU或PPM表响应和指示值。使用者不了解该仪表内部设置情况,仅凭常规控校准电平。校准时如果把电平校准在VU表

的-9位置,在实际录制时又继续错误地控制电平指示永不超过0刻度,而此时,这个0刻度可能是PPM的0dB,而非0VU,其结果实际电平偏低情况远大于10dB。

另外欧洲人发明的PPM种类繁多,容易让人混乱,我国自己的峰值节目表国际也同时列出几种表,使用者应该先了解自己设备是那一种表,才能准确掌握节目的峰值电平。详细情况请参见附件三:常用音频仪表经过在我台内部举行的两次宣贯活动的讨论中,认为“满度电平值”一词应该修改为“数字基准电平”为宜,我们今天就按这样理解来宣贯本标准。根据本标准对数字满度电平的定义(标准文本3.2)为:数字音频设备中A/D或D/A转换器所能转换的最大不削波模拟信号电平。根据A/D和D/A转换器的原理,可知A/D或D/A转换器所能转换的最大不消波模拟信号电平是一个不定值,它与A/D转换器的模拟输入放大器或D/A转换器的模拟输出放大器的增益有关,同时又与转换器预留的峰值储备相关。峰值储备(headroom,有时译作上限余量)原指模拟音频系统在系统基准电平为起点,幅度上升到某值,而信号失真度指标仍在合格的范围内,允许提升的分贝数即为该系统的峰值储备。增益提升超过此值,信号就会出现切顶失真。数字音频系统的峰值储备是指数字系统由比特数决定的最高数字编码与基准电平编码的差值。以某一电平为模拟基准电平工作的系统,信号峰值只要不超过规定的峰值储备值,自然就不会发生消波情况,所以叫峰值储备。如果要把一个A/D转换器用于某个国家,就必须使其输入或输出的模拟信号电平与某个国家的模拟基准电平适配。例如,某标准模拟基准电平为 n dBu,转换器的峰值储备为 X dB,那么其数字满度电平就等于 n+X(dBu)。数字系统的峰值储备采用-XdBFS的方式来描述,因为数字音频系统用0dBFS来描述系统由比特数确定的满度电平编码,所有数字音频信号的编码都小于满度电平的编码,故称实际数字声音信号的电平是相对满度电平,且都是负值,-XdBFS中的X 就是峰值储备的dB数。因此,数字基准电平为-20dBFS的系统,峰值储备就是20dB。 VU 表、PPM表和DPPM表的校准关系数字时代,为了充分利用数字系统提供的20分贝的峰值储备,在录音时应该使用能够显示基准电平以上全部可使用的峰值储备空间的数字峰值节目表来控制信号的峰值编码,这种仪表就是DPPM表。现在专业的数字调音台都同时配置了VU 表、模拟的PPM表和DPPM表。为了使大家DPPM表与VU表、PPM表正确适配,并能准确地控制电平,笔者绘制了一张三种表校准关系图,参见图8,注意该图中PPM表指I 型表相对满度电平单位dBFS(dB full scale)数字音频信号电平相对于满度电平的单位,以dBFS 表示,单位中的FS意为full scale,表示此信号的数字编码相对于数字满度电平的编码的分贝关系。注意这里我仍然用编码的相对分贝差,而不是相对电平差,还是是为了避免与满度电平值相混淆。待会讲到编码如何计算分贝关系来证明使用dBFS表达数字音频信号相对

分贝关系是正确的。数字音频信号的电平单位与模拟有所不同,模拟电平单位以0dBu作为计算的参考电平,遇到具体信号,以数字前面加“+”或“-”号来表示其与0dBu的相对大小关系,例如+4dBu就表示比0dBu高4dB,-2dBu则表示比0dBu低2dB。数字音频信号的电平单位规定系统中A/D转换器能转换的最大不消波模拟信号电平为0dBFS,,因此,所有其他不消波的正常的数字信号电平都小于0dBFS,前面均应有负号,数字峰值表0dBFS设置在仪表的最高位。按SMPTE RP 155-1997标准的规定,dB和FS之间要加一空格,这使得日常工作记录和撰写文章都极不方便。为此,刚刚发布准备修订的SMPTE RP 155-2003版征求意见稿中已将这个空格取消,笔者非常赞成这个修订案,这也将有利于人们尽快熟悉这个单位。不同标准之间的电平差值问题我们还将经历较长一段时间的数字和模拟音频设备混合使用的时期,这种情况下要分清不同标准之间电平有差异时处理的方法。 EBU标准的模拟的基准信号电平为0dBu,但部分欧洲产设备有基准信号为+6dBu的情况。我国标准模拟基准电平优选值为+4dBu,也有使用0dBu的情况,日本大部分产品的模拟基准电平为0dBm(参见附件一),美国部分广播者使用+4dBu,部分广播者使用+8dBu。而且这类设备我国都有引进,即使一人单位都有可能同时存在以上各类模拟基准电平。对不同模拟基准电平信号配接的办法,简单说就是遇高衰减,遇低提升,对于部分采用dBm的规定必须定阻600欧姆接口阻抗的设备,还要在高阻输入端配接600欧姆匹配电阻,这些问题大家都很熟悉,不再细述。

在混合时代要注意的问题是遇到数字设备的模拟输出时,不要简单地认为凡模拟输出0dBu 都是EBU标准,随意推断其数字基准电平一定是-18dBFS,这不是规律,例如可能存在的日本设备模拟输出为0dBu,但数字却是-20dBFS的情况。因此,一定要认真研究说明书,并给这类特别的设备在明显处贴上标签,使工作人员避免犯电平设置错误。不同电平仪表的校准关系一个数字和模拟混合的系统会遇到各种不同响应特性的电平指示仪表,主要涉及音量单位表(VU)、模拟峰值节目表(PPM)和数字峰值表(DPPM),请参见本文的图8,该图示出了不同标准不同的仪表与基准电平的对应关系和正确的指示刻度位置。一定要事先明白所使用的仪表响应特性,特别是有些设备一块仪表,却具有VU或PPM两种响应特性,在校准音频系统时必须选择准确的特性,满足不同的监测要求。标准设备基准电平校准方法数字调音台、数字传输系统工作电平校准方法(参见图10)按设备技术手册提供的方法把要校准的设备置于数字基准电平为?20dBFS。将设备的所有模拟音频输入端和所有输出增益调节器都置于额定位置。逐一给设备的每一个模拟输入端送入频率为1KHz,幅度为+4dBu的稳态正弦波信号逐一给每一个数字输入端送入频率为1KHz,数字电平为-20dBFS的数字音频信号。

5.2.1.5 参阅设备技术手册,找到并调节设备内部的输入增益调节装置,使设备上各类仪表的指示在图8的横线位置。如用外接的音频电平表测量设备所有模拟输出端,模拟输出电平应该为+4dBu,如用外接的数字峰值表测量该设备的所有数字输出端,数字输出电平应该为?20dBFS。外接测量仪表内阻应远大于(5至10倍)被测设备测量点的阻抗,以避免测量误差。

5.2.1,6 分别调节模拟和数字信号发生器输出电平,使模拟电平升到+24dBu,数字信号电平升到0dBFS,分别观察设备自身相应仪表和外接测量仪表的模拟和数字输出电平是否合乎说明书规定的指标。在升高电平的过程中,要观察设备自身的OVER指示,并记录在什么电平幅度时点亮,由于OVER点亮无标准规定,应核对说明书的规定,并使电平在OVER点亮的情况下,略降低一点电平至OVER刚刚熄灭时,记载外接仪表的读数,并用模拟音频测试仪测量模拟输出端的失真度情况。

附录一:

常用分贝单位 l dB(分贝),表示两个信号之间相对功率或幅度电平关系的标准单位,例如,A信号为+4dBu,B信号为+7dBu,我们就说B信号比A信号高3dB(后面不加字母u)。

dB也用于峰值节目表的刻度,表示该指示值(某信号的峰值)比基准信号峰值的幅度高(或低)多少dB(后面同样不加字母u). l dBm 以1毫瓦为基准值,以分贝表示的绝对功率电平,m是毫瓦的代号。

0dBm相当于0.775V(有效值)的正弦波电压施加在600欧姆标准负载产生1毫瓦的功率。此单位仅适用于负载阻抗固定为600欧姆的系统。

l dBu 以有效值0.775V为基准值,以分贝表示的绝对电压电平。表示为:

dBu=20log10(v/0.775) l 由于现代集成电路或电子差动放大器的负载阻抗远大于源阻抗,故不考虑负载对信号源的影响,符合此条件的系统使用此单位,小写字母u既可表示额定值(unit)0.775V,也可代表无负载(unload)的意思。

l dBV 以有效值1V为基准值,以分贝表示的绝对电压电平。消费类设备基准电平为

-10dBV=0.316V最大输出电压一般为2V。例如我们常见的电视接收机的A/V端子中的A端子,或其他类似的民用设备均执行这个标准。一般为荷花插孔。

录音技术基础知识

录音技术基础知识

录音技术基础知识 基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一

个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上

数字音频基础知识

第一章数字音频基础知识 主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识 第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止,发声也停止。当振动波传到人耳时,人便听到了声音。 ?人能听到的声音,包括语音、音乐和其它声音(环境声、音效声、自然声等),可以分为乐音和噪音。 ?乐音是由规则的振动产生的,只包含有限的某些特定频率,具有确定的波形。 ?噪音是由不规则的振动产生的,它包含有一定范围内的各种音频的声振动,没有确定的波形。 1.2 声音的传播 ?声音靠介质传播,真空不能传声。 ?介质:能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经,听觉神经再把信号传给大脑,这样人就听到了声音。 ?双耳效应的应用:立体声 ?人耳能感受到(听觉)的频率范围约为20Hz~ 20kHz,称此频率范围内的声音为可听声(audible sound)或音频(audio),频率<20Hz声音为次声,频率>20kHz声音为超声。 ?人的发音器官发出的声音(人声)的频率大约是80Hz~3400Hz。人说话的声音(话音voice / 语音speech)的频率通常为300Hz~3000 Hz(带宽约3kHz)。 ?传统乐器的发声范围为16Hz (C2)~7kHz(a5),如钢琴的为27.5Hz (A2)~4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素: 音调、响度(音量/音强)和音色 ?人们就是根据声音的三要素来区分声音。 音调(pitch ) ?音调:声音的高低(高音、低音),由―频率‖(frequency)决定,频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数,用Hz 表示。例如,20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音:音色强劲有力,富于英雄气概。擅于表现强烈的感情。 ?低音:音色深沉浑厚,擅于表现庄严雄伟和苍劲沉着的感情。 响度(loudness ) ?响度:又称音量、音强,指人主观上感觉声音的大小,由―振幅‖(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。(单位:分贝dB) 音色(music quality) ?音色:又称音品,由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不同造成的。 1.5 声道

音视频技术基本知识一

https://www.360docs.net/doc/302054755.html, 音视频技术基本知识一 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云总结网络上的知识,与大家分享一下音视频技术基本知识。 与画质、音质等有关的术语 这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧 一般来说,帧是影像常用的最小单位,简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的,现在大多数视频也类似,下面说说帧速率和帧大小。 帧速率,有的转换器也叫帧率,或者是每秒帧数一类的,这可以理解为每一秒的播放中有多少张图片,一般来说,我们的眼睛在看到东西时,那些东西的影像会在眼睛中停留大约十六分之一秒,也就是视频中只要每秒超过15帧,人眼就会认为画面是连续不断的,事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况,当视频中有较快的动作时,帧速率过小,动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上,这24帧是电影的帧速率。 帧大小,有的转换器也叫画面大小或屏幕大小等,是组成视频的每一帧的大小,直观表现为转换出来的视频的分辨率的大小。一般来说,软件都会预置几个分辨率,一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等,当然很多转换器提供自定义选项,这里,不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率,如果是转换到普通手机、PSP等设备上,视频分辨率选择与设备分辨率相同,否则某些设备可能会播放不流畅,设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率 比特率,又叫码率或数据速率,是指每秒传输的视频数据量的大小,音视频中的比特率,是指由模拟信号转换为数字信号的采样率;采样率越高,还原后的音质和画质就越好;音视频文件的体积就越大,对系统配置的要求也越高。 在音频中,1M以上比特率的音乐一般只能在正版CD中找到,500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式,一般的MP3是在96K到320K之间。目前,对大多数人而言,对一般人而言192K就足够了。 在视频中,蓝光高清的比特率一般在40M以上,DVD一般在5M以上,VCD一般是在1M 以上。(这些均是指正版原盘,即未经视频压缩的版本)。常见的视频文件中,1080P的码率一般在2到5M之间,720P的一般在1到3M,其他分辨率的多在一M一下。 视频文件的比特率与帧大小、帧速率直接相关,一般帧越大、速率越高,比特率也就越大。当然某些转换器也可以强制调低比特率,但这样一般都会导致画面失真,如产生色块、色位不正、出现锯齿等情况。

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式?C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式?B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式?D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式?D a)MP4:AVC+AAC b)3GP:AVC+AMR-NB c)FLV:H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端(iphone,ipod,ipad)本地播放器支持以下哪种视频编码?B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架(Profile)?D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称?A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps,需要每秒2个关键帧,则每隔多少帧需设置一个 关键帧?A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的?D a)H.264+MP3,350K+32K,15fps,22050,320x240 b)H.264+MP3,350K+32K,15fps,22050,320x240 H.264+MP3,500K+64K,25fps,44100,480x320 c)H.264+MP3,500K+64K,25fps,44100,480x320 H.264+MP3,800K+64K,25fps,44100,640x480 d)ONVP6+MP3,300K+32K,12fps,22050,480x320 ONVP6+MP3,400K+32K,12fps,22050,320x240 ONVP6+MP3,500K+32K,12fps,22050,240x180

录音技术基础知识

录音技术基础知识基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各 自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可 以用某种播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代

录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型,如:RCA型(在家用的立体声设备上也可

音频基础知识

音频,英文是AUDIO,也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频,只要是我们听得见的声音,就可以作为音频信号进行传输。有关音频的物理属性由于过于专业,请大家参考其他资料。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 一、音频基本概念 1、什么是采样率和采样大小(位/bit)。 声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。 2、有损和无损 根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术 要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有

录音技术基础知识

录音技术基础知识 基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种播 放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率:表示经过编码(压缩)后的音频数据每秒钟需要用多少个比特来表示,单位常为kbps。 2 响度和强度:声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化,但也受频率的影响。总的说,中频纯音听来比低频和高频纯音响一些。 3 采样和采样率:采样是把连续的时间信号,变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律:采样率大于或等于连续信号最高频率分量的2倍时,采样信号可以用来完美重构原始连续信号。 二、常见音频格式 1. WAV格式,是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持,压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式,规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议,可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件,在MIDI文件中存储的是一些指令。把这些指令发送给声卡,由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3,它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18。此外,WMA还可以通过DRM(Digital Rights Management)保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式,最大的特点就是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM (RealMedia,RealAudio G2)、RMX(RealAudio Secured)等三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式:Audible1、2、3、4。https://www.360docs.net/doc/302054755.html,网站主要是在互联网上贩卖有声书籍,并对它们所销售商品、文件通过四种https://www.360docs.net/doc/302054755.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩,而格式4采用更低的采样率和MP3相同的解码方式,所得到语音吐辞更清楚,而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具,这就是Audible Manager,使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

日常生活中的音视频功能端口基础知识

Composite Video Output(模拟信号) 复合视频端子也叫AV端子或者Video端子,是声、画分离的视频端子,一般由三个独立的RCA插头(又叫梅花接口RCA端子)组成的,其中的V接口连接混合视频信号,为黄色插口;L接口连接左声道声音信号,为白色插口;R接口连接右声道声音信号,为红色插口。 S-Video Output(不适用于高清视频,其信号最高分辨率有限) S端子也是非常常见的端子,其全称是Separate Video,也称为SUPER VIDEO。S端子实际上是一种五芯接口,由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成 HDMI Output 高清晰度多媒体接口(英文:High Definition Multimedia Interface,HDMI)是一种数字化视频/音频接口技术,是适合影像传输的专用型数字化接口,其可同时传送音频和影音信号,最高数据传输速度为5Gbps。同时无需在信号传送前进行数/模或者模/数转换。 DVI DVI的英文全名为Digital Visual Interface,中文称为“数字视频接口”。是一种视频接口标准,设计的目标是通过数字化的传送来强化个人电脑显示器的画面品质。

RJ45 / Ethernet RJ45 型网线插头又称水晶头,共有八芯做成,广泛应用于局域网和ADSL 宽带上网用户的网络设备间网线(称作五类线或双绞线)的连接。10 100base tx RJ45接口是常用的以太网接口,支持10兆和100兆自适应的网络连接速度,常见的RJ45接口有两类:用于以太网网卡、路由器以太网接口等的DTE类型,还有用于交换机等的DCE类型。 常见音视频格式: MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量WMA(Windows Media Audio)是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3 Dolby Digital杜比数字技术(英文名称:Dolby Digital),是杜比实验室发布的新一代家庭影院环绕声系统。其数字化的伴音中包含左前置、中置、右前置、左环绕、右环绕5个声道的信号。它是DVD-Video影碟的指定音频标准。广泛应用于卫星电视机顶盒、数字有线等领域。Dolby Digital Plus 杜比数字+技术是专为所有的高清节目与媒体所设计的下一代音频技术。杜比数字+技术建立在杜比数字技术的基础之上,杜比数字技术是全世界DVD和高清广播节目的多声道音频标准。 Dolby TrueHD 杜比TrueHD是专为高清光盘媒体所开发的下一代无损压缩技术。特点100%无损的编码技术。码率高达18 Mbps。支持多达八个分离式24比特/96 kHz全频带声道。 碟片类型种类: CD 英语:Compact Disc),是一种用以储存数字资料的光学碟片。容量:700MB CD-R Compact Disk-Recordable, CD-R是一种一次写入、永久读的标准。其工作原理是通过激光照射到盘片上的“凹陷”和“平地”其反射光的变化来读取的;CD-ROM的“凹陷”是印制的,而CD-R是由刻录机烧制而成。 CD-RW 可擦写光盘。盘片由于采用了相变技术,它的激光反射率比一般的CD盘片要低很多。D-RW驱动器的激光头有两种波长设置,分别为写(P-Write)和擦除(P-Eraze),刻录时(500~700摄氏度)使该物质的分子自由运动,多晶结构被改变,呈现一种非晶状(随即)状态(反射率只有5%)。而擦除数据就利用(200℃)温度让刻录层物质恢复到多晶结构(即CD-RW 光盘初始状态)。 DVD 数字多功能光盘(英文:Digital Versatile Disc),简称DVD,是一种光盘存储器,通常用来播放标准电视机清晰度的电影,高质量的音乐与作大容量存储数据用途。 DVD-R 采用有机染料的方法制成,容量:4.7GB。 DVD-RW 可重写超过1,000次。容量都是4.7GB

音频基础知识

一般认为20Hz-20kHz是人耳听觉频带,称为“声频”。这个频段的声音称为“可闻声”,高于20kHz的称为“超声”,低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别,所以二者的接线方法是不一样的,应引起注意。 声学的基本概念音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如: 1.语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定,即以主观打分(MOS)来度量,它分为以下五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;

专业音频中的十个知识点

专业音频中的十个知识点 1.如果音乐家们在舞台上能够听到他们所需要的声音,那他们会感觉非常舒适,在舞台上的表现往往也会更好。 当然,那些经验丰富的监听技术人员还有录音技术人员肯定是知道这一点的。 但是对那些经验不足的人来说,了解这一点是非常重要的。这并不是一个关于需要使用多大的功率的问题,也不是一个关于需要使用什么样的楔形返听音箱的问题。这其实是一个关于心理学的问题。 而且我认为,如果您了解了舞台监听的技术,并且知道如何取悦舞台上的音乐家们,那么您就已经达到了成为一名优秀的混音工程师90%的条件。 当然,最后的那10%可能要靠天赋,运气等等其他因素,但是如果没有之前的那90%的基础,无论您有多好的天赋和运气都没有用。 2.在海拔高度为海平面高度,温度为68华氏度,相对湿度为4%的条件下,声音的传播速度是每秒1,130英尺。 这是非常重要的信息,因为如果您对声音传播的方式有着足够的了解,那么在工作中,您会对麦克风的架设,延迟塔的设置,以及平衡前后延迟这类问题拥有更深入的了解。不仅如此,您还应该知道,声音的传播速度是会随着空气的温度,湿度和海拔高度的变化而变化。(如果您对此还不了解,那么请尽快学习一下相关的知识。)

3.反平方定律。 如果距离声源的距离每增加一倍,那么声功率就会减少为原来的四分之一,我想这一点很多人都是知道的。这一定律几乎可以适用于所有的地方,无论是麦克风还是扬声器阵列。了解这一定律,对于我们确定功率放大器所需的功率十分重要。 例如,如果您通常所使用的扬声器阵列所能覆盖的观众席区域是从20英尺到60英尺,而在某一个演出当中,观众席的区域是在40到100英尺之间,那么您需要使用多大的功率才能在观众席内维持相同的声功率?答案是:大约四倍的功率! 反平 方定律,如上图所示 4.人类听觉系统的等响度曲线(等响曲线)。 早在20世纪30年代,Harvey Fletcher和他在贝尔实验室领导的团队就通过了一系列试验,获得了如下这张等响曲线图。从图中我们可以看出人类的耳朵对于中高频率信号最为敏感,而对于频率非常低和频率非常高的声音信号,最不敏感。 换句话说,如果我们想让100 Hz的音调与3.5 kHz的音调听起来一样大,100 Hz时的声音必须比3.5 kHz时的声音大上15 dB!(这里我们假设3.5 kHz的音调为85 dB SPL)

现代录音基础知识

现代录音基础知识(上) 快速录音基础知识入门连载(一) 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 什么是叠加? 假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式 录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

录音技术基础知识基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音 轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种 播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节

奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型,如:RCA型(在家用的立体声设备上也可以找到),XLR(一般用于话筒)和1/4inch(一般用于乐器)。

视频音频编码知识

audio。AAC(Advanced Audio Coder)区别于ac3,mp3(全称MPEG1 Layer3,可不是MPEG3的缩写哦)等等,aac是Mp4官方指定的mp4音频规格。和video一样,她也有两个profile: - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据,HE比LC更高级一些,允许你在相同音质下已更低的bitrate编码。 帧间压缩。 其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。 采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

相关文档
最新文档