音频基础知识

音频基础知识
音频基础知识

音频,英文是AUDIO,也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频,只要是我们听得见的声音,就可以作为音频信号进行传输。有关音频的物理属性由于过于专业,请大家参考其他资料。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

一、音频基本概念

1、什么是采样率和采样大小(位/bit)。

声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。

2、有损和无损

根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆

周率的值。

3、为什么要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 = Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即s。这表示存储一秒钟采样率为,采样大小为16bit,双声道的PCM编码的音频信号,需要的空间,1分钟则约为,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。

4、频率与采样率的关系

采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为,这意味着什么呢假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD 提供的一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。

5、流特征

随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。

也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。

几个补充概念:

什么是分频器

分频器是指将不同频段的声音信号区分开来,分别给于放大,然后送到相应频段的扬声器中再进行重放。在高质量声音重放时,需要进行电子分频处理。它可分为两种:(1)功率分频器:位于功率放大器之后,设置在音箱内,通过LC滤波网络,将功率放大器输出的功率音频信号分为低音,中音和高音,分别送至各自扬声器。连接简单,使用方便,但消耗功率,出现音频谷点,产生交*失真,它的参数与扬声器阻抗有的直接关系,而扬声器的阻抗又是频率的函数,与标称值偏离较大,因此误差也较大,不利于调整。(2)电子分频器:将音频弱信号进行分频的设备,位于功率放大器前,分频后再用各自独立的功率放大器,把每一个音频频段信号给予放大,然后分别送到相应的扬声器单元。因电流较小故可用较小功率的电子有源滤波器实现,调整较容易,减少功率损耗,及扬声器单元之间的干扰。使得信号损失小,音质好。但此方式每路要用独立的功率放大器,成本高,电路结构复杂,运用于专业扩声系统。(摘自av_world)

什么是激励器

激励器是一种谐波发生器,利用人的心理声学特性,对声音信号进行修饰和美化的声处理设备。通过给声音增加高频谐波成分等多种方法,可以改善音质、音色、提高声音的穿透力,增加声音的空间感。现代激励器不仅可以创造出高频谐波,而且还具有低频扩展和音乐风格等功能,使低音效果更加完美、音乐更具表现力。使用激励器提高声音的清晰度,可懂性和表现力。使声音更加悦耳动听,降低听音疲劳,增加响度。虽然激励器只给声音增加了左右的谐波成分,但实际听起来,音量好像增加了10dB左右。使声音的听觉响度明显增加,声音图像的立体感,以及声音的分离度的增加;改善了声音的定位和层次感,还可以提高重放声音的音质,磁带的复制率。因为声信号在传送和录制过程中会损失高频谐波成分,出现高频噪声。此时前者用激励器先对信号进行补偿,后者可用滤波器将高频噪声滤掉后,再营造出高音成分,保证重放音质。激励器的调节需要音响师对系统的音质和音色进行判别,再根据主观听音评价进行调整。(

什么是均衡器

均衡器是一种可以分别调节各种频率成分电信号放大量的电子设备,通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷,补偿和修饰各种声源及其它特殊作用,一般调音台上的均衡器仅能对高频、中频、低频三段频率电信号分别进行调节。均衡器分为三类:图示均衡器,参量均衡器和房间均衡器。1.图示均衡器:亦称图表均衡器,通过面板上推拉键的分布,可直观地反映出所调出的均衡补偿曲线,各个频率的提升和衰减情况一目了然,它采用恒定Q值技术,每个频点设有一个推拉电位器,无论提升或衰减某频率,滤波器的频带宽始终不变。常用的专业图示均衡器则是将20Hz~20kHz的信号分成10段、15段、27段、31段来进行调节。这样人们根据不同的要求分别选择不同段数的频率均衡器。一般来说10段均衡器的频率点以倍频程间隔分布,使用在一般场合下,15段均衡器是2/3倍频程均衡器,使用在专业扩声上,31段均衡器是1/3倍频程均衡器,多数有在比较重要的需要精细补偿的场合下,图示均衡器结构简单,直观明了,故在专业音响中应用非常广泛。2.参量均衡器:亦称参数均衡器,对均衡调节的各种参数都可细致调节的均衡器,多附设在调音台上,但也有独立的参量均衡器,调节的参数内容包括频段、频点、增益和品质因数Q值等,可以美化(包括丑化)和修饰声音,使声音(或音乐)风格更加鲜明突出,丰富多彩达到所需要的艺术效果。3.房间均衡器,用于调整房间内的频率响应特性曲线的均衡器,由于装饰材料对不同频率的吸收(或反射)量不同以及简正共振的影响造成声染色,所以必须用房间均衡器对由于建声方面的频率缺陷加以客观地补偿调节。频段分得越细,调节的峰越尖锐,即Q值(品质因数)越高,调节时补偿得越细致,频段分的越粗则调节的峰就比较宽,当声场传输频率特性曲线比较复杂时较难补偿。(

什么是压缩限幅器

压缩限幅器是压缩器和限幅器的统称。它是音频信号的一种处理设备,可以将音频电信号的动态进行压缩或进行限制。压缩器为可变增益放大器,其放大倍数(增益)可以随输入信号的强弱而自动变化,是成反比的。当输入信号达到一定程度(阈值也称临界值)时,输出信号随输入信号的增加而增加,这种情况称为压缩(Compressor);不再增加则称为限制(Limiter)。过去的压限器采用硬拐点(Hard-knee)技术,输入信号一达到阈值。增益就立即减少,这样就会出现信号在拐点(增益变化的转折点)处动态突变现象,使人耳明显地感觉到强信号被突然压缩的现象。为了解决这一不足,现代新型压限器采用了软拐点(soft-knee)技术,这种压限器在阈值前后的压缩比变化是平衡的,渐变的,使压缩变化难以察觉,音质进一步提高。压限器在录音过程中可以使乐器和歌唱者的音量保持一定的平衡;保证各种信号强度的均衡。有时也用来消除歌唱者的口齿声,或利用改变压缩和释放时间,产生声音由小变大的“反转声”特殊效果。在广播系统中是用它来压缩较大动态范围的节目信号在防止调制失真和防止发射机过载的前提下,提高平均发射电平。在歌舞厅的扩声系统中,压限器是将信号通过压缩在保持原节目的风貌下,降低音乐的动态,以满足扩声系统和艺术活动的要求。虽然压限器有多种用途,现代压缩器普通采用了软拐点等新技术,可进一步减小压限器的压缩器的副作用,但是并不意味着压限器对音质的破坏作用就已不复存在了。所以,在扩声系统中,不要滥用压限器,即使要用也应该慎用减少用压限器对信号进行处理。这不仅是保护功放、音箱的需要,也是对改善音质的需要。

什么是信噪比(S/N)

信噪比指的是线路中某一参考点的信号功率与无信号时固有的噪音功率

之比值,用分贝(dB)表示,其数值越高越好,表示杂音起少。

什么是分贝

分贝(dB)为表示相对功率或幅度电平的标准单位。用dB表示。分贝数越大代表的所发出的声音越大,分贝在计算上是每增加 10 分贝,则声音大小约是原来的十倍。

dB: deciBel分贝。用以表达两个电压、功率或声音的相对水准。

dBm: 分贝的一个变种,0dB = 1mW into 600 Ohms

dBv: 分贝的一个变种,0dB = volts.

dBV: 分贝的一个变种,0dB = 1 volt.

dB/Octave: 分贝/八度。滤波器斜率的表达方式,每个八度的分贝数越大说明斜线更陡直。这个概念相对较为复杂,我们用物理学计算来说明:

为了表示声音的强弱程度,人们引入了“声强”的概念,并用1秒内垂直穿过单位面积的声能多少来量度它的大小,声强用字母“I”表示,它的单位是“瓦/米2”。根据规定可知,如果1秒内垂直穿过单位面积的声能加倍,那么声强的值也变为原来的2倍。所以说声强是不随人们感觉而转移的客观物理量。

虽然声强是个客观物理量,但是声强的大小和人们主观感到的声音强弱,却有非常大的差异。为了符合人们对声音强弱的主观感觉,物理学里又引入了“声强级”的概念,分贝就是声强级的一个单位,它是贝尔的十分之一。

声强级又是怎样规定的呢它和声强有什么关系呢

测量证明,人耳对不同频率的声波,敏感程度是不同的。对于3000赫兹的声波最敏感。只要这个频率的声强达到I0=10-12瓦/米2,就能引起人耳的听觉。声强级就是以人耳能听到的这个最小声强I0为基准规定的,并把I0=10-12瓦/米2的声强规定为零级声强,也就是说这时的声强级为零贝尔(也是零分贝)。当声强由I0加倍为2I0时,人耳感到的声音强弱并没有加倍。只有当声强达到10I0时,人耳感到的声音强弱才增大一倍,这个声强对应的声强级为1贝尔=10分贝;当声强变为100I0时,人耳感到的声音强弱增大2倍,对应的声强级为2贝尔=20分贝;当声强变为1000I0时,人耳感到的声音强弱增大3倍,对应的声强级为3贝尔=30分贝,依此类推。人耳能承受的最大声强为1瓦/米2=1012I0,

它对应的声强级为12贝尔=120分贝。

公式:声压级(dB)=20Lg(测量到的声压/参考声压值)

老鱼注:当测量到的和参考声压一样大小时,取对数后的计算结果就是0dB。在模拟的音频设备上,是可以大于过0dB的,但数字设备没有,数字计算需要一个量度,无限的值是没有的。所以在我们用的数字设备和软件中,0dB成了一个参考标准值。

二、常见音频格式及播放器介绍

主流音频格式的特点及其适应性

各种各样的音频编码都有其技术特征及不同场合的适用性,我们大致讲解一下如何去灵活应用这些音频编码。

4-1 PCM编码的WAV

前面就提到过,PCM编码的WAV文件是音质最好的格式,Windows平台下,所有音频软件都能够提供对她的支持。Windows提供的WinAPI中有不少函数可以直接播放wav,因此,在开发多媒体软件时,往往大量采用wav,用作事件声效和背景音乐。PCM编码的wav可以达到相同采样率和采样大小条件下的最好音质,因此,也被大量用于音频编辑、非线性编辑等领域。

特点:音质非常好,被大量软件所支持。

适用于:多媒体开发、保存音乐和音效素材。

4-2 MP3

MP3具有不错的压缩比,使用LAME编码的中高码率的mp3,听感上已经非常接近源WAV文件。使用合适的参数,LAME编码的MP3很适合于音乐欣赏。由于MP3推出年代已久,加之还算不错的音质及压缩比,不少游戏也使用mp3做事件音效和背景音乐。几乎所有着名的音频编辑软件也提供了对MP3的支持,可以将mp3象wav一样使用,但由于mp3编码是有损的,因此多次编辑后,音质会急剧下降,mp3并不适合保存素材,但作为作品的demo确实相当优秀的。mp3长远的历史和不错的音质,使之成为应用最广的有损编码之一,网络上可以找到大量的mp3资源,mp3player日渐成为一种时尚。不少VCDPlayer、DVDPlayer甚至手机都可以播放mp3,mp3是被支持的最好的编码之一。MP3也并非完美,在较低码率下表现不好。MP3也具有流媒体的基本特征,可以做到在线播放。

特点:音质好,压缩比比较高,被大量软件和硬件支持,应用广泛。

适用于:适合用于比较高要求的音乐欣赏。

4-3 OGG

Ogg是一种非常有潜力的编码,在各种码率下都有比较惊人的表现,尤其中低码率下。Ogg 除了音质好之外,她还是一个完全免费的编码,这对ogg被更多支持打好了基础。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,128kbps的Ogg比192kbps甚至更高码率的mp3还要出色。Ogg的高音具有一定的金属味道,因此在编码一些高频要求很高的乐器独奏时,Ogg的这个缺陷会暴露出来。OGG具有流媒体的基本特征,但现在还没有媒体服务软件支持,因此基于ogg的数字广播还无法实现。Ogg目前的被支持的情况还不够好,无论是软件的还是硬件的,都无法和mp3相提并论。

特点:可以用比mp3更小的码率实现比mp3更好的音质,高中低码率下均具有良好的表现。

适用于:用更小的存储空间获得更好的音质(相对MP3)

4-4 MPC

和OGG一样,MPC的竞争对手也是mp3,在中高码率下,MPC可以做到比竞争对手更好音质,在中等码率下,MPC的表现不逊色于Ogg,在高码率下,MPC的表现更是独孤求败,MPC的音质优势主要表现在高频部分,MPC的高频要比MP3细腻不少,也没有Ogg那种金属味道,是目前最适合用于音乐欣赏的有损编码。由于都是新生的编码,和Ogg际遇相似,也缺乏广泛的软件和硬件支持。MPC有不错的编码效率,编码时间要比OGG和LAME短不少。

特点:中高码率下,具有有损编码中最佳的音质表现,高码率下,高频表现极佳

适用于:在节省大量空间的前提下获得最佳音质的音乐欣赏。

4-6 WMA

微软开发的WMA同样也是不少朋友所喜爱的,在低码率下,有着好过mp3很多的音质表现,WMA的出现,立刻淘汰了曾经风靡一时的VQF编码。有微软背景的WMA获得了很好的软件及硬件支持,Windows Media Player就能够播放WMA,也能够收听基于WMA编码技术的数字电台。因为播放器几乎存在于每一台PC上,越来越多的音乐网站都乐意使用WMA作为在线试听的首选了。除了支持环境好之外,WMA在64-128kbps码率下也具有相当出色的表现,虽然不少要求较高的朋友并不够满意,但更多要求不高的朋友接受了这种编码,WMA很快的普及开了。

特点:低码率下的音质表现难有对手

适用于:数字电台架设、在线试听、低要求下的音乐欣赏

4-7 mp3PRO

作为mp3的改良版本的mp3PRO表现出了相当不错的素质,高音丰满,虽然mp3PRO是通过SBR技术在播放过程中插入的,但实际听感相当不错,虽然显得有点单薄,但在64kbps的世界里已经没有对手了,甚至超过了128kbps的mp3,但很遗憾的是,mp3PRO的低频表现也象mp3一样的破,所幸的是,SBR的高频插值可以或多或少的掩盖掉这个缺陷,因此mp3PRO

的低频弱势反而不如WMA那么明显。大家可以在使用RCA mp3PRO Audio Player的PRO开关来切换PRO模式和普通模式时深深的感觉到。整体而言,64kbps的mp3PRO达到了128kbps 的mp3的音质水平,在高频部分还略有胜出。

特点:低码率下的音质之王

适用于:低要求下的音乐欣赏

4-8 APE

一种新兴的无损音频编码,可以提供50-70%的压缩比,虽然比起有损编码来太不值得一提了,但对于追求完美注意的朋友简直是天大的福音。APE可以做到真正的无损,而不是听起来无损,压缩比也要比类似的无损格式要好。

特点:音质非常好。

适用于:最高品质的音乐欣赏及收藏。

三、音频信号的编码处理

1、PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。

大家知道,无论现在的多媒体电脑功能如何强大,其内部也只能处理数字信息。而我们听到的声音都是模拟信号,怎样才能让电脑也能处理这些声音数据呢还有,究竟模拟音频与数字音频有什么不同呢数字音频究竟有些什么优点呢这些都是我们下面所要介绍的。

把模拟音频转成数字音频,在电脑音乐里就称作采样,其过程所用到的主要硬件设备便是模拟/数字转换器(Analog to Digital Converter,即ADC)。采样的过程实际上是将通常的模拟音频信号的电信号转换成许多称作“比特(Bit)”的二进制码0和1,这些0和1便构成了数字音频文件。如下图,图中的正弦曲线代表原始音频曲线;填了颜色的方格代表采样后得到的结果,二者越吻合说明采样结果越好。

上图中的横坐标便是采样频率;纵坐标便是采样分辨率。图中的格子从左到右,逐渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然,当横坐标的单位越小即两个采样时刻的间隔越小,则越有利于保持原始声音的真实情况,换句话说,采样的频率越大则音质越有保证;同理,当纵坐标的单位越小则越有利于音质的提高,即采样的位数越大越好。

有一点请大家注意,8位(8Bit)不是说把纵坐标分成8份,而是分成2^8=256份;同理16位是把纵坐标分成2^16=65536份;而24位则分成2^24=份。现在我们来进行一个计算,看看一个数字音频文件的数据量到底有多大。假设我们是用、16bit来进行立体声(即两个声道)

2、WAVE

这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI 和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。

在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。

3、MP3编码

MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。

VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本

特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪里,即使是文件有部分损坏。虽然mp3可以有文件头,但对于mp3格式的文件却不是很重要,正因为这种特性,决定了MP3文件的每一段每一帧都可以单独的平均数据速率,而无需特别的解码方案。于是出现了一种叫VBR(Variable bitrate,动态数据速率)的技术,可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate,这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的,但要运用确实是一件难事,因为这要求编码器知道如何为每一段分配bitrate,这对没有波形分析的编码器而言,这种技术如同虚设。正是如此,VBR技术并没有一出现就显得光彩夺目。

专家们通过长期的声学研究,发现人耳存在遮蔽效应。声音信号实际是一种能量波,在空气或其他媒介中传播,人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小,我们称它为响度,表示响度这种能量的单位为分贝(dB)。即使是同样响度的声音,人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率,不管频率是否增高或降低,即使是响度在相同的情况下,大家都会觉得声音在变小。但响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值。

可以看到这条曲线基本成一个V字型,当频率超过15000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略,例如:在白天我们很难听到电脑中散热风扇的声音,晚上却成了噪声源,根据这种原理,编码器可以过滤掉很多听不到的声音,以简化信息复杂度,增加压缩比,而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽,如果A处于B为中心的遮蔽范围内,遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样,频率越高的临界带宽越宽。

根据这种效应,专家们设计出人耳听觉心理模型,这个模型被导入到mp3编码中后,导致了一场翻天覆地的音质革命,mp3编码技术一直背负着音质差的恶名,但这个恶名现在已经逐渐被洗脱。到了此时,一直被埋没的VBR技术光彩四射,配合心理模型的运用便现实出强大的诱惑力与杀伤力。

长期来,很多人对MP3印象不好,更多人认为WMA的最佳音质要好过MP3,这种说法是不正确的,在中高码率下,编码得当的MP3要比WMA优秀很多,可以非常接近CD音质,在不太好的硬件设备支持下,没有多少人可以区分两者的差异,这不是神话故事,尽管你以前盲听就可以很轻松区分MP3和CD,但现在你难保证你可以分辨正确。因为MP3是优秀的编码,以前被埋没了。

4、OGG编码

网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG 项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!

Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案,官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质!Ogg Vorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件(目前这种软件还没有)的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样,Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR。

5、MPC 编码

MPC是又是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。

6、mp3PRO 编码

2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常

高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

7、WMA

WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中着名的Real Networks。微软声称,在只有64kbps 的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。

8、RA

RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA 和WMA是目前互联网上,用于在线试听最多的音频媒体格式。

9、APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支

持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。

by:yangchen

(转载)

录音技术基础知识

录音技术基础知识

录音技术基础知识 基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一

个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上

数字音频基础知识

第一章数字音频基础知识 主要内容 ?声音基础知识 ?认识数字音频 ?数字音频专业知识 第1节声音基础知识 1.1 声音的产生 ?声音是由振动产生的。物体振动停止,发声也停止。当振动波传到人耳时,人便听到了声音。 ?人能听到的声音,包括语音、音乐和其它声音(环境声、音效声、自然声等),可以分为乐音和噪音。 ?乐音是由规则的振动产生的,只包含有限的某些特定频率,具有确定的波形。 ?噪音是由不规则的振动产生的,它包含有一定范围内的各种音频的声振动,没有确定的波形。 1.2 声音的传播 ?声音靠介质传播,真空不能传声。 ?介质:能够传播声音的物质。 ?声音在所有介质中都以声波形式传播。 ?音速 ?声音在每秒内传播的距离叫音速。 ?声音在固体、液体中比在气体中传播得快。 ?15oC 时空气中的声速为340m/s 。 1.3 声音的感知 ?外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经,听觉神经再把信号传给大脑,这样人就听到了声音。 ?双耳效应的应用:立体声 ?人耳能感受到(听觉)的频率范围约为20Hz~ 20kHz,称此频率范围内的声音为可听声(audible sound)或音频(audio),频率<20Hz声音为次声,频率>20kHz声音为超声。 ?人的发音器官发出的声音(人声)的频率大约是80Hz~3400Hz。人说话的声音(话音voice / 语音speech)的频率通常为300Hz~3000 Hz(带宽约3kHz)。 ?传统乐器的发声范围为16Hz (C2)~7kHz(a5),如钢琴的为27.5Hz (A2)~4186Hz(c5)。 1.4 声音的三要素 ?声音具有三个要素: 音调、响度(音量/音强)和音色 ?人们就是根据声音的三要素来区分声音。 音调(pitch ) ?音调:声音的高低(高音、低音),由―频率‖(frequency)决定,频率越高音调越高。 ?声音的频率是指每秒中声音信号变化的次数,用Hz 表示。例如,20Hz 表示声音信号在1 秒钟内周期性地变化20 次。?高音:音色强劲有力,富于英雄气概。擅于表现强烈的感情。 ?低音:音色深沉浑厚,擅于表现庄严雄伟和苍劲沉着的感情。 响度(loudness ) ?响度:又称音量、音强,指人主观上感觉声音的大小,由―振幅‖(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。(单位:分贝dB) 音色(music quality) ?音色:又称音品,由发声物体本身材料、结构决定。 ?每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音,都是由音色不同造成的。 1.5 声道

音视频技术基本知识一

https://www.360docs.net/doc/2f2247975.html, 音视频技术基本知识一 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云总结网络上的知识,与大家分享一下音视频技术基本知识。 与画质、音质等有关的术语 这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧 一般来说,帧是影像常用的最小单位,简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的,现在大多数视频也类似,下面说说帧速率和帧大小。 帧速率,有的转换器也叫帧率,或者是每秒帧数一类的,这可以理解为每一秒的播放中有多少张图片,一般来说,我们的眼睛在看到东西时,那些东西的影像会在眼睛中停留大约十六分之一秒,也就是视频中只要每秒超过15帧,人眼就会认为画面是连续不断的,事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况,当视频中有较快的动作时,帧速率过小,动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上,这24帧是电影的帧速率。 帧大小,有的转换器也叫画面大小或屏幕大小等,是组成视频的每一帧的大小,直观表现为转换出来的视频的分辨率的大小。一般来说,软件都会预置几个分辨率,一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等,当然很多转换器提供自定义选项,这里,不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率,如果是转换到普通手机、PSP等设备上,视频分辨率选择与设备分辨率相同,否则某些设备可能会播放不流畅,设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率 比特率,又叫码率或数据速率,是指每秒传输的视频数据量的大小,音视频中的比特率,是指由模拟信号转换为数字信号的采样率;采样率越高,还原后的音质和画质就越好;音视频文件的体积就越大,对系统配置的要求也越高。 在音频中,1M以上比特率的音乐一般只能在正版CD中找到,500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式,一般的MP3是在96K到320K之间。目前,对大多数人而言,对一般人而言192K就足够了。 在视频中,蓝光高清的比特率一般在40M以上,DVD一般在5M以上,VCD一般是在1M 以上。(这些均是指正版原盘,即未经视频压缩的版本)。常见的视频文件中,1080P的码率一般在2到5M之间,720P的一般在1到3M,其他分辨率的多在一M一下。 视频文件的比特率与帧大小、帧速率直接相关,一般帧越大、速率越高,比特率也就越大。当然某些转换器也可以强制调低比特率,但这样一般都会导致画面失真,如产生色块、色位不正、出现锯齿等情况。

音视频基础知识考核题

网络音视频基础知识考核题 1.以下哪一项不是视频文件封装格式?C a)AVI b)MP4 c)AVC d)MPEG-TS 2.以下哪一项不是音视频编码格式?B a)Window Media Video Codec 9 b)MPEG-PS c)HE-AAC d)MPEG-2 3.以下哪一项为Flash Media Encoder录制文件格式?D a)MP4 b)M4V c)MOV d)F4V 4.Adobe Flash Player不支持以下哪种音视频格式?D a)MP4:AVC+AAC b)3GP:AVC+AMR-NB c)FLV:H263+MP3 d)MOV: AVC+AAC 5.Apple手持终端(iphone,ipod,ipad)本地播放器支持以下哪种视频编码?B a)H.264+MP3 b)H.264+AAC c)OnVP6+MP3 d)H.263+AAC 6.以下哪一项不属于H.264视频编码标准框架(Profile)?D a)Baseline Profile b)Main Profile c)High Profile d)MEI Profile 7.视频关键帧又称?A a)I Frame b) B Frame c)P Frame d) A Frame 8.如果设置视频编码帧速率为29.97fps,需要每秒2个关键帧,则每隔多少帧需设置一个 关键帧?A a)10 b)15 c)20 d)30 9.以下哪套编码设置是Flash Media Encoder不支持的?D a)H.264+MP3,350K+32K,15fps,22050,320x240 b)H.264+MP3,350K+32K,15fps,22050,320x240 H.264+MP3,500K+64K,25fps,44100,480x320 c)H.264+MP3,500K+64K,25fps,44100,480x320 H.264+MP3,800K+64K,25fps,44100,640x480 d)ONVP6+MP3,300K+32K,12fps,22050,480x320 ONVP6+MP3,400K+32K,12fps,22050,320x240 ONVP6+MP3,500K+32K,12fps,22050,240x180

录音技术基础知识

录音技术基础知识基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各 自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可 以用某种播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代

录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型,如:RCA型(在家用的立体声设备上也可

音频基础知识

音频,英文是AUDIO,也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。这样我们可以很通俗地解释音频,只要是我们听得见的声音,就可以作为音频信号进行传输。有关音频的物理属性由于过于专业,请大家参考其他资料。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 一、音频基本概念 1、什么是采样率和采样大小(位/bit)。 声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。 2、有损和无损 根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 3、为什么要使用音频压缩技术 要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有

录音技术基础知识

录音技术基础知识 基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种播 放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

(完整版)音频基础知识及编码原理

一、基本概念 1 比特率:表示经过编码(压缩)后的音频数据每秒钟需要用多少个比特来表示,单位常为kbps。 2 响度和强度:声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化,但也受频率的影响。总的说,中频纯音听来比低频和高频纯音响一些。 3 采样和采样率:采样是把连续的时间信号,变成离散的数字信号。采样率是指每秒钟采集多少个样本。 Nyquist采样定律:采样率大于或等于连续信号最高频率分量的2倍时,采样信号可以用来完美重构原始连续信号。 二、常见音频格式 1. WAV格式,是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持,压缩率低。 2. MIDI是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式,规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传

输的协议,可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件,在MIDI文件中存储的是一些指令。把这些指令发送给声卡,由声卡按照指令将声音合成出来。 3. MP3全称是MPEG-1 Audio Layer 3,它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。应用最普遍。 4. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 5. MP3Pro是由瑞典Coding科技公司开发的,其中包含了两大技术:一是来自于Coding 科技公司所特有的解码技术,二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。 6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18。此外,WMA还可以通过DRM(Digital Rights Management)保护版权。 7. RealAudio是由Real Networks公司推出的一种文件格式,最大的特点就是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio 主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM (RealMedia,RealAudio G2)、RMX(RealAudio Secured)等三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽敞的听众获得较好的音质。 8. Audible拥有四种不同的格式:Audible1、2、3、4。https://www.360docs.net/doc/2f2247975.html,网站主要是在互联网上贩卖有声书籍,并对它们所销售商品、文件通过四种https://www.360docs.net/doc/2f2247975.html, 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和3采用不同级别的语音压缩,而格式4采用更低的采样率和MP3相同的解码方式,所得到语音吐辞更清楚,而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具,这就是Audible Manager,使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件

日常生活中的音视频功能端口基础知识

Composite Video Output(模拟信号) 复合视频端子也叫AV端子或者Video端子,是声、画分离的视频端子,一般由三个独立的RCA插头(又叫梅花接口RCA端子)组成的,其中的V接口连接混合视频信号,为黄色插口;L接口连接左声道声音信号,为白色插口;R接口连接右声道声音信号,为红色插口。 S-Video Output(不适用于高清视频,其信号最高分辨率有限) S端子也是非常常见的端子,其全称是Separate Video,也称为SUPER VIDEO。S端子实际上是一种五芯接口,由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成 HDMI Output 高清晰度多媒体接口(英文:High Definition Multimedia Interface,HDMI)是一种数字化视频/音频接口技术,是适合影像传输的专用型数字化接口,其可同时传送音频和影音信号,最高数据传输速度为5Gbps。同时无需在信号传送前进行数/模或者模/数转换。 DVI DVI的英文全名为Digital Visual Interface,中文称为“数字视频接口”。是一种视频接口标准,设计的目标是通过数字化的传送来强化个人电脑显示器的画面品质。

RJ45 / Ethernet RJ45 型网线插头又称水晶头,共有八芯做成,广泛应用于局域网和ADSL 宽带上网用户的网络设备间网线(称作五类线或双绞线)的连接。10 100base tx RJ45接口是常用的以太网接口,支持10兆和100兆自适应的网络连接速度,常见的RJ45接口有两类:用于以太网网卡、路由器以太网接口等的DTE类型,还有用于交换机等的DCE类型。 常见音视频格式: MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量WMA(Windows Media Audio)是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3 Dolby Digital杜比数字技术(英文名称:Dolby Digital),是杜比实验室发布的新一代家庭影院环绕声系统。其数字化的伴音中包含左前置、中置、右前置、左环绕、右环绕5个声道的信号。它是DVD-Video影碟的指定音频标准。广泛应用于卫星电视机顶盒、数字有线等领域。Dolby Digital Plus 杜比数字+技术是专为所有的高清节目与媒体所设计的下一代音频技术。杜比数字+技术建立在杜比数字技术的基础之上,杜比数字技术是全世界DVD和高清广播节目的多声道音频标准。 Dolby TrueHD 杜比TrueHD是专为高清光盘媒体所开发的下一代无损压缩技术。特点100%无损的编码技术。码率高达18 Mbps。支持多达八个分离式24比特/96 kHz全频带声道。 碟片类型种类: CD 英语:Compact Disc),是一种用以储存数字资料的光学碟片。容量:700MB CD-R Compact Disk-Recordable, CD-R是一种一次写入、永久读的标准。其工作原理是通过激光照射到盘片上的“凹陷”和“平地”其反射光的变化来读取的;CD-ROM的“凹陷”是印制的,而CD-R是由刻录机烧制而成。 CD-RW 可擦写光盘。盘片由于采用了相变技术,它的激光反射率比一般的CD盘片要低很多。D-RW驱动器的激光头有两种波长设置,分别为写(P-Write)和擦除(P-Eraze),刻录时(500~700摄氏度)使该物质的分子自由运动,多晶结构被改变,呈现一种非晶状(随即)状态(反射率只有5%)。而擦除数据就利用(200℃)温度让刻录层物质恢复到多晶结构(即CD-RW 光盘初始状态)。 DVD 数字多功能光盘(英文:Digital Versatile Disc),简称DVD,是一种光盘存储器,通常用来播放标准电视机清晰度的电影,高质量的音乐与作大容量存储数据用途。 DVD-R 采用有机染料的方法制成,容量:4.7GB。 DVD-RW 可重写超过1,000次。容量都是4.7GB

音频基础知识

一般认为20Hz-20kHz是人耳听觉频带,称为“声频”。这个频段的声音称为“可闻声”,高于20kHz的称为“超声”,低于20Hz的称为“次声“。(《广播播控与电声技术》p3) 所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。由于电子平衡与变压器平衡的区别,所以二者的接线方法是不一样的,应引起注意。 声学的基本概念音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。音频频率范围一般可以分为四个频段,即低频段(30 ̄150Hz);中低频段(30 ̄150Hz);中低频(150 ̄500Hz);中高频段(500 ̄5000Hz);高频段(5000 ̄20000Hz)。30 ̄150Hz频段:能够表现音乐的低频成分,使欣赏者感受到强劲有力的动感。150 ̄500Hz频段:能够表现单个打击乐器在音乐中的表现力,是低频中表达力度的部分。500 ̄5000Hz频段:主要表达演唱者或语言的清淅度及弦乐的表现力。5000 ̄20000Hz频段:主要表达音乐的明亮度,但过多会使声音发破。所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。音质评价方法评价再现声音的质量有主观评价和客观评价两种方法。例如: 1.语音音质评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定,即以主观打分(MOS)来度量,它分为以下五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;

专业音频中的十个知识点

专业音频中的十个知识点 1.如果音乐家们在舞台上能够听到他们所需要的声音,那他们会感觉非常舒适,在舞台上的表现往往也会更好。 当然,那些经验丰富的监听技术人员还有录音技术人员肯定是知道这一点的。 但是对那些经验不足的人来说,了解这一点是非常重要的。这并不是一个关于需要使用多大的功率的问题,也不是一个关于需要使用什么样的楔形返听音箱的问题。这其实是一个关于心理学的问题。 而且我认为,如果您了解了舞台监听的技术,并且知道如何取悦舞台上的音乐家们,那么您就已经达到了成为一名优秀的混音工程师90%的条件。 当然,最后的那10%可能要靠天赋,运气等等其他因素,但是如果没有之前的那90%的基础,无论您有多好的天赋和运气都没有用。 2.在海拔高度为海平面高度,温度为68华氏度,相对湿度为4%的条件下,声音的传播速度是每秒1,130英尺。 这是非常重要的信息,因为如果您对声音传播的方式有着足够的了解,那么在工作中,您会对麦克风的架设,延迟塔的设置,以及平衡前后延迟这类问题拥有更深入的了解。不仅如此,您还应该知道,声音的传播速度是会随着空气的温度,湿度和海拔高度的变化而变化。(如果您对此还不了解,那么请尽快学习一下相关的知识。)

3.反平方定律。 如果距离声源的距离每增加一倍,那么声功率就会减少为原来的四分之一,我想这一点很多人都是知道的。这一定律几乎可以适用于所有的地方,无论是麦克风还是扬声器阵列。了解这一定律,对于我们确定功率放大器所需的功率十分重要。 例如,如果您通常所使用的扬声器阵列所能覆盖的观众席区域是从20英尺到60英尺,而在某一个演出当中,观众席的区域是在40到100英尺之间,那么您需要使用多大的功率才能在观众席内维持相同的声功率?答案是:大约四倍的功率! 反平 方定律,如上图所示 4.人类听觉系统的等响度曲线(等响曲线)。 早在20世纪30年代,Harvey Fletcher和他在贝尔实验室领导的团队就通过了一系列试验,获得了如下这张等响曲线图。从图中我们可以看出人类的耳朵对于中高频率信号最为敏感,而对于频率非常低和频率非常高的声音信号,最不敏感。 换句话说,如果我们想让100 Hz的音调与3.5 kHz的音调听起来一样大,100 Hz时的声音必须比3.5 kHz时的声音大上15 dB!(这里我们假设3.5 kHz的音调为85 dB SPL)

现代录音基础知识

现代录音基础知识(上) 快速录音基础知识入门连载(一) 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 什么是叠加? 假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。传统录音方式 录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。 录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 这些处理过程将在后文的详细介绍中解释。

录音技术基础知识

录音技术基础知识 Prepared on 22 November 2020

录音技术基础知识基本录音/多轨录音 无论是盒式磁带录音机、数码多轨录音机、硬盘录音机,还是其它录音媒体,其录音过程大致相同,目的都是将声音获取到缩混带上。 做此工作,录音工程师采用两个步骤: 1、多轨录音——各种乐器和人声的录音与叠加录音的过程,每种录音都有各自的“音 轨”。 2、多轨缩混——将这些多轨内容同步录在一组立体声轨上(“母带录音”),可以用某种 播放系统如CD播放机或磁带卡座等进行再制作。 录音基础/多轨录音 多轨录音指多种乐器或人声的互相“叠加”,以便在播放任意一种音色时,同时听到其它的音色。有的录音设备具备将不同乐器录在每个“轨”上的能力。多轨录音好比将16个盒带录音机的磁带并列在一起。就成为16轨磁带(实际32轨,因为盒式磁带是立体声,有两个轨),从而具备了每轨录制不同乐器的潜力。 换言之,假如您为一个鼓手、一个贝司和一个伴奏吉他手弹奏的曲子录音,用一台多轨录音机将每种乐器录在各自轨上。由于是一起演奏的曲子,音符要互相合拍,播放时,听起来仍好象几个乐手在一起演奏一般。如果您要在歌曲中加入一个主音吉他,既然每个乐器都录在各自音频上,就要先播放前三个轨,使吉他手在第四轨上录制主音吉他时,能与其它乐器“合拍”。这个过程就叫叠加。 按传统方式,录音师要先录制“节奏轨”,包括:鼓、贝司、伴奏吉他、键盘以及一个将被替换的主音人声,所有都录在一起。下一步,录音师开始做叠加,加入其它节

奏,主声部,背景人声,所有其它乐器,最后录制主音人声。而现代录音方式通常是一次制作一个轨,按排序的乐器、鼓的循环,或者人声开始录音。 关键点是最终你的乐器必须被同时录制在一起。一旦完成后,混音过程才能开始。录音基础/多轨缩混 缩混的目的是将你所录制的轨道缩到两个轨道(立体声)上或一个轨(单声)上。这样就可以在传统的播放系统如卡带或CD播放机上今昔播放了。 按传统方法,多轨录音机连在多通道的调音台上,这样每一个轨在调音面板上都可以被单独进行处理了。换句话说,多轨录音机的每一个输出都连接到调音台的每一个输入通道上,从那里再进行合并,成为单一的立体声输出。这个立体声的输出可以连接到母带处理机上录制立体声信号。 在合并许多通道到两个通道时,调音台还处理其它一些重要工作,如: -调节乐器的频率内容,一般称为EQ。 -给乐器增加效果,如混响,回声或合唱。 -调节每一轨的音量,保证不会有单独的乐器音量太过于大或者小。 如今,多轨录音机,多通道调调音台,均衡和效果器上的所有功能都可以集中在一个装置上。而且还可以用光盘刻录机、数码录音机或硬盘作为母带处理机。当然重要的是您的曲子中的所有的乐器都被录音、加工、缩混最后成为一种媒介而被大众听到。 一般连接端子 输入端子 在开始录音之前,你需要将乐器或者是话筒连接到录音机或调音台的输入部分。可能你会注意到有一些不同的连接类型,如:RCA型(在家用的立体声设备上也可以找到),XLR(一般用于话筒)和1/4inch(一般用于乐器)。

视频音频编码知识

audio。AAC(Advanced Audio Coder)区别于ac3,mp3(全称MPEG1 Layer3,可不是MPEG3的缩写哦)等等,aac是Mp4官方指定的mp4音频规格。和video一样,她也有两个profile: - LC-AAC (Low Complexity) 也被叫做MAIN @ Level 2 - HE-AAC (High Efficiency) 也被叫做AAC SBR/AAC+/aacplus 再次抛开技术性的数据,HE比LC更高级一些,允许你在相同音质下已更低的bitrate编码。 帧间压缩。 其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。 采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。 1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。 I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。 P帧:前向预测编码帧。 P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。 P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。 B帧:双向预测内插编码帧。 B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。 B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

相关文档
最新文档