音频编解码介绍
音频编码和解码的原理和实践

音频编码和解码的原理和实践音频编码和解码是指将模拟音频信号转换成数字形式进行传输和存储,并在接收端将数字信号重新还原为模拟音频信号的过程。
本文将详细介绍音频编码和解码的原理和实践。
一、音频编码的原理音频编码是将模拟音频信号转换为数字信号的过程。
它的目的是通过去除冗余信息和压缩信号来降低数据量,以便更有效地进行传输和存储。
常见的音频编码方法包括脉冲编码调制(PCM)、脉冲编码调制调幅(PCM-FM)、有损编码和无损编码等。
1. PCM编码PCM(Pulse Code Modulation)编码是最常见的音频编码方法之一。
它将连续的模拟信号量化为不连续的数字信号,然后再对数字信号进行编码。
PCM编码的基本原理是将音频信号的振幅值按照一定的量化间隔进行离散化,然后将每个采样值编码为对应的二进制码。
由于PCM编码是无损编码,所以还原的音频质量会完全与原始音频一致。
2. 有损编码有损编码是指在进行音频编码时采用某种算法对音频信号进行压缩,从而减少数据量,但在还原时会导致一定的误差。
有损编码方法的典型代表是MP3、AAC等。
这些编码方法通过去除听觉上不敏感的信号成分、减少重复信号等方式来实现压缩。
有损编码的原理是基于人类听觉特性的研究。
我们的听觉系统对于一些细微的变化不敏感,因此对于这些变化可以进行一定程度的压缩。
这样,在不影响听觉质量的前提下,就可以大幅度地降低数据量。
3. 无损编码无损编码是指在进行音频编码时保持原始音频质量不变的编码方法。
无损编码方法的典型代表是FLAC、ALAC等。
无损编码方法通常基于预测编码原理,通过对音频信号进行数学建模,并将预测的误差进行编码来实现压缩。
二、音频解码的原理音频解码是将数字信号还原为模拟音频信号的过程。
它的目的是将编码后的音频信号通过逆向操作还原为原始音频信号。
常见的音频解码方法与编码方法相对应,包括PCM解码、有损解码和无损解码等。
1. PCM解码PCM解码是将经过PCM编码的音频信号重新转换为模拟音频信号的过程。
音频的编解码

音频编码解码基本概念介绍对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。
音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。
语音编码技术又分为三类:波形编码、参数编码以及混合编码。
波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。
该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。
非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。
我们最常用的G.711标准用的就是这个技术。
自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。
自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。
G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。
参数编码:广泛应用于军事领域。
利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。
它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。
这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。
美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。
MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。
了解电脑的音频编解码器

了解电脑的音频编解码器电脑的音频编解码器(Audio Codec)是一种将电子信号转化为可听音频信号的设备或软件。
它在数字音频领域发挥着关键作用,使我们能够在电脑上播放和录制声音。
本文将介绍电脑音频编解码器的工作原理、常见的编解码器类型以及其在不同领域的应用。
一、工作原理电脑音频编解码器的工作原理主要分为两个过程:编码和解码。
编码(Encoding)是指将模拟声音信号转换为数字形式的过程。
当我们通过麦克风录制声音时,麦克风会将声音信号转化为模拟电信号,然后经过电路处理和采样,最终转换为数字音频信号。
这个过程中,编码器会将原始声音信号压缩和编码,以减小音频文件的大小并保证音质。
解码(Decoding)是指将数字音频信号转换为模拟声音信号的过程。
在电脑上播放音频时,解码器会将音频文件解码,并将数字信号还原为模拟声音信号。
这些模拟信号通过扬声器或耳机再次转化为可听声音。
二、常见的编解码器类型1. MP3MP3(MPEG Audio Layer-3)是最常见的音频编解码器,以其高压缩比和良好的音质而闻名。
它能将音频文件的大小减小到原始文件的1/10左右,而声音质量保持在较高水平。
MP3广泛应用于音乐播放器、电脑、手机等多种设备。
2. AACAAC(Advanced Audio Coding)是一种被广泛应用于存储、传输音频的编码器。
它相对于MP3具有更好的音质和更高的压缩比。
AAC被广泛应用于数字电视、音乐流媒体平台等领域。
3. FLACFLAC(Free Lossless Audio Codec)是一种无损音频编解码器,能够将音频文件压缩到原始大小的50%-60%,同时保持音质的完整性。
FLAC常用于无损音乐存储和播放,让音乐爱好者能够享受到高质量的音频。
4. WAVWAV(Waveform Audio File Format)是一种无压缩的音频编解码器,它能够保留音频的原始质量。
WAV文件通常比较大,适合在专业音频领域使用,如录音棚和音频编辑软件。
音频编解码技术的介绍和应用

音频编解码技术的介绍和应用音频编解码技术介绍随着数字化时代的到来,音频编解码技术变得越来越重要。
它是数字音频信号从一种格式转换成另一种格式的过程,使得数字音频信号在各种设备之间的传输和处理变得更加便捷。
这种技术的核心原理在于,通过压缩不重要的数据并保留重要的数据,从而使得数字音频文件的大小变小,同时又能保证较高的音质。
音频编码技术的种类目前,市面上常用的音频编码技术有多种,其中比较常见的有以下几种:MP3编码技术:是一种最为流行、广泛应用的压缩技术,主要针对音乐类型文件进行压缩。
AAC编码技术:由电信公司根据MPEG-2/MPEG-4音频标准开发而成,可以实现高质量和低码率的平衡,可以用于存储和广播音频。
FLAC编码技术:一种非常常见的格式,主要针对无损音频的存储和播放,压缩比较大,但是音质非常高。
WAV编码技术:是一种无损音频文件格式,存储文件比较大,但是保证了高品质音频传输。
音频编码技术的应用音频编码技术广泛应用于许多领域,其中最为常见的应用是:1. 互联网音乐在互联网音乐行业中,音频编码技术起着至关重要的作用。
通过将音乐压缩成不同的格式,可以将音乐文件大小缩小,从而使得音乐在不同平台上的分发更加便捷。
而且,很多音乐平台支持多种格式的音频文件播放,这也为用户提供了更多的选择。
2. 计算机音频音频编码技术也可以应用于计算机音频领域。
通过将音频文件压缩成适当的格式,并存储在计算机硬盘上,可以使得音频文件在计算机上播放更加流畅。
而且,这种技术还可以减少存储空间的占用,让用户有更多的空间来存储其他文件。
3. 智能音箱随着智能家居的普及,智能音箱作为智能家居的重要组成部分,其应用前景也越来越广阔。
通过音频编码技术的应用,智能音箱能够对音频信号作出适当的响应,同时也可以将存储在云端的音频文件传输到智能音箱上,从而实现智能音箱的语音控制,如点播音乐等。
4. 音频传输在音频传输领域,音频编码技术也有着广泛的应用。
了解电脑的音频编解码技术

了解电脑的音频编解码技术电脑的音频编解码技术是指通过一系列的算法和处理步骤,将模拟音频信号转换成数字音频信号,或者将数字音频信号转换为模拟音频信号的过程。
这项技术在电脑音频领域扮演着重要的角色,影响着我们日常使用电脑进行音频处理和娱乐的体验。
本文将介绍电脑音频编解码技术的基本原理、常见的编解码算法以及应用领域。
一、电脑音频编解码技术的基本原理电脑音频编解码技术的基本原理涉及到模拟信号与数字信号之间的转换过程。
在模拟音频信号转换为数字音频信号的过程中,需要经过采样、量化和编码三个步骤;而在数字音频信号转换为模拟音频信号的过程中,则需要经过解码、重构和滤波三个步骤。
1. 采样:将连续的模拟音频信号转换为离散的数字音频信号。
采样过程中,需要确定采样频率和采样深度。
采样频率表示单位时间内对模拟音频信号进行采样的次数,常见的采样频率有44.1kHz、48kHz等;采样深度则表示音频信号的每个采样点的位数,通常为16位或24位。
2. 量化:将采样后的模拟音频信号的幅度值量化为离散的数值。
量化过程中,需要确定量化位数和量化范围。
量化位数表示量化的级别数,常见的量化位数有8位、16位等;量化范围表示幅度量化的最小和最大值,指定了模拟信号在数字化过程中的动态范围。
3. 编码:对量化后的数字音频信号进行编码压缩,以便存储和传输。
目前常用的编码算法有PCM编码、MP3、AAC等。
PCM编码是一种无损压缩算法,将每个采样点的数值直接转换为二进制表示;而MP3和AAC则是有损压缩算法,通过去除人耳听觉不敏感的音频信号细节,实现较高的压缩比。
4. 解码:对编码后的音频数据进行解码还原,得到原始数字音频信号。
解码过程中,需要根据编码算法进行相应的解压缩处理,将压缩后的音频数据解码为原始的数字音频信号。
5. 重构:将原始数字音频信号还原为模拟音频信号。
重构过程中,需要使用数字模拟转换器(DAC)将数字信号转换为模拟电信号,以供扬声器等音频设备输出。
音频编解码原理

音频编解码原理
音频编解码原理是一种将音频信号从模拟形式转换为数字形式并相互转换的技术。
编码是将模拟音频信号转换为数字形式,而解码则是将数字音频信号转换为模拟形式。
在音频编码过程中,模拟音频信号经过采样步骤将其转换为一系列离散的样本。
然后,对采样到的数据进行量化,将其映射到固定数量的离散值中,从而将连续的模拟信号转换为离散的数字信号。
接下来,将量化后的离散数据进行编码。
编码的目标是通过使用较少的位数来表示音频信号,以减小数据量并提高传输效率。
常用的音频编码算法包括PCM(脉冲编码调制)、ADPCM (自适应差分脉冲编码调制)、MP3(MPEG-1音频第三层)、AAC(高级音频编码)等。
在音频解码过程中,首先将编码后的数字音频数据还原为离散的量化数据。
然后,将量化数据反量化,将其转换回原始的离散数值。
最后,使用重构滤波器将离散数据重新插值为连续的模拟信号,以便在扬声器或耳机中进行音频回放。
音频编解码原理在许多应用领域中发挥着重要作用,例如音频压缩、音频传输、音频存储等。
通过使用合适的编码算法,可以实现高质量的音频传输和存储,并在一定程度上减小数据量,提高系统的效率和性能。
掌握电脑音频编解码技术

掌握电脑音频编解码技术近年来,随着信息技术的迅猛发展,电脑音频编解码技术的应用日益广泛。
掌握电脑音频编解码技术已经成为很多从事音频相关工作的人士的必备能力。
本文将介绍电脑音频编解码技术的概念、原理和应用,并提供一些学习该技术的方法和资源供读者参考。
一、电脑音频编解码技术概述电脑音频编解码技术是指将音频信号以数字方式进行压缩、存储和传输的技术。
它包括两个过程,即编码和解码。
编码的目标是将模拟音频信号转换为数字信号,从而实现对音频数据的压缩。
解码则是将数字信号重新还原为模拟音频信号。
二、电脑音频编解码技术原理1. 采样:将连续的模拟音频信号转换为离散的数字信号。
采样率是指每秒钟采样的次数,常用的采样率有44.1kHz和48kHz。
2. 量化:将采样得到的数字信号按照一定的精度进行量化,将连续的取值范围离散化。
常见的量化位数有16位和24位。
3. 压缩:采用各种压缩算法对量化后的数字信号进行压缩,以减小数据量。
常见的压缩算法有MP3、AAC和FLAC等。
4. 解压缩:将压缩后的音频数据进行解压缩,以还原原始音频信号。
5. 还原:将解压缩后的数字信号进行数模转换,得到模拟音频信号。
三、电脑音频编解码技术应用电脑音频编解码技术广泛应用于各个领域,其中包括音乐、影视、通讯和游戏等。
1. 音乐制作:音频编解码技术可以帮助音乐制作人将音频信号进行高质量的录制、编辑和混音。
2. 影视制作:电影和电视剧的制作过程中,音频编解码技术可实现配音、音效和混响等效果,提升影视作品的观赏性和听觉效果。
3. 通讯:IP电话、网络会议、视频聊天等通讯应用都需要使用音频编解码技术,以实现音频数据的传输和处理。
4. 游戏:电脑游戏中的音效和配乐往往需要使用音频编解码技术进行制作和处理,以增加游戏的沉浸感和真实感。
四、学习电脑音频编解码技术的方法和资源1. 课程和培训:许多大学和培训机构都开设了相关的音频编解码技术课程,可以通过参加这些课程来学习和掌握相关知识。
音频编码和解码的基本原理

音频编码和解码的基本原理在现代信息时代,音频编码和解码是一项重要的技术,它可以将音频信号转换为数字化的数据,从而方便传输、存储和处理。
本文将介绍音频编码和解码的基本原理,并探讨其在数字音频领域的应用。
一、音频编码的基本原理音频编码是将模拟音频信号转换为数字音频信号的过程。
其基本原理可以归纳为以下几个步骤:1. 采样:利用采样定理,将连续的模拟音频信号在时间上进行等间隔的离散采样,得到一系列离散的采样值。
2. 量化:将采样得到的连续值转换为离散值,即将连续的采样值映射到有限数量的离散级别上。
这个过程引入了量化误差,即原始音频信号和量化后的离散值之间的差异。
3. 编码:根据量化后的离散值,采用压缩编码算法将其表示为更紧凑的数字形式。
常用的音频编码算法有PCM、ADPCM、MP3等。
二、音频解码的基本原理音频解码是将数字音频信号转换回模拟音频信号的过程。
其基本原理如下:1. 解码:将经过编码的数字音频信号转换为量化后的离散值。
2. 逆量化:将离散值转换回连续的采样值,恢复量化过程中引入的误差。
逆量化算法与量化算法是相反的操作。
3. 重构:根据逆量化得到的采样值,利用重构滤波器进行插值和滤波操作,得到模拟音频信号。
三、音频编码和解码的应用音频编码和解码技术在现代的数字音频领域中得到了广泛的应用。
以下是几个常见的应用场景:1. 音频压缩:通过高效的音频编码算法,将音频信号压缩成更小的文件大小,方便存储和传输。
MP3、AAC等音频格式就是通过音频编码技术实现的。
2. 音频传输:在网络通信中,音频编码和解码可以实现音频数据的传输,包括实时语音通话、音频直播等应用。
3. 音频存储:将音频信号以数字化的形式存储在计算机或其他设备上,方便后续的管理、编辑和播放。
4. 音频处理:对音频信号进行降噪、去混响、均衡等处理,提升音质和用户体验。
综上所述,音频编码和解码技术是现代数字音频领域中不可或缺的基础技术。
它们通过将模拟音频信号转换为数字形式,实现了音频数据的高效传输、存储和处理,为我们带来了丰富多样的音频体验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
音频编解码原理介绍一.为什么要进行音频编解码二.音频编解码原理三.几种基本音频编解码介绍一、为什么要进行音频编解码随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV)和数字电影中不仅应有高质量的图像,也应当具有CD质量的立体声。
因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。
但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。
所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。
二、音频编解码原理每张CD光盘重放双声道立体声信号可达74分钟。
VCD视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中。
一、伴音压缩编码原理伴音信号的结构较图像信号简单一些。
伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。
人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。
在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。
1、阈值和掩蔽效应(1) 阈值特性人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz以下)和超高频段(例如16KHZ以上)的听觉灵敏度较低,而在1K-5KHZ的中音频段时,听觉灵敏度明显提高。
通常,将这种现象称为人耳的阈值特性。
若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。
将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。
在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。
应当保留强大的信号,忽略舍弃弱小的信号。
经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。
在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。
可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。
(2)掩蔽效应掩蔽效应是人耳的另一个重要生理特征。
如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。
由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。
根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。
既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。
舍弃掉这些信号,可以进一步压缩伴音数据总量。
经仔细观察,掩蔽效应分为两大类,一类是同时掩蔽效应,另一类是短时掩蔽效应。
其中,同时掩蔽效应是指同时存在一个弱信号和一个强信号,两者频率接近,强信号将提高弱信号的听阈值,将弱信号的听阈值提高到一定程度时,可使人耳听不到弱信号。
例如,同时出现A、B两声,若A声的听觉阈值为50dB,由于存在另一个不同频率的B声,将使A 声的阈值提高到64~68dB,例如取68dB,那么数值(68~50)dB=18dB,该值称为掩蔽量。
将强大的B声称为掩蔽声,而较弱的A声称为被掩蔽声。
上述掩蔽现象说明,若仅有A声时,其声压级50dB以上的声音可以传送出去,而50dB以下的声音将听不到;若同时出现B声,B声具有同时掩蔽效应,使得A声在声压级68dB以下的声音也听不到了,即50~68dB之间的A声人耳也听不到了,这些声音不必传送,即使传送也听不到,只须传送声压级68dB以上的声音。
总之,为了提高一个声音的阈值,可以同时设置另一个声音,使用这种办法可以压缩掉一部分声音数据。
在周围十分安静的环境下,人耳可以听到声压级很低的各种频率声音,但对低频声和高频声的掩蔽阈值较高,即听觉不灵敏。
经研究还发现,掩蔽声越强,掩蔽作用越强;当掩蔽声与被掩蔽声的频率相差越小,掩蔽效果越明显,两者频率相等时,掩蔽效果最佳;低频声(设为B)可有效地掩蔽高频声(设为A),而高频声(设为B)几乎不能掩蔽低频声(设为A)。
因而输入信号时,在受掩蔽的频带内加入更大的噪声时,人耳也感觉不到与原始信号有所区别。
上述的同时掩蔽效应,又称为频域掩蔽效应,它主要反映在频域方面对掩蔽作用的影响。
在声音压缩编码中,更多地使用单频声音的掩蔽效应。
如果A声和B声不同时出现,也可发生掩蔽作用,称它为短时掩蔽效应。
短时掩蔽又可分为两种类型,作用仍可持续一段时间,即后向掩蔽和前向掩蔽。
后向掩蔽是指掩蔽声B 消失后,其掩蔽作用仍可持续一段时间,一般可达0.5~2秒。
掩蔽机理是人耳的存储效应所致。
而前向掩蔽是指被掩蔽声A出现一段时间后出现掩蔽声B,只要A、B声音隔不太大(一般在0.05~0.2秒以内),B也可对A起掩蔽作用。
掩蔽机理是A声尚未被人耳感知接受时,强大的B声已来临所致。
在实践中,后向掩蔽有较高的应用价值。
短时掩蔽效应具有很强的时域结构特性,故又称为时域掩蔽效应。
在声音压缩编码中,应兼顾好人耳的频域和时域两种掩蔽效应。
三、几种基本音频编解码介绍1、MPEG-1音频编码编码流程:下图是基于MUSICAM(掩蔽模式通用子带编码和多路复用)的MPEG-1音频压缩编码方框图。
输入信号是经过取样的二进制PCM数字音频信号,取样频率可以取44.1KHz、48KHz或32KHz,该音频数码信号的码值与原来采样信号的幅度、频率成正比。
数字音频信号首先进入数字滤波器组,它被分成等带宽的32个子频带,可由数字滤波器输出32个子带数据信号。
这种处理方法与图像编码信号进行DCT变换的作用相似,但不是像图像信号那样分为64种余弦频率信息,这里仅分成32个子带,即将音频数据流改为32种频率的组合。
声音的分解力低于图像,这种处理方法是可行的。
然后,对32个子带的伴音数据进行再量化,以便再压缩数据量。
对于各个子频带的量化步长不相同,量化步长是根据人耳的听觉阈值和掩蔽效应而确定的。
经过量化处理的已压缩数据,保留了伴音信息的主体部分,而舍弃了听觉效果影响较小的伴音信息。
进入编码系统的输入信号,分流部分信号送到并列的1024点快速傅利叶变换器(FFT)进行变换,它检测输入信号每一个瞬间取样点在主频谱分量频域的分布的强度,经变换的信号送到心理声学模型控制单元。
根据听觉心理声学测量统计结果,可以归纳出一个心理声学控制对照表格,并按照此表格制成控制单元,而单元电路可以集中地反映出人耳的阈值特性和掩蔽特性。
经过量化的32个子频带数据已经被压缩,还要加上比例因子、位分配信息等辅助信息,共同加到1位流格式化单元,编码成为两个层次的伴音编码信号。
它既含有32个子频带的伴音数码,又带有这些数码所对应的位分配数据和不同频带数据的强弱比例因子。
待将来数据解码时,可根据各子频带的数据恢复声音信号,以及压缩时码位分配和强弱比例情况,在进行反量化时,参照压缩时的程序进行还原。
可见,伴音的压缩编码和图像处理一样,也要经过变换、量化、码位压缩等处理过程,它运用了许多数学模型和心理听觉测量的统计数据,对32个子频带和各个层次信号的处理也各有不相同的取样速率。
实际的心理听觉模型和适时处理控制过程十分复杂。
这些算法细节都已按硬件方式被固化在解码芯片中,这些内容不能再改变。
3、伴音与图像的同步图像和声音信号的压缩方法有许多不同,图像数据量又远远大于声音数据量,两者传送的数据码率大不相同。
每传送14~15个视频数据包才传送1个音频数据包,而播放声音和图像的内容又必须作到良好同步,否则将无法保证视听统一的效果。
为了作到声图同步,MPEG-1采用了独立的系统时钟(简称为STC)作为编码的参照基准,并将图像和声音的数据分为许多播放单元。
例如,将图像分为若干帧,将声音分为若干段落。
在数据编码时,在每个播放单元前面加置一个展示时标(PTS),或者加置一个解码时标(DTS)。
当这些时标出现时,表示前一个播放单元已经结束,一个新的图像和声音播放单元立即开始。
在播放相互对应的同一图像单元和声音单元时,可实现互相同步。
为了使整个系统在时钟在编码和重放时,声图有共同的时钟基准,又引入系统参考时钟SCR的概念。
系统参考时钟是一个实时时钟,其数值代表声图的实际播放时间,用它作为参照基准,以保证声图信号的传输时间保持一致。
实时时钟SCR必须与生活中的真实时间一致,要求它的准确度很高,否则可能发生声音和图像都播快或播慢的现象。
为了使SCR时间基准稳定、准确,MPEG-1采用了系统时钟频率SCF,以它作为定时信息的参照基础。
SCF 系统时钟的频率是90KHz,频率误差为90KHz±4.5KHz。
声图信号以SCF为统一的基准,其它定时信号SCR、PTS、DTS也是以它为基础。
2、MPEG-2音频编码MPEG-1是处理双声道立体声信号,而MPEG-2是处理5声道(或7声道)环绕立体声信号,它的重放效果更加逼真。
图2.3.3是MPEG-2音频编码方框图。
它输入互相独立的5声道音频信号,有前置左、右主声道(L、R),前置中央声道(C),还有后置左、右环绕声道(LS、RS)。
各声源经过模-数转化后,首先进入子带滤波器,每一声道都要分割为32个子频带,各子带的带宽均为750Hz。
为了兼容MPEG-1、普通双声道立体声和环绕模拟立体声等编码方式,原来按MPEG-1编码的立体声道能够扩展为多声道,应当包括所有5声道的信息,为此设置了矩阵变换电路。
该电路可生成兼容的传统立体声信号LO、RO,还有经过“加重”的左、中、右、左环绕、右环绕声音信号(共5路)。
对5路环绕立体声信号进行“加重”处理的原因:当计算兼容的立体声信号(LO、RO)时,为了防止过载,已在编码前对所有信号进行了衰减,经加重处理可以去失真;另外,矩阵转变中也包含了衰减因子和类似相移的处理。
编码器原始信号是5路,输入通道是5个,经过矩阵转化处理后产生了7种声音信号。
应当设置通道选择电路,它能够根据需要,对7路信号进行合理的选择处理。
该处理过程决定于解矩阵的过程,以及传输通道的分配信息;合理的通道选择,有利于减弱人为噪声加工而引起的噪声干扰。
此外,还设置了多声道预测计算电路,用于减少各通道间冗余度。
在进行多声道预测时,在传输通道内的兼容信号LO、RO,可由MPEG-1数据计算出来。
根据人耳生理声学基础,后级设置了动态串话电路,可在给定比特的情况下提高声音质量,或在要求声音质量的前提下降低比特率。
但设置该电路增加了MPEG-2解码器的复杂程度。