DAY5.1心理声学模型及音频压缩
fdk-aac编码原理

fdk-aac编码原理
fdk-aac是一种开源的、高性能的AAC(Advanced Audio Coding)音频编码库。
以下是fdk-aac编码的基本原理:
1.AAC编码概述:AAC是一种先进的音频编码标准,旨在提供更高的音频质量和更低的比特率。
它采用了基于子带的编码技术,通过对音频信号进行频域分析和量化来实现高效的压缩。
2.Psychoacoustic Model(心理声学模型):AAC编码使用心理声学模型分析音频信号,模拟人耳的感知特性。
这包括对音频信号的掩蔽效应进行建模,以便更有效地分配比特率给对人耳更敏感的信号部分。
3.MDCT(Modulated Discrete Cosine Transform):AAC使用MDCT作为频域变换技术,将音频信号从时域变换到频域。
这种变换有助于提取信号的频域特征,为后续的量化和编码提供基础。
4.Quantization and Coding(量化和编码):MDCT输出的频域系数经过量化和编码,以减少数据量。
AAC使用了一系列的编码技术,如Huffman编码和熵编码,来进一步压缩数据。
5.Bit Allocation(比特分配):根据心理声学模型的分析结果,AAC对每个频带分配适当的比特率,以确保对人耳敏感的频段获得更多的比特,从而提高音质。
6.码率控制:AAC编码器通常具有码率控制功能,以确保生成的编码流满足指定的比特率要求。
这对于网络传输和存储空间的有效利用非常重要。
fdk-aac是一个高度优化的AAC编码库,它在实现这些基本原理的同时,通过一系列的技术手段和算法来提高编码效率和音频质量。
第14章MEG声音压缩

• 传输速率为1.5Mbits/s,每秒播放30帧,具有CD音质
– 视频约1.2 Mbits/sec, – 音频约0.3 Mbits/sec (CD 唱片的码率: 44,100 samples/sec * 16 bits/sample * 2 channels > 1.4 Mbits/sec)
数字 声音
将每组样本的数值乘一个比 例因子(6位),比例因子可以 共享
frame packing
MPEG-1 音 频比特流
变换
量化,编码
每1帧包含 1152个样本
心理声学模型
辅助数据
使用的时间-频率变换部件是一个多相 滤波器组,所分割得到的32个子带频带 都相等, 32个子带各输出3组样本,每 组12个样本。
MPEG-1音频编码的性能(2)
• 提供三个独立的压缩层次:
压缩倍数 码率 延迟时间 语音质量 1 语音质量 2
1
2 3
4:1
6-8:1 10-12:1
384
192-256 112-128
19ms
35ms 59ms 2.1-2.6 3.6-3.8 4+ 4+
Slide 16
MPEG-1音频编码的性能(3)
16, 22.05, 24, 32, 44.1, 48kHz MPEG-2 音频编码器
8~640 kbps
Slide 35
MPEG-2的环绕立体声
MPEG-2 Audio 的“ 5.1 环绕立体声”也称为“ 3/2- 立体声加 LFE”, 放音现场前方有3个喇叭 (左、中、右3个声道),后面 有 2 个喇叭 (2 个环绕声道 ) ,“ .1 ”指 LFE(low frequency effects),即低频音效加强声道。
视频压缩编码和音频压缩编码的基本原理

视频压缩编码和⾳频压缩编码的基本原理本⽂介绍⼀下视频压缩编码和⾳频压缩编码的基本原理。
事实上有关视频和⾳频编码的原理的资料很的多。
可是⾃⼰⼀直也没有去归纳和总结⼀下,在这⾥简单总结⼀下,以作备忘。
1.视频编码基本原理(1)视频信号的冗余信息以记录数字视频的YUV分量格式为例,YUV分别代表亮度与两个⾊差信号。
⽐如对于现有的PAL制电视系统。
其亮度信号採样频率为13.5MHz。
⾊度信号的频带通常为亮度信号的⼀半或更少,为6.75MHz或3.375MHz。
以4:2:2的採样频率为例,Y信号採⽤13.5MHz。
⾊度信号U和V採⽤6.75MHz採样,採样信号以8bit量化,则能够计算出数字视频的码率为:13.5*8 + 6.75*8 + 6.75*8= 216Mbit/s如此⼤的数据量假设直接进⾏存储或传输将会遇到⾮常⼤困难,因此必须採⽤压缩技术以降低码率。
数字化后的视频信号能进⾏压缩主要根据两个基本条件:l 数据冗余。
⽐如如空间冗余、时间冗余、结构冗余、信息熵冗余等,即图像的各像素之间存在着⾮常强的相关性。
消除这些冗余并不会导致信息损失,属于⽆损压缩。
l 视觉冗余。
⼈眼的⼀些特性⽐⽅亮度辨别阈值,视觉阈值,对亮度和⾊度的敏感度不同,使得在编码的时候引⼊适量的误差,也不会被察觉出来。
能够利⽤⼈眼的视觉特性。
以⼀定的客观失真换取数据压缩。
这样的压缩属于有损压缩。
数字视频信号的压缩正是基于上述两种条件,使得视频数据量得以极⼤的压缩,有利于传输和存储。
⼀般的数字视频压缩编码⽅法都是混合编码,即将变换编码,运动预计和运动补偿。
以及熵编码三种⽅式相结合来进⾏压缩编码。
通常使⽤变换编码来消去除图像的帧内冗余,⽤运动预计和运动补偿来去除图像的帧间冗余。
⽤熵编码来进⼀步提⾼压缩的效率。
下⽂简介这三种压缩编码⽅法。
(2)压缩编码的⽅法(a)变换编码变换编码的作⽤是将空间域描写叙述的图像信号变换到频率域。
然后对变换后的系数进⾏编码处理。
心理声学原理

心理声学原理时间:2016年10月22日星期六来源:百度心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。
心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。
它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分及引入不可闻的畸变,达到普通熵编码无法达到的压缩比率。
由于人耳听觉系统复杂,人类迄今为止对它的机理和听觉特性的某些问题总是还不能从生理解剖角度完全解释清楚。
所以,对人耳听觉特性的研究仅限于在心理声学和语言声学内进行。
人耳对不同强度和不同频率声音的一定听觉范围称为声域。
在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。
其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理是的任何复杂的声音,故又称为声音“三要素”;而对于多种音源场合的人的耳掩蔽效应等特性尤为重要,它是心理声学的基础。
研究声音和它引起的听觉之间关系的一门边缘学科。
它既是声学的一个分支,也是心理物理学的一个分支。
心理声学本可包括言语和音乐这样一些复合声和它们的知觉。
这些可见语言声学、音乐声学等条,本条只限于较基础和简单的心理声学现象,即①刚刚能引起听觉的声音──听阈;②声音的强度、频率、频谱和时长这些参量所决定的声音的主观属性──响度、音调、音色和音长;③某些和复合声音有关的特殊的心理声学效应──余音、掩蔽、非线性、双耳效应。
分类听阈分强度阈和差阈。
声音不够一定强度不能引起听觉。
在多次作用中能有50%的次数引起听觉的最小声压级称为强度阈(也称听阈)。
听阈有个体差异,因而所谓正常听阈只能是一些听力正常的年轻人的听阈的统计平均值。
听阈随频率而变化。
500~4000Hz之间阈值最低,在它们之上和之下的高频声和低频声的阈值都较高,如20Hz纯音的阈值比1000Hz纯音的阈值约高70dB,10000Hz纯音的阈值也比 1000Hz纯音的阈值约高10dB。
音频压缩编码原理及标准.

离散余弦变换(DCT)
将原信号沿负方向延拓定义域,并合理选择对称坐标轴, 使其正、负轴对称,这样信号变为实轴对称的偶函数,DFT 变换后仅有余弦项而不存在正弦项,运算量大为减小。 原本的N个样本,经过对称后变为2N个 2N为抽取的样本值总数,为DCT变换的块长度。 例:采样为48KHz的PCM样值进行DCT变换,窗长分别为 21.33ms(相当于1024个样值),5.33ms(相当于256个样 值),则频率分辨率和时间分辨率分别为?
时域编码
结合声音幅度的出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。
频域编码
利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率 采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率
子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码 变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码
对某频率的声音信号的拾取会采用中心频率接近此频率 的带通滤波器,因此,只有通过该带通滤波器的那部分 噪声才会对该信号产生影响
临界带宽——描述人耳的滤波特性
如果在一频带内噪声的功率等于该纯音的功率,且这时, 纯音刚好能被听到(临界状态),此纯音附近的窄带噪 声带宽的宽度便称为临界带宽 通常认为20Hz~20KHz内有24个临界频带
首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号。 对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。
心理声学模型及其在MP3编码中的应用_张力光

当 PE > swith _ pe 时, 数据块为短类型, 反之为长
类型. swith _ pe 设为常数 1800.
2.2.5 计算长块掩蔽阈值
上述计算的阈值都是以频段为计算单位, 但
是 MP3 量化编码都是以比例因子带(Scale Factor
Bands, SFB)为计算单位, 因此最后需要将每个频
文章编号:1001-5132(2010)03-0027-05
Vol.23 No.3 July 2010
心理声学模型及其在 MP3 编码中的应用
张力光, 王让定*
(宁波大学 纵横智能软件研究所, 浙江 宁波 315211)
摘要: 心理声学模型是音频感知编码的核心部分, 其直接影响着音频编码的质量及压缩比. 基于
2010
2.2.4 计算感知熵 PE(Perceptual Entropy)
∑ PE
=
p
−
b=0
cbwidth(b)
×
lg
⎛ ⎜ ⎝
thr(b) eb(b)
⎞ ⎟ ⎠
.
PE 值反映数据块频谱的平坦性, PE 越大,
则该数据块包含能量较强的高频分量, 因而在时
域内必有瞬时的剧烈变化. 心理声学模型Ⅱ规定
ecb(b) = eb × sprdngf (zi , zb ), ctb(b) = cb × sprdngf (zi , zb ), 其中, sprdngf (zi , zb ) 是掩蔽曲线函数[4], 其意义表 示临界频带 zi 在临界频带 zb 处的掩蔽值. (2) 计算每个频段的 SNR 值. 将不可预测指数 ctb 转换成可预测指数 tbb . tbb 所反映的信号特征恰好与 ctb 相反, tbb 越大, 则其对应的频段中声音信号越强.
心理声学模型在音频质量评估中的应用

心理声学模型在音频质量评估中的应用音频质量评估是指对音频信号的感知质量进行评估和分析的过程。
在过去,人们主要依靠主观评价来判断音频质量,但这种方法存在主观性强、耗时长等问题。
随着科技的发展,心理声学模型逐渐应用于音频质量评估中,为我们提供了一种更为客观、高效的评估手段。
心理声学模型是一种模拟人类听觉系统的数学模型,通过模拟人耳的听觉特性和心理感知过程,来预测人们对音频质量的感知。
它可以将音频信号转化为与人耳听觉特性相关的特征参数,进而通过这些参数来评估音频质量。
心理声学模型的应用使得音频质量评估更加客观、准确。
心理声学模型主要包括两个方面的内容:听觉特性建模和心理感知建模。
听觉特性建模主要研究人耳对音频信号的感知特性,包括音频信号频谱、响度、韵律等方面。
心理感知建模则研究人们对音频信号的主观感知,包括音频质量、清晰度、舒适度等方面。
通过对这两个方面的建模,心理声学模型可以较为准确地预测人们对音频质量的感知。
在音频质量评估中,心理声学模型可以应用于多个方面。
首先,它可以用于音频编码算法的优化。
音频编码算法是将音频信号压缩以减小文件大小的过程,但压缩会导致音频质量的损失。
通过心理声学模型,我们可以评估不同编码算法对音频质量的影响,从而选择最优的编码算法。
其次,心理声学模型可以用于音频设备的优化。
不同的音频设备对音频信号的处理方式不同,如均衡器、压缩器等。
通过心理声学模型,我们可以评估不同设备对音频质量的影响,从而选择最适合的设备。
此外,心理声学模型还可以用于音频场景的优化。
音频场景是指音频信号在特定环境中的传播和感知过程。
不同的场景会对音频质量产生不同的影响,如噪声、混响等。
通过心理声学模型,我们可以评估不同场景对音频质量的影响,并采取相应的措施进行优化。
心理声学模型在音频质量评估中的应用不仅提高了评估的客观性和准确性,还大大提高了评估的效率。
传统的主观评价需要耗费大量的时间和人力,而心理声学模型可以在短时间内自动完成评估,极大地节省了成本。
心理声学(Psychoacoustic Facts and Models )第一章

心理声学:事实和模型第一章 刺激和过程在这一章中,简要回顾了声音的光谱特性和时间之间一些基本的相关性。
对扬声器和耳机将电信号转换成声音进行了阐述。
此外,还提到一些心理物理学方法和程序。
最后,对刺激和一般听觉感受之间的关系和心理声学中的原始数据的处理进行了讨论。
1.1声音的时间和频谱特性在心理声学经常使用的声音的一些时间和频谱特性如图1.1。
声音很容易通过声压随时间的变化P (t )进行描述。
和大气压力的大小相比,声源所造成的声压的时空变化是非常小的。
声压的单位是帕斯卡(Pa )。
在心理声学中,经常涉及声压值10-5帕(绝对阈值)到102帕(痛阈)。
为了解决涉及范围很大的量值的处理,通常使用声压级L ,声压和声压级有关方程20log()p L dB p = (1.1) 式中,基准声压020p Pa μ=。
除了声压和声压级,声强I 和声强级在心理声学中也很重要。
在平面行波,声压级及声强级相关方程如下:0020log()10log()p I L dB p I == (1.2) 式中,基准声级-122010 W/m I =。
特别是在处理噪声时,与直接使用声强相比,使用声强密度更方便。
例如,虽然定义不是很确切,但“1 Hz 带宽的声音强度”也可用来表达“噪声功率密度”。
对声强密度取对数即为声强密度级,通常缩短密度级l 。
对于密度级与频率无关的白噪声,L 和L 相关方程如下:[10log(/)]L l f Hz dB =+∆ (1.3)其中,f ∆表示赫兹(Hz )衡量问题的声音带宽。
图1.1 心理声学常用刺激的时间功能和相关的频谱在图1.1中,图“1-KHz tone”显示了连续正弦振荡的声压p的时间函数,和1ms时间内的最大值,对应频谱只用一个中心频率1 kHz时的谱线。
“beats”图是最容易解释的谱域,显示了两个振幅相同的纯音的组合。
相应的时间功能清楚地显示一个包络的强烈变化。
“AM tone”图,描绘了一个正弦调幅中心频率为2 kHz的音调的时间功能和频谱。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
音频掩蔽
临界频带(critical band)-I
声音频率与掩蔽曲线不是线性关系 从感知上来统一度量声音频率 人类听觉系统HAS在20Hz到16kHz范围内有24 个临界频带,单位叫Bark(巴克)
1Bark = 一个临界频带的宽度 f(频率) < 500 Hz,1 Bark≈f/100 f(频率) > 500 Hz, 1Bark≈9+4log(f/1000) 在中心频率为500Hz以下的临界频带中,带宽恒定为 100Hz,随着中心频率的增加,临界带宽进一步增加
SOLANA数字水印技术
方便的追踪和发现盗版行为 非法解压可能导致MP4原文件的损毁
31
2012/9/21
音频压缩
MP4特点-II
支持版权保护
内臵与作品版权持有者相关的文字、图像等说明
较为完善的功能
可独立调节左右声道的音量大小 内臵的波形/分频动态音频显示 音乐管理器 支持多种彩色图像、网站链接及无限制的滚动显 示文本
原始信号本身存在着冗余度
客观冗余
可以计算,用来确定音频信号的某些数字上可预测
特性的数量,如周期波形
人类的听觉感知系统对某些失真不敏感
主观冗余
音频信号中包含被人耳忽略的分量
22
2012/9/21
音频压缩
音频压缩技术分类
按照信息损失
无损(lossless)压缩及有损(lossy)压缩
决定。如果超出临界区,声音的响度不再相互作用
17
2012/9/21
音频掩蔽
时域掩蔽
时间上相邻声音之间的掩蔽 预先掩蔽(pre-masking)
在强信号打开前5到20ms时产生,由于掩蔽信号与 被掩蔽信号之间的听觉处理相互干涉引起的 在强信号关闭后50到200ms时产生,由于神经行为 具有一定的持久性
MPEG-1 Layer3(MP3)
29
2012/9/21
音频压缩
MP4
一种商品
GMO公司, AT&T授权MPEG-2AAC压缩+知识产权 保护,全新的数字音乐A2B MPEG-1 Layer4(X!),MPEG-4(XX!)
A2B数字音乐
AAC音频压缩,知觉编码,最高20:1不损失音质
2012/9/21
宽度 320 380 450 550 700 900 1100 1300 1800 2500 3500 6550
音频掩蔽
临界频带(critical band)-II
主观反映突然发生变化的带宽 人耳以临界频带为单位对声音进行处理
在一个临界频带内
耳朵的听觉感知特性很类似
很多心理声学特性都相同 即使加入噪声,人耳也不能察觉出与原信号间的差别 各种声音相互作用,合成声音的响度由这些频率共同
27
2012/9/21
音频压缩
MP3音频
MPEG-运动图像专家组,IS0/IEC的一个工作组 MPEG-I 1ayer 3,注意不是MPEG-3! 因特网上事实的音频标准 压缩比高,音质较好,制作简单,交流方便 支持采样率为32,44.1, 48kHz的单声道(Mono) 及双声道(stereo)等编码模式
2012/9/21
26
音频压缩
子带压缩与感知压缩的特点
相对时域压缩技术复杂得多,编码效率、声音 质量大幅提高,编码延时相应增加 子带编码的复杂度要略低于感知编码,编码延 时也相对较短 各频带内的噪声将被限制在频带内,不会对其 它频带的信号产生影响 在编码时各子带的量化阶数不同,采用了动态 比特分配技术,压缩效率高的主要原因
人耳的频率感觉范围 约20Hz~18000Hz
主客观音高的关系
Mel=1000log2(1+f)
主观感觉的音高单位-美(Mel)
8
2012/9/21
音频掩蔽
主观音高的测量
以40dB声强为基准 让实验者听两个声强级为40dB的纯音,固定其中 一个纯音的频率,调节另一个纯音的频率,直到 他感到后者的音高为前者的两倍,就标定这两个 声音的音高差为两倍
音频掩蔽
超音频信号,超声波(ultrasonic)信号
频率高于20kHz的信号 具有很强的方向性,形成波束 在工业上得到广泛的应用,如超声波探测仪,超 声波焊接设备等
3
2012/9/21
音频掩蔽
听觉系统的感知特性
响度、音高和掩蔽效应
声音的响度
声音的强弱 物理测量单位,dyn/cm2(达因/平方厘米)(声压)或 w/cm2(瓦特/平方厘米)(声强) 心理主观感觉,响度级,方(phon)/宋(sone) 完全不同的两种概念,又有一定的联系Βιβλιοθήκη 对响度的感知4
2012/9/21
音频掩蔽
听阈
声音弱到人耳刚刚可以听见时的声音强度 1kHz纯音的声强达到10-16w/cm2(0 dB声强级)时, 人耳刚刚能听到,主观响度定为零方 听阈随频率变化
5
2012/9/21
音频掩蔽
绝对听阈曲线
6 2012/9/21
音频掩蔽
听觉范围
听阈—频率曲线和痛阈—频率曲线之间的区域 人耳对频率的敏感程度
安全数据库,A2B音乐文件含有特定密钥 协议认证
复制许可、允许复制副本数量、歌曲总时间、歌 曲可以播放时间,经营销售许可等
2012/9/21
30
音频压缩
MP4特点-I
exe文件,内嵌播放器,双击运行 与MP3相比
大小仅为MP3的四分之三左右 更好的音质 更大的压缩比 更适合在Internet上传播
32
2012/9/21
安静房间里的普通谈话可以听得很清楚,但在播 放摇滚乐的环境下同样的普通谈话就听不清楚了
11
2012/9/21
音频掩蔽
频域掩蔽
一个强纯音会掩蔽在其附近同时发声的弱纯音, 也称同时掩蔽(simultaneous masking)
12
2012/9/21
音频掩蔽
【例】
一个声强为60dB、频率为1000Hz的纯音,另外还 有一个1100Hz的纯音,前者比后者高18dB,只能 听到1000Hz的强音 一个1000Hz的纯音和一个声强比它低18dB的 2000Hz的纯音,同时听到这两个声音 要想让2000Hz的纯音也听不到,则需要把它降到 比1000Hz的纯音低45dB
9
2012/9/21
音频掩蔽
实验表明,音高与频率 之间不是线性关系 测出的音高—频率曲线 如图所示
10
2012/9/21
音频掩蔽
掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率 的声音的现象 前者称为掩蔽声音(masking tone),后者称为被 掩蔽声音(masked tone) 分成频域掩蔽和时域掩蔽。心理声学的基础 【例】
2012/9/21
15
音频掩蔽
临界频带表
临界 频带 0 1 2 3 4 5 6 7 8 9 10 11 12 16 低端 0 100 200 300 400 510 630 770 920 1080 1270 1480 1720 频率 (Hz) 高端 100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000 宽度 100 100 100 100 110 120 140 150 160 190 210 240 280 临界 频带 13 14 15 16 17 18 19 20 21 22 23 24 低端 2000 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 频率 (Hz) 高端 2320 2700 3150 3700 4400 5300 6400 7700 9500 12000 15500 22050
后掩蔽(post-masking)
18
2012/9/21
Part II-音频压缩
音频压缩
为什么压缩?
数字信号存储容量大,传输信道容量要求高
CD
采样率44.1kHz,量化精度16比特,1分钟的立体声
音频信号需占约10M字节的存储容量
所有比特都是必需的?
PCM码流进行存储和传输存在非常大的冗余度 无损的条件下对声音至少可进行4:1压缩,即只用 25%的数字量保留所有的信息,视频领域压缩比甚 至可以达到几百倍
子带压缩
以子带编码理论为基础的一种编码方法 最早是由Crochiere等于1976年提出的 基本思想
对各子带分量根据其不同的分布特性采取不同的 压缩策略以降低码率
感知(Perceptual)压缩
音源性质没有假设,去除人耳不可感知的部分 根据心理感知模型,决定子带样值或频域样值 的量化阶数和其它参数
Part I-音频掩蔽
音频掩蔽
音频信号种类
亚音信号,次音信号(subsonic)
频率小于20Hz的信号
音频(Audio)信号