语音编码基础知识

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

其基本思想是:大的输入信号采用大的量化
间隔,小的输入信号采用小的量化间隔。在满足精
度要求的情况下用较少的位数来表示。译码时,采
用相同的规则。也可视为将信号进行非线性变换后 再作均匀量化,如对信号进行对数压缩,微弱的信 号被放大,强的信号被压缩。译码时,指数扩张。 xa(nT)
非线性 压缩
均匀 量化
√语音信号压缩编码的原理及其评价系统
一、语音压缩的基本依据
二、语音编码的关键技术 三、语音压缩系统的性能指标和评测方法
一、语音压缩的基本依据
是语音信号的冗余度和人的听觉感知机理。
1.存在的时域冗余度:
(1)幅度非均匀分布
(2)语音信号样本间的相关性很强
(3)浊音具有准周期
(4)声道的形状及其变化缓慢
F ( x(n)) X a max | xa (nT ) | ln 1 X a max sgn[ x (nT )] a ln( 1 wenku.baidu.com)
A 律压扩
A | xa (nT ) | / X A max sgn[ xa (nt)] 1 ln A F ( x(n)) X 1 lnA | xa (nT ) | / X A max sgn[ x (nt)] A max a 1 ln A | xa (nT ) | 1 0 X A A max 1 | xa (nT ) | 1 A X A max
接收器
模数转换
压缩编码
IP封装 网 络
播放器
数模转换
解码
IP解包
二、编码速率(信息容量)
用比特/秒(b/s或bps)来度量,用I表示,有:
I=R

fs ,R代表每个语音采样值编码所需的比
特数;fs是采样频率。
当fs=8kHz,每个采样值用8比特位来编码,则
编码速率为64kb/s。
三、编码的分类 1.波形编码(waveform coding):基本原理是在时 间轴上对模拟话音信号按照一定的速率来抽样,然 后将幅度样本分层量化,并使用代码来表示。在接 收端将收到的数字序列经过解码恢复到原模拟信号, 保持原始语音的波形形状。话音质量高,编码速率 高。如PCM编码类(a率或u率PCM、ADPCM 、ADM), 编码速率为64-16kb/s,语音质量好。
平均意
见得分和DAM:Diagnostic Acceptability Measure
MOS得分为五级:优、良、可、差和坏。 满分为5分,相当调频广播质量;4分以上是 长途电话网标准;3.5分为通信标准; 3.0分 仍有较好的可懂度,保持自然度;2.5分只维 持可懂度, 是战术通信标准。
客观评价方法 (1)波形失真度,用信噪比来度量
p
A( z ) W ( z) A( z / )
1 a k z k 1 a k z
k k 1 k 1 p k
输入 语音 x(n)
线性 预测 分析
感觉 后继处理 加权 滤波器
三、语音压缩系统的性能指标和评测方法 1.语音压缩系统的性能指标 (1)编码速率 (2)编码器的顽健性 (3)编码器的时延
编码类。编码速率低,2.4-1.2kb/s,自然度低,
对环境噪声敏感。
3.混合编码(Hybrid coding): 将波形编码与参数编码相结合,在2.4-1.2kb/s 速率上能够得到高质量的合成语音。规则码激励长
时预测编码RPE—LPT即为混合编码技术。混合编码
包括若干语音特征参量又包括部分波形编码信息,
以达到波形编码的高质量和参量编码的低速率的优
点。
四、已经标准化的语音编码
指定组织:国际电信联盟 ITU-T, http://www.itu.int
标准
G.711
编码速率 (kb/s) 64 32
5.3
算法
u律或a律PCM
MOS得 应用 分 4.3 公用网 4.1
3.2
G.721
G.723.1
ADPCM
四、自适应差分脉冲编码ADPCM
五、自适应预测器
六、自适应量化器
七、ADPCM的总结
一、非均匀量化的PCM编码
均匀量化时,无论大的输入信号还是小的输入
信号一律采用相同的量化间隔,为了适应大的输入
信号,同时又要满足精度要求,就需要增加样本的
位数。 =2V/L=2V/2R,但是对话音信号来说,大 信号出现的机会并不多,增加的样本数就没有充分 利用。因此采用非均匀量化。
ACELP
公用网
无线网
G.729
GSM
8
13
CS-ACELP
RPE-LTP
3.8
3.9
无线网
无线网
(1)ADPCM:自适应差分脉冲编码 adaptive difference pulse code modulation
(2)CELP : 码 本 激 励 线 性 预 测 ( code excited linear prediction) (3)ACELP : 代 数 码 本 激 励 线 性 预 测 AlgebraicCode-Excited Linear-Prediction (4)CS-ACELP:共轭结构的代数码本激励线性预测 Conjugate Structure Algebraic-Code-Excited Linear-Prediction (5)RPE-LTP :长时预测的规则脉冲激励的线性预 测 Regular-Pulse Excited LPC with a Long-Term Predictor
(1)输入xa(nT)的范围归一化为(-1~+1); (2)输出FA(x(n))的范围为(-1~+1); (3)A为压扩参数,它反映最大量化间隔和最小量化 间隔的比值。A=87.56
我国的PCM30/32路基群也采用A律13折线压 缩特性。μ律15折线主要用于美国、加拿大和日
本等国的PCM 24路基群中。
2.参数编码(声源编码 parametric coding): 根据语音信号产生的数学模型,通过对语音信 号特征参数的提取后进行编码(将特征参数变换成 数字代码进行传输)。在接收端将特征参数,结合 数学模型,恢复语音,力图使重建语音保持尽可能 高的可懂度,重建语音信号的波形同原始语音信号
的波形可能会有相当大的区别。如线性预测(LPC)
1 1
i q ( D i ) b z i r
长时预测滤波器
D为基音周期,长时预测系数{bi}的个数取1
(q=r=0)或3(q=r=1)。 D、{bi} 从语音信号中直 接提取。语音信号通过长时预测,得出基音周期、 增益(振幅大小)。
激励发生器
1 P( z)
e(n)
1 A( z )
x(n)
字存储的必要过程。
随着语音通信技术的发展,压缩语音信号的传
输带宽,降低信道的传输速率,一直是人们追求的
目标。语音编码在实现这一目标的过程中担当重要 的角色。 语音编码就是使表达语音信号的比特数目最小。
数字传输系统模型
信源
信源编码
信道编码 噪声
调制
传输通道
用户
信源解码
信道解码
解调
语音编码应用实例(IP电话)
C7: 表示信号的极性,称为极性码。0为正,1为负。
C6C5C4:表示段落序号,称为段落码。
000 001 010 011 100 101 110 111
C3C2C1C0 : 表示每一段落的16个均匀划分的量化 级,称为段内码。 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
把发音看成是以语音速率来传送,则语音编码的极限
速率为80bps,从数字化标准的编码速率64kbps,到极
限速率80bps,之间的距离,对于理论研究和实践有
着极大的吸引力。
二、语音编码的关键技术 语音信号中存在两种类型的相关性: (1)样点间的短时相关性 (2)相邻基音周期之间的长时相关性
1. 语音信号的短时预测模型
M 2 ( s (n)) SNR 10 * log M n 0 ( s ( n) s ˆ(n)) 2 n 0

(2)频谱失真测量 (3)谱包络失真测量
语音信号的波形编码
一、非均匀量化的PCM编码 二、增量调制编码 三、自适应增量调制编码
编码
解码
非线性 扩张
x'(nT)
现在的非均匀量化中,一般采用两种压缩扩张非 均匀量化方法。采样后信号幅度和量化数据之间有两 种对应关系,一种称为u 律压扩(companding)算法, 另一种称为A 律压扩算法。 u 律压扩主要用于北美 和日本等地区的电话通信中。 A 律压扩主要用在欧 洲和中国的地区的电话通信中。 u 律压扩
对输入动态范围为(-5v,+5v), 用A律压扩编码,有:
1
7
6 5
5v
输入信号为1.05v,则编码为: 极性码: 0 段落码:101 段内码: =(1.25-0.625)/16 = 0.0390625 (1.05-0.625)/ =10.88 取整数10,对应第10量化间隔, 编码为1010 最后完整的码字为:
CCITT建议G.711规定上述两种折线近似压缩
律为国际标准,且在国际间数字系统相互连接时,
要以A律为标准。 因此这里重点介绍A律13折线。
FA(x)
1
7/8 6/8 5/8 4/8 3/8 2/8 1/8 0 1 1 1 1 32 16 8 128 1 64
1 4
1 2
1
xa(nT)
A律压扩编码 采用8位二进制编码:C7C6C5C4C3C2C1C0
e(n)
1 H ( z) A( z )
1 1 ak z
k 1 p k
x(n)
短时预测滤波器
x(n) e(n) a k x(n k )
k 1
p
2.语音信号的长时预测
长时 x(n-p),x(n-p+1),….x(n-1) 线性 预测 x(n)
1 H ( z) P( z )
(2)网络或电话级
(3)通信级 (4)合成级 语音质量有主观和客观两种评价方法。
主观评价方法 评价指标:清晰度或可懂度、音质。前者是指语音
是否容易听清楚;后者指语音听起来有多自然。
(1)可懂度评价 DRT:Diagnostic Rhymer Test
(2)音质评价: MOS:Mean Opinion Score 判断满意度得分。
语音编码(speech coding)
√概述
√语音信号压缩编码的原理及其评价系统 √语音信号的波形编码 √语音信号的参数编码
√语音信号的混合编码
√概述
一、编码(压缩)的重要性
二、编码速率(信息容量)
三、编码的分类
四、已经标准化的语音编码
一、编码(压缩)的重要性 编码、传输、存储和译码是语音数字传输和数
完整的语音信号的预测模型
3.感觉加权滤波器
由于掩蔽效应,在语音频谱中,能量较高的频 段(共振峰处)的噪声相对于能量较低的频段的噪 声不易被感觉。在度量原始语音和合成语音之间的 误差时,在高能量段允许误差大,因此引入一个频
域的感觉加权滤波器W(z)来衡量语音之间的误差。
加权因子在0~1之间,控制共振峰区域的误差增加。
(5)语音间隙(静止系数)
2.存在的频域冗余度: (1)非均匀的长时功率谱密度 (2)短时功率谱密度
女声英文a的功率谱
3.人的听觉感知机理 (1)人类的听觉特性具有掩蔽效应 (2)人耳对不同频段声音的敏感程度不同
(3)人耳对语音相位不敏感
4. 语音编码的极限速率 语音中最基本的元素是音素,大约有128~256个, 如果按通常的说话速度,每秒平均发出10个音素,则 信息率为: I=[log2(256)10]bps=80bps
(4)算法的复杂度和可扩展性
编码延时 一般地,编解码算法越复杂,延时越大,会明显
感觉到通话对方反映“迟钝”,甚至造成正常通信困
难。 另外一方面,延时造成回声,传统的电话系统中, 在2-4 线的转换处(混合线圈)因阻抗不匹配,导致 接收者的收话音信号泄露到其发送路径上,返回给发
送者,形成了回声。当延时小时,回声同房间交混,
因此感觉不到;当延迟超过了25ms,能明显感觉到,
从而严重影响通信。
一般地,要求编解码延时不超过5-10ms。
A端的信号+B端经混 合线圈的回传信号
A端 B端的信号+A端经混 合线圈的回传信号
B端
2.语音压缩系统的性能指标和评测方法 语音质量是衡量语音编码算法优劣的关键性能之 一。语音质量通常分为四类: (1)广播级
相关文档
最新文档