实验一：语音压缩编码的实现

合集下载

语音的压缩编码

应用于声音的传输（通信）:
长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing)
应用于全频带数字声音的表示/存储:
CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2)
原理：声音信号具有很强的相关性，可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本，实际样本值与预测值之间的误差往往很小。利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值，效果：量化位数可以显著减少，从而降低了总的码率。
+
预测值
差值
重建信号
DPCM
编码输出
CCITT G.721 ADPCM编码器
A
量化阶适配器
自适应
( 4 位 )
6阶自适应线性预测， 4位的自适应量化器，输出码率： 8k x 4 = 32 kbps
ADPCM 小结
PCM话音质量 4.5级 ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。 ADPCM应用：数字语音通信多媒体应用中的语音（解说词）
ADPCM自适应差分脉冲编码调制 (Adaptive Differential PCM)
增量调制(DM)
差分脉冲编码调制 DPCM
实际样本值
利用样本与样本之间存在的相关性进行编码，即根据前面的样本估算当前样本的大小，然后对预测误差进行量化编码。
差值
线性预测公式： Xn = A1*Xn-1 + A2*Xn-2 + ... + Am*Xn-m
举例
根据输入样本幅度的大小来改变量化阶大小。可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

音频压缩编码原理及标准.

声音压缩编码的声学原理
声音信号的频率范围？ 20Hz-20KHz
声音频谱的特点: 高频段快速下降，高幅值大部分集中在中频段，有的延伸到低频段
电平分布特点：声音信号的电平存在冗余
声音压缩编码的声学原理
掩蔽效应
一个较弱的声音（被掩蔽音）的听觉感受被另一个较强的声音（掩蔽音）影响
掩蔽量
时频变化的方法：离散余弦变换DCT 、改进的离散余弦变换MDCT
离散余弦变换（DCT）
时频变换（DFT）
逆变换
变换时将PCM样值分为N长的一块块进行变换块长：一块中包含的样本数N 窗长：N ×（1/Fs）频率分辨率：Fs/N 频率轴上的所能得到的最小频率间隔块越长，变化编码的频率分辨率越高，但损失了时域分辨率
MPEG-1 层1原理方框图
MPEG-1 层1 1、子带分析滤波器组
将宽频带信号分割成32个子带信号子带为等宽的均匀划分
2、标定
将每个子带中12个采样值归并成一个块找出12个采样值中绝对值最大的样本值根据其值的大小确定比例因子（查表得到，大于该绝对值的一系列值中的最小值定为比例因子）将12个采样值用比例因子归一化（标定）
可预先定义压缩后的数码率
编码后的数据流支持循环冗余校验支持数据流中载带附加信息
MPEG-1 音频压缩编码的基本原理
MPEG-1音频压缩的基础是量化
MPEG-1使用感知音频编码来达到压缩音频数据又尽可能保证音质的目的。
感知音频编码的理论依据是听觉系统的掩蔽特性。基本思想是在编码过程中，保留有用的信息而丢掉被掩蔽的信号。
MPEG-1 层2
、
SCPSI 比例因子选择信息
为了降低传送比例因子的码率，信号平稳变化时，只传送其中1个或2个较大的比例因子；对于瞬态变化的信号，3个比例因子都传递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子

《语音压缩编码》PPT课件

• 应用很广：语音压缩编码；参数编码；图像压缩编码
例：在矢量量化器的设计中，设抽样频率为16kHz, 码本由256个4维矢量组成， 1）求矢量量化器输出的数码率？ 2）系统满意工作的最大消息带宽是多少？
内容提要
• 课题背景 • 国内外研究现状 • 常用编码算法简介
– 波形编码技术 – 参数编码技术
反射系数
增益G
参数编码 c(n)
G
1
N
s2 (i)
N i1
预加重：
• 提高语音谱中的高频共振峰，使语音频谱较为平滑,从而提高谱参数估计的精确度
• 预加重滤波器的传递函数为：
H(z)10.937z51
基音周期
• 利用短时平均幅度差函数（AMDF）计算
130
F n(k) |xn(m )xn(m k)| m 1
语音生成机构
• 声源：
– 声带
• 共鸣机构：
– 声道(鼻腔、口腔与舌头)
• 放射机构：
– 嘴唇或鼻孔
语音产生机理
• 浊音
– 气流通过声门时，声带的张力刚好使声带产生张弛振荡式振动，产生一股准周期脉冲气流，激励声道产生浊音
• 轻音
– 声带不振动，而在某处收缩，迫使气流高速通过这一收缩部分产生湍流就产生清音
• 爆破音
– 声道完全闭合的情况下突然释放产生爆破音
语音信号产生模型
基音周期
脉冲序列发生器
随机噪声发生器
LPC系数
清/浊开关
u(n)
声道模拟滤波器
增益G
输出语音s(n)
清音/浊音示意图：
浊音语音
振幅
清音语音
0
50
100

语音变换和压缩编码实验

实验三．语音变换和压缩编码实验通过键盘和液晶选择“菜单”中的“二. 语音变换”1．语音模数转换实验（1）在语音变换下选择“1. 语音模数变换”；（2）按下AMBE2000的复位按钮，对AMBE2000进行复位；（3）K501拨到“SIN”，将输入的模拟信号设置为2kHZ的正弦信号，通过测试点TP501可以观测到输入给AD73311的模拟信号，调节面板上的W501，可以改变输入信号的幅度；（4）通过测试点TP502观测AD73311中A/D和D/A变换的时钟输出；（5）通过测试点TP503观测AD73311中数字输出和输入的帧同步信号；（6）通过测试点TP504观测AD73311的A/D转换后的数字输出信号；（7）通过测试点TP505观测AD73311的D/A转换前的数字输入信号；（8）通过测试点TP506观测AD73311完成D/A转换后的模拟信号，并可以通过调节面板上的W502改变输出信号的幅度；（9）将K501拨到“MIC”，将输入的模拟信号设置为麦克风输入的语音信号，插入麦克风和耳机，可以从耳机中听到麦克风的声音。

测量操作与测量结果：（1）CH1连接到TP501；CH2连接到TP506；（2）按下示波器的“AUTO”键；（3）分别将CH1和CH2的电压档设为“200mV”，时间档设为“200us”；（4）将CH1向移动，CH2向下移动。

（5）调节面板上的W501和W502，分别将TP501和TP506信号的幅度调整到300 mV和500 mV左右。

（6）按“RUN/STOP”键停止波形采样。

（7）CH1为输入的模拟2KHz正弦波，CH2为输出恢复信号，可以看到恢复波形比原始波形质量变差了。

如图2-1-TP501~TP506。

2-1-TP501~TP506（8）CH1连接到TP502，CH2连接到TP503，电压档设置保持为“2.0V”，时间档设为“5us”。

可以打开测量功能，测量CH1和CH2的频率。

信息技术综合实验-实验二-语音编码实验

实验报告实验名称语音编码实验课程名称信息处理技术专业综合实验实验二语音编码一、实验目的熟悉语音基本压缩编码的方法，观察语音压缩效果，加深对语音线性预测编码（LPC ）的理解。

二、实验内容1、编写并调试语音LPC 参数提取程序。

2、编写并调试语音基音周期提取程序。

3、编写并调试语音LPC 合成程序。

三、实验原理语音信号中含有大量的冗余信息，采用各种信源编码技术减除语音信号的冗余度，并充分利用人耳的听觉掩蔽效应，就可以将其编码速率压缩很多倍，而仍能提供可懂语音。

LPC 声码器是一种比较简单实用的语音压缩方法，其基本原理是：根据语音生成模型，将语音看作激励源通过一个线性时不变系统产生的输出，利用线性预测分析对声道参数进行估值，将求得的线性预测系数，结合基音周期等少量参数进行传输，就可以在接收端利用合成滤波器重构语音信号。

线性预测系数的估计方法为：假设语音的当前样值可以用过去的M 个语音样值来进行预测()()()()()∑=-=-++-+-=Mi i M i n x a M n x a n x a n x a n x 12121~式中{}i a 即为线性预测系数。

实际值和预测值之间的均方误差可表示为()()()∑∑∑⎪⎭⎫ ⎝⎛--===n Mi i n i n x a n x n E 212ε 要求均方误差总和最小，将E 关于i a 的偏导数设置为零，可以得到()()()01=⎪⎭⎫ ⎝⎛---∑∑=Mi i n i n x a n x k n x通过采用自相关法、协方差法或格形法求解该方程，即可得到最优的{}i a 。

四、实验方法及程序1. 调用xcorr命令计算一帧语音的自相关函数。

2. 调用toeplitz命令形成该帧语音的自相关矩阵。

3. 调用durbin命令，采用杜宾递推算法计算该帧语音的线性预测系数。

4. 编写lpcauto.m函数，求取一句语音信号的线性预测系数及预测残差。

选择设当的窗函数对语音信号进行分幀。

语音编码实验报告

一、实验背景与目的随着信息技术的飞速发展，语音通信已经成为人们日常生活和工作中不可或缺的一部分。

语音编码技术作为语音通信的核心技术，旨在高效地压缩语音信号，降低传输带宽，提高通信质量。

本实验旨在通过实际操作，深入理解语音编码的基本原理，掌握常用的语音编码方法，并评估其性能。

二、实验内容与步骤1. 实验内容本实验主要涉及以下内容：- 语音信号的采集与预处理；- 语音信号的时域和频域分析；- 常用语音编码方法的实现与性能评估；- 编码性能的对比分析。

2. 实验步骤（1）实验准备- 确定实验所需的软件和硬件环境，如音频采集设备、计算机等；- 下载并安装实验所需的语音信号处理软件，如MATLAB等；- 准备实验所需的语音样本，如ISDN话音、PCMU/PCMA编码的语音等。

（2）语音信号的采集与预处理- 使用音频采集设备采集一段语音信号，采样频率为16kHz；- 对采集到的语音信号进行预处理，包括去除静音、归一化、滤波等操作。

（3）语音信号的时域和频域分析- 对预处理后的语音信号进行时域分析，观察其波形、幅度谱等；- 对语音信号进行频域分析，观察其频谱图、功率谱等。

（4）语音编码方法实现与性能评估- 选择一种或多种语音编码方法，如线性预测编码（LPC）、矢量量化（VQ）等；- 根据所选编码方法，编写相应的编码程序，对预处理后的语音信号进行编码；- 对编码后的语音信号进行解码，恢复原始语音信号；- 评估编码性能，如信噪比（SNR）、均方误差（MSE）等。

（5）编码性能对比分析- 对比不同语音编码方法的性能，分析其优缺点；- 分析不同参数设置对编码性能的影响。

三、实验结果与分析1. 实验结果（1）语音信号预处理- 预处理后的语音信号波形图；- 预处理后的语音信号频谱图。

（2）语音编码方法实现- 编码后的语音信号波形图；- 编码后的语音信号频谱图。

（3）编码性能评估- 不同语音编码方法的信噪比和均方误差；- 不同参数设置对编码性能的影响。

音频信号的压缩编码技术研究

音频信号的压缩编码技术研究音频信号的压缩编码技术在传输和存储中起到了至关重要的作用，可有效地减小数据流量，降低传输功耗和存储成本。

目前已经广泛应用于数字音频广播、互联网传输和数字音乐压缩等方面，成为音频技术发展的重要组成部分之一。

1. 音频信号的数字化与采样首先，音频信号需要进行数字化处理，使其能够通过数字媒体传输和存储。

数字化的过程包括模拟信号的采样和量化。

其中采样是以一定频率对模拟信号进行采样，产生一系列离散的样本点，量化是把这些样本点转换成数字信号，即将连续的模拟信号转换成离散的数字信号。

通常采样频率为44.1kHz或48kHz，量化位数为16bit或24bit。

2. 压缩编码技术的原理和分类压缩编码技术可以分为有损和无损两种类型。

无损压缩技术是指在压缩的过程中不会丢失任何原始数据，以保证音质的高保真度。

具体的无损压缩技术包括无损压缩编码（Lossless Compression）和正交多项式压缩（Orthogonal Polynomial Compression）等。

有损压缩技术是指在压缩的过程中会丢失部分数据，从而减小数据流量，以达到更高的压缩比。

有损压缩技术包括声学模型压缩（Acoustic Model Compression）、子带编码（Subband Coding）和小波变换（Wavelet Transform）等。

3. 压缩编码技术在音频传输和存储中的应用在音频传输和存储中，压缩编码技术可以大大减小数据流量，降低传输功耗和存储成本。

根据不同的应用场景和数据需求，可以选择合适的压缩编码技术进行音频数据压缩。

例如，在互联网音频传输中，由于网络带宽和传输速率的限制，需要使用高效的压缩技术来减小音频文件的大小。

常用的压缩编码技术包括MP3、AAC、OGG Vorbis、FLAC等。

其中，MP3是较早期的音频压缩技术，具有较好的兼容性和音质效果。

AAC是一种高效的音频编码标准，具有更好的音质和压缩效果，广泛应用于苹果产品的iTunes中。

实验一_PCM与ADPCM语音被压缩编码

实验一 PCM 与ADPCM 语音压缩编码学院光电学院专业网络工程姓名陈炯烁学号 106052011218一、实验目的1、了解PCM 的基本原理和方法；2、了解ADPCM 的基本原理；3、了解语音压缩编码的基本原理和过程。

二、预备知识1、PCM 的基本原理和方法；2、ADPCM 的基本原理；三、实验仪器1、移动通信实验箱一台；2、台式计算机一台；四、实验原理目前国际上普遍采用容易实现的A 律13折线压扩特性和μ律15折线的压扩特性。

我国规定采用A 律13折线压扩特性。

本实验中的PCM 采用的是A 律13折线PCM 。

由预备知识可知，A 率对数压缩特性定义为：⎪⎩⎪⎨⎧≤≤++≤≤+=1x 1/A ln 1ln 11/A x 0ln 1)(AAx A Axx c 在CCITT 建议中，A=87.56。

在具体实现时压缩曲线c(x)用13段折线来近似，量化电平数L=256，即编码位数R=8。

因为对语音的采样频率为8kHz ，这样，A 率13折线的PCM 输出数据流速率为64kb/s 。

下图为A 律13折线的压缩示意图：负电平部分的压扩特性和正电平部分的压扩特性是对称的，所以上图只画出了正电平压扩特性。

这种量化方式相比于线性量化，当信号为小信号时，其信噪比较高（尤其是语音信号）。

从图上可以看到，整个归一化电平区间被分为8个小区间，每个区间的斜率和起点电平如下表：正电平部分的第一段和第二段的斜率都是16，负电平部分的第一段和第二段的斜率也都是16，所以本来划分的16折线段实际为13折线段。

PCM 编码对一个采样值量化编码后得到的是8比特的编码，下图是这8比特的码位安排：可见，编码的第一位C 1为极性码，正电平为1，负电平为0。

C 2～C 4为段落码，表示信号绝对值处在哪个段落，3位码的8种可能状态分别代表8个段落的起点电平。

C 5～C 8为段内码，段内码共4位，并且段内采用均匀量化的方式，故共有24＝16个均匀量化级。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验一语音压缩编码的实现——增量调制一、实验目的（1）会用MATLAB 语言表示基本的信号（2）用MATLAB 实现语音信号的采集（3）理解增量调制（DM ）的原理并编程实现编译码二、实验原理1、信号是随时间变化的物理量，它的本质是时间的函数。

信号可以分为时间连续信号和时间离散信号。

连续信号是指除了若干不连续的时间点外，每个时间点上都有对应的数值的信号。

离散信号则是只在某些不连续的点上有信号值，其它的时间点上信号没有定义的一类信号。

离散信号一般可以由连续信号经过模数转换而得到。

语音信号是模拟信号，经麦克风输入计算机后，就存为数字信号。

2、增量调制编码基本原理是采用一位二进制数码“1”或“0”来表示信号在抽样时刻的值相对于预测器输出的值是增大还是减小，增大则输出“1”码，减小则输出“0”码。

收端译码器每收到一个1码，译码器的输出相对于前一个时刻的值上升一个量化阶，而收到一个0码，译码器的输出相对于前一个时刻的值下降一个量化阶。

增量调制的系统结构框图如课本上图3.3-1所示。

在编码端，由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。

输入的模拟音频信号与预测值在比较器上相减，从而得到差值。

差值的极性可以是正也可以是负。

若为正，则编码输出为1；若为负，则编码输出为0。

这样，在增量调制的输出端可以得到一串1位编码的DM 码。

图3.3-1 增量调制的系统结构框图三、实验容与方法（一）、用windows 自带的录音机录一段自己的语音（3s ），存为“.wav ”文件。

1、补充：语音信号的采集Wavread 函数常用的语法为：[y,fs,bite]=wavread(‘filename.wav’);这里fs 为采样频率，bite 为采样点数。

AWGN ：在某一信号中加入高斯白噪声输入信号y = awgn(x,SNR) 在信号x 中加入高斯白噪声。

信噪比SNR 以dB 为单位。

y = awgn(x,SNR,SIGPOWER) 如果SIGPOWER 是数值，则其代表以dBW 为单位的信号强度；如果SIGPOWER 为'measured'，则函数将在加入噪声之前测定信号强度。

用subplot 命令表示出原语音信号和加噪后的语音信号，用sound(y,fs,bite)回放输入的音频信号进行对比，也可用wavplay(y,fs)回放。

2、思考题（1）查看文件属性，写出音频采样大小，频道数，采样级别，并写出位速如何计算。

思考题（2）利用函数wavread 对语音信号进行采样，通过查看相应变量，写出采样点数为多少。

思考题（3）简述sound 以及wavplay 两个函数有何不同，为何直接输入wavplay(y)，语音会变调？（二）设输入信号为: ())300sin(5.0100sin t t y ππ+=，增量调制的采样频率为1000Hz ，采样时间从0到0.02s ，量化阶距δ=0.4，单位延迟器初始值为0。

思考题（1）按图3.3-1写出程序流程图，并编程实现编译码的全过程，最后用subplot 命令表示出原信号、编码输出信号以及译码输出（使用stairs(t,x)命令将译码表示为阶梯状图，在这幅图中使用hold on 命令，把原信号也一并显示出作为对比）的信号（假设理想传输，不考虑调制解调方式以及信道上的噪声）。

补充：N=length(t); 求数组长度(即行数或列数中的较大值)D(N)=0;令数组中每个值都为0思考题（2）由实验的结果说明什么是斜率过载，在哪些时刻发生？什么是散粒噪声，在哪些时刻发生？如何兼顾优化这两种失真？ADPCM 的主要思想是什么？思考题（3）为什么说增量调制是PCM 的特殊形式？简述PCM 、增量调制以及DPCM 的不同。

（三）补充题：完成书本P25所示的自适应增量调制算法（控制可变因子M ）四、实验要求（1）编制完整的实验程序，实现对信号的模拟并得出实验结果。

（2）在实验报告中写出完整的程序，并完成上述思考题。

x 105-0.1-0.0500.050.1时间t 幅值原始语音采样后的信号波形-4-2024x 104020406080频率Hz 幅值信号原始频率x 105时间t 幅值调制后的信号波形-4-2024x 104频率Hz 幅值信号调制后的频率Figure1 原始信号和调制后的信号波形及频率x 105时间t 幅值加入高斯白噪声后的波形x 104频率Hz 幅值加入高斯白噪声后的频率x 105时间t 幅值加噪解调后的信号波形x 104频率Hz 幅值加噪解调后的频率Figure2 加入高斯白噪声和解调后的信号波形及频率程序1如下：%原始语音采样后的信号分析N=16;fs=44100;bits=16;[y,fs,bits]=wavread('F:\1.wav');figure(1)subplot(2,2,1);plot(y);xlabel('时间t');ylabel('幅值');title('原始语音采样后的信号波形');Y=fft(y,2^N);Y0(2^N/2+1:2^N)=Y(1:2^N/2);Y0(1:2^N/2)=Y(2^N/2)/2^N;ff=fs*(-(2^N/2-1):2^N/2)/2^N;subplot(2,2,3);plot(ff,abs(Y0));xlabel('频率Hz');ylabel('幅值');title('信号原始频率');%信号调制fc=9000; %载波频率y_mod=modulate(y,fc,fs,'am'); %对原语音信号调制subplot(2,2,2);plot(y_mod);xlabel('时间t');ylabel('幅值');title('调制后的信号波形');YY0=fft(y_mod,2^N);Y1(2^N/2+1:2^N)=YY0(1:2^N/2);Y1(1:2^N/2)=YY0(2^N/2+1:2^N);subplot(2,2,4);plot(ff,abs(Y1));xlabel('频率Hz');ylabel('幅值');title('信号调制后的频率');%加入高斯白噪声后的语音信号分析y_mod1=awgn(y_mod,20,'measured');figure(2);subplot(2,2,1);plot(y_mod1);xlabel('时间t');ylabel('幅值');title('加入高斯白噪声后的波形'); YY1=fft(y_mod1,2^N);Y2(2^N/2+1:2^N)=YY1(1:2^N/2); Y2(1:2^N/2)=YY1(2^N/2+1:2^N); subplot(2,2,3);plot(ff,abs(Y2));xlabel('频率Hz');ylabel('幅值');title('加入高斯白噪声后的频率'); %信号解调y1=demod(y_mod1,fc,fs,'am'); subplot(2,2,2);plot(y1);xlabel('时间t');ylabel('幅值');title('加噪解调后的信号波形');YY2=fft(y1,2^N);Y3(2^N/2+1:2^N)=YY2(1:2^N/2); Y3(1:2^N/2)=YY2(2^N/2+1:2^N); subplot(2,2,4);plot(ff,abs(Y3));xlabel('频率Hz');ylabel('幅值');title('加噪解调后的频率');sound(y1,fs,bits);2.增量调制00.0020.0040.0060.0080.010.0120.0140.0160.0180.02原信号及其离散值-22编码输出二进制序列值00.0020.0040.0060.0080.010.0120.0140.0160.0180.02-202解码信号与原信号对比程序2如下：Ts=1e-3; %采样间隔t=0:Ts:20*Ts; %仿真时间序列，0.02/（1/1000）=20个采样点 x=sin(100*pi*t)+0.5*sin(300*pi*t); %信号delta=0.4; %量化阶距D(1+length(t))=0; %预测器初始状态for k=1:length(t)e(k)=x(k)-D(k); %误差信号e_q(k)=delta*(2*(e(k)>=0)-1); %量化器输出D(k+1)=e_q(k)+D(k); %延迟器状态更新codeout(k)=(e_q(k)>0); %编码输出endsubplot(3,1,1);plot(t,x,'-o');axis([0 20*Ts,-2 2]);hold on;title('原信号及其离散值');subplot(3,1,2);stairs(t,codeout);axis([0 20*Ts,-2 2]); %解码端title('编码输出二进制序列值');Dr(1+length(t))=0; %解码端预测器初始状态for k=1:length(t)eq(k)=delta*(2*codeout(k)-1); %解码xr(k)=eq(k)+Dr(k);Dr(k+1)=xr(k); %延迟器状态更新endsubplot(3,1,3);stairs(t,xr);hold on; %解码输出subplot(3,1,3);plot(t,x); %原信号title('解码信号与原信号对比');。