基于MATLABGUI的语音信号特征提取系统设计

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第39卷第4期河北工业大学学报2010年8月V ol.39No.4JOURNAL OF HEBEI UNIVERSITY OF TECHNOLOGY August2010

文章编号：1007-2373(2010)04-0014-05

基于

The typical time-frequency characteristics of speech signal and the core algorithms are the key problems in spe-

ech recognition,speech synthesis and speaker recognition system.According to the algorithm principles of linear pre-diction coding(LPC)theory and Mel frequency cepstrum coefficient(MFCC),a features extraction system platform for speech signal based on MATLAB GUI was implemented.On this platform,the speech signal in different audio formats can be loaded and played,and the waveform of the loaded speech signal can be displayed.Furthermore,the calculated results of LPC and MFCC can be displayed on the interface.At the same time,the data results can be saved in the corre-sponding files.The system supplied friendly human computer interaction and easy operation.The designed system will provide important and intuitive auxiliary effect on verifying the algorithms and data processing efficiency for the research fields related to speech signal processing.

王光艳，等：基于MATLAB GUI的语音信号特征提取系统设计

第4期

的重要参数之一，取得了较为精确的识别效果，详见文献[3-4]．

MATLAB是使用最为广泛的科学计算软件之一，具有强大、丰富的内置函数和工具箱[5]．其版本升级到6.5以后，为用户提供了较为方便的设计、修改图形用户界面（GUI）的专用工作台，用户调用GUI设计工作台，就可以设计自己的图形用户界面．与VC等其他编程语言相比，MATLAB GUI设计同样采用了面向对象技术，特别是对于有大量数值运算和图形图像处理的程序，具有很大优势，界面设计时更加简洁、快捷与直观．语音信号特征提取系统界面在MATLAB7.6环境下，基于GUI技术设计实现，可完成语音信号的装载、播放和波形显示，及其典型语音处理技术和参数提取算法的实时显示和数据存储等基本功能．

1语音信号典型特征和分析技术

波形表示和参数表示是描述语音信号的两种典型方式．通过观察波形和试听，实现对语音信号的直观认识；通过提取相关的语音参数特征，实现对语音信号的深入分析，以及语音识别、说话人识别系统中的特征匹配．

1.1LPC算法原理

LPC技术的基本思想是：语音信号的每个取样值，可以用它过去的若干个取样值的加权来表示，各加权系数按照最小均方误差的原则来确定．设语音信号的现在估值为，前12

=(1)

其中：=．使误差在均方误差最小的条件下，

也即预测残差能量2

1/1

=1,2,3,进行递推，得到最终解为

１

=稳定的充要条件．

基于LPC的语音识别、语音合成、语音编码和说话人识别的大量实践证明：线性预测参数是语音信号特征表示的良好参数[1]．

1.2MFCC算法原理

MFCC是建立在人耳对声音频率的非线性感知基础上，将线性功率谱转化为Mel频率下的功率谱．Mel 频率尺度的值大体上对应于实际频率的对数分布关系，符合人耳的听觉特性．Mel频率与实际频率的具体关系可表示为

16河北工业大学学报第39卷

如下：

①将原始的语音信号先经过预加重、分帧、加窗等预处理过程，得到每个语音帧的时域信号．预加

重的目的是加强语音中的高频成分，公式为

为预加重系数，值在0.9和1之间，本文取

经过

=c o s

ÎªMFCC参数的阶数，个三角滤波器的输出，维MFCC参数．

根据文献[7]所研究的MFCC各阶分量对语音识别的平均贡献，最有用的语音信息包含在MFCC分量的￣之间，其它谱系数包含的有用信息较少．所以，在求出的各阶MFCC参数后，首先去除直流分量

Îª³£Êý£¬Í¨³£È¡2，这时差分参数就称为当前帧的前两帧和后两帧的线性组合，由此可将多维参数

(

第4期

王光艳，等：基于MATLAB GUI的语音信号特征提取系统设计

②绘出界面草图，从使用者的角度来审查；

③启动GUIDE，按草图创建静态界面，并进行相应控件的属性设置；

④编写并调试相应对象的回调函数，实现界面的动态功能；

⑤运行界面，进行功能测试．

在设计中，步骤之间往往交叉反复进行，设计和实现过程往往不是一步到位的．

3仿真界面的设计与实现

3.1界面功能的规划与设计

要求界面能完成语音信号波形和典型参数特征的实时

显示，其原理框架如图2所示．

界面的主要功能模块包括：语音信号的装载、波形显

示和回放模块；LPC参数计算和显示模块；MFCC参数的

提取和显示模块．这些操作的结果分别通过屏幕、文件以

及提示等进行显示或保存，提供统一的输入输出操作接口，

不同算法计算结果可在不同目录下保存．界面上主要划分

了两个功能显示区，每个功能区通过调用“Panel”控件来

完成．第1个功能区主要用来完成语音信号的装载、回放

和波形显示；第2个功能区完成LPC或MFCC参数的提取

和显示，由于二者的参数提取和结果显示过程类似，故可

共用一个工作区，采用按钮来完成具体功能切换．

系统的后台语音资源库主要采用中文语言资源联盟统一开发，并由中科院自动化所承担录制的标准语料库，所有语音文件，包括字、词和句子，均为在实验室环境下录制的汉语普通话男声和女声发音，16kHz采样，16bit编码，双声道输出，存储为*.wav格式．关于语音文件的装载、时域波形显示和播放等功能是通过直接撰写控件的函数代码来实现的．LPC和MFCC参数的提取等功能模块的实现均是通过调用事先编好的自定义M文件来完成的，具体程序算法设计均按照论文理论叙述部分的算法公式和计算过程来实现的．为后续参数计算方便，本系统中将语音数据文件格式预设为8kHz采样、8bit编码、单声道输出，这与语音资源库的格式存在出入，所以，在编写“load file”按钮的回调函数时，补充语音信号格式转换程序，将所有读入的语音信号均转换为预设的标准格式．

3.2仿真界面

仿真界面实现了预期的功能要求，如图3所示为不同语音信号在不同输入参数和功能要求下的输出结果．图3a)和图3b)分别为汉语普通话女声发音“他去无锡市，我到黑龙江”的LPC参数和MFCC参数的计算和仿真结果；图3c)为汉语普通话女声发音“广播电台”第50帧信号的LPC计算结果；图3d)为汉语普通话女声发音“排除万难”的MFCC计算结果．从图中可以看出，“the Origian Speech Signal”面板部分主要用来完成语音信号的装载、播放、时域波形显示等功能．“spectral of the speech signal”面板部分主要完成语音信号的LPC参数或MFCC参数的计算结果显示．

系统中的各项计算结果在显示的同时并以mat文件的形式存储于相应目录中，可以用于后续的计算和分析．从图3a)和图3c)中两段语音信号的LPC计算结果中可以看出，帧长为256，预测阶数为24，其输出图形中包含4个子图．第1个子图为所选语音帧的原始语音信号波形，主要用于波形显示和对比．第2个子图为Durbin 算法求得的线性预测系数，即为全极点系统．第4个子图输出为预测残差能量波

形，主要用于系统的计算，无论是对于清音信号还是浊音信号，均有结论公式2，详见文

献[1]．第3个子图为反射系数1(

Ò²ÊÇ¸ñÐÍËã·¨ÖÐµÄ»ù±¾²ÎÊý£®±¾ÏµÍ³µÄ¼ÆËã½á¹û³ýÁË¿ÉÒÔÖ±½Ó¹¹Ôì³öÈ«¼«µãÉùµÀÄ£ÐÍµÄ´«Êä²ÎÊý