matlab语音识别系统(源代码)18676
基于MATLAB的语音信号处理与识别系统设计与实现

基于MATLAB的语音信号处理与识别系统设计与实现一、引言语音信号处理与识别是人工智能领域中的重要研究方向之一,随着深度学习和人工智能技术的不断发展,基于MATLAB的语音信号处理与识别系统设计与实现变得越来越受到关注。
本文将介绍如何利用MATLAB进行语音信号处理与识别系统的设计与实现。
二、MATLAB在语音信号处理中的应用MATLAB作为一种强大的科学计算软件,提供了丰富的工具箱和函数库,可以方便地进行语音信号处理。
在语音信号处理中,MATLAB可以用于语音信号的采集、预处理、特征提取、模型训练等各个环节。
通过MATLAB提供的工具,可以高效地对语音信号进行分析和处理。
三、语音信号处理流程1. 语音信号采集在语音信号处理系统中,首先需要对语音信号进行采集。
通过MATLAB可以实现对声音的录制和采集,获取原始的语音信号数据。
2. 语音信号预处理采集到的语音信号数据通常包含噪声和杂音,需要进行预处理以提高后续处理的准确性。
预处理包括去噪、降噪、滤波等操作,可以有效地净化语音信号数据。
3. 特征提取在语音信号处理中,特征提取是一个关键步骤。
通过MATLAB可以提取出语音信号的频谱特征、时域特征等信息,为后续的模式识别和分类打下基础。
4. 模型训练与识别利用MATLAB可以构建各种机器学习模型和深度学习模型,对提取出的特征进行训练和识别。
通过模型训练,可以实现对不同语音信号的自动识别和分类。
四、基于MATLAB的语音信号处理与识别系统设计1. 系统架构设计基于MATLAB的语音信号处理与识别系统通常包括数据采集模块、预处理模块、特征提取模块、模型训练模块和识别模块。
这些模块相互配合,构成一个完整的系统架构。
2. 界面设计为了方便用户使用,可以在MATLAB中设计用户友好的界面,包括数据输入界面、参数设置界面、结果展示界面等。
良好的界面设计可以提升系统的易用性和用户体验。
五、基于MATLAB的语音信号处理与识别系统实现1. 数据准备首先需要准备好用于训练和测试的语音数据集,包括正样本和负样本。
MATLAB 高级编程与工程应用 语音处理 实验报告+源代码

清华大学电子工程系MATLAB高级编程与工程应用实验二语音处理1.2.1(1)给定e(n) 假设e(n) 是输入信号,s(n) 是输出信号,上述滤波器的传递函数是什么?如果a1 = 1.3789,a2 = 0.9506 ,上述合成模型的共振峰频率是多少?用zplane ,freqz ,impz 分别绘出零极点图,频率响应和单位样值响应。
用filter 绘出单位样值响应,比较和impz 的是否相同。
分析:上述滤波器的传递函数是:H=11−1.3789z−1+0.9506z−2可以求出传递函数的极点为p = 0.6895 ±0.6894 i由此可以计算出模拟频率为Ω = pi/4,又因为T = 1/8000s,则可以得到共振峰频率f = 1000Hz。
使用zplane函数画出零极点图如下:使用freqz函数画出频率响应如下:使用impz函数画出单位样值响应如下:最后使用filter函数画出其单位样值响应如下:编写文件sounds_2_1.m,画出所有图像如下,可以直接比较filter函数和impz函数画出的单位样值响应几乎是一模一样的:sounds_2_1.m:clear;clc;close all;b = 1;a = [1,-1.3789,0.9506];n = [0:1:50];freqz(b,a); %画出频率响应图figure; %新建画布subplot(3,1,1);zplane(b,a); %画出零极点图subplot(3,1,2);impz(b,a,n); %利用impz函数画出单位样值响应subplot(3,1,3);x = (n == 0);stem(n,filter(b,a,x)); %利用filter函数画出单位样值响应(3)运行该程序到27 帧时停住,用(1)中的方法观察零极点图。
添加代码如下:运行程序得到零极点图如下:(4) 在循环中添加程序:对每帧语音信号s(n) 和预测模型系数fa i g ,用filter 计算激励信号e(n) 。
基于MATLAB的汉语数字语音识别系统

( 河南理工大学 电气学院 , 河南 焦作 440) 5 0 0
摘
要: 应用动 态时间规整 (T 为识别 算法, 用M C ( E 频率倒谱 系数) D W) 采 F CM L 为主要语音特 征参数 , 建立 了一 个汉
语数字语音识别 系统 , 中包括语音信号 的预 处理 、 其 特征 参数的提 取 、 别模板 的训练、 别匹配算 法; 识 识 同时 , 出利 提 用 MA L B图形用户界 面开发环境设计语音识 别 系统界 面 , TA 设计 简单 , 用方便 , 使 系统界 面友好 。
为 了体 现语 音 的动态 特性 及能 量对 语音 区分 的作 用 , 在 上述 语 音 特征 矢 量 中加 人 了一 阶差 分 MF C 还 C 及 其 一 阶能 量 和一 阶差分 能 量 , 中能量 参 数 用语 音 其
平 均能 量进 行 了归一 化 。
3 训 练 与识 别
路 径不 是 随 意选 择 的 , 因为任 何 一种 语 音 的发 音快 慢 都有 可 能变化 , 但是 其各 部分 的先后 次 序不 可能 改变 , 因此 所选 的路 径必 定是从 左 下角 出发 , 在右上 角结 束 ,
一
xk z ) / . (一 n (一 (e K. i ∑ )
尸 ) xkl (=l( 。 ).
。
( 1 )
( 2 )
其中 , 为 52 l 点。然后再求信号能量谱 , : 即 5 根据 ( ) ) 4 式进行频率弯折 , 在弯折后 的频率轴 上取等间隔滤波器组在频域对功率谱进行滤波.
4 对加窗后的语音信号进行 5 2 ) 1 点离散傅立叶变
换( F , : D T) 即
用过零率找到语音端点的相对精确位置 , 分解 出每一 个 语 音段 。 个实例见 图 2 其 中 5 , 表示无 声段 ,表示 有声 , 段 , 示 有 声 段 结束 后 的无 声 部 分 。从 图 中可 知 有 H表
Matlab在语音识别与合成中的应用指南

Matlab在语音识别与合成中的应用指南一、引言语音在人类交流中扮演着重要的角色,而语音识别与合成技术的发展为人机交互带来了革命性的变革。
Matlab作为一个强大的数学软件,也具备了丰富的工具箱和函数,能够为语音识别与合成提供有效的支持。
本文将探讨Matlab在语音识别与合成中的应用指南,帮助读者更好地了解和应用该技术。
二、语音信号分析与处理语音信号是一种时变信号,通过对其进行分析和处理,可以提取出有用的特征信息,为后续的语音识别与合成任务提供基础。
Matlab中提供了丰富的函数和工具箱,如Signal Processing Toolbox和Audio Toolbox,可以方便地进行语音信号的预处理、滤波、频谱分析等操作。
此外,Matlab还提供了诸如快速傅里叶变换(FFT)等函数,可以方便地进行频域分析和滤波器设计。
三、语音识别语音识别是将输入的语音信号转化为对应的文本或命令的过程。
在语音识别中,常用的方法有基于隐马尔可夫模型(HMM)的方法和深度神经网络(DNN)的方法。
Matlab中提供了Speech Recognition Toolbox,可以方便地进行语音识别任务的实现。
该工具箱提供了训练和测试HMM模型的函数,同时还提供了丰富的特征提取函数和分类器函数,方便用户进行语音特征的提取和建模。
四、语音合成语音合成是将文本转化为语音信号的过程。
在语音合成中,常用的方法有基于串联谱的方法和基于隐马尔可夫模型的方法。
Matlab中提供了Speech Synthesis Toolbox,能够帮助用户实现语音合成的任务。
该工具箱提供了丰富的合成模型和声学模型,可以方便地根据不同应用场景生成高质量的语音信号。
五、语音情感识别语音情感识别是通过分析语音信号中的情感信息,判断说话者的情感状态。
对于诸如自动客服、智能助手等应用场景来说,情感识别具有重要的意义。
Matlab中提供了情感识别工具箱,可以通过基于机器学习和深度学习的方法实现情感识别任务。
如何使用Matlab进行语音识别和自然语言理解

如何使用Matlab进行语音识别和自然语言理解语音识别和自然语言理解是人工智能领域的重要研究方向之一。
随着计算机处理能力的不断提升和深度学习技术的发展,这两个领域的研究也取得了显著的进展。
本文将介绍如何使用Matlab进行语音识别和自然语言理解的相关工作。
一、语音识别基础语音识别是将人类的语音信号转化为计算机可处理的文本形式的过程。
它通常涉及到声学模型和语言模型两个重要的组成部分。
在Matlab中,我们可以使用语音处理工具箱来实现语音识别。
首先,在进行语音识别之前,我们需要将语音信号进行预处理,包括去除噪声、进行特征提取等。
Matlab提供了丰富的函数和工具,如音频滤波、时频分析等,可用于实现这些预处理步骤。
接下来,我们需要设计声学模型来对语音信号进行建模。
常用的声学模型包括隐马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Network,DNN)。
在Matlab中,我们可以使用统计和机器学习工具箱来构建并训练这些声学模型。
最后,我们需要根据语言模型对识别结果进行解码和修正。
语言模型用于对识别结果的语言合理性进行评估,帮助我们选择最佳的识别结果。
Matlab提供了自然语言处理工具箱,可用于对文本进行分析和处理。
二、自然语言理解基础自然语言理解是指计算机对人类自然语言进行理解和解释的过程。
它涉及到文本分析、语义解析、语义推理等多个任务。
在Matlab中,我们可以利用自然语言处理工具箱来实现自然语言理解的相关任务。
首先,我们可以使用文本分析工具箱对文本进行分词、词性标注和命名实体识别等处理。
这些预处理操作有助于建立文本的语义表示,并为后续的任务提供基础。
接下来,我们可以使用语义解析和语义推理技术来对文本进行语义分析和推理。
语义解析的目标是将自然语言表达式转化为语义表示,而语义推理则旨在根据这些语义表示进行推理和推断。
Matlab提供了一些自然语言处理算法和模型,如词向量模型、句法分析模型等,可用于实现这些任务。
基于MATLAB的特定人语音识别软件开发与设计

基于MATLAB的特定人语音识别软件开发与设计本文将详细介绍基于MATLAB的特定人语音识别软件的开发与设计,从数据采集、数据预处理、特征提取、训练模型以及测试评估等方面进行介绍。
同时,本文还会对该软件的实时性、准确性、稳定性进行分析并进行改进优化。
一、数据采集数据采集是语音识别系统开发的第一步,也是最为关键的一步。
采集到的数据质量将直接影响后续的预处理、特征提取以及模型训练。
在采集数据时,应该尽可能保证采集设备的统一性,以便后续的数据处理与模型训练。
同时,采集的语音数据应具有较高的覆盖率和多样性,以便让模型具有更好的泛化能力。
二、数据预处理在数据预处理阶段,需要对采集到的语音数据进行一系列的预处理操作,例如去除背景噪音、去除重复数据、平衡数据分布等。
这些操作有助于提高预处理的效果,从而提高后续的特征提取以及模型训练的准确度。
三、特征提取特征提取是语音识别系统中最为复杂的一步,其目的是将原始的语音信号转化为易于处理的数学特征。
在特征提取中,需要使用一些特征提取算法,例如短时傅里叶变换、梅尔倒谱系数、线性预测系数等。
这些算法可以大大减少语音信号的冗余信息,提取出信号的主要特征,从而提高模型的分类准确度。
四、训练模型在模型训练中,需要选择适当的模型算法以及调整算法的超参数。
在语音识别中,常用的模型算法有隐马尔可夫模型、深度神经网络、循环神经网络等。
训练模型的过程中,需要使用一些评估指标,例如准确率、召回率、F1值等,以评估模型的优劣。
同时,在训练过程中,需要使用一些技巧,例如交叉验证、正则化、学习率衰减等,以优化模型的泛化能力。
五、测试评估在模型训练完成后,需要使用测试数据对模型进行评估。
在测试评估中,需要使用一些评估指标,例如准确率、召回率、误判率等,以评估模型的性能。
同时,还需要针对测试结果进行分析,从而找出模型存在的问题并进行改进优化。
六、实时性、准确性、稳定性改进优化在实际应用中,需要保证语音识别系统的实时性、准确性以及稳定性,否则无法满足用户需求。
使用Matlab进行实时语音处理与语音识别的实践指南

使用Matlab进行实时语音处理与语音识别的实践指南实时语音处理与语音识别是人工智能领域一个重要而复杂的研究方向。
而Matlab作为一种强大的科学计算软件,提供了丰富的工具箱和函数库,为语音处理与语音识别的研究和实践提供了极大的便利。
本文将介绍如何使用Matlab进行实时语音处理与语音识别并给出一些实践指南。
一、Matlab的语音处理工具箱Matlab的语音处理工具箱(Speech Processing Toolbox)是Matlab中专门用于语音信号的处理和分析的工具箱。
它提供了一系列函数和工具,包括语音信号的录制和播放、声音特征提取、声音增强和去噪、语音识别等。
在进行实时语音处理与语音识别之前,我们需要先安装并激活语音处理工具箱。
二、实时语音处理的基本步骤实时语音处理通常由以下几个基本步骤组成:声音录制、语音信号分帧、对每帧信号进行加窗处理、进行傅里叶变换得到频谱信息、对频谱信息进行处理和特征提取、进行语音识别。
1. 声音录制Matlab提供了`audiorecorder`函数来实现声音的录制功能。
下面是一个简单的示例代码:```fs = 44100; % 采样率nBits = 16; % 采样精度nChannels = 1; % 声道数recorder = audiorecorder(fs, nBits, nChannels);record(recorder);pause(5); % 录制5秒stop(recorder);y = getaudiodata(recorder); % 获取录音数据```2. 语音信号分帧语音信号在进行处理之前需要进行分帧处理,将连续的语音信号分成若干个小的时间窗口。
分帧的目的是提取局部语音特征,常用的窗口函数包括矩形窗、汉明窗等。
Matlab提供了`buffer`函数用于分帧处理。
示例代码如下:```frameSize = 256; % 窗口大小overlap = 128; % 帧之间的重叠部分frames = buffer(y, frameSize, overlap);```3. 加窗处理加窗处理是对每一帧信号进行加窗操作,以减少频谱泄漏。
利用MATLAB平台实现少量字的语音识别(含源文件)

本科毕业论文(设计)目录引言 (4)1.语音识别简介 (5)1.1语音识别系统的分类 (5)1.2语音识别系统的基本构成 (5)2.语音识别参数 (6)2.1线性预测系数(LPC) (6)2.2线性预测倒谱系数(LPCC) (8)2.3MFCC系数 (8)2.4参数计算流程 (9)3.DTW算法 (11)3.1DTW算法原理 (11)3.2DTW的高效算法 (14)4.HMM算法 (16)4.1HMM的原理 (16)4.2HMM的前向概率和后向概率 (17)4.3识别算法——V ITERBI解码 (19)4.4 BAUM-WELCH算法 (20)5.实验及总结 (23)5.1实验准备以及步骤 (23)5.2实验结果及讨论 (25)5.3实验结论 (29)参考文献 (30)引言自上世纪80年代开始,语音识别技术的研究进入了一个蓬勃发展的时期,一些商用系统也从实验室进入市场。
然而,在实际的应用中,由于各种干扰因素导致的测试条件与训练环境的不匹配,系统的性能往往会收到极大的影响。
因此提高语音识别系统的性能就成为了语音识别技术真正走向实用化的关键课题。
语音识别是以声音作为研究对象它是语音信号处理的一个重要研究方向,是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
本文研究了汉语语音识别技术及其实现方法。
论文首先分析了语音信号预处理问题。
对MFCC倒谱系数在语音识别中的运用做了详细介绍。
其次研究了基于DTW的语音识别系统,针对DTW算法中系统识别性能过分依赖于端点检测、动态规划的计算量太大等缺陷,分别提出了快速DTW算法和端点松动的DTW算法,仿真结果比较理想。
继而研究了基于HMM的语音识别系统。
针对HMM在实际应用中的优化计算问题,包括初始模型选取,定标等进行了深入的分析与探讨。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(威海)《智能仪器》课程设计题目: MATLAB实现语音识别功能班级:学号:姓名:同组人员:任课教师:完成时间:2012/11/3目录一、设计任务及要求 (1)二、语音识别的简单介绍语者识别的概念 (2)特征参数的提取 (3)用矢量量化聚类法生成码本 (3)的说话人识别 (4)三、算法程序分析函数关系 (4)代码说明 (5)函数mfcc (5)函数disteu (5)函数vqlbg (6)函数test (6)函数testDB (7)函数train (8)函数melfb (8)四、演示分析 (9)五、心得体会 (11)附:GUI程序代码 (12)一、设计任务及要求用MATLAB实现简单的语音识别功能;具体设计要求如下:用MATLAB实现简单的数字1~9的语音识别功能。
二、语音识别的简单介绍基于VQ的说话人识别系统,矢量量化起着双重作用。
在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。
在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。
语音识别系统结构框图如图1所示。
图1 语音识别系统结构框图语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。
语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。
用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。
因此,近几年来,说话人识别越来越多的受到人们的重视。
与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。
因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。
说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。
在吃力语音信号的时候如何提取信号中关键的成分尤为重要。
语音信号的特征参数的好坏直接导致了辨别的准确性。
特征参数的提取对于特征参数的选取,我们使用mfcc 的方法来提取。
MFCC 参数是基于人的听觉特性利用人听觉的屏蔽效应,在Mel 标度频率域提取出来的倒谱特征参数。
MFCC 参数的提取过程如下:1. 对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息。
设语音信号的DFT 为:10,)()(112-≤≤=∑-=-N k en x k X N n N nk j a π(1)其中式中x(n)为输入的语音信号,N 表示傅立叶变换的点数。
2. 再求频谱幅度的平方,得到能量谱。
3. 将能量谱通过一组Mel 尺度的三角形滤波器组。
我们定义一个有M 个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,3,···,M本系统取M=100。
4. 计算每个滤波器组输出的对数能量。
N 12a m k 1S(m)ln(|(k)|H (k)),0m M 1X -==≤≤-∑ (2)其中m H (k)为三角滤波器的频率响应。
5. 经过离散弦变换(DCT )得到MFCC 系数。
10C(n)()cos((0.5/)),(3)01M m S m n m m n N π-==-≤≤-∑MFCC 系数个数通常取20—30,常常不用0阶倒谱系数,因为它反映的是频谱能量,故在一般识别系统中,将称为能量系数,并不作为倒谱系数,本系统选取20阶倒谱系数。
用矢量量化聚类法生成码本我们将每个待识的说话人看作是一个信源,用一个码本来表征。
码本是从该说话人的训练序列中提取的MFCC 特征矢量聚类而生成。
只要训练的序列足够长,可认为这个码本有效地包含了说话人的个人特征,而与讲话的内容无关。
本系统采用基于分裂的LBG 的算法设计VQ 码本,(1,2,,)k X k K =⋅⋅⋅为训练序列,B 为码本。
具体实现过程如下:1. 取提取出来的所有帧的特征矢量的型心(均值)作为第一个码字矢量B1。
2. 将当前的码本Bm 根据以下规则分裂,形成2m 个码字。
)1()1({εε-=+=-+m m m m B B B B (4) 其中m 从1变化到当前的码本的码字数,ε是分裂时的参数,本文ε=。
3. 根据得到的码本把所有的训练序列(特征矢量)进行分类,然后按照下面两个公式计算训练矢量量化失真量的总和[]n D 以及相对失真(n 为迭代次数,初始n=0,[1]D -=∞,B 为当前的码书),若相对失真小于某一阈值ε,迭代结束,当前的码书就是设计好的2m 个码字的码书,转5。
否则,转下一步。
量化失真量和:()1min (,)Kn k k D d X B ==∑ (5)相对失真:(1)||n nnD D D -- (6) 4. 重新计算各个区域的新型心,得到新的码书,转3。
5. 重复2 ,3 和4步,直到形成有M 个码字的码书(M 是所要求的码字数),其中D0=10000。
VQ 的说话人识别设是未知的说话人的特征矢量1{,,}T X X K ,共有T 帧是训练阶段形成的码书,表示码书第m 个码字,每一个码书有M 个码字。
再计算测试者的平均量化失真D ,并设置一个阈值,若D 小于此阈值,则是原训练者,反之则认为不是原训练者。
∑=≤≤=11]min[/1),(j Mm m j T D B x d (7) 三、 算法程序分析在具体的实现过程当中,采用了matlab 软件来帮助完成这个项目。
在matlab中主要由采集,分析,特征提取,比对几个重要部分。
以下为在实际的操作中,具体用到得函数关系和作用一一列举在下面。
函数关系主要有两类函数文件和在调用获取训练录音的vq 码本,而调用获取单个录音的mel 倒谱系数,接着调用将能量谱通过一组Mel 尺度的三角形滤波器组。
在函数文件中调用计算训练录音(提供vq 码本)与测试录音(提供mfcc )mel 倒谱系数的距离,即判断两声音是否为同一录音者提供。
调用获取单个录音的mel 倒谱系数。
调用将能量谱通过一组Mel 尺度的三角形滤波器组。
具体代码说明函数mffc:function r = mfcc(s, fs)---m = 100;n = 256;l = length(s);nbFrame = floor((l - n) / m) + 1; %沿-∞方向取整for i = 1:nfor j = 1:nbFrameM(i, j) = s(((j - 1) * m) + i); %对矩阵M赋值endendh = hamming(n); %加hamming 窗,以增加音框左端和右端的连续性M2 = diag(h) * M;for i = 1:nbFrameframe(:,i) = fft(M2(:, i)); %对信号进行快速傅里叶变换FFTendt = n / 2;tmax = l / fs;m = melfb(20, n, fs); %将上述线性频谱通过Mel 频率滤波器组得到Mel 频谱,下面在将其转化成对数频谱n2 = 1 + floor(n / 2);z = m * abs(frame(1:n2, :)).^2;r = dct(log(z)); %将上述对数频谱,经过离散余弦变换(DCT)变换到倒谱域,即可得到Mel 倒谱系数(MFCC参数)函数disteu---计算测试者和模板码本的距离function d = disteu(x, y)[M, N] = size(x); %音频x赋值给【M,N】[M2, P] = size(y); %音频y赋值给【M2,P】if (M ~= M2)error('不匹配!') %两个音频时间长度不相等endd = zeros(N, P);if (N < P)%在两个音频时间长度相等的前提下copies = zeros(1,P);for n = 1:Nd(n,:) = sum((x(:, n+copies) - y) .^2, 1);endelsecopies = zeros(1,N);for p = 1:Pd(:,p) = sum((x - y(:, p+copies)) .^2, 1)';end%%成对欧氏距离的两个矩阵的列之间的距离endd = d.^;函数vqlbg---该函数利用矢量量化提取了音频的vq码本function r = vqlbg(d,k)e = .01;r = mean(d, 2);dpr = 10000;for i = 1:log2(k)r = [r*(1+e), r*(1-e)];while (1 == 1)z = disteu(d, r);[m,ind] = min(z, [], 2);t = 0;for j = 1:2^ir(:, j) = mean(d(:, find(ind == j)), 2);x = disteu(d(:, find(ind == j)), r(:, j));for q = 1:length(x)t = t + x(q);endendif (((dpr - t)/t) < e)break;elsedpr = t;endendend函数testfunction finalmsg = test(testdir, n, code)for k = 1:n % read test sound file of each speaker file = sprintf('%ss%', testdir, k);[s, fs] = wavread(file);v = mfcc(s, fs); % 得到测试人语音的mel倒谱系数distmin = 4; %阈值设置处% 就判断一次,因为模板里面只有一个文件d = disteu(v, code{1}); %计算得到模板和要判断的声音之间的“距离”dist = sum(min(d,[],2)) / size(d,1); %变换得到一个距离的量%测试阈值数量级msgc = sprintf('与模板语音信号的差值为:%10f ', dist);disp(msgc);%此人匹配if dist <= distmin %一个阈值,小于阈值,则就是这个人。
msg = sprintf('第%d位说话者与模板语音信号匹配,符合要求!\n', k);finalmsg = '此位说话者符合要求!'; %界面显示语句,可随意设定disp(msg);end%此人不匹配if dist > distminmsg = sprintf('第%d位说话者与模板语音信号不匹配,不符合要求!\n', k);finalmsg = '此位说话者不符合要求!'; %界面显示语句,可随意设定disp(msg);endend函数testDB这个函数实际上是对数据库一个查询,根据测试者的声音,找相应的文件,并且给出是谁的提示function testmsg = testDB(testdir, n, code)nameList={'1','2','3','4','5','6','7','8','9' }; %这个是我们要识别的9个数for k = 1:n % 数据库中每一个说话人的特征file = sprintf('%ss%', testdir, k); %找出文件的路径[s, fs] = wavread(file);v = mfcc(s, fs); % 对找到的文件取mfcc变换distmin = inf;k1 = 0;for l = 1:length(code)d = disteu(v, code{l});dist = sum(min(d,[],2)) / size(d,1);if dist < distmindistmin = dist;%%这里和test函数里面一样但多了一个具体语者的识别k1 = l;endendmsg=nameList{k1}msgbox(msg);end函数train---该函数就是对音频进行训练,也就是提取特征参数function code = train(traindir, n)k = 16; % number of centroids requiredfor i = 1:n % 对数据库中的代码形成码本file = sprintf('%ss%', traindir, i);disp(file);[s, fs] = wavread(file);v = mfcc(s, fs); % 计算MFCC's 提取特征特征,返回值是Mel倒谱系数,是一个log的dct得到的code{i} = vqlbg(v, k); % 训练VQ码本通过矢量量化,得到原说话人的VQ码本end函数melfb---确定矩阵的滤波器function m = melfb(p, n, fs)f0 = 700 / fs;fn2 = floor(n/2);lr = log(1 + f0) / (p+1);% convert to fft bin numbers with 0 for DC termbl = n * (f0 * (exp([0 1 p p+1] * lr) - 1));直接转换为FFT的数字模型b1 = floor(bl(1)) + 1;b2 = ceil(bl(2));b3 = floor(bl(3));b4 = min(fn2, ceil(bl(4))) - 1;pf = log(1 + (b1:b4)/n/f0) / lr;fp = floor(pf);pm = pf - fp;r = [fp(b2:b4) 1+fp(1:b3)];c = [b2:b4 1:b3] + 1;v = 2 * [1-pm(b2:b4) pm(1:b3)];m = sparse(r, c, v, p, 1+fn2);四、演示分析我们的功能分为两部分:对已经保存的9个数字的语音进行辨别和实时的判断说话人说的是否为一个数.在前者的实验过程中,先把9个数字的声音保存成wav的格式,放在一个文件夹中,作为一个检测的数据库.然后对检测者实行识别,系统给出提示是哪个数字.在第二个功能中,实时的录取一段说话人的声音作为模板,提取mfcc特征参数,随后紧接着进行遇着识别,也就是让其他人再说相同的话,看是否是原说话者.实验过程及具体功能如下:先打开Matlab 使Current Directory为录音及程序所所在的文件夹再打开文件“”,点run运行,打开enter界面,点击“进入”按钮进入系统。