基于Matlab的说话人识别

合集下载

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理语音识别是一种将人类语音转化为计算机可识别文本的技术。

它可以应用在语音识别系统、智能助手等多个领域,具有广泛的应用前景。

而MATLAB是一种功能强大的数学软件工具,提供了丰富的信号处理和模式识别函数,使得它成为进行语音识别的理想选择。

本文将介绍使用MATLAB进行语音识别的基本原理。

一、语音信号预处理在进行语音识别之前,需要对语音信号进行预处理。

预处理的目的是去除噪声、降低维度以及提取特征等。

其中,常用的预处理技术包括语音信号分帧、加窗、预加重以及语音信号归一化等。

语音信号分帧是将连续的语音信号分成若干短时帧,一般选择帧长为20-40毫秒。

然后对每一帧信号进行加窗操作,常用的窗函数有矩形窗、汉宁窗等,目的是减少频谱泄漏效应。

预加重是为了解决语音信号中的频率能量分布不均的问题。

预加重的思想是在进行傅里叶变换之前对语音信号进行高通滤波,增强高频部分的能量。

语音信号归一化是为了消除语音信号能量的差异性,一般使用均方根归一化或幅度归一化等方法,使得语音信号具有相似的能量特征。

二、特征提取在预处理之后,需要进行特征提取,以便将语音信号转化为计算机可识别的形式。

常用的特征提取方法包括线性预测分析(Linear Predictive Analysis, LPC)、梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)等。

LPC是一种基于线性预测模型的方法,它假设语音信号是由前面的语音样本线性预测后产生的。

LPC通过提取语音信号的倒谱系数以及预测误差,将语音信号转化为一组具有较低维度的特征向量。

MFCC是一种基于梅尔刻度的频谱特征提取方法。

它模拟了人耳对声音的感知机制,通过将频率轴转换为梅尔刻度,进而使用离散余弦变换将频谱分析结果转化为梅尔频率倒谱系数,得到更加稳定和鲁棒的特征。

三、模型训练与分类在特征提取之后,需要进行模型训练与分类。

基于MATLAB的人脸识别技术研究与应用

基于MATLAB的人脸识别技术研究与应用

基于MATLAB的人脸识别技术研究与应用人脸识别技术是一种通过对图像或视频中的人脸进行检测、识别和验证的技术。

随着计算机视觉和人工智能领域的不断发展,人脸识别技术在各个领域得到了广泛的应用,如安防监控、人脸支付、门禁系统等。

而MATLAB作为一种强大的科学计算软件,被广泛应用于人脸识别技术的研究和开发中。

本文将探讨基于MATLAB的人脸识别技术研究与应用。

人脸识别技术概述人脸识别技术是一种生物特征识别技术,通过对人脸图像进行采集、处理和比对,实现对个体身份的自动识别。

人脸识别技术主要包括人脸检测、特征提取、特征匹配等步骤。

在MATLAB环境下,可以利用其丰富的图像处理工具箱和深度学习工具箱来实现人脸识别算法的开发和优化。

基于MATLAB的人脸检测人脸检测是人脸识别技术中的关键步骤,其目的是在图像中准确地定位出人脸区域。

在MATLAB中,可以利用Haar级联分类器、HOG特征以及深度学习方法如卷积神经网络(CNN)来实现人脸检测算法。

这些方法可以有效地提高人脸检测的准确性和鲁棒性。

基于MATLAB的人脸特征提取在进行人脸识别时,需要从人脸图像中提取出具有区分性的特征信息。

常用的人脸特征提取方法包括主成分分析(PCA)、线性判别分析(LDA)、局部二值模式(LBP)等。

在MATLAB中,可以通过调用相应的函数或自行编写代码来实现这些特征提取算法,并对提取到的特征进行降维和优化。

基于MATLAB的人脸特征匹配在获取到人脸图像的特征表示后,需要进行特征匹配来判断两幅图像是否属于同一个人。

常用的匹配方法包括欧氏距离、余弦相似度、支持向量机(SVM)等。

在MATLAB中,可以利用其强大的数学计算功能和机器学习工具箱来实现不同的特征匹配算法,并根据具体应用场景选择合适的匹配策略。

基于MATLAB的人脸识别系统开发基于上述步骤,可以在MATLAB环境下开发完整的人脸识别系统。

该系统可以包括图像采集模块、预处理模块、特征提取模块、匹配比对模块以及结果显示模块等功能。

基于MATLAB的特定人语音识别算法设计毕业设计

基于MATLAB的特定人语音识别算法设计毕业设计

本科毕业设计基于MATLAB的特定人语音识别算法设计摘要语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

而在随着科技技术的发展的今天,除了人与人之间的自然语言通信之外,人与机或机器与机器之间也开始使用语言。

也就是因为如此,需要涉及到语音识别技术。

为了解决机器能“听懂”人类的语言,在科技如此迅猛发展的今天,语音识别技术一直受到各国科学界的关注,其对计算机发展和社会生活的重要性也日益凸显出来。

在孤立字语音识别中,如语音密码锁,汽车控制等领域,都运用到了特定人语音识别技术,也就是DTW算法,相对于HMM算法,DTW算法具有简单操作。

在相同环境下,两者识别效果相差不大,但是HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,而DTW算法则不需要额外的计算。

所以在特定人语音识别当中,DTW算法被广泛使用。

在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。

相对于C语言而言,MATLAB平台更能给用户提供一个简单易懂的代码分析窗口。

而且在个性化设计中,MATLAB可以为用户提供一个人性化界面--GUI。

所以,此次设计,通过MATLAB 平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。

然后再对一组相同的语音信号输入进行同样的操作作为测试模块,与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。

关键词:MATLAB GUI 端点检测MFCC DTWDesign of Speech Recognition Algorithm Based on Specific MATLABCai Jingzuo(College of Engineering, South China Agricultural University, Guangzhou 510642, China) Abstract:Language is a way of human exchange of information the most convenient, quick, highly developed in the information society, for voice transmission, by using the digital method of storage, recognition, synthesis and enhancement is one of the most important parts of the whole, the most basic digital communication network. While with the development of science and technology today, in addition to natural language communication between people, between people and machine or machine and machine are also starting to use the language. It is because of this, need to involve the speech recognition technology. In order to solve the machine can "hear" the human language, the technology is so rapid development today, the speech recognition technology has been the subject of scientific attention of all countries, the importance of computer development and social life is increasingly prominent.In the isolated word speech recognition, such as voice password lock, auto control field, are applied to the speech recognition technology, which is relative to the DTW algorithm, HMM algorithm, DTW algorithm has the advantages of simple operation. In the same environment, both the recognition effect is similar, but HMM algorithm is much more complex, mainly reflected in the HMM algorithm need to provide a large amount of speech data in the training phase, while the DTW algorithm does not need the extra computation. So in the speaker-independent recognition, DTW algorithm is widely used.In this design, will apply to the MATLAB platform to carry on the processing and recognition of speech signal. Compared with the C language, MATLAB platform can provide users with a simple code analysis window. But in the personalized design, MATLAB can provide a human user interface --GUI. So, the design, the establishment of a GUI interface through the MATLAB platform, and then a set of the input speech signal pretreatment, endpoint detection, feature parameter extraction (MFCC), the formation of the reference module. Then a group of the same speech signal input to the same operation as a test module, matching with reference to DTW algorithm module, output matching recognition results.Key words:DTW GUI Endpoint detection MFCC DTW目录1 前言 (1)1.1语音识别的历史背景 (1)1.1.1国外研究历史及现状 (2)1.1.2 国内研究历史及现状 (3)1.2 语音识别技术的应用及研究方向 (4)1.3语音识别系统的基本构成 (5)2 语音信号的数字模型及采集 (6)2.1概述 (6)2.2 语音的发音原理 (6)2.2.1 人的发声器官 (6)2.2.2 语音生成 (8)2.3 语音的听觉机理 (9)2.3.1 听觉器官 (9)2.3.2 耳蜗的信号处理原理 (10)2.4 MATLAB中的语音信号模型 (12)2.4.1 wavrecord函数 (12)2.4.2 wavplay函数 (13)3 语音信号的端点检测 (13)3.1 概述 (13)3.2 MATLAB的语音端点检测算法 (16)3.2.1 短时能量的计算 (16)3.2.2 过零率的计算 (17)3.2.3 端点检测的流程 (19)4语音信号非线性预测分析 (20)4.1 概述 (20)4.2 MFCC的基本原理 (20)4.3 实验结果 (21)5特定人语音识别算法-DTW算法 (22)5.1 DTW算法原理 (22)5.2 DTW算法流程及实验结果 (24)5.2.1 算法流程 (24)5.2.2实验结果 (25)6GUI设计 (26)6.1概述 (26)6.2 GUI界面的打开 (27)6.3作品演示 (29)7结论 (31)参考文献 (31)附录 (32)附录A语音识别主函数 (32)致谢 (38)本科生毕业设计成绩评定表1前言语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

Matlab在语音识别中的应用示例

Matlab在语音识别中的应用示例

Matlab在语音识别中的应用示例1. 引言语音识别是一项广泛应用于人机交互中的技术,其应用范围从智能助理到语音控制等众多领域。

而Matlab作为一种强大的数学建模与仿真工具,也在语音识别领域扮演着重要的角色。

本文将通过几个具体的应用示例,探讨Matlab在语音识别中的应用。

2. 语音信号的预处理语音信号的预处理对于后续的语音识别至关重要。

在Matlab中,我们可以使用数字滤波器对语音信号进行去噪和增强。

通过使用滤波器设计工具箱,我们可以根据语音信号的频谱特性,设计合适的数字滤波器。

另外,还可以利用Matlab中的时频分析工具对语音信号进行频谱分析,以了解信号的时域和频域特性。

3. 基于模板匹配的语音识别模板匹配是一种常见的语音识别方法,其基本思想是通过比较未知语音信号与预先录制的模板信号的相似度来进行识别。

在Matlab中,我们可以使用相关性分析函数corrcoef来计算两个语音信号的相关系数。

首先,我们需要将语音信号转化为MFCC(Mel频率倒谱系数),然后将其与预先录制的模板信号进行相关性分析。

通过设置阈值,我们可以判断未知语音信号是否匹配某个模板信号,从而进行语音识别。

4. 基于隐马尔可夫模型的语音识别隐马尔可夫模型(Hidden Markov Model, HMM)是一种常用的语音识别技术。

在Matlab中,我们可以使用HMM工具箱对语音信号进行建模和识别。

首先,我们需要根据不同的语音类别,建立对应的HMM模型。

然后,通过计算待识别语音信号与不同HMM模型的概率,选取概率最大的模型进行识别。

通过调整模型参数和训练样本,我们可以提高语音识别的准确率。

5. 基于深度学习的语音识别近年来,深度学习在语音识别领域取得了重大突破。

在Matlab中,我们可以使用深度学习工具箱进行语音信号的处理和特征提取。

深度学习网络(如卷积神经网络和循环神经网络)可以有效地学习语音信号的特征表示,提高语音识别的准确性。

基于matlab的语音识别

基于matlab的语音识别

选取某一段短时域部分发音, 或者使用其内带的数字滤波器在频域中选取一段来发音, 通过 反复挑选发音段,可以发现人声与频率、音节长短、衰减快慢的定性关系。 (3)封装子模块 当需要对大量的声音信号作快速处理时(如不同人的同一发音或同一发音人的不同语 言) ,此时可以先在 simulink 中设计子模块:再利用子模块构建一个复杂系统,通过延迟线, 就可以使经过不同滤波处理的信号依次输出到耳机、音响等外设上。籍由这样连续的输出, 人耳就能更加清晰地便别出不同频率成分的影响。 可见,凭借 Matlab 强大的实时信号处理能力,只要在其中将程式模块组装完毕,就可 以将繁琐的仪器搭建、数模转换、信号分析等过程轻而易举地程序化,从而集中精力于研究 发声机理。
2.4 小波分析方法对语音识别的改进
在 matlab 中重写 DTW 等经典识别算法即可实现比较高精度的识别率。 但这些算法由于 物理例外使用傅立叶变换直接处理信号, 在其诞生之初本身即存缺陷。 傅立叶变换在实现将 信号转换至频域进行处理时,其缺点是只能对全时域信号作分析,而作为瞬变的语音信号, 其瞬时特征得不到反映。针对这种不足,前人提出了可以提高辨识精度的的改进方法,如通 过加窗实现“短时变换”等,但仍然存在缺陷,主要表现在: 1.时频局域化是一次性的,即窗函数的形状和大小是固定的,不能敏感的反应信号的 突变。而突变恰好是语音信号的特征之一。 2.由于信号分析中的“不确定性”原理,高频部分时域相对窄,即需较高的时域分辨 率而较低的频率分辨率;而低频部分,时域相对宽,即需较高的频率分辨率而较低的时域分 辨率。 [5] 而小波变换恰能满足这些要求。 它的窗宽随频率增高而减小, 符合高频信号高时域分辨 率的要求。故笔者考虑在算法中引入小波变换作为作为尝试作为改进。
根据发声原理低频部分标志着基音的特征所以当不同的人发同样的音时本实验中受试者都以正常方式发a音基频频谱峰值应大致相同而不同的人由于声带构造不同在基音大致相同的情况下都发同一个音高频谐波的衰减将会有很大不同体现在频谱上就是高频区频谱差异显著这是分辨不同人的特征之一

基于matlab的语音识别技术

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别一、引言语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。

语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。

近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。

语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。

(1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。

(2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。

(3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

二、语音识别系统框架设计2.1语音识别系统的基本结构语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。

三、语音识别设计步骤3.1语音信号的特征及其端点检测图2 数字‘7’开始部分波形图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。

而在6800以后,信号幅度开始增强,并呈现明显的周期性。

在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。

这样可以很直观的用信号的幅度作为特征,区分静音和语音。

只要设定一个门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。

3.2 语音识别系统3.2.1语音识别系统的分类语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。

基于MATLAB的特定人语音识别软件开发与设计

基于MATLAB的特定人语音识别软件开发与设计

基于MATLAB的特定人语音识别软件开发与设计本文将详细介绍基于MATLAB的特定人语音识别软件的开发与设计,从数据采集、数据预处理、特征提取、训练模型以及测试评估等方面进行介绍。

同时,本文还会对该软件的实时性、准确性、稳定性进行分析并进行改进优化。

一、数据采集数据采集是语音识别系统开发的第一步,也是最为关键的一步。

采集到的数据质量将直接影响后续的预处理、特征提取以及模型训练。

在采集数据时,应该尽可能保证采集设备的统一性,以便后续的数据处理与模型训练。

同时,采集的语音数据应具有较高的覆盖率和多样性,以便让模型具有更好的泛化能力。

二、数据预处理在数据预处理阶段,需要对采集到的语音数据进行一系列的预处理操作,例如去除背景噪音、去除重复数据、平衡数据分布等。

这些操作有助于提高预处理的效果,从而提高后续的特征提取以及模型训练的准确度。

三、特征提取特征提取是语音识别系统中最为复杂的一步,其目的是将原始的语音信号转化为易于处理的数学特征。

在特征提取中,需要使用一些特征提取算法,例如短时傅里叶变换、梅尔倒谱系数、线性预测系数等。

这些算法可以大大减少语音信号的冗余信息,提取出信号的主要特征,从而提高模型的分类准确度。

四、训练模型在模型训练中,需要选择适当的模型算法以及调整算法的超参数。

在语音识别中,常用的模型算法有隐马尔可夫模型、深度神经网络、循环神经网络等。

训练模型的过程中,需要使用一些评估指标,例如准确率、召回率、F1值等,以评估模型的优劣。

同时,在训练过程中,需要使用一些技巧,例如交叉验证、正则化、学习率衰减等,以优化模型的泛化能力。

五、测试评估在模型训练完成后,需要使用测试数据对模型进行评估。

在测试评估中,需要使用一些评估指标,例如准确率、召回率、误判率等,以评估模型的性能。

同时,还需要针对测试结果进行分析,从而找出模型存在的问题并进行改进优化。

六、实时性、准确性、稳定性改进优化在实际应用中,需要保证语音识别系统的实时性、准确性以及稳定性,否则无法满足用户需求。

《基于MATLAB的人脸识别算法的研究》范文

《基于MATLAB的人脸识别算法的研究》范文

《基于MATLAB的人脸识别算法的研究》篇一一、引言人脸识别技术是近年来计算机视觉领域研究的热点之一,其应用范围广泛,包括安全监控、身份认证、人机交互等。

MATLAB作为一种强大的数学计算软件,为研究人员提供了丰富的工具和函数,使得人脸识别算法的研究和实现变得更加便捷。

本文将介绍基于MATLAB的人脸识别算法的研究,包括算法原理、实现方法、实验结果及分析等方面。

二、人脸识别算法原理人脸识别算法主要基于计算机视觉和模式识别技术,通过对人脸特征进行提取和匹配,实现身份识别。

常见的人脸识别算法包括特征提取、特征匹配等步骤。

其中,特征提取是关键步骤,需要从人脸图像中提取出有效的特征,如纹理、形状、颜色等。

特征匹配则是将提取出的特征与人脸库中的特征进行比对,找出最匹配的人脸。

三、基于MATLAB的人脸识别算法实现1. 预处理在人脸识别算法的实现中,首先需要对人脸图像进行预处理,包括灰度化、归一化、降噪等操作。

这些操作可以有效地提高图像的质量,为后续的特征提取和匹配提供更好的基础。

2. 特征提取特征提取是人脸识别算法的核心步骤之一。

在MATLAB中,可以使用各种算法进行特征提取,如主成分分析(PCA)、局部二值模式(LBP)、方向梯度直方图(HOG)等。

本文采用PCA 算法进行特征提取,通过降维的方式将高维的人脸图像数据转化为低维的特征向量。

3. 特征匹配特征匹配是将提取出的特征与人脸库中的特征进行比对的过程。

在MATLAB中,可以使用各种相似度度量方法进行特征匹配,如欧氏距离、余弦相似度等。

本文采用欧氏距离作为相似度度量方法,通过计算特征向量之间的欧氏距离来找出最匹配的人脸。

四、实验结果及分析为了验证基于MATLAB的人脸识别算法的有效性,我们进行了多组实验。

实验数据集包括ORL人脸库、Yale人脸库等。

在实验中,我们使用了不同的特征提取和匹配方法,对算法的性能进行了评估。

实验结果表明,基于PCA算法的特征提取方法和欧氏距离相似度度量方法在人脸识别中具有较好的性能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录摘要 (I)Abstract .................................................................................................................................. I I 第一章引言 (1)1.1 研究背景及意义 (1)1.2 优势及应用前景 (1)1.3 国内外研究现状 (1)第二章说话人识别的基本原理 (3)2.1 说话人识别基本知识 (3)2.1.1 语音的发声机理 (3)2.1.2 清音和浊音 (3)2.1.3 语音信号模型 (3)2.1.4 语音识别基本过程 (4)2.2 预处理模块 (4)2.2.1 采样 (4)2.2.2 量化 (5)2.2.3 预加重 (5)2.2.4 加窗 (5)2.3 特征提取模块 (6)2.3.1 短时平均能量分析 (6)2.3.2 短时平均幅度分析 (7)2.3.3 短时过零率分析 (8)2.3.4 短时自相关分析 (8)2.3.5 LPC倒谱系数(LPCC) (9)2.3.6 Mel频率倒谱系数(MFCC) (9)2.4 训练和识别模块 (10)2.4.1 矢量量化模型(VQ) (10)2.4.2 隐马尔可夫模型(HMM) (11)2.4.3 人工神经网络模型(ANN) (12)2.4.4 HMM和ANN的混合模型 (13)第三章基于Matlab的说话人识别 (14)3.1 说话人识别系统平台介绍 (14)3.2 语音采集模板(Speech Recording Plane) (14)3.3 预处理模板(V oice Preprocessing Plane) (15)3.4 特征提取模板(Feature Extraction Plane) (17)3.5 训练识别模板(Speech Recognition Plane) (18)第四章总结与展望 (25)4.1 总结 (25)4.2 展望 (25)致谢 (27)参考文献 (28)附录 (29)摘要说话是人类相互沟通交流最方便、最快捷的一种方式,世界上每一个说话人都拥有自己特定的语音,正如每个人的指纹一样,都是绝无仅有的。

说话人识别应用广泛,现已应用到通信、消费电子产品等各个领域。

本文将把语音进行数字化传输、存储、然后进行识别等。

说话人识别系统主要包括预处理、特征提取、训练和识别四个模块。

其中预处理和特征提取尤为重要。

有许多的预处理方法,对语音信号的采样和量化是第一,然后预加重和加窗。

特征提取是指提取语音信号的重要特征的过程。

信号的时域分析包括信号的短时平均能量和短时过零率等。

频域分析可以采用LPC倒谱系数法和Mel倒谱系数法。

为了训练得到模版语音信号,可以利用矢量量化(VQ)、隐马尔可夫模型(HMM)、BP神经网络(ANN)等对说话人的语音信号进行训练识别。

说话人识别实现过程中的算法是多种多样的。

本文将运用MATLAB仿真工具强大的编程、图形开发功能和数学计算能力。

本文将把BP神经网络作为训练识别的方法,利用MFCC(MEL频率倒谱系数)产生的语音信号特征向量,最后运用十字交叉法,建立起一个说话人识别系统。

结合MATLAB平台中的GUI设计预处理、特征提取、训练等几个模板,最后利用神经网络的模式识别,真正实现说话人的识别。

关键词:语音识别MATLAB 模式识别倒谱系数AbstractTalking is a way of human communication, the most convenient and quick communication, each of the speakers all over the world have their own specific speech, as everyone's fingerprints, are unique. Speaker recognition is widely used in various fields, have been applied to communications, consumer electronic products. This paper will make speech digital transmission, storage, and then identify etc.. The speaker recognition system includes preprocessing, feature extraction, training and recognition of four modules. The preprocessing and feature extraction is very important. There are many preprocessing methods of sampling and quantization, the speech signal is first, and then the pre emphasis and the window. Feature extraction is the process to extract important features of speech signal. Signal analysis in time domain signal short-time average energy and short-time zero crossing rate. Frequency domain analysis can be used LPC cepstrum coefficient and Mel cepstrum coefficient method. In order to get the template training speech signal, can use vector quantization (VQ), hidden Markov model (HMM), BP neural network (ANN) training recognition on the speaker's voice signal.Speaker recognition in the process of realizing the algorithm is varied. This paper will use the MATLAB simulation tool powerful programming, graphical function and mathematical computation ability. This paper will use the BP neural network as a method of training recognition, using MFCC (MEL frequency cepstrum coefficient) speech signal feature vector is generated, finally using cross method, set up a speaker recognition system. Combined with the MATLAB platform GUI design in the preprocessing, feature extraction, training and several other template, finally using pattern recognition, neural network, realizing the speaker recognition.Keywords: Speech recognition MATLAB Pattern recognition Cepstral coefficients第一章引言1.1 研究背景及意义说话人识别技术也被称之为声纹识别技术,它属于一种生物的识别技术。

说话人识别技术拥有方便,经济,准确等特点,广受世人瞩目。

最早的语言研究被称为“口耳之学”。

因为当时没有可供研究的仪器,只能通过耳听口模仿来进行研究。

最早的语音信号处理研究起源于1876年,电话的发明者贝尔首次使用声电、电声转换技术实现了语音的远距离传输[6]。

语音信号经过语音合成,语音编码和语音识别三个发展过程。

语音识别的实验追溯到20世纪50年代贝尔实验室的Audry系统,此系统仅仅只能识别10个英文数字。

又经过很长时间的研究发展,现在我们已经完全进入语音识别时代。

1.2 优势及应用前景生物认证技术有:虹膜识别,掌纹识别,指纹识别和声纹识别(语音识别)。

声纹识别有不丢失,没有记忆和使用方便等独特的优点[1]。

对于虹膜识别技术,虽然准确性很高,但是实现困难,成本较高,所以不能普遍使用。

指纹识别虽然是一种使用比较普遍的识别技术,成本也不算太高,但是用户不易接受,指纹往往和犯罪牵扯在一起。

还有一些生物认证技术也因为实现难度过大而不被关注。

但是说话人识别技术只需简单的麦克风,一台普通计算机就可以实现。

和其他生物识别技术进行对比,说话人识别系统还具有使用方便,低成本,易实现等优点。

说话人识别技术应用前景十分广泛,可在各种安全认证身份的领域发挥重要作用。

随着数字化时代的急速发展,数字音频数据随处可见,说话人识别技术不仅在语音检索和信息检索中投入使用,而且不少手机已经加入了语音拨号,语音书写短信,语音打开应用程序等等功能。

1.3 国内外研究现状20世纪60年代末,世界掀起了一股语音识别的研究热潮。

这期间研究出的重要成果包括动态规划(DP)和线性预测编码(LPC)技术等。

语音识别技术取得突破性进展是在20世纪70年代的时候。

LPC技术得到了进一步发展,特别是其中的VQ和HMM系统理论。

直到今天,这两种理论依旧是研究语音识别最有效,最常用的方法。

20世纪80年代,语音识别迎来了一股新新力量。

人们重新开始了人工神经网络(ANN)研究,并有效地将ANN和HMM在同一语音识别中结合使用,使连续语音识别问题变得更加容易。

近年来对于人工神经网络(ANN)的研究不断发展,关于语音信号处理的各项内容研究是促使其迅速发展的重要原因之一。

同时,它的许多成就体现在语音信号处理技术。

人工神经网络(ANN)以其简单灵活有效的特点,逐渐成为实现语音识别技术的新宠。

它将说话人识别技术的探究带入了一个新的高度。

第二章 说话人识别的基本原理2.1 说话人识别基本知识2.1.1 语音的发声机理空气从肺排入喉咙,然后通过声带进入通道,最后由口辐射声波,从而形成了声音。

相关文档
最新文档