基于MATLAB的声纹识别系统软件的设计

合集下载

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理语音识别是一种将人类语音转化为计算机可识别文本的技术。

它可以应用在语音识别系统、智能助手等多个领域,具有广泛的应用前景。

而MATLAB是一种功能强大的数学软件工具,提供了丰富的信号处理和模式识别函数,使得它成为进行语音识别的理想选择。

本文将介绍使用MATLAB进行语音识别的基本原理。

一、语音信号预处理在进行语音识别之前,需要对语音信号进行预处理。

预处理的目的是去除噪声、降低维度以及提取特征等。

其中,常用的预处理技术包括语音信号分帧、加窗、预加重以及语音信号归一化等。

语音信号分帧是将连续的语音信号分成若干短时帧,一般选择帧长为20-40毫秒。

然后对每一帧信号进行加窗操作,常用的窗函数有矩形窗、汉宁窗等,目的是减少频谱泄漏效应。

预加重是为了解决语音信号中的频率能量分布不均的问题。

预加重的思想是在进行傅里叶变换之前对语音信号进行高通滤波,增强高频部分的能量。

语音信号归一化是为了消除语音信号能量的差异性,一般使用均方根归一化或幅度归一化等方法,使得语音信号具有相似的能量特征。

二、特征提取在预处理之后,需要进行特征提取,以便将语音信号转化为计算机可识别的形式。

常用的特征提取方法包括线性预测分析(Linear Predictive Analysis, LPC)、梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)等。

LPC是一种基于线性预测模型的方法,它假设语音信号是由前面的语音样本线性预测后产生的。

LPC通过提取语音信号的倒谱系数以及预测误差,将语音信号转化为一组具有较低维度的特征向量。

MFCC是一种基于梅尔刻度的频谱特征提取方法。

它模拟了人耳对声音的感知机制,通过将频率轴转换为梅尔刻度,进而使用离散余弦变换将频谱分析结果转化为梅尔频率倒谱系数,得到更加稳定和鲁棒的特征。

三、模型训练与分类在特征提取之后,需要进行模型训练与分类。

声音识别之matlab

声音识别之matlab

Svm算法流程: 1)设置训练集和样本集 需要两组数据,一组是训练集,一组是测试集。 2)设置SVM参数 通过对训练集的预测训练得到最佳参数。
3)训练SVM 利用函数svmtrain,利用训练集训练分类器,得到model.
4)用这个SVM进行分类预测 调用函数svmpredict,利用model对测试集进行分类预测。 5)对分类器性能评测 分类准确率的高低。
声音识别之
——Matlab篇
• • • •
声 音 的 识 别 声 音 的 特 征 提 取 声 音 的 预 处 理
声 音 的 读 取
Байду номын сангаас
声 音 识 别 的 基 本 过 程
声音的读取
• [y,Fs,bits]=audioread(‘e:baima.wav'); %读出信号,采样率和
采样位数
• Sound(y,Fs);
• 优点:做一些非常复杂的数据转换工作,然后根据预定义的标签或者输出进而计
算出如何分离用户的数据。
• 缺点:就是由于更多的运算量,训练的时间要长很多。
SVM算法的工具箱很多,共用的最好的是libsvm工具箱。
两个主要函数: svmtrain(„)%通过训练集来训练模型 svmpredict(„)%对测试集进行预测 model=svmtrain(train_label,train_matrix, 'option'); [predict_label, accuracy,decision_values] = svmpredict(test_label,test_matrix, model); 1.train_matrix与test_matrix必须是double型。 2.train_label与test_label是列向量。 3.option:参数很多,比如-c:损失函数,即是对错分的惩罚参数。-g是一个核函数类型。

基于MATLAB的特定人语音识别算法设计毕业设计

基于MATLAB的特定人语音识别算法设计毕业设计

本科毕业设计基于MATLAB的特定人语音识别算法设计摘要语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

而在随着科技技术的发展的今天,除了人与人之间的自然语言通信之外,人与机或机器与机器之间也开始使用语言。

也就是因为如此,需要涉及到语音识别技术。

为了解决机器能“听懂”人类的语言,在科技如此迅猛发展的今天,语音识别技术一直受到各国科学界的关注,其对计算机发展和社会生活的重要性也日益凸显出来。

在孤立字语音识别中,如语音密码锁,汽车控制等领域,都运用到了特定人语音识别技术,也就是DTW算法,相对于HMM算法,DTW算法具有简单操作。

在相同环境下,两者识别效果相差不大,但是HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,而DTW算法则不需要额外的计算。

所以在特定人语音识别当中,DTW算法被广泛使用。

在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。

相对于C语言而言,MATLAB平台更能给用户提供一个简单易懂的代码分析窗口。

而且在个性化设计中,MATLAB可以为用户提供一个人性化界面--GUI。

所以,此次设计,通过MATLAB 平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。

然后再对一组相同的语音信号输入进行同样的操作作为测试模块,与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。

关键词:MATLAB GUI 端点检测MFCC DTWDesign of Speech Recognition Algorithm Based on Specific MATLABCai Jingzuo(College of Engineering, South China Agricultural University, Guangzhou 510642, China) Abstract:Language is a way of human exchange of information the most convenient, quick, highly developed in the information society, for voice transmission, by using the digital method of storage, recognition, synthesis and enhancement is one of the most important parts of the whole, the most basic digital communication network. While with the development of science and technology today, in addition to natural language communication between people, between people and machine or machine and machine are also starting to use the language. It is because of this, need to involve the speech recognition technology. In order to solve the machine can "hear" the human language, the technology is so rapid development today, the speech recognition technology has been the subject of scientific attention of all countries, the importance of computer development and social life is increasingly prominent.In the isolated word speech recognition, such as voice password lock, auto control field, are applied to the speech recognition technology, which is relative to the DTW algorithm, HMM algorithm, DTW algorithm has the advantages of simple operation. In the same environment, both the recognition effect is similar, but HMM algorithm is much more complex, mainly reflected in the HMM algorithm need to provide a large amount of speech data in the training phase, while the DTW algorithm does not need the extra computation. So in the speaker-independent recognition, DTW algorithm is widely used.In this design, will apply to the MATLAB platform to carry on the processing and recognition of speech signal. Compared with the C language, MATLAB platform can provide users with a simple code analysis window. But in the personalized design, MATLAB can provide a human user interface --GUI. So, the design, the establishment of a GUI interface through the MATLAB platform, and then a set of the input speech signal pretreatment, endpoint detection, feature parameter extraction (MFCC), the formation of the reference module. Then a group of the same speech signal input to the same operation as a test module, matching with reference to DTW algorithm module, output matching recognition results.Key words:DTW GUI Endpoint detection MFCC DTW目录1 前言 (1)1.1语音识别的历史背景 (1)1.1.1国外研究历史及现状 (2)1.1.2 国内研究历史及现状 (3)1.2 语音识别技术的应用及研究方向 (4)1.3语音识别系统的基本构成 (5)2 语音信号的数字模型及采集 (6)2.1概述 (6)2.2 语音的发音原理 (6)2.2.1 人的发声器官 (6)2.2.2 语音生成 (8)2.3 语音的听觉机理 (9)2.3.1 听觉器官 (9)2.3.2 耳蜗的信号处理原理 (10)2.4 MATLAB中的语音信号模型 (12)2.4.1 wavrecord函数 (12)2.4.2 wavplay函数 (13)3 语音信号的端点检测 (13)3.1 概述 (13)3.2 MATLAB的语音端点检测算法 (16)3.2.1 短时能量的计算 (16)3.2.2 过零率的计算 (17)3.2.3 端点检测的流程 (19)4语音信号非线性预测分析 (20)4.1 概述 (20)4.2 MFCC的基本原理 (20)4.3 实验结果 (21)5特定人语音识别算法-DTW算法 (22)5.1 DTW算法原理 (22)5.2 DTW算法流程及实验结果 (24)5.2.1 算法流程 (24)5.2.2实验结果 (25)6GUI设计 (26)6.1概述 (26)6.2 GUI界面的打开 (27)6.3作品演示 (29)7结论 (31)参考文献 (31)附录 (32)附录A语音识别主函数 (32)致谢 (38)本科生毕业设计成绩评定表1前言语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

(毕业论文)基于MATLAB的指纹识别系统设计

(毕业论文)基于MATLAB的指纹识别系统设计

大连民族学院本科毕业设计(论文)基于MATLAB的指纹识别系统设计摘要生物识别技术已经成为身份识别和网络安全的发展技术之一,其中指纹识别技术是目前公认的安全,准确,方便的身份认证技术之一,使之成为人们研究的热点。

本文主要设计一个基于matlab 的指纹识别系统。

首先主要介绍了指纹识别技术研究的背景,意义,及现状。

其次,实现了指纹识别系统,描述了指纹识别系统的基本结构,并且对指纹图像的预处理、特征提取、特征匹配这三个必要的环节的算法进行了详细地研究,在指纹图像预处理阶段,本文使用基于灰度的算法对图像进行了分割,同时,针对二值化后图像中仍存在的噪声,也进行了相应的修整处理,尽可能的为以后指纹特征的提取打好基础,从而成功地实现了对指纹数字图像的处理、特征提取、保存和匹配等功能。

最后,对指纹识别系统进行了仿真,仿真结果表明该系统可以较好的进行识别,准确率达到了95.1%。

关键词:指纹识别;预处理;二值化;特征提取;特征匹配AbstractBiometric technology has become one of the developing technologies for identity recognition and network security. And fingerprint identification technology is now recognized as one of the most safe, accurate and convenient authentication technologies, and it is a focus for researchers.This paper designs a matlab-based fingerprint recognition system. The first introduces the fingerprint recognition technology research background, significance, and the status quo. Secondly, to achieve fingerprint identification system, describes the basic structure of the fingerprint identification system, and the fingerprint image preprocessing, feature extraction, feature matching these three essential aspects of the algorithm is studied in detail in the fingerprint image pre-processing stage this article uses an algorithm based on gray image segmentation carried out at the same time, for the image after binarization noise still exists, but also for the corresponding trimming process, as much as possible for the future lay the foundation for fingerprint feature extraction and thus successfully achieved fingerprint digital image processing, feature extraction, storage and matching functions. Finally, the fingerprint identification system for simulation, simulation results show that the system can identify a better accuracy rate reached 95.1%.Key Words:Fingerprint Recognition;Processing;Binarization;Feature Extraction; Feature Matching目录摘要 (I)Abstract (II)1 绪论 (1)1.1本课题背景和意义 (1)1.2指纹识别技术研究现状 (1)1.3本文的章节安排 (2)2指纹识系统设计 (4)2.1指纹识别系统设计基本结构 (4)2.2指纹图像分割 (4)2.2.1指纹图像分割介绍 (4)2.2.2 均值方差法 (5)2.3指纹图像的细化 (6)2.3.1指纹图像细化的预处理 (6)2.3.2 指纹图像细化方法计算 (7)2.4指纹图像的特征提取 (8)2.4.1 指纹特征提取概述 (8)2.4.2指纹特征提取和去伪特征 (9)2.5 指纹图像匹配方法 (10)2.5.1指纹图像匹配介绍 (10)2.6本章小结 (11)3仿真结果及其分析 (12)3.1仿真结果及分析 (12)3.2本章小结 (14)结论 (16)参考文献 (17)附录 MATLAB程序 (18)致谢 (35)1 绪论1.1本课题背景和意义指纹识别技术的应用十分广泛,指纹因具有终生不变性及稳定性,而且不同人指纹相同的概率几乎为零,因此指纹自动识别系统被广泛应用于案例分析、商业活动中的身份鉴别等领域.目前有很多的生物测定技术可用于身份认证,包括虹膜识别技术、视网膜识别技术、面部识别、签名识别、声音识别技术、指纹识别等,具有安全、可靠的特点,其中自动指纹识别系统是目前研究最多、最有应用前景的生物识别系统。

基于神经网络的声纹识别系统设计与实现-软件工程专业论文

基于神经网络的声纹识别系统设计与实现-软件工程专业论文

基于神经网络的声纹识别系统设计与实现本论文旨在设计并实现一个基于神经网络的声纹识别系统,通过深度学习技术自动提取声纹特征,并进行声纹匹配和识别。

系统设计遵循模块化、可扩展和可移植的原则,采用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,结合多种数据增强和正则化技术,提高模型的泛化能力和鲁棒性。

系统实现过程中,我们收集了大量的声纹数据,包括不同性别、年龄、方言和说话风格的数据,并对数据进行预处理和标注。

通过对比实验,我们验证了所设计系统的有效性,并与其他声纹识别方法进行了性能比较。

实验结果表明,基于神经网络的声纹识别系统在识别准确率、鲁棒性和实时性方面均表现出色,具有较高的应用价值。

本论文的主要贡献包括:1. 设计并实现了一个基于神经网络的声纹识别系统,系统具有模块化、可扩展和可移植的特点。

2. 提出了一种结合CNN和RNN的深度学习模型,能够自动提取声纹特征并进行声纹匹配和识别。

3. 通过对比实验,验证了所设计系统的有效性,并与其他声纹识别方法进行了性能比较。

1. 进一步优化深度学习模型,提高模型的识别准确率和鲁棒性。

2. 探索更多数据增强和正则化技术,提高模型的泛化能力。

3. 将所设计系统应用于实际场景,如身份认证、安全监控和智能语音交互等。

随着科技的不断进步,生物特征识别技术日益成熟,声纹识别作为其中的一种重要方式,在个人身份验证、安全监控等领域展现出了巨大的潜力。

传统的声纹识别技术主要依赖于手工特征提取和匹配,但在复杂多变的环境下,其准确性和鲁棒性往往难以满足实际应用的需求。

因此,我们需要探索新的方法来提高声纹识别的性能。

神经网络作为一种强大的机器学习工具,具有自动特征提取和模式识别的能力,为声纹识别提供了新的思路和方法。

基于此,本文设计并实现了一个基于神经网络的声纹识别系统,旨在通过深度学习技术自动提取声纹特征,并进行声纹匹配和识别。

在系统设计方面,我们遵循模块化、可扩展和可移植的原则,采用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,结合多种数据增强和正则化技术,提高模型的泛化能力和鲁棒性。

声纹识别系统设计

声纹识别系统设计
所示。 11 预 处 理 .
带 宽 内所 有 信 号 的 ቤተ መጻሕፍቲ ባይዱ度 加权 和作 为这 个 滤 波 器 的 输 出 ,然 后 在
对 输 出 结果 作 对 数 运 算 , 进 一 步 作 离 散 余 弦 变 换 ( T 即 得 再 DC )
到 MF C 参 数 。 美 尔倒 谱 系数 是 按 帧 来计 算 的 , … 帧 提 取 1 C 每 2 维 静态 特 征 参 数 和 一 阶 动 态 特 征参 数 。
《 工业 控制 计 算 机 / 0 2年第 2 21 5卷第 6期
8 9
提 取 了 语 者 语 音 的 MF CC 特 征 后 , 过 这 些 特 征 来 建 立 说 话 人 通
但 是 在 不 同环 境 下 或 语 音 不 匹 配 的 情 况 下 ,这 些 参 量 对 识 别 率 的影 响 会 不 同 , 因此 , 实 验 主 要 是 在 安 静 环 境 及 用 普 通 话 录 制 本 语 音 的 条 件 下 , 试 了各 个 参 量 对 系 统 识 别率 的影 响 。 验结 果 测 实 表 明 , 这 种 环境 下 , 在 当测 试 语 音 长度 为 4 , 长 3 ms 高斯 混 s帧 2 , 合度 为 1 6阶 , 加 重 系 数 为 09 定 时 对 模 型 进 行 更 新 时 , 预 . 5, 系 统 能 达 到 9 %以 上 的识 别率 。实 验 结 果 如 表 1 表 2 表 3所 示 。 8 、 、
13 基 于 高 斯 混 合模 型 的声 纹 认 证 . 高 斯 混 合模 型 ㈣( u s n Mi ue Mo e) 为 目前 在 声 Ga s i x r d 1 a t 作 纹认 证 系统 设 计 中的 一 种 模 式 识 别 方 法 ,已 经 被 广 泛 地 应 用 于 文 本相 关 和文 本 无 关 的 声 纹 识别 中 。 GMM 是 以统 计学 中 的高 斯 随 机概 率 分 布 为 基 础 ,用 概 率 密 度 函 数 来 表 征 每 个 人 的声 纹 特 征 在特 征空 间 的分 布 。 目前 在声 纹识 别 中 , GMM 模 型是 识 别 率

基于深度学习的声纹识别与认证系统设计与实现

基于深度学习的声纹识别与认证系统设计与实现

基于深度学习的声纹识别与认证系统设计与实现声纹识别与认证是一种基于个体声音特征进行身份验证的技术,在现实生活中有着广泛的应用。

深度学习作为一种强大的机器学习方法,已经在声纹识别与认证领域展现出了巨大的潜力。

本文将介绍基于深度学习的声纹识别与认证系统的设计与实现。

声纹识别与认证系统的设计与实现主要分为以下几个步骤:声纹特征提取、声纹特征建模、声纹特征匹配与认证。

首先,声纹特征提取是声纹识别与认证的关键步骤之一。

深度学习提供了一种有效的方法来提取声纹特征。

传统的声纹特征提取方法主要依赖于人工设计的特征提取器,如MFCC和PLP。

然而,这些方法往往对噪声敏感且不具有鲁棒性。

而基于深度学习的声纹特征提取方法可以通过训练深度神经网络来自动学习具有鲁棒性的声纹特征表示。

这些深度神经网络通常是多层的卷积神经网络或递归神经网络,可以有效地提取语音信号中的抽象特征。

其次,声纹特征建模是声纹识别与认证的关键步骤之二。

特征建模的目标是利用声音特征来建立一个对不同声音进行区分的模型。

传统的方法主要使用高斯混合模型(GMM)或高斯混合模型隐马尔可夫模型(GMM-HMM)。

然而,这些方法需要大量的标注数据来估计模型参数,并且对噪声敏感。

相比之下,基于深度学习的声纹建模方法可以使用少量的标注数据,并且对噪声具有较好的鲁棒性。

常见的深度学习声纹建模方法包括深度神经网络(DNN)、卷积神经网络(CNN)和长短时记忆网络(LSTM)。

然后,声纹特征匹配与认证是声纹识别与认证的关键步骤之三。

对于特定的声纹输入,系统需要找到与之最相似的声纹特征进行比较。

在传统方法中,通常使用动态时间规整(DTW)算法或高斯混合模型相关系数(GMM-CC)来进行声纹特征比对。

但是这些方法在速度和准确性上存在一定的问题。

基于深度学习的声纹特征匹配方法可以使用欧氏距离或余弦相似度来度量声纹特征之间的相似度,并且具有更好的匹配性能。

最后,基于深度学习的声纹识别与认证系统还可以进一步整合其他的技术来提升性能。

基于matlab的语音识别

基于matlab的语音识别

选取某一段短时域部分发音, 或者使用其内带的数字滤波器在频域中选取一段来发音, 通过 反复挑选发音段,可以发现人声与频率、音节长短、衰减快慢的定性关系。 (3)封装子模块 当需要对大量的声音信号作快速处理时(如不同人的同一发音或同一发音人的不同语 言) ,此时可以先在 simulink 中设计子模块:再利用子模块构建一个复杂系统,通过延迟线, 就可以使经过不同滤波处理的信号依次输出到耳机、音响等外设上。籍由这样连续的输出, 人耳就能更加清晰地便别出不同频率成分的影响。 可见,凭借 Matlab 强大的实时信号处理能力,只要在其中将程式模块组装完毕,就可 以将繁琐的仪器搭建、数模转换、信号分析等过程轻而易举地程序化,从而集中精力于研究 发声机理。
2.4 小波分析方法对语音识别的改进
在 matlab 中重写 DTW 等经典识别算法即可实现比较高精度的识别率。 但这些算法由于 物理例外使用傅立叶变换直接处理信号, 在其诞生之初本身即存缺陷。 傅立叶变换在实现将 信号转换至频域进行处理时,其缺点是只能对全时域信号作分析,而作为瞬变的语音信号, 其瞬时特征得不到反映。针对这种不足,前人提出了可以提高辨识精度的的改进方法,如通 过加窗实现“短时变换”等,但仍然存在缺陷,主要表现在: 1.时频局域化是一次性的,即窗函数的形状和大小是固定的,不能敏感的反应信号的 突变。而突变恰好是语音信号的特征之一。 2.由于信号分析中的“不确定性”原理,高频部分时域相对窄,即需较高的时域分辨 率而较低的频率分辨率;而低频部分,时域相对宽,即需较高的频率分辨率而较低的时域分 辨率。 [5] 而小波变换恰能满足这些要求。 它的窗宽随频率增高而减小, 符合高频信号高时域分辨 率的要求。故笔者考虑在算法中引入小波变换作为作为尝试作为改进。
根据发声原理低频部分标志着基音的特征所以当不同的人发同样的音时本实验中受试者都以正常方式发a音基频频谱峰值应大致相同而不同的人由于声带构造不同在基音大致相同的情况下都发同一个音高频谐波的衰减将会有很大不同体现在频谱上就是高频区频谱差异显著这是分辨不同人的特征之一
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于MATLAB的声纹识别系统软件的设计
【摘要】本文基于MATLAB,利用语音模型匹配的方法设计并完成了一个与文本相关的声纹识别软件系统。

系统预先由麦克风向计算机录入各个说话人的语音样本,经预处理、基音周期和MFCC参数提取、多重迭代训练后得到各说话人语音的隐马尔可夫(HMM)参考模型。

实验时将输入的语音样本进行测试,根据被测试语音模型和参考模型的匹配度来进行识别。

实验结果表明,本系统的识别率将随着训练次数的增多而提高,系统基本可达到高于85%的正确识别率和实时识别的要求。

【关键词】声纹识别;Matlab;MFCC参数;HMM模型
0 引言
声纹识别技术[1]为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认[2]。

目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏[3]等等。

每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计[4]便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。

与此同时,声纹识别分为文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种[4]。

本识别系统为与文本相关[5]的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。

1 声纹识别系统设计
本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。

(1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。

(2)提取特征参数:为了能够表征说话人语音中说话人特定器官结构或习惯行为,便需要提取特征参数,并且该特征参数对同一说话人应具有相对稳定性。

①基音周期[6]:产生发音时声门的开启和闭合引起声带的周期性振动,形成周期性的脉冲串,用来描述这一串脉冲气流的周期称为基音周期。

这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特征(即基音频率谱及其轮廓)。

②倒谱系数[7]:目前主流的声纹特征参数有LPC以及基于Mel频率的倒谱系数(Mel—frequency cepstral coefficients,MFCC)。

实验中证明,MFCC是目前声纹特征中识别率最高的一种,本系统便是提取Mel频率倒谱系数MFCC用来模拟人耳听觉系统的感知能力,描述语音信号在频率域上的能量分布。

Mel倒谱系数MFCC的提取过程如下:
A.对语音信号进行预处理。

B.离散傅里叶变换(DFT):是信号完成从时域至频域的转换。

C.生成Mel滤波器组。

D.计算经Mel滤波器组加权后的能量值。

E.做离散余弦DCT变换。

(3)建立参考模型:常见的识别模型有模板模型(动态时间规整方法DTW、矢量量化方法VQ)、概率模型(隐马尔科夫模型HMM、高斯混合模型GMM),以及目前正在发展中的人工神经网络(ANN)方法。

本实验采用的隐马尔科夫模型HMM[8],并将该模型确定为本系统的模式匹配方法。

使用HMM模型可以用短时模型描述平稳段的信号,而且还可以解决每个短时平稳段是如何转变到下一个短时平稳段的问题。

本过程目的是对所提取出来的说话人语音特征进行学习训练,建立声纹模板或语音模型库,或对系统中已有的声纹模板或语音模型库进行适应性修改。

(4)带入测试模型:将用于测试的语音样本参数代入,得测试模型,与参考模型一一匹配。

(5)进行匹配:在识别过程中,声纹识别系统要根据系统已有的声纹模板或语音模型库对输入语音的特征参数进行模式匹配计算,从而实现识别判断,得出识别结果。

2 实验与结果
在声纹识别系统的测试实验中,从所在班级随机抽取了15名学生(其中男生10名、女士5名),每人6个样本,共计90个语音样本,男性说话人有Yjd,Zsl,Mj,Zqy,Gcx,Mgj,Mz,Mjp,Srf,Jd,女性说话人有Hj,Whj,Gxx,Yhr,Zm。

在使用该语音库的前提下,要求他们对指定文本“温州医科大学”应用普通话进行自然发音,录制环境为室内。

并把每一个说话人的6份样本中3份样本用于训练,3份样本用于测试,建立不同的HMM模型,观察不同训练的样本数对识别结果的影响。

实验表明,运用MATLAB建立的HMM模型确实可以进行说话人身份的识
别,本系统的识别率为85%以上,但如果增加训练次数,则识别率也会相应地得到提高。

在系统实时处理上,由于MFCC参数计算量比较大,所花费的计算时间较长,使得本系统的实时性受到了考验,另外由于MFCC参数的计算涉及到DFT计算、对数计算,这使得整个计算的动态范围受到了影响以至于影响本系统的精确度。

3 声纹识别技术的研究进展
声纹识别技术仍需要在研究方法和市场应用进行相应的改进,一方面,要寻找更为优良的研究方法,另一方面,由于建模方法的选择与使用都会对声纹识别结果带来很大的影响,这要求我们能够寻找到一种更为稳定的声纹特征参数来帮助说话人身份的识别,一方面,要保证乃至提高系统的精确性,另一方面,也要保证独一性,能够区分不同说话人的特质。

随着声纹技术的不断发展,所对应的声纹市场也日趋成熟,必定会与当今的信息化时代相契合,提供一种切实有效的安全保障。

【参考文献】
[1]http:///view/116450.htm[OL].
[2]Joseph P. Campbell,Jr. Speaker recognition:a tutorial[J]. Proceedings of the IEEE,1997,85:1437-1462.
[3]http:///[OL].
[4]陈怀琛.数字信号处理教程:MATLAB释义与实现[M].2版.北京:电子工业出版社,2008.
[5]Chi-Wei Che,Qi-guang Lin,Dong-SukYuk. An HMM Approach to Text-Prompted Speaker Verification[C]//The 1996 IEEE International Conference on Acoustics,Speech and Signal.Processing Conference Proceedings,1996,2:673-676.
[6]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.
[7]张万里,刘桥.Mel频率倒谱系数提取及其在声纹识别中的作用[J].贵州大学学报,2005,22(2):5.
[8]王书沼.基于高斯混合模型的说话人识别系统的研究[D].大连理工大学,2006.。

相关文档
最新文档