基于MATLAB的汉语数字语音识别系统
使用MATLAB进行语音识别的基本原理

使用MATLAB进行语音识别的基本原理语音识别是一种将人类语音转化为计算机可识别文本的技术。
它可以应用在语音识别系统、智能助手等多个领域,具有广泛的应用前景。
而MATLAB是一种功能强大的数学软件工具,提供了丰富的信号处理和模式识别函数,使得它成为进行语音识别的理想选择。
本文将介绍使用MATLAB进行语音识别的基本原理。
一、语音信号预处理在进行语音识别之前,需要对语音信号进行预处理。
预处理的目的是去除噪声、降低维度以及提取特征等。
其中,常用的预处理技术包括语音信号分帧、加窗、预加重以及语音信号归一化等。
语音信号分帧是将连续的语音信号分成若干短时帧,一般选择帧长为20-40毫秒。
然后对每一帧信号进行加窗操作,常用的窗函数有矩形窗、汉宁窗等,目的是减少频谱泄漏效应。
预加重是为了解决语音信号中的频率能量分布不均的问题。
预加重的思想是在进行傅里叶变换之前对语音信号进行高通滤波,增强高频部分的能量。
语音信号归一化是为了消除语音信号能量的差异性,一般使用均方根归一化或幅度归一化等方法,使得语音信号具有相似的能量特征。
二、特征提取在预处理之后,需要进行特征提取,以便将语音信号转化为计算机可识别的形式。
常用的特征提取方法包括线性预测分析(Linear Predictive Analysis, LPC)、梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients, MFCC)等。
LPC是一种基于线性预测模型的方法,它假设语音信号是由前面的语音样本线性预测后产生的。
LPC通过提取语音信号的倒谱系数以及预测误差,将语音信号转化为一组具有较低维度的特征向量。
MFCC是一种基于梅尔刻度的频谱特征提取方法。
它模拟了人耳对声音的感知机制,通过将频率轴转换为梅尔刻度,进而使用离散余弦变换将频谱分析结果转化为梅尔频率倒谱系数,得到更加稳定和鲁棒的特征。
三、模型训练与分类在特征提取之后,需要进行模型训练与分类。
基于Matlab的语音识别系统的设计本科毕业设计

摘要语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。
语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。
本文基于语音信号产生的数学模型,从时域、频域出发对语音信号进行分析,论述了语音识别的基本理论。
在此基础上讨论了语音识别的五种算法:动态时间伸缩算法(Dynamic Time Warping,DTW)、基于规则的人工智能方法、人工神经网络(Artificial Neural Network,ANN)方法、隐马尔可夫(Hidden Markov Model,HMM)方法、HMM和ANN的混合模型。
重点是从理论上研究隐马尔可夫(HMM)模型算法,对经典的HMM模型算法进行改进。
语音识别算法有多种实现方案,本文采取的方法是利用Matlab强大的数学运算能力,实现孤立语音信号的识别。
Matlab 是一款功能强大的数学软件,它附带大量的信号处理工具箱为信号分析研究,特别是文中主要探讨的声波分析研究带来极大便利。
本文应用隐马尔科夫模型(HMM) 为识别算法,采用MFCC(MEL频率倒谱系数)为主要语音特征参数,建立了一个汉语数字语音识别系统,其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法;同时,提出利用Matlab图形用户界面开发环境设计语音识别系统界面,设计简单,使用方便,系统界面友好。
经过统计,识别效果明显达到了预期目标。
关键词:语音识别算法;HMM模型;Matlab;GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important internationally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognition technology.Five algorithm are discussed:Dynamic Time Warping(DTW)、Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with signal processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MELfrequency cepstral coefficients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the use of Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made out as the expected goal.Key words:Speech recognition algorithm;HMM model;Matlab;GUI目录一、前言 (1)1.1语音识别的发展历史 (1)1.2语音识别研究现状 (1)1.3语音识别系统的分类 (2)1.4语音识别系统的基本构成 (3)1.5语音识别技术难点 (3)1.6语音识别发展前景 (4)二、语音信号分析 (4)2.1语音学知识 (4)2.1.1音素和音节 (5)2.1.2汉语的声调 (5)2.1.3语音信号产生模型 (6)2.2语音信号数字化和预处理 (7)2.2.1数字化 (7)2.2.2预加重处理 (7)2.2.3防混叠滤波 (8)2.2.4加窗处理 (8)2.3语音信号的时域分析 (9)2.3.1短时能量分析 (9)2.3.2短时平均过零率 (11)2.3.3短时自相关函数和短时平均幅度差函数 (12)2.3.4语音端点检测 (13)2.4语音信号的频域分析 (14)2.4.1滤波器组法 (14)2.4.2傅立叶频谱分析 (14)2.5特征参数提取 (15)2.5.1 LPCC倒谱系数 (15)2.5.2 Mel频率倒谱系数 (16)三、语音识别主要算法 (17)3.1动态时间伸缩算法 (17)3.2基于规则的人工智能方法 (18)3.3人工神经网络方法 (19)3.4隐马尔可夫方法 (20)3.5 HMM和ANN的混合模型 (21)四、隐含马尔可夫模型算法 (23)4.1 HMM的基本理论和数学描述 (23)4.2 HMM的三个基本问题及解决算法 (24)4.3 HMM算法的改进 (31)4.4 HMM的结构和类型 (33)4.5 HMM算法实现的问题 (34)五、基于Matlab环境下的语音识别算法实现 (35)5.1识别系统平台介绍 (35)5.2在Matlab中HMM算法的实现 (36)5.2.1端点检测 (36)5.2.2特征参数提取 (36)5.2.3训练和识别 (37)5.3实验结论分析 (38)六、结束语 (39)6.1回顾 (39)6.2展望 (39)七、致谢 (40)参考文献 (40)一、前言1.1语音识别的发展历史作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。
基于MATLAB的语音信号处理与识别系统设计与实现

基于MATLAB的语音信号处理与识别系统设计与实现一、引言语音信号处理与识别是人工智能领域中的重要研究方向之一,随着深度学习和人工智能技术的不断发展,基于MATLAB的语音信号处理与识别系统设计与实现变得越来越受到关注。
本文将介绍如何利用MATLAB进行语音信号处理与识别系统的设计与实现。
二、MATLAB在语音信号处理中的应用MATLAB作为一种强大的科学计算软件,提供了丰富的工具箱和函数库,可以方便地进行语音信号处理。
在语音信号处理中,MATLAB可以用于语音信号的采集、预处理、特征提取、模型训练等各个环节。
通过MATLAB提供的工具,可以高效地对语音信号进行分析和处理。
三、语音信号处理流程1. 语音信号采集在语音信号处理系统中,首先需要对语音信号进行采集。
通过MATLAB可以实现对声音的录制和采集,获取原始的语音信号数据。
2. 语音信号预处理采集到的语音信号数据通常包含噪声和杂音,需要进行预处理以提高后续处理的准确性。
预处理包括去噪、降噪、滤波等操作,可以有效地净化语音信号数据。
3. 特征提取在语音信号处理中,特征提取是一个关键步骤。
通过MATLAB可以提取出语音信号的频谱特征、时域特征等信息,为后续的模式识别和分类打下基础。
4. 模型训练与识别利用MATLAB可以构建各种机器学习模型和深度学习模型,对提取出的特征进行训练和识别。
通过模型训练,可以实现对不同语音信号的自动识别和分类。
四、基于MATLAB的语音信号处理与识别系统设计1. 系统架构设计基于MATLAB的语音信号处理与识别系统通常包括数据采集模块、预处理模块、特征提取模块、模型训练模块和识别模块。
这些模块相互配合,构成一个完整的系统架构。
2. 界面设计为了方便用户使用,可以在MATLAB中设计用户友好的界面,包括数据输入界面、参数设置界面、结果展示界面等。
良好的界面设计可以提升系统的易用性和用户体验。
五、基于MATLAB的语音信号处理与识别系统实现1. 数据准备首先需要准备好用于训练和测试的语音数据集,包括正样本和负样本。
基于MATLAB的特定人语音识别算法设计

本科毕业设计基于MATLAB的特定人语音识别算法设计摘要语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
而在随着科技技术的发展的今天,除了人与人之间的自然语言通信之外,人与机或机器与机器之间也开始使用语言。
也就是因为如此,需要涉及到语音识别技术。
为了解决机器能“听懂”人类的语言,在科技如此迅猛发展的今天,语音识别技术一直受到各国科学界的关注,其对计算机发展和社会生活的重要性也日益凸显出来。
在孤立字语音识别中,如语音密码锁,汽车控制等领域,都运用到了特定人语音识别技术,也就是DTW算法,相对于HMM算法,DTW算法具有简单操作。
在相同环境下,两者识别效果相差不大,但是HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,而DTW算法则不需要额外的计算。
所以在特定人语音识别当中,DTW算法被广泛使用。
在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。
相对于C语言而言,MATLAB平台更能给用户提供一个简单易懂的代码分析窗口。
而且在个性化设计中,MATLAB可以为用户提供一个人性化界面--GUI。
所以,此次设计,通过MATLAB 平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。
然后再对一组相同的语音信号输入进行同样的操作作为测试模块,与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。
关键词:MATLAB GUI 端点检测MFCC DTWDesign of Speech Recognition Algorithm Based on Specific MATLABCai Jingzuo(College of Engineering, South China Agricultural University, Guangzhou 510642, China) Abstract:Language is a way of human exchange of information the most convenient, quick, highly developed in the information society, for voice transmission, by using the digital method of storage, recognition, synthesis and enhancement is one of the most important parts of the whole, the most basic digital communication network. While with the development of science and technology today, in addition to natural language communication between people, between people and machine or machine and machine are also starting to use the language. It is because of this, need to involve the speech recognition technology. In order to solve the machine can "hear" the human language, the technology is so rapid development today, the speech recognition technology has been the subject of scientific attention of all countries, the importance of computer development and social life is increasingly prominent.In the isolated word speech recognition, such as voice password lock, auto control field, are applied to the speech recognition technology, which is relative to the DTW algorithm, HMM algorithm, DTW algorithm has the advantages of simple operation. In the same environment, both the recognition effect is similar, but HMM algorithm is much more complex, mainly reflected in the HMM algorithm need to provide a large amount of speech data in the training phase, while the DTW algorithm does not need the extra computation. So in the speaker-independent recognition, DTW algorithm is widely used.In this design, will apply to the MATLAB platform to carry on the processing and recognition of speech signal. Compared with the C language, MATLAB platform can provide users with a simple code analysis window. But in the personalized design, MATLAB can provide a human user interface --GUI. So, the design, the establishment of a GUI interface through the MATLAB platform, and then a set of the input speech signal pretreatment, endpoint detection, feature parameter extraction (MFCC), the formation of the reference module. Then a group of the same speech signal input to the same operation as a test module, matching with reference to DTW algorithm module, output matching recognition results.Key words:DTW GUI Endpoint detection MFCC DTW目录1 前言 (1)1.1语音识别的历史背景 (1)1.1.1国外研究历史及现状 (2)1.1.2 国内研究历史及现状 (3)1.2 语音识别技术的应用及研究方向 (4)1.3语音识别系统的基本构成 (5)2 语音信号的数字模型及采集 (5)2.1概述 (5)2.2 语音的发音原理 (5)2.2.1 人的发声器官 (5)2.2.2 语音生成 (7)2.3 语音的听觉机理 (8)2.3.1 听觉器官 (8)2.3.2 耳蜗的信号处理原理 (10)2.4 MATLAB中的语音信号模型 (11)2.4.1 wavrecord函数 (11)2.4.2 wavplay函数 (12)3 语音信号的端点检测 (12)3.1 概述 (12)3.2 MATLAB的语音端点检测算法 (15)3.2.1 短时能量的计算 (15)3.2.2 过零率的计算 (15)3.2.3 端点检测的流程 (17)4语音信号非线性预测分析 (18)4.1 概述 (18)4.2 MFCC的基本原理 (19)4.3 实验结果 (20)5特定人语音识别算法-DTW算法 (20)5.1 DTW算法原理 (20)5.2 DTW算法流程及实验结果 (23)5.2.1 算法流程 (23)5.2.2实验结果 (23)6GUI设计 (25)6.1概述 (25)6.2 GUI界面的打开 (25)6.3作品演示 (27)7结论 (28)参考文献 (29)附录 (30)附录A语音识别主函数 (30)致谢 (36)本科生毕业设计成绩评定表1前言语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
matlab语音识别系统(源代码)18676

(威海)《智能仪器》课程设计题目: MATLAB实现语音识别功能班级:学号:姓名:同组人员:任课教师:完成时间:2012/11/3目录一、设计任务及要求 (1)二、语音识别的简单介绍语者识别的概念 (2)特征参数的提取 (3)用矢量量化聚类法生成码本 (3)的说话人识别 (4)三、算法程序分析函数关系 (4)代码说明 (5)函数mfcc (5)函数disteu (5)函数vqlbg (6)函数test (6)函数testDB (7)函数train (8)函数melfb (8)四、演示分析 (9)五、心得体会 (11)附:GUI程序代码 (12)一、设计任务及要求用MATLAB实现简单的语音识别功能;具体设计要求如下:用MATLAB实现简单的数字1~9的语音识别功能。
二、语音识别的简单介绍基于VQ的说话人识别系统,矢量量化起着双重作用。
在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。
在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。
语音识别系统结构框图如图1所示。
图1 语音识别系统结构框图语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。
语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。
用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。
因此,近几年来,说话人识别越来越多的受到人们的重视。
与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。
因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。
基于MATLAB的说话人识别系统设计与实现

石 家 庄 学 院 学 报 Journal of Shijiazhuang University
Vo1.18,No.3 M av 2016
基 于 MATLAB的说话人识别 系统设计 与实现
王现彬 ,杨 洁 ,贾英 茜 ,饶 立婵
(石家 庄 学院 物理 与 电气信 息工 程 学院 ,河 北 石家庄 050035)
识 别 的 目的.
在进行共振峰分析时 ,需根据语音信号频域包
络来确定共振峰 ,故需先对语音信号进行功率谱分
析 ,参照其功率密度谱上的峰值来确定共振峰.为了 更好地描述功率密度谱上的尖峰 ,应该选用具有全 极点的模 型进行估计 ,而 白回归(AR)模 型恰好满足 此条件.描述 AR全极点模型的方程如式(3)所示 :
0 100 20o 30o 400 500 600 700 800
时间/帧 图 2 语 音 信 号 中的 基 音 频 率
),( ):∑biy(n— )+ (n).
= I
(3)
其 中 b 为系数 ,y(n)为输 出,y(n— )如
设计过程包括语音信号时域分析 、语音信号增强 、基 音频率 (周期 )分析 、共振峰分析 、结果识别等步骤 ,现分别 加 以说 明 .
在语音信号时域分析阶段 ,主要是借助 MATLAB强大 的数值计算能力及图形 显示能力,观测语音信号的时域波 形 ,图 1给出了语音信号为“物电学 院”的语音信 号波形 , 记为 s0.该语音信号可以借助 Windows自带的“录音机”软 件 来进 行语 音 信号 的录制 .通过 观测 图 1可 以看 出 ,在 语 音 信 号波 形 当中夹 杂 着 一些 噪声 ,这 主要 是 由声 音 采集 设 备 所 引入 的.
基于MATLAB的语音识别DTW算法设计

目录1概述 (2)1.1研究的目的和意义 (2)1.2国内外发展状况 (2)1.2.1国外研究历史及现状 (3)1.2.3国内研究历史及现状 (4)2语音识别系统的概述 (4)3 MA TLAB中的语音信号的采集 (4)3.1 wavrecord函数 (4)3.2 wavplay函数 (6)4语音信号的端点检测 (6)4.1语音信号端点检测的流程 (6)4.1.1短时能量 (8)4.1.2过零率的计算 (9)4.1.3双门限端点检测 (11)5语音识别参数提取 (12)5.1 MFCC的基本原理 (12)6特定人语音识别算法-DTW算法 (13)6.1DTW算法原理 (13)6.2DTW算法流程及实验结果 (15)7 GUI界面的设计 (16)7.1图形用户界面设计工具的启动 (16)7.3测试与分析 (18)总结 (20)致谢 (21)参考文献 (22)附件 (23)基于MATLAB的特定人语音识别算法设计摘要在高度发达的社会,语言是一种人类交流最方便的,最速度的信息,在高度发达的社会中,用数字化的方式举行语音的保存、传递、判别、加强和合成等是全部数字化通信过程中最基础、最重要的组成的一部分。
由于人类进入信息社会节奏加快, 语音信号处理方面的知识被越来越多的地方需要。
本设计主要在MATLAB平台下先语音信号的端点检测、预处理,然后提取特征参数,建立两个模块,一个为参考模块,一个为测试模块,然后通过动态时间归整技术(DTW)算法进行匹配,算出匹配结果。
最后在用户开发界面(GUI界面)直观地呈现出来。
本次设计录制0~10的数字做为参考库(model),测试库(test)中为需要测试及识别的语音,0的序号为11,1~9的数字以相应数字做为文件名的命名。
关键词:端点检测; MFCC特征提取;语音识别;DTW算法1概述1.1研究的目的和意义随着计算机技术和科技成果的的飞速发展,人们早已不再满足于让计算机做一些简单的科学计算和运算,而是向它提出了更高的要求,即要求我们的计算机向智能化方向发展,于是人们便开始了第五代计算机(即智能计算机)的研究。
使用Matlab进行实时语音处理与语音识别的实践指南

使用Matlab进行实时语音处理与语音识别的实践指南实时语音处理与语音识别是人工智能领域一个重要而复杂的研究方向。
而Matlab作为一种强大的科学计算软件,提供了丰富的工具箱和函数库,为语音处理与语音识别的研究和实践提供了极大的便利。
本文将介绍如何使用Matlab进行实时语音处理与语音识别并给出一些实践指南。
一、Matlab的语音处理工具箱Matlab的语音处理工具箱(Speech Processing Toolbox)是Matlab中专门用于语音信号的处理和分析的工具箱。
它提供了一系列函数和工具,包括语音信号的录制和播放、声音特征提取、声音增强和去噪、语音识别等。
在进行实时语音处理与语音识别之前,我们需要先安装并激活语音处理工具箱。
二、实时语音处理的基本步骤实时语音处理通常由以下几个基本步骤组成:声音录制、语音信号分帧、对每帧信号进行加窗处理、进行傅里叶变换得到频谱信息、对频谱信息进行处理和特征提取、进行语音识别。
1. 声音录制Matlab提供了`audiorecorder`函数来实现声音的录制功能。
下面是一个简单的示例代码:```fs = 44100; % 采样率nBits = 16; % 采样精度nChannels = 1; % 声道数recorder = audiorecorder(fs, nBits, nChannels);record(recorder);pause(5); % 录制5秒stop(recorder);y = getaudiodata(recorder); % 获取录音数据```2. 语音信号分帧语音信号在进行处理之前需要进行分帧处理,将连续的语音信号分成若干个小的时间窗口。
分帧的目的是提取局部语音特征,常用的窗口函数包括矩形窗、汉明窗等。
Matlab提供了`buffer`函数用于分帧处理。
示例代码如下:```frameSize = 256; % 窗口大小overlap = 128; % 帧之间的重叠部分frames = buffer(y, frameSize, overlap);```3. 加窗处理加窗处理是对每一帧信号进行加窗操作,以减少频谱泄漏。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 河南理工大学 电气学院 , 河南 焦作 440) 5 0 0
摘
要: 应用动 态时间规整 (T 为识别 算法, 用M C ( E 频率倒谱 系数) D W) 采 F CM L 为主要语音特 征参数 , 建立 了一 个汉
语数字语音识别 系统 , 中包括语音信号 的预 处理 、 其 特征 参数的提 取 、 别模板 的训练、 别匹配算 法; 识 识 同时 , 出利 提 用 MA L B图形用户界 面开发环境设计语音识 别 系统界 面 , TA 设计 简单 , 用方便 , 使 系统界 面友好 。
为 了体 现语 音 的动态 特性 及能 量对 语音 区分 的作 用 , 在 上述 语 音 特征 矢 量 中加 人 了一 阶差 分 MF C 还 C 及 其 一 阶能 量 和一 阶差分 能 量 , 中能量 参 数 用语 音 其
平 均能 量进 行 了归一 化 。
3 训 练 与识 别
路 径不 是 随 意选 择 的 , 因为任 何 一种 语 音 的发 音快 慢 都有 可 能变化 , 但是 其各 部分 的先后 次 序不 可能 改变 , 因此 所选 的路 径必 定是从 左 下角 出发 , 在右上 角结 束 ,
一
xk z ) / . (一 n (一 (e K. i ∑ )
尸 ) xkl (=l( 。 ).
。
( 1 )
( 2 )
其中 , 为 52 l 点。然后再求信号能量谱 , : 即 5 根据 ( ) ) 4 式进行频率弯折 , 在弯折后 的频率轴 上取等间隔滤波器组在频域对功率谱进行滤波.
4 对加窗后的语音信号进行 5 2 ) 1 点离散傅立叶变
换( F , : D T) 即
用过零率找到语音端点的相对精确位置 , 分解 出每一 个 语 音段 。 个实例见 图 2 其 中 5 , 表示无 声段 ,表示 有声 , 段 , 示 有 声 段 结束 后 的无 声 部 分 。从 图 中可 知 有 H表
值 较 大 , 声 语 音 ( 摩擦 音 ) 无 如 的过 零 率 较 高 , 因此 可 以通 过 计 算 短 时能 量 大致 判 断 出语音 的端 点 , 后 使 然
频 预加 重 ;
3 用 海 明 窗 (a migwn o s 函数对 每个 帧进 ) hm n idw ) 行 加窗 处理 , 减少 吉 布斯 (ib) 应 ; i s效 b
11 预 处 理 .
健 性 , 非 特定 人 语 音识 别 方 面有 利 于 减 少 因说 话 人 在
不 同的差 异 可 能带 来 的影 响 。大 量 的研 究 表 明 , 从识
预加重是对信号进行平滑, 即提升高频部分 , 使信 号的频谱变得平坦 , 保持在低频到高频 的整个频带 中 能用 同样 的信噪 比求频谱 , 以便于频谱分析或声道参
n= , , , 仁12 …… , ()1 (7 Mo 为 了使 路 径 不 Ⅳ, 1 , 』= = 7 、 ) 至 于过倾 斜 , 以约束斜 率 在 05 2 可 . 的范 同内 , 如果路 径 已经 通 过 了格 点 , , 么下 一个 通 过 的格 点 ( 那 Ⅲ 只可 能是 下 列 种情 况 之一 。即 : , )( 1m + ) Ⅲ:力+ ,
} 《————
有 声 段
—
背 景 噪 声
L
结 束段
图 2 语 音 信 号 的 端 识 别 系统 基 本 原 理框 图
Me频 率 倒谱 系数 ( C ) l MF C的分 析 就是 着 眼 于人 耳 的 听 觉 机 理 , 据 听觉 实 验 的结 果 来 分 析语 音 的 频 依
率 。与 LC P C相 比 , 突 出 优 点 是 不 依 赖 全极 点语 音 其 产 生 模 型 的假 定 , 且 在 噪声 环境 下 表 现 出更 强 的 顽 而
1 语 音信 号 的预 处理
从图 1 知, 可 整个识 别 系统 包括 4 部 分 : 个 预处 理 ; 特征 参数 提 取 ; 练 ; 训 识别 ”I 一。
得 到模 型参 数 , D W 算 法 的训 练 中几乎 不需 要额 外 而 T 的计算 m ; 以 , 所 在孤 立词 语 音识 别 中 ,T 算 法得 到 DW
广 泛 应 用 。 本 系 统 应 用 动 态 时 间 规 整 fT 为识 别 D W) 算法。
31 动 态 时间规 整 .
一
来 实现 , U的值一般在 0 4 0 8 . ~ . 之间 , 9 9 在本系统中
取 09 。 .7
帧信 号 ; 2 每 一 帧 信 号 用 滤 波 器 H() —09z 作 高 ) z一1 .7
1 语 音信 号 的 端点检 测 . 2
端点检测就是从一段信号 中检测出语音信号的起 始点和结束点 , 这可借助于语音信号 的能量和过零率 两个 时域 参 数来判 断 各数 字 的边界 。有 声语 音 的能 量
数 分 析 。 预加 重 一 般 是 通 过 一 个 数 字 滤波 器 1 , —1 l Z
别 效 果及 抗 噪 声性 能 上来 看 , C 要 优 于 L C 因 MF C PC , 此 本 系统采 用 MF C特征 参数 。MF C 算 方法 如下 : C C计
1 以一 定 窗长 ( 文 取 2 ms 和窗 移 ( 为 1 ms ) 本 0 ) 取 0 ) 把 语 音分 成 一 个个 相 互 重 叠 的帧 , 以下 步骤 用 于 每 将
现 了汉 语语 音 的端点 检 测和 切分 。
在 人机 语 音 通 信 中 “ 瞳” 听 人类 口述 的语 言 , 是人 机 通 信 技术 的基 础 之一 , 目前 正 广 泛应 用 于 控 制 、 信 、 通 消 费 等行业 。
一
I8帧 =6
S= 1  ̄ 49 ]
J 七
— —
个 典 型 的语音 识别 系统 , 图 1 示 。 如 所
第 4 ( 第 12 ) 期 总 2期
N _(U o12 o4S M N . ) 2
机 械 管 理 开 发
MECHANI AL MANAGE C MENT A ND DE VE OP L MEN T
21年8 01 月
Au . 0 g2 1 1
基于 MA L B的汉语数字语音识 系统 : TA l :
声段是从信号 的第 l 帧开始到第 10 5 0 帧结束 , 由每一 帧 的宽 度还 可 知 端 点 的开 始 时 间 和字 节 长 度 , 而 实 从
收稿 日期 :0 10 —1 : 2 1- 2 7 修回 日期 :0 10 — 4 2 1- 4 1 ’
基 金项 目:00 2 1年度河 南省 高等 学校 青年 骨干教 师基金 资助项 目(00 G S06 ; 21G J-5 )河南理 工大学青年基金 资助 项 目( 2 1—6 ; 南理工 大学大 Q 006 )河 学生科学研 究训练计划基金 资助项 目(9 204 。 0— —3 ) 作者 简介 : 张培玲(97 )女 , i7一 , 山东济南人 , , , 讲师 硕士 从事信号处理和信 息工程教 学与科研 工作 。
关 键 词 : 音 识 别 ; 态 时 间规 正 ; 立 词 ; 形 用 户 界 面 (U ) 语 动 孤 图 G I
中图分类号 :N 1.4 T 9 23
文献标识 码 : A
文章编号 :O 3 7 3 2 1 )4 0 0 — 3 lO — 7 x(0 10 — 2 5 0
0 引 言 语 音识 别 研 究 目的是 让 机 器 具有 人 的 听觉 能力 ,
2; , =力 1 m + ) , = + , 。米 用 , 不 上 ) 埘)( + , 1; 1 表
已存 入模 板 库 的各 个 词 条称 为 参 考模 板 , 个 参 一 考 模 板 可 表 示 为 肚 { 1, ()… … , ( , … , )R2, nm)… ( }/为训 练语 音 帧 的时序标 号 , l ,3 1 m= 为起 点语 音 帧 ,
7 对 ,J 行 离 散 余 弦 变 换 ( C ) 得 到 了 MF ) ,进 7 D T就 —
C C系数 。
J c 一5・ ( (, 表 示测 试 模式 中某一 帧 的交 汇 点 。DP算 法 可 以 苦 O (0) s . 5 nm) ( ) )
这里 , 为倒谱系数的阶数 , i 一般可取 l~6 ; 2 1个 卢1 为滤 波器 的个 数 。在本 文 中 i 1 , 2 。 一Q = 2 Q= 4
如图3 示。 所
/
/
在 汉语 数 字 语 音识 别 中 , 为 简单 有 效 的 方法 是 最 采 用 动 态 时 间 规 整 (T 算 法 , 算 法解 决 了发 音 长 D W) 该
短 不一 的模 板 匹配 问题 , 语 音识别 中出现最 早 、 是 较为
/
/
/
/ 『
・
2 5・ 0
第4 ( 第 12 ) 期 总 2期
机 械 管 理 开 发
Me f =1 2 . 4 ×o 2 +‘ ) l ) l7 1 l ( . ( 0 8 g1
6 计 算通 过各 个频 带 的能量 并取 L G得 到 ) O
( 3 )
用, 距离 越 小则相 似度 越高 。为 了计 算这 一失 真距 离 ,
通 过 的格 点 即 为测试 和参 考模 板 中进行 计 算 的帧 号 。
]
, 1l ( ( 1 Q. ( 7 o( 志 志; ≤≤ 4 2 g∑ ) ) , ] 一 I PJ I )
式 中: Q为滤 波器 的个 数 ; j ) 第 c( 为 k 个滤 波器 的加 权
函数 。
图3 T 算法搜索路径 示意 图 D W
为 了捕 述 这 条路 径 , 设路 径 通 过 的所 有 格点 依 假