数字信号处理作业之语音识别小论文

合集下载

语音信号的提取与识别技术——说话人识别系统的研究

语音信号的提取与识别技术——说话人识别系统的研究

毕业设计说明书语音信号的提取与识别技术——说话人识别系统的研究作者:学号:学院(系):专业:指导教师:评阅人:20**年6月中北大学毕业设计(论文)任务书学院、系:专业:学生姓名:学号:设计(论文)题目:语音信号的提取与识别技术起迄日期: 20**年2月15日~20**年6月21日设计(论文)地点:指导教师:系主任:发任务书日期:20**年2月15日毕业设计(论文)任务书1.毕业设计(论文)课题的任务和要求:1.了解声音信号的特征参数,及现阶段研究处理方法。

以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。

2.学会在语音信号处理中使用MATLAB软件工具。

3.针对基本的个别个体的特定声音进行与信识别研究。

4.根据研究情况利用MATLAB语言进行相关算法的实现。

2.毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1.查阅相关资料,利用已学的相关知识进行消化和理解。

2.了解现阶段的语音处理情况,分析研究相关的产品。

3.研究学习基本的识别处理方法。

4.学习相关信号处理软件。

5.对软件的学习达到能对基本的算法进行软件的处理。

6.完成毕业设计论文。

毕业设计(论文)任务书3.对毕业设计(论文)课题成果的要求〔包括毕业设计(论文)、图纸、实物样品等):1、毕业论文一份;2、英文文献1份,相应的中文译文1份。

4.毕业设计(论文)课题工作进度计划:起迄日期工作内容2006年2月15日~ 3月31日4月 1日~ 5月31日6月 1日~ 6月20日6月20日~ 6月21日系统学习,查阅资料,作开题报告;英文资料翻译;撰写毕业论文;论文答辩。

学生所在系审查意见:系主任:年月日中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:专业:设计(论文)题目:语音信号提取与识别技术指导教师:20**年 3 月 8 日毕业设计(论文)开题报告1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,撰写2000字左右的文献综述:文献综述语音信号识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。

数字信号处理技术论文

数字信号处理技术论文

数字信号处理技术论文数字信号处理技术是将模拟信息(如声音、视频和图片)转换为数字信息的技术。

下面是店铺整理的数字信号处理技术论文,希望你能从中得到感悟!数字信号处理技术论文篇一语音数字信号处理技术【摘要】数字信号处理技术是将模拟信息(如声音、视频和图片)转换为数字信息的技术。

DSP通常指的是执行这些功能的芯片或处理器。

它们可能也用于处理此信息然后将它作为模拟信息输出。

本文利用这些方法结合起来,同时利用MATLAB工具对语音信号进行了分析,解决实际工程技术问题的能力。

【关键词】数字信号处理;音频信号;信号分析;滤波处理中图分类号:TN911.72 文献标志码:A 文章编号:1673-8500(2013)12-0034-01处在一个高速发展,日新月异的社会中,科学技术无疑扮演着重要的角色。

众所周知,语音信号的处理分析已变得非常流行,基于语音处理分析技术的产品也开始流入市场,充满人们的生活。

一、语音信号分析对语音信号分析可以从时域分析和频谱分析两个方面来进行。

语音的时域分析包括:短时能量、短时过零率、语音端点检测以及时域方法求基音等。

语音的时域分析还包括语谱图、共振峰等。

短时能量分析作为语音信号时域中最基本的方法,应用相当广泛,特别是在语音信号端点检测方面。

由于在语音信号端点检测方面这两种方法通常是独立使用的,在端点检测的时候很容易漏掉的重要信息,短时能量是对语音信号强度的度量参数。

对语音信号进行fourier变换后,我们可以得到对应信号的频谱进而画出其频谱图,于是我们就可以很方便地在频域上对语音信号进行分析,对语音信号进行反fourier变换后,我们又可以得到相应的语音信号,于是通过对频谱的改变,在进行反fourier变换,我们就能知道频域对时域的影响。

二、语音信号的频谱分析当我们知道人的声音频谱范围大致在[300,3500]左右后,我们就能马上说明为何电话可以对语音信号采用8KHz的采样速率了。

由乃奎斯特采样定理我们知道采样频率,即只需使采样频率大于7KHz 即可,所以电话对语音信号的采样频率采用8KHz是完全合理的。

信号处理技术在语音识别中的应用

信号处理技术在语音识别中的应用

信号处理技术在语音识别中的应用随着智能化时代的到来,语音识别技术越来越成为人们关注的热门话题。

从语音控制智能家居,到语音助手的发展,语音识别技术的应用越来越广泛。

而语音识别技术的核心就在于信号处理技术的应用。

本文将从信号处理技术在语音识别中的应用方面展开论述。

首先,我们来了解一下信号处理技术的概念及其在语音识别中的作用。

信号处理技术是一种通过数字信号处理器将模拟信号转换为数字信号,并对数字信号进行硬件或软件处理,以得到人们所需要的信息的技术。

在语音识别中,声音信号是一种模拟信号,为了进行文本处理和其他操作,必须将声音信号转化为数字信号,然后通过数字信号处理器进行处理和分析,以获取所需的信息。

在语音识别中,信号处理技术主要包括降噪、滤波、特征提取、模型训练和语音识别等方面。

接下来,我们将逐一进行探讨。

首先,降噪技术是信号处理技术的重要组成部分,其核心思想就是消除语音信号中的噪声。

在实际应用中,由于录音环境的不同,会产生各种各样的噪声,如空调的噪音、机器的噪声、人说话的噪声等等。

降噪技术可以通过分析噪声的频率、波形等特征,将噪声从语音信号中滤除,从而提高语音识别系统的准确率和稳定性。

其次,滤波技术也十分重要。

虽然降噪技术可以从语音信号中消除噪声,但是一些频率比较靠近语音频率的内容,如电流、频闪等仍可能影响语音识别系统的性能。

因此,滤波技术就可以采用滤波器将这些干扰信号从语音信号中滤除,保证语音信号的纯净。

第三,特征提取技术是语音识别技术中最核心的部分之一。

通过对数字语音信号进行语音特征提取,能够将语音信号转换成一种可处理的数字形式,这是后续的语音识别和分析所必需的。

这些提取的特征可以包括如下几个方面:MFCC特征、功率谱特征、短时能量和过零率等等。

第四,模型训练技术可以分为两大类:GMM-HMM模型和深度神经网络(DNN)模型。

GMM-HMM模型是传统的语音识别技术,它利用的是高斯混合模型以及隐马尔科夫模型对语音进行建模,目前仍然被广泛地应用于语音识别领域。

音频信号处理技术在智能语音识别中的应用

音频信号处理技术在智能语音识别中的应用

音频信号处理技术在智能语音识别中的应用一、引言随着科技的快速发展,智能语音识别技术被广泛应用于各个领域中,如人机交互、智能家居、虚拟助手等。

而音频信号处理技术作为智能语音识别的重要支撑,扮演着不可忽视的角色。

本文将重点探讨音频信号处理技术在智能语音识别中的应用,并从语音增强、特征提取和噪声抑制等方面进行说明。

二、语音增强语音增强是智能语音识别过程中的一项关键技术。

在复杂的环境中,如噪声干扰、远距离录音等情况下,语音信号的质量可能会明显下降,导致识别的准确性降低。

针对这一问题,音频信号处理技术提供了多种解决方案。

对于噪声干扰的问题,可以通过降噪算法来抑制背景噪声。

其中,常用的降噪方法有频域滤波和时域滤波。

频域滤波是通过将语音信号转换到频域,然后根据噪声的频谱特性进行滤波。

而时域滤波则是利用语音信号的时序关系来进行滤波处理。

通过应用这些降噪方法,可以有效地提高语音信号的质量,并提升语音识别的准确性。

另外,语音增强还包括声源分离和定位技术。

声源分离是指将混合的声音信号中的目标声音与背景噪声进行分离,使其成为独立的信号。

定位技术则是通过分析声音的特性、相位和时间差等信息,确定声音的源位置。

这些技术的应用不仅可以提高语音识别的准确性,还可以为后续的音频处理提供更好的基础。

三、特征提取在智能语音识别中,特征提取是一个非常重要的环节。

它将音频信号转换为特征向量,以供后续的识别和分类操作使用。

音频信号处理技术为特征提取提供了多种方法。

最常见的特征提取方法是基于梅尔倒谱系数(Mel-Frequency Cepstral Coefficients, MFCCs)。

MFCCs通过模拟人耳听觉系统的工作原理,将频谱能量分布转换为人耳能够感知的梅尔刻度。

通过对音频信号进行梅尔滤波器组的滤波,得到不同梅尔刻度对应的能量,然后再进行离散余弦变换(Discrete Cosine Transform, DCT)得到MFCCs。

这种方法在语音识别中被广泛应用,并取得了良好的效果。

数字信号处理作业之语音识别与处理精选全文

数字信号处理作业之语音识别与处理精选全文

可编辑修改精选全文完整版数字信号处理之语音识别与处理学号姓名赵典一语音信号众所周知,语音在人类社会中起了非常重要的作用。

在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。

近年来,普通电话、移动电话和互联网已经普及到家庭。

在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。

再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。

20 世纪60 年代中期形成的一系列数字信号处理方法和算法, 如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。

而70 年代初期产生的线性预测编码(LPC)算法, 为语音信号的数字处理提供了一个强有力的工具。

语音信号的编码和压缩是语音信号处理的主要内容。

语音信号处理在通信、语音识别与合成、自然语言理解、多媒体数据库以及互联网等多个领域有广泛的应用, 同时它对于理解音频类等一般的声音媒体的特点也有很大的帮助。

对于移动通信来说, 最多的信息是语音信号, 语音编码的技术在数字移动通信中具有相当关键的作用, 高质量低速率的语音编码技术是数字移动网的永远的追求。

所谓语音编码是信源编码, 它是将模拟语音信号变成数字信号以便在信道中传输。

除了通信带宽的要求外, 计算机存储容量的限制也要求对语音信号进行压缩, 以满足海量数据情况下进行实时或准实时计算机处理的目的。

二、语音信号处理的发展史:声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。

它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ,听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ,语音的清晰度和可懂度等。

当今通信和广播的发展非常迅速,而语言通信和语言广播仍然是最重要的部分,语言声学则是这些技术科学的基础。

浅谈语音识别技术论文

浅谈语音识别技术论文

浅谈语音识别技术论文语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。

小编整理了浅谈语音识别技术论文,欢迎阅读!浅谈语音识别技术论文篇一语音识别技术概述作者:刘钰马艳丽董蓓蓓摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、语音识别技术的理论基础语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计

毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计

内蒙古科技大学本科生毕业设计说明书(毕业论文)题目:利用HMM技术实现基于文本相关的语音识别学生姓名:学号:专业:电子信息工程班级:信息2003-4班指导教师:摘要语音识别作为一个交叉学科,具有深远的研究价值。

语音识别和语音合成技术已经成为现代技术发展的一个标志,也是现代计算机技术研究和发展的一个重要领域。

虽然语音识别技术已经取得了一些成就,也有部分产品面世,但是,大多数语音识别系统仍局限于实验室,远没有达到实用化要求。

制约实用化的根本原因可以归为两类,识别精度和系统复杂度。

HMM是一种用参数表示的用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的,所以它是基于参数模型的统计识别方法。

它是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集,每个函数都与链中一个状态相关联。

“隐”的过程通过显示过程所产生的观察符号序列来表示,这就是隐马尔可夫模型。

本文主要介绍了语音识别的预处理,隐马尔可夫模型(Hidden Markov Models,HMM)和语音识别的基础理论和发展方向。

对数字0~9的识别进行了详细的Matlab 语言实现。

关键词:HMM;文本相关;语音识别AbstractAs an interdisciplinary field, speech recognition is theoretically very valued .Speech recognition has become one of the important research fields and a mark of the development of science. Although speech technology has got some achievements, most speech recognition systems are still limited in lab and would have problems if migrated from lab which are much far from practicality. The ultimate reasons for restricting practicality can be classified to two kinds, one is precision for recognition and the other is complexity of the system.HMM is one kind expresses with the parameter uses in the description stochastic process statistical property probabilistic model, it is may the husband chain evolve by Mar, therefore it based on parameter model statistics recognition method. It is a dual stochastic process – has the certain condition number to hide type Markov to be possible the husband chain and the demonstration stochastic function collection, each function all a condition is connected with the chain in. Hidden Markov process the observation mark sequence which produces through the demonstration process to indicate that, this is hides type Markov to be possible the husband model.This article mainly introduced the speech recognition pretreatment, hides Mar to be possible the husband model (Hidden Markov Models, HMM) and the speech recognition basic theory and the development direction. Has carried on the detailed Matlab language realization to the number 0~9 recognitions.Key word: HMM; Text Correlation; Speech recognition目录摘要 (I)ABSTRACT ........................................................................................................................ I I 第一章绪论.. (1)1.1 背景、目的和意义 (1)1.2 发展历史和国内外现状 (1)1.3 语音识别系统概述 (3)1.3.1语音识别系统构成 (3)1.3.2语音识别的分类 (4)1.3.3 识别方法介绍 (5)第二章语音信号的预处理及特征提取 (8)2.1 语音信号的产生模型 (9)2.2 语音信号的数字化和预处理 (9)2.2.1 语音采样 (10)2.2.2 预加重 (10)2.2.3 语音信号分帧加窗 (11)2.3 端点检测 (13)2.3.1 短时能量 (13)2.3.2 短时平均过零率 (14)2.3.3 端点检测——“双门限”算法 (15)2.4 语音信号特征参数的提取 (16)2.4.1线性预测倒谱系数LPCC (16)2.4.2 Mel倒谱系数MFCC (17)2.4.3 LPCC系数和MFCC系数的比较 (18)第三章隐马尔可夫模型(HMM) (20)3.1 隐马尔可夫模型 (20)3.1.1 隐马尔可夫(HMM)基本思想 (20)3.1.2 语音识别中的HMM (24)3.1.3 隐马尔可夫的三个基本问题[10] (24)3.1.4 HMM的基本算法 (25)3.2 HMM模型的一些问题 (28)3.2.1 HMM溢出问题的解决方法 (28)3.2.2 参数的初始化问题 (29)3.2.3提高HMM描述语音动态特性的能力 (31)3.2.4直接利用状态持续时间分布概率的HMM系统 (31)第四章基于文本相关的语音识别 (33)4.1 引言 (33)4.2 HMM模型的语音实现方案 (33)4.2.1初始模型参数设定 (34)4.2.2 HMM模型状态分布B的估计 (34)4.2.3 多样本训练 (35)4.2.4 识别过程 (36)4.3 仿真过程及系统评估 (37)4.3.1 语音数据的采集及数据库的建立 (37)4.3.2 仿真实验——HMM用于语音识别 (38)4.3.3 Matlab编程实现 (40)4.4系统仿真中的若干问题 (43)总结展望 (44)参考文献 (45)附录 (46)致谢 (54)第一章绪论1.1 背景、目的和意义让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。

浅谈语音识别技术论文(2)

浅谈语音识别技术论文(2)

浅谈语音识别技术论文(2)浅谈语音识别技术论文篇二语音识别技术的发展【摘要】语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。

【关键词】语音识别技术;发展趋势语音识别是一门交叉学科。

语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。

特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。

在未来的日子里,语音识别技术将应用更为广泛。

一、语音识别技术概述语音识别是解决机器“听懂”人类语言的一项技术。

作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。

以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。

说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。

关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。

语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。

语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

二、语音识别的研究历史语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

绪论语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。

在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。

大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。

语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。

与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。

随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。

1.语音识别概述语音识别是试图使机器能“听懂”人类语音的技术。

语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。

作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信1.1国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代。

1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。

20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

20世80年代语音识别研究进一步走向深入:其显著特征是HMM 模型和人工神经网络(ANN)在语音识别中的成功应用。

90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。

最具代表性的是IBM的ViaV oice和Dragon公司的Dragon Dictate系统。

这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。

1.2 国内研究历史及现状我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。

国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。

2. 语音识别的流程根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),两者相似,不同的是CHMM使用连续概率密度函数计算状态概率。

而DHMM则使用的是离散的矢量量化(vector quantization,VQ)计算状态概率。

在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。

3. 语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。

如短时平均能量、短时平均过零率、共振峰、基音周期等。

频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。

听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。

4. 短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性5. 基于Mel频率的倒谱MFCC生理支持根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients.语音识别MFCC参数提取:在语音识别(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。

下面简单的介绍一下求解MFCC的过程。

5.1 音框化(Frame blocking)先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms 左右。

为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是N 的一半或1/3。

通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是256/8000*1000 = 32 ms。

5.2 汉明窗(Hamming window )将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。

假设音框化的讯号为S(n),n = 0,…N -1。

那么乘上汉明窗后为S'(n) = S(n)*W(n),此W(n) 形式如下5.3 快速傅利叶转换(Fast Fourier Transform , or FFT )由于讯号在时域(Time domain )上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain )上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。

所以在乘上汉明窗后,每个音框还必需再经过 FFT 以得到在频谱上的能量分布。

乘上汉明窗的主要目的,是要加强音框左端和右端的连续性,这是因为在进行 FFT 时,都是假设一个音框内的讯号是代表一个周期性讯号,如果这个周期性不存在,FFT 会为了要符合左右端不连续的变化,而产生一些不存在原讯号的能量分布,造成分析上的误差。

当然,如果我们在取音框时,能够使音框中的讯号就已经包含基本周期的整数倍,这时候的音框左右端就会是连续的,那就可以不需要乘上汉明窗了。

但是在实作上,由于基本周期的计算会需要额外的时间,而且也容易算错,因此我们都用汉明窗来达到类似的效果。

5.4 三角带通滤波器组(Triangular Bandpass Filters )将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy )。

必须注意的是:这20个三角带通滤波器在梅尔频率(Mel Frequency )上是平均分布的,而梅尔频率和一般频率 f 的关系式如下:Mel (F )= 2595 * log )7001(10F梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐 。

在高频部分,人耳的感受就会越来越粗糙 。

三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。

因此一段语音的音调或音高,是不会呈现在 MFCC 参数内,所以,用 MFCC 为特征的语音识别系统,并不会受到输入语音的音调不同而有所影响。

将傅立叶转换结果经三角带通滤波器组进行滤波。

)(k B m 表示第m 个频带的三角带通滤波器⎪⎪⎪⎩⎪⎪⎪⎨⎧<≤≤--≤≤--<=++++----k f k k f f f k f k k f f f f k f k k B m m m m m m m m m m m m m 11111111,0,,,0)( M m ≤≤1 其中m f 是第m 个频带的中心,这M 个三角形带通滤波器在美尔(Mel-frequency)上是平均分配的。

下面方程式求每一个滤波器输出的对数能量⎭⎬⎫⎩⎨⎧=∑≤≤-)()(log )(21k B k X m Y m f k f m m5.5 离散余弦转换(Discrete cosine transform , or DCT )将滤波器输出的能量作离散余弦(Discrete Cosine Transform , DCT)计算梅尔频率倒频谱系数(Mel-frequency Cepstral Coefficients , MFCC)离散余弦计算公式:L n M m n m Y n C Mm ,...,1,])21(cos[)(][1=-=∑=π其中L 大致取12左右。

5.6 对数能量(Log energy )一个音框的音量(即能量),也是语音的重要特征,而且非常容易计算。

因此我们通常再加上一个音框的对数能量(定义为一个音框内讯号的平方和,再取以 10 为底的对数值,再乘以 10),使得每一个音框基本的语音特征就有 13维,包含了 1 个对数能量和 12 个倒频谱参数。

(若要加入其他语音特征以测试辨识率,也可以在此阶段加入,这些常用的其他语音特征,包含音高、过零率、共振峰等。

)5.7 差量倒频谱参数(Delta cepstrum )虽然已经求出 13 个特征参数,然而在实际应用于语音识别时,我们通常会再加上差量倒频谱参数,以显示倒频谱参数对时间的变化。

它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:()()()()L m t C t C t C t C M Mm m M M M M m m ,...,2,1,2)(1212=⋅--+=+⋅=∆∑∑∑∑==-=-=τττττττττττ这里 M 的值一般是取 2 ,t 代表音框的数目,cm(t)指第t 框的倒谱参数。

因此,如果加上差量运算,就会产生 26 维的特征向量;如果再加上差差量运算,就会产生 39 维的特征向量。

一般我们在 PC 上进行的语音识别,就是使用 39 维的特征向量。

相关文档
最新文档