2012届语音信号处理课程设计报告孤立词识别
语音信号处理课程设计报告python

语音信号处理课程设计报告python一、引言语音信号处理是数字信号处理中的一个重要分支,它主要涉及到语音信号的获取、预处理、特征提取、分类识别等方面。
在本次课程设计中,我们将使用Python语言对语音信号进行处理,并实现一个简单的语音识别系统。
二、问题描述本次课程设计的主要任务是实现一个基于MFCC特征提取和GMM-HMM模型的语音识别系统。
具体来说,我们需要完成以下任务:1. 对输入的语音信号进行预处理,包括去噪、分帧、加窗等;2. 提取MFCC特征;3. 使用GMM-HMM模型对不同的语音进行分类识别。
三、方法实现1. 语音信号预处理在对语音信号进行MFCC特征提取之前,需要对其进行预处理。
我们需要去除信号中的噪声。
常见的去噪方法包括基于阈值的方法和基于滤波器的方法。
在本次课程设计中,我们将使用基于阈值的方法对信号进行去噪。
我们需要将原始信号分帧,并对每一帧应用窗函数以减少频谱泄漏效应。
常见的窗函数包括汉明窗、海宁窗等。
2. MFCC特征提取MFCC是一种常用的语音特征提取方法,它可以将语音信号转换为一组包含语音信息的系数。
MFCC特征提取包括以下几个步骤:1. 对预处理后的语音信号进行快速傅里叶变换(FFT);2. 将频谱图转换为梅尔频率倒谱系数(MFCC);3. 对MFCC系数进行离散余弦变换(DCT)。
3. GMM-HMM模型GMM-HMM模型是一种常见的语音识别模型,它将每个单词表示为一个由高斯混合模型(GMM)和隐马尔可夫模型(HMM)组成的序列。
在本次课程设计中,我们将使用GMM-HMM模型对不同的语音进行分类识别。
四、程序实现1. 语音信号预处理我们使用Python中的librosa库对语音信号进行预处理。
具体来说,我们使用librosa.load()函数加载.wav格式的文件,并使用librosa.effects.trim()函数去除静默段。
我们对剩余部分进行分帧和加窗操作,并使用librosa.feature.mfcc()函数提取MFCC特征。
数字语音信号处理教案

数字语音信号处理实验指导书前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。
近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验参考书。
本本参考书针对教学大纲规定的四个研究设计型实验,每个实验给出了参考程序,目的是起一个抛砖引玉的作用,学生在学习过程中,可以针对某一个实验进行延伸的创新学习,比如说,语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高(如何提高有噪环境下的识别率)、以及编码问题等,同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP 下的实现问题等。
语音信号处理实验报告2

语⾳信号处理实验报告2实验⼆语⾳信号的频域特性⼀、实验⽬的(1)结合汉语语⾳信号的各类⾳素和复元⾳的特点分析其频域性质;(2)熟悉语⾳信号的各类⾳素和复元⾳的频域参数;(3)熟悉声⾳编辑软件PRAAT的简单使⽤和操作。
⼆、实验记录与思考题1. 观察语⾳信号的频域特点,总结其规律。
浊⾳段:其谱线结构是与浊⾳信号中的周期信号密切相关。
具有与基⾳及其谐波对应的谱线。
频谱包络中有⼏个凸起点,与声道的谐振频率相对应。
这些凸起点为共振峰。
清⾳段:清⾳的频谱⽆明显的规律,⽐较平坦。
2.总结清⾳/b/p/m/f/d/t/n/l/g/k/h/j/q/x/z/c/s/zh/ch/sh/r/共21个的语谱图的规律,给出辅⾳的能量集中区;语谱图中的花纹有横杠、乱纹和竖直条。
横杠是与时间轴平⾏的⼏条深⿊⾊带纹,它们是共振峰。
从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。
在⼀个语⾳段的语谱图中,有没有横杠出现是判断它是否是浊⾳的重要标志。
竖直条是语谱图中出现于时间轴垂直的⼀条窄⿊条。
每个竖直条相当于⼀个基⾳,条纹的起点相当于声门脉冲的起点,条纹之间的距离表⽰基⾳周期,条纹越密表⽰基⾳频率越⾼。
b,p……清⾳的语谱图为乱纹。
辅⾳的能量集中区为:⾼频区3. 总结浊⾳/a/o/e/i/u/ü/ao/ai/ei/ou/ie /an/en/in/ang/eng/ong/ing/共18个的语谱图的规律,提取这18个浊⾳的基频、前三个共振峰频率浊⾳基频(HZ)前三个共振峰频率(HZ)a 110.9 861.716026 1247.744593 2657.8777620 113.7 485.008212 707.675424 2860.079878e 113.4 548.758457 1234.365167 2802.170956 i 115.9 273.839527 2324.592327 3053.533854u 113.4 436.884349 760.619175 2624.606878ü116.4 289.539739 2165.951838 2360.250037 ao 113.2 602.024143 2025.381763 2679.789088 ai 112.9 602.094143 2025.381763 2679.789788 ei 114.2 424.694277 2222.451877 2775.996230 ou 113.9 524.694277 2522.4518772795.996230 ie 114.2 524.694277 2229.451877 2795.996230 an 117.2 541.453061 1571.235652 2568.625044 en 116.8 364.990433 1548.146318 2701.860905 in 118.5 591.072570 1726.522792 2734.063107 ang 118.6 568.7057001133.583265 2748.451070 eng 116.1 345.473245 1350.656488 2853.466380 ong 122.1 529.689978 1319.092109 2649.159450 ing 118.8 799.116363 1997.401662 3092.0826464./r/、/m/、/n/、/l/ 从这⼏个⾳素的的基频、共振峰频率⾳素基频(HZ)前三个共振峰频率(HZ)r 119.6 373.688843 1907.445440 2385.006643m 119.2 540.252644 779.840595 2930.057234n 116.8 500.020625 1504.881337 2754.358608 l 114.1 1253.100063 2104.354594 3201.3585905.分析宽带语谱图和窄带语谱图的不同之处,请解释原因;语谱图中的花纹有横杠、乱纹和竖直条等。
《语音信号处理》课件

目 录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信 号采集、传输、分析和处理的技 术,旨在提高语音信号的质量、 识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混 响消除等,以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音 特征的信息,如音高、音强、 时长等。
模式匹配
将提取出的特征与预先训练好 的模型进行匹配,实现语音识 别或分类。
后处理
对识别结果进行优化或编辑, 以满足实际应用需求。
02
语音信号的采集与预 处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设 备,将声音转换为电信号 ,以便后续处理。
采样率
采样率决定了语音信号的 精度,采样率越高,音质 越好,但数据量也越大。
量化精度
量化精度决定了声音的动 态范围和音质,常见的量 化精度有8位、16位等。
02
语音信号处理涉及的领域包括语 音合成、语音识别、语音增强、 语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等,通过语音识别技术 将用户的语音转化为文字,再通过自 然语言处理技术理解用户的意图,实 现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具 、电子宠物等领域,提供丰富的语音 交互体验。
毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计

内蒙古科技大学本科生毕业设计说明书(毕业论文)题目:利用HMM技术实现基于文本相关的语音识别学生姓名:学号:专业:电子信息工程班级:信息2003-4班指导教师:摘要语音识别作为一个交叉学科,具有深远的研究价值。
语音识别和语音合成技术已经成为现代技术发展的一个标志,也是现代计算机技术研究和发展的一个重要领域。
虽然语音识别技术已经取得了一些成就,也有部分产品面世,但是,大多数语音识别系统仍局限于实验室,远没有达到实用化要求。
制约实用化的根本原因可以归为两类,识别精度和系统复杂度。
HMM是一种用参数表示的用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的,所以它是基于参数模型的统计识别方法。
它是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集,每个函数都与链中一个状态相关联。
“隐”的过程通过显示过程所产生的观察符号序列来表示,这就是隐马尔可夫模型。
本文主要介绍了语音识别的预处理,隐马尔可夫模型(Hidden Markov Models,HMM)和语音识别的基础理论和发展方向。
对数字0~9的识别进行了详细的Matlab 语言实现。
关键词:HMM;文本相关;语音识别AbstractAs an interdisciplinary field, speech recognition is theoretically very valued .Speech recognition has become one of the important research fields and a mark of the development of science. Although speech technology has got some achievements, most speech recognition systems are still limited in lab and would have problems if migrated from lab which are much far from practicality. The ultimate reasons for restricting practicality can be classified to two kinds, one is precision for recognition and the other is complexity of the system.HMM is one kind expresses with the parameter uses in the description stochastic process statistical property probabilistic model, it is may the husband chain evolve by Mar, therefore it based on parameter model statistics recognition method. It is a dual stochastic process – has the certain condition number to hide type Markov to be possible the husband chain and the demonstration stochastic function collection, each function all a condition is connected with the chain in. Hidden Markov process the observation mark sequence which produces through the demonstration process to indicate that, this is hides type Markov to be possible the husband model.This article mainly introduced the speech recognition pretreatment, hides Mar to be possible the husband model (Hidden Markov Models, HMM) and the speech recognition basic theory and the development direction. Has carried on the detailed Matlab language realization to the number 0~9 recognitions.Key word: HMM; Text Correlation; Speech recognition目录摘要 (I)ABSTRACT ........................................................................................................................ I I 第一章绪论.. (1)1.1 背景、目的和意义 (1)1.2 发展历史和国内外现状 (1)1.3 语音识别系统概述 (3)1.3.1语音识别系统构成 (3)1.3.2语音识别的分类 (4)1.3.3 识别方法介绍 (5)第二章语音信号的预处理及特征提取 (8)2.1 语音信号的产生模型 (9)2.2 语音信号的数字化和预处理 (9)2.2.1 语音采样 (10)2.2.2 预加重 (10)2.2.3 语音信号分帧加窗 (11)2.3 端点检测 (13)2.3.1 短时能量 (13)2.3.2 短时平均过零率 (14)2.3.3 端点检测——“双门限”算法 (15)2.4 语音信号特征参数的提取 (16)2.4.1线性预测倒谱系数LPCC (16)2.4.2 Mel倒谱系数MFCC (17)2.4.3 LPCC系数和MFCC系数的比较 (18)第三章隐马尔可夫模型(HMM) (20)3.1 隐马尔可夫模型 (20)3.1.1 隐马尔可夫(HMM)基本思想 (20)3.1.2 语音识别中的HMM (24)3.1.3 隐马尔可夫的三个基本问题[10] (24)3.1.4 HMM的基本算法 (25)3.2 HMM模型的一些问题 (28)3.2.1 HMM溢出问题的解决方法 (28)3.2.2 参数的初始化问题 (29)3.2.3提高HMM描述语音动态特性的能力 (31)3.2.4直接利用状态持续时间分布概率的HMM系统 (31)第四章基于文本相关的语音识别 (33)4.1 引言 (33)4.2 HMM模型的语音实现方案 (33)4.2.1初始模型参数设定 (34)4.2.2 HMM模型状态分布B的估计 (34)4.2.3 多样本训练 (35)4.2.4 识别过程 (36)4.3 仿真过程及系统评估 (37)4.3.1 语音数据的采集及数据库的建立 (37)4.3.2 仿真实验——HMM用于语音识别 (38)4.3.3 Matlab编程实现 (40)4.4系统仿真中的若干问题 (43)总结展望 (44)参考文献 (45)附录 (46)致谢 (54)第一章绪论1.1 背景、目的和意义让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。
语音识别基本知识及单元模块方案设计

语音识别基本知识及单元模块方案设计Company number:【0089WT-8898YT-W8CCB-BUUT-202108】语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
1语音识别的基本原理语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。
而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。
然后根据此模板的定义,通过查表就可以给出计算机的识别结果。
显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。
动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。
在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。
孤立字词识别

$
引言
语音识别以语音为研究对象, 它是语音信号处理的一个
向量。第二类为变换域特征向量, 即对一帧语音信号进行某 种变换后产生的特征向量。前者的优点在于计算简单, 缺点 是不能压缩维数且不适于表征幅度谱特性。与此对应, 各种 变换域特征向量的计算比较复杂, 但能从不同的角度反映幅 度谱的特征。 特征的选取取决于具体的系统, 下面的特征是有代表性 的: (或功率) ; $)幅度 !)过零率; -)邻界带特征矢量; 5)234 预测系数特征矢量; .)234 倒谱特征矢量; ’)(:L 倒谱参数; ))2W3 特征矢量; ,)前三个共振峰 &$、 &!、 &-; (计算量较小) 。 %)滤波器组输出 幅度是端点检测的主要依据, 也用于区分元音和辅音。 过零率可以用来表示擦音和齿音与平谱平衡作用相同。高分 辨率的谱信息 (即共振峰、 提供共 234 参数或滤波器组输出) 振峰和共振峰变迁的信息。前后相继的预测系数是高度相关 的, 有时采用 X2 变换压缩数据并提高参数的灵敏度。
-
特征提取
特征提取完成从语音信号提取出对语音识别有用的信
收稿日期: 基金项目: 云南省自然科学基金项目 (%%&""$’() !"""#$!#$% 作者简介: 赵文 ($%)’ * ) , 男 (白族) , 云南大理人, 硕士研究生, 主要研究方向: 语音识别与研究; 杨澄宇 ($%)" * ) , 男, 云南昆明人, 硕士研 究生, 主要研究方向: 语音识别与研究; 杨鉴 ( ) , 男 (纳西族) , 云南丽江人, 副教授, 主要研究方向: 语音识别与研究 $%’’ * + 万方数据
第 !$ 卷 !""$ 年 ’ 月
语音信号处理[1]
![语音信号处理[1]](https://img.taocdn.com/s3/m/98bd4d76a417866fb84a8e96.png)
一、画出完整的语音信号的数学模型(5分)二、简述同态信号处理的作用(5分)三、结合基音检测,叙述倒谱的作用(10分)四、简述如何进行Mel频率带宽的划分(5分)五、简要回答求MFCC的方法流程(5分)六、简述线性预测分析(LPC)的基本思想(5分)七、举例说明线性预测分析如何用于语音编码和语音合成(10分)八、画图说明矢量量化的应用及其基本操作流程(5分)九、举例说明矢量量化在语音识别中的应用(10分)十、简要回答矢量量化的关键之处(5分)十一、简要回答语音增强的原理和方法(10分)十二、举例说明谱相减法(Spectral Subtraction)的基本原理描述及其特点(10分)十三、结合孤立词识别或说话人识别谈谈语音识别的基本流程与方法和步骤(15分)一、名词解释:基音周期共振峰清音浊音声音的三要素复倒谱最小相位序列PARCOR二、简答:1、请描述语音信号的基本声学特性。
2、为什么倒谱可以区分语音是清音或是浊音?三、计算:1、某语音系统要求生成的语音信号信噪比达到55dB ,请计算该系统采样量化的位数。
2、设是最小相位型,且,用8点的矩形窗截取,求其对应的复倒谱n=0,1,…7。
四、说明:请列举出您所知道的区分清/浊音的方法,并说明之。
一、名词解释:共振峰浊音过零率STFT最小相位同态信号AR模型欠取样二、简答:1、请描述数字语音信号的基本声学特性。
2、为什么“短时能量”可以区分语音是清音或是浊音?三、计算:1、电话带宽语音的采样速率为8KHz,采样量化的位数是8bit。
请计算其所生成的语音信号信噪比达到多少dB ?2、设是最小相位型,且,其中用8点的矩形窗截取,求其对应的复倒谱n=0,1,…7。
四、说明:请列举出您所知道的求解基音频率的方法,并说明之。
一、填空题:(每空1分,共60分)1、语音(speech)300-3400kHz,采样率为()宽带语音(wide-band speech),带宽7kHz(50-7k),采样率为()带宽20kHz(20-20k),采样率一般为()2、语音由肺中的通过()的气流或声道中的气流激励()而产生。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程设计报告名称语音信号处理课程设计基于动态时间规整的小规模孤立词语音识别系统设计与开发指导教师李红莲设计起止日期2015-5-14 至 2015-6-14学院信息与通信工程专业电子信息工程学生姓名班级/学号成绩指导老师签字12级“语音信号处理课程设计”任务书题目3 基于动态时间规整的小规模孤立词语音识别系统设计与开发主要内容编程实现基于动态时间规整的小规模孤立词语音识别系统,可以实时识别每个集合内的孤立词。
设计要求1.录制训练及测试语音。
2.能够提取特征参数MFCC。
3.能够使用动态时间规整(DTW)算法计算语音模板之间的距离。
4.编程实现基于动态时间规整的小规模孤立词语音识别系统。
5.对某个集合内的孤立词语音实时进行识别6.准确率应不低于80%。
主要仪器设备计算机1台,安装MATLAB软件及cooledit录音软件主要参考文献数字语音处理及MA TLAB仿真[M].北京:电子工业出版社,2010.课程设计进度计划(起止时间、工作内容)本课程设计共安排3个题目,这是其中题目之一。
具体进度如下:6学时复习题目相关知识,掌握实现的原理;16学时用MATLAB语言实现题目要求;6学时进一步完善功能,现场检查、答辩;4学时完成课程设计报告。
课程设计开始日期2015.5.14 课程设计完成日期2015.6.14 课程设计实验室名称电子信息技术实验室地点实验楼3-507 资料下载地址摘要本论文主要阐述了语音识别系统开发的过程,采用了端点检测和特征参数提取的思路,主要的关注点是如何运用MEL频率倒谱系数(MFCC)的算法,也运用了动态时间规整(DTW)算法,以MATLAB 语言为编程语言,编程和获得语音识别算法。
笔者设计的语音识别算法的识别率相对较高,而以该算法为基础的语音识别系统可以达到设计的要求,所以其市场前景广阔。
关键词:语音识别系统;MFCC;DTW;孤立词识别AbstractThis paper mainly expounds the voice recognition system development process, using the endpoint detection and feature extraction of ideas, the main concern is how to use MEL Frequency Cepstral Coefficients (MFCC) algorithm, also used the Dynamic Time Warping (DTW) algorithm in MATLAB language programming language programming and access to speech recognition algorithm.The author design the speech recognition algorithm of the recognition rate is relatively high, and based on the algorithm of speech recognition system can meet the design requirements, so its wide prospect of market.Keywords: speech recognition system, MFCC,the DTW (dynamic time warping); isolated words recognition;目录12级“语音信号处理课程设计”任务书 (2)摘要 (3)Abstract (4)第一章概述 (6)1.1主要内容 (6)1.2要求 (6)1.3主要仪器设备 (6)1.4基本方法 (6)第二章信号特征参数MFCC提取 (7)第三章 DTW算法 (9)第四章实现过程及结果 (11)4.1 实现过程 (11)4.2 结果及分析 (11)结束语 (12)参考文献 (12)附录 (13)1、place_recgrnition (13)2、vad (13)3、mfcc (15)4、dtw (16)5、out (19)第一章概述21世纪,人类要不断地进行信息交流和传递,而在这一过程中,语音无疑是最为方便的工具和主要的交流媒介。
所以,为了达到交流方便的目的,我们往往在人机系统中,采用语音识别系统。
说得更通俗一点,语音识别就是要能让机器理解人在说什么,即准确地识别出语音的内容,以此来达到人的意愿执行机器指令的目的。
就语音识别技术的应用的主要内容来看,主要就是语音拨号、导航、语音文档检索等一系列功能。
语音识别技术就好像其他的自然语言处理技术一样,在处理了相关的技术之后,就能够顺利地展开语音间翻译。
1.1主要内容编程实现基于动态时间规整的小规模孤立词语音识别系统,可以实时识别每个集合内的孤立词。
1.2要求1.录制训练及测试语音。
2.能够提取特征参数MFCC。
3.能够使用动态时间规整(DTW)算法计算语音模板之间的距离。
4.编程实现基于动态时间规整的小规模孤立词语音识别系统。
5.对某个集合内的孤立词语音实时进行识别6.准确率应不低于80%。
1.3主要仪器设备计算机1台,MATLAB软件及cooledit录音软件1.4基本方法一般开说,我们在识别语音的时候,主要有三种语音识别方法:第一种是声道模型和语音知识方法,第二种是模板匹配方法,第三种是人工神经网络语音识别方法。
(1)声道模型和语音识别方法:这种方法是较早就开始进行过研究的,当时主要是在语音识别技术的基础上提出来的,但是考虑到其模型及语音知识相对来说不是很简单,所以就是到了现在也没有采用于实际的工作中。
一般来说,人们都会以为,在一些我们经常使用到的语言中,语音基元的数量是有限的,在区分它们的时候,我们通常都是以时域特性和语音信号频域为基础的,具体地来说,要实现该方法主要是按以下步骤进行的:其一,分段和标号,通过以时间为基本单元,把语音信号按划分成若干个离散的段,任何一段都与若干个语音基元特性存在着相互对应的联系。
从此之后,人们在对语音基元进行分段的时候,都是以声学特性为基础,会给出相对应的标音符号。
其二,我们成功地获取到了词序列之后,下一步的工作就是以语音识别序列为基础,获取到首个语音基元网格。
(2) 主要的模版匹配方法模板匹配方法目前的发展情况非常好,可以所已经处于一个比较成熟的实用阶段。
我们在匹配模板的时候,通常都是按照下面的顺序来进行的:提取特征、讯乱模板、分类模板、判决。
其中,往往用来开展此工作的方法如下:动态时间规整(DTW)、隐马尔可夫(HMM)理论等。
第二章 信号特征参数MFCC 提取语音信号在端点检测以后,就把其中的噪声消去了,同时也把有价值的语音信息全部提出来了,这也就进到了语音识别的最关键的阶段:特征提取阶段。
正确又合理地把特征参数选择出来,有利于提高系统的识别率,而且还会系统的实时性能产生较大的影响。
语音信号特征提取往往就是出于二个目的,其一就是想尽办法取得模式匹配数据库中的模板样本:其二就是在进行语音识别时,采取一切措施,减少相同类的类间距离,与此同时,语音信号的端点还要保持在类的类间距离尽量大,这也就意味着异音字特征间的距离尽可能的大,而使得同音字的间距尽可能地缩小。
近几年以来,充分地利用人耳的特殊感知特性的参数在实际中得到了普及应用,这就是Mel 频率倒谱参数(Mel Frequency Cepstrum Coefficient ,MFCC),简称MFCC 。
MFCC 参数能够比LPCC 参数可以更好地优化系统的性能。
Mel 频率和线性频率的具体关系式如下:1.2....................................................) (700)1log(2595ff mel +⨯=对于频率轴,我们主要是使用了不均匀划分方法,而这也是MFCC 特征最大的特点。
如图2.2所示的滤波器组中,就有16个滤波器。
图2.2 Mel 带通滤波器组图我们往往也按帧来计算MFCC 倒谱系数,在实际应用中,MFCC 倒谱系数的计算过程如图2.3:图2.3 MFCC 计算的一般流程(1)其一,就是要对信号进行预加重和加窗处理,然后以此为基础,做好离散FFT 的变换工作,在进行了取模,再平方以后,又得到了离散功率谱错误!未找到引用源。
)(k P n 。
在此次文章中,我们主要是用了帧长为256点,帧移为80点的信号。
所以,我们根据此,得到了第n 帧语音信号)(m x n 错误!未找到引用源。
,另外也做了离散傅里叶变换工作,并得到了下面的关系式:∑-=--≤≤=124.2........................................10,)()(N m km j n n N k e m x k X除此之外,我们再根据短时功率谱与短时傅里叶变换的关系,可以直接地把其中的短时功率谱求解出来,具体的可以用如下的关系式:5.2.......................................................).........()()(*k X k X k P n n n =(2)对做准确的计算,其主要的思路就是通过M(M 往往是取16~24)个Mel 带通滤波器错误!未找到引用源。
,在滤波处理了以后,以此得到了相关的功率值。
所以,在任何的频带里,人耳在其中的作用是叠加形成的,所以我们把滤波器的能量放在一起,也主要是对错误!未找到引用源。
和错误!未找到引用源。
在各点离散频率点上的乘积的和做一些详细的计算,以此来获得M 个参数只错误!未找到引用源。
6.2.......................................................).........()(1k H k P P m n N k m ∑-==(3)对错误!未找到引用源。
的自然对数,我们运用如下的公式进行计算,以此来计算出对数功率谱,接下来,我们开展离散余弦变换(DCT)工作,从而得到了L 个MFCC 系数。
对于L ,我们往往是取12-16位为主。
7.2...........................,....,2,1],)5.0(cos[)(1L i Mik lpgP i C m Mk =-=∑=π(4)对于其中的任何一个帧的语音信号,我们都要想办法把其中的L 维MFCC 参数计算出来,往往还是使用其中的一个参数进行提升。
8.2..........................................,....,2,1)],sin(21)[()(L i Li L i C i C =+=π总的来说,标准的MFCC 参数往往就只能显示出语音信号的某些静态特性,虽然纯净语音信号情况下可能会产生比较好的识别率。