孤立词语音识别程序
语音识别技术简介

语音识别技术简介我想大家都听过阿里巴巴与四十大盗的故事,阿里巴巴的“芝麻开门”就是一个语音识别的例子,可见语音识别是很早就启蒙了。
今天我就和大家一起来学习一下语音识别技术。
让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。
伴随计算机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一”。
语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向。
其最终目标是实现人与机器进行自然语言通信。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
今天主要讲的内容有:语音识别的发展历史、系统分类、基本方法、系统结构、面临问题以及前景展望。
语音识别发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别[3]研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。
在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。
此外,再次提出了将神经网络技术引入语音识别问题的技术思路。
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。
但是,在语音识别技术的应用及产品化方面出现了很大的进展。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
基于 DSP 的非特定人语音识别系统

基于DSP的非特定人语音识别系统罗俊光1,汤荣江2(1,2:广东工业大学计算机学院广东广州 510006)摘要:本文介绍了一种基于TMS320C6711 DSP的非特定人、孤立词语音识别系统。
本文首先介绍了语音识别技术的基本原理,然后对不同的识别算法在多种嵌入式系统平台上进行性能分析和比较,可得到本语音识别系统具有较高的识别率、实时性和鲁棒性。
关键词:语音识别 DSP 嵌入式 MFCC中图分类号:TP391.42 文献标识码:BResearch and Realization of Speaker-Independent Speech Recognition System based on DSPJunGuang Luo, RongJiang Tang(Faculty of computer, Guangdong University of Technology, Guangdong Guangzhou, 510006) Abstract—This paper introduces a speaker-independent and isolated word speech recognition system based on TMS320C6711 DSP. Firstly, the fundamental theory of speech recognition technology is introduced. Then, we can get this speech recognition system has the better performance of recognition、real-time and robustness, according to the result of comparing with different recognition arithmetic in several embedded platforms that are specially designed. Keywords—Speech Recognition DSP Embedded system MFCC1.引言语音识别技术,作为2000~2010年间信息技术领域十大重要的科技发展技术之一,由于它可观的实际应用价值和技术上的难度成为当前的热点。
孤立词语音识别中期报告

1 课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。
直至1973年才由中国科学院声学所开始计算机语音识别。
1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。
现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。
国内有不少语音识别系统已研制成功。
在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。
在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。
在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。
语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。
在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。
例如,驾驶员在高速行驶的汽车内电话拨号,飞行员在飞行过程中发出必要的命令等,都需要语音识别系统,另外语音识别也给失明者带来很大的帮助。
2课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法,期望在进行端点检测时,能进一步提高识别率。
该设计要求采用TW算法。
主要任务:1、理论分析,提出设计方案;2、语音采集;3、特征提取,形成训练集;4、特定人孤立词语音识别算法的程序实现。
3基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。
语音识别技术

历史早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。
而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。
最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。
其识别方法是跟踪语音中的共振峰。
该系统得到了98%的正确率。
到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。
这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model 的应用。
从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。
[1]。
此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
编辑本段模型目前,主流的大词汇量语音识别系统多采用统计模式识别技术。
典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。
该模块的主要任务是从输入信号中提取特征,供声学模型处理。
同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
统计声学模型。
典型系统多采用基于一阶隐马尔科夫模型进行建模。
发音词典。
发音词典包含系统所能处理的词汇集及其发音。
发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
语言模型。
声控机器人的特定人孤立词汉语识别系统设计

文章 编号 :6 1 7 5 20 ) 1 0 3 o 17 —8 5 ( 0 6 0 - 0 5一 4
De i n o i e e S e k r・d p n e ta d I oa e — r p e h sg fCh n p a e — e e d n n s l t d・ wo d S e c s ・ ・ Re o n t n S se o ie Co t o b t c g i o y t m fVo c n r lRo o i
声控机器人 的特定人 孤立词汉语识 别 系统设计
何燕玲 马建 国
四川绵 阳 611) 200 ( 西南科 技大学信息工程学院
摘要: 利用语音命令对机器人的行动控制, 有很大的实用价值。介绍了采用动态时问弯折(yw, ya i T e 1 r Dnmc i m Wa i ) r n 算法进行模式匹配的特定人孤立词汉语识别系统。l w算法简单有效, pg y r 尤其适合孤立词语识别系统。用
凌 阳单片机 SC 01 建的机器人平 台对 系统 进行 测试 , 表明 , P E 6A搭 结果 系统识 别效 果 良好 , 制者通 过语音 可以实 控
时控制机器人行动 。
关键词 : 语音识别
动 态时间弯折算法
特定 人
孤立词
中图分类号 :P 4 . 3 T 22 6’
文献 标识码 : A
c i.T e tsigrs l h w a erc g io efr n e i g o d te ma iuao a c iv hp h t e ut s o t tt o nt n p r ma c s o d a n p ltrc n a he e e n s h h e i o n h el i ra —t o t lo erb tb oc . mec nr ft o y v ie o h o Ke r s p e hr c g io ;d a ct r igag rtm ;s e k rd p n e t slt r y wo d :s e c o t n y mi i wapn oi e n i n me l h p a e e d n ;i aewod e o
用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告语音是人际交流的最习惯、最自然的方式,它将成为让计算机智能化地与人通信,人机自然地交互的理想选择。
让说话代替键盘输入汉字,其技术基础是语音识别和理解。
语音识别将人发出的声音、音节、或短语转换成文字和符号,或给出响应执行控制,作出回答。
该系统用于数字0~9的识别,系统主要包括训练和识别两个阶段。
实现过程包括对原始语音进行预加重、分帧、加窗等处理,提取语音对应的特征参数。
在得到了特征参数的基础上,采用模式识别理论的模板匹配技术进行相似度度量,来进行训练和识别。
在进行相似度度量时,采用DTW 算法对特征参数序列重新进行时间的对准。
一、 特征提取1、端点检测利用短时平均幅度和短时过零率进行端点检测,以确定语音有效范围的开始和结束位置。
首先利用短时平均幅度定位语音的大致位置。
做法为:(1)确定一个较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。
(2)分别沿这一语音段向两端搜索,大于某个阈值ML 的部分还是语音段,这样能较为准确地确定语音的起始点,将清音与无声段分开。
因为清音的过零率远远高于无声段,确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜索不超过一帧的长度,短时过零率突然低于Zmin 三倍的点被认为是语音的起始点。
2、预加重对输入的原始语音进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。
假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为:y(n)=x(n)+αx(n-1) α=0.983、分帧及加窗语音具有短时平稳的特点,通过对语音进行分帧操作,可以提取其短时特性,便于模型的建立。
帧长取为30ms ,帧移取为10ms ,然后将每帧信号用Hamming 窗相乘,以减小帧起始和结束处的信号不连续性。
Hamming 窗函数为: w(n)=0.54-0.46cos(12-N n π) (0≤n ≤N-1) 该系统中,hamming 窗的窗长N 取为240。
文献语音检索系统孤立词识别技术的研究

科技信息
0科教视野 0
S I N E&T C N OG F MATON CE C E H OL YI OR N I
20 0 7年
第2 3期
文 语 检索 统 立 别 术的 献 音 系 孤 词识 技 研究
李志 刚 ( 黑龙 江 司法警 官职 业 学 院 黑 龙江 哈尔类 的 语 言 吗 ? 我 们 能 扔 掉 键 盘 、 标 用 自然 语 言 态 规 划 方 法 成 功 解 决 了 语 音 信 号 特 征 参 数 序 列 比较 时 时长 不 等 的 难 鼠 在 操 纵计 算 机 吗? 人 与 计 算 机 之 间 能 够 用 自然 语 言进 行 通 信 和 交 流 吗 ? 题 . 孤 立 词 语 音 识 别 中 获 得 了 良好 性 能 。所 以 本 系 统 所 采 用 的 模 式 匹配技术是动态时间弯折模式匹配技术 。 随 着 语音 识 别技 术 的发 展 , 些 梦 想 正 在 变 为 现 实 。 这
6 代, 0年 计算 机 的应 用 推动 了语 音 识 别 的 发展 。这 时 期 的 重 要 成 词 的识 别 系统 。 果 是 提 出 了 动 态 规 划 ( y a i Porm n, 称 D 和 线性 预测 分 析 D n m c rga mig简 P) 3 .大 词 汇 量 语 音 识 别 系 统 — — 通 常 包 括 几 千 至 几 万个 词 的 语 音 技 术 (ierPeit n 简 称 L , 中 后 者 较 好 地 解 决 了语 音 信 号 产 识 别 系 统 。这 些 不 同 的 限制 也 确 定 了语 音 识 别 系统 的 困难 度 。 Lna rdci , o P)其 根 据 上 述 分 类 本 文 所 研 究 的 系统 属 于 孤 立 词 、 于 特 定 人 的小 词 基 生 模 型 的问 题 . 对语 音 识 别 的 发 展 产 生 了 深 远 影 响 。
语音识别概述

语音识别项目概述1.语音识别概述与分类语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。
孤立词识别的任务是识别事先已知的孤立的词,如“开机"、“关机"等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。
显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
注:在特定人语音识别中,不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
2.项目概述近年来,随着汽车产业的发展和汽车的普及,人们对车辆性能要求的不断提高,舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。
因而车载电子产品的种类和功能也日益增加,越来越便于车主的使用,然而随之而来的也造成了操作的繁琐性,甚至于存在一定安全隐患。
车载设备以服务用户为目的,因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互,而不再满足于复杂的键盘和按钮操作。
基于听觉的人机交互是该领域的一个重要发展方向。
目前主流的语音识别技术是基于统计模式.然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC机或笔记本来完成,这无疑限制了它的运用。
嵌入式语音交互已成为目前研究的热门课题.嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域.结合这一应用背景,本项目以语音识别模块LD3320为核心,结合Avr系列的MCU控制器,提出了一种方便现代生活的智能车载语音识别控制系统,以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求.本项目以语音识别技术为基础,利用语音命令作为人机接口,来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
孤立词语音识别程序信息处理仿真实验语音处理部分一、实验目的按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析所设计系统的特性。
熟悉不同模块间如何进行有效的组合,以及模块内的设计,重点掌握特征参数的提取和模式识别方法,并对不同的特征参数提取方法和模式匹配方法有大概的了解,知道其不同的优缺点。
二、实验内容1、熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计这三个模块的matlab子程序。
2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并测试。
三、实验原理及设计步骤1、孤立词语音识别系统:先用端点检测将语音中有用的语音部分提取出来(即将头部和尾部的静音部分除掉),然后提取语音信号的Mel尺度倒谱参数(MFCC),进行动态归整(DTW算法)后与模板库里面的标准语音作比较,具体流程如下:图3.1孤立词语音识别系统2、各模块解析⑴预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。
这里将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点检测以捕捉到数据中的语音信息。
端点检测采用双门限法来检测端点。
同时,利用过零率检测清音,用短时能量检测浊音,两者配合。
整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。
程序中使用一个变量status来表示当前所处的状态。
在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。
在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。
而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信进入语音段了。
一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不能维持足够长的时间,这些可以通过设定最短时间门限来判别。
当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。
否则就标记好结束端点,并返回⑵特征参数提取:常用的语音识别参数有线性预测参数(LPC),线性预测倒谱参数(LPCC)和Mel 尺度倒谱参数(MFCC)等。
这里提取语音信号的Mel 尺度倒谱参数(MFCC),步骤如下:预加重汉明窗傅立叶变换取模三角滤波函数组取对数离散余弦变换语音信号MFCC 归一化导谱提升计算差分系数并合并特征参数图3.2特征参数提取分析:①预加重()()-0.97(1)y n x n x n =-②加汉明窗()()()w x n y n w n =⨯③ FFT12/0()()N j nk N w w n X k x n e π--==∑这里直接采用现成的FFT 快速算法。
④对频谱进行三角滤波程序采用归一化mel 滤波器组系数⑤计算每个滤波器的输出能量120()ln ()()0N w m k S m X k H k m M -=⎛⎫=≤< ⎪⎝⎭∑ ⑥离散余弦变换(DCT)得到MFCC()1()()cos (0.5)/1,2,...,Mm C n S m n m M n p π==-=∑通常协方差矩阵一般取对角阵,三角滤波器组的对数能量输出之间存在着很大的相关,采用 DCT 这种正交变换可以去除参数之间的相关性,从而使后端识别模型采用对角阵具有更高的识别率⑦归一化倒谱提升π≤≤w = 1 + 6 * sin(u / 12) 1u12w = w/max(w)⑧计算差分系数并合并mfcc参数和一阶差分mfcc参数将其作为一个整体,让参数更完备。
⑶模式匹配:有矢量量化技术、DTW、HMM技术、人工神经网络技术。
目前,语音识别的匹配主要应用HMM和DTW两种算法。
DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。
HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。
而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。
它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。
鉴于此,DTW更适合本系统的要求。
DTW算法原理:该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。
如果把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。
DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。
路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。
DTW算法可以直接按上面的描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。
D(N,M)即为最佳匹配路径所对应的匹配距离。
无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。
已存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。
所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n 帧的语音特征矢量。
参考模板与测试模板采用相同形式的MFCC系数、相同的帧长、相同的窗函数和相同的帧移。
假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离 D[T,R],距离越小则相似度越高。
为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。
设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。
距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。
四、实验结果及分析首先通过训练得到词汇表中('盘古';'伏羲';'女娲';'神农')各参考语音的特征序列,直接将这些序列存储为模板。
在进行识别时,将待识语音的特征序列依次与各参考语音特征序列进行DTW匹配,最后得到的总失真度最小且小于识别阈值的就认为是识别结果:正在计算参考模板的参数...ans =68 24ans =73 24ans = 65 24ans = 67 24正在计算测试模板的参数...ans =50 24ans =67 24ans =53 24ans =50 24正在进行模板匹配...正在计算匹配结果...测试模板 1 的识别结果为:盘古测试模板 2 的识别结果为:伏羲测试模板 3 的识别结果为:女娲测试模板 4 的识别结果为:神农分析:从输出的结果看,识别得到了正确的结果,这是由于采用了预加重、归一化导谱提升、加入差分系数。
为了进一步验证识别的正确性,看一下匹配距离距阵dist的数据:dist = 1.0e+004 *2.3121 4.7722 7.2296 4.62766.8274 2.8580 9.49807.19587.2506 6.6624 2.4080 5.37983.97504.7198 4.7717 3.6102距离距阵的对角线上是正确匹配模板的对应分数,可见对角线上的4个数值都是在本行中最小的,由此验证了识别结果的正确性。
但由于需要对大量路径及这些路径中的所有节点进行匹配计算,导致计算量极大,随着词汇量的增大其识别过程甚至将达到难以接受的程度,因此无法直接应用于大、中词汇量识别系统。
五、实验体会与思考这次实验,我所做的工作主要是设计并实现各模块的合理组合。
虽然在学习课程中已经对MATLAB有过一定的理论学习,但是要读懂MATLAB 的程序还需要找相关的书来看,通过这次实践,对matlab的语法与应用更加了解,培养了我们独立分析问题和解决问题的能力。
在设计过程中,我通过查阅大量有关资料,与同学交流经验和自学,并向老师请教等方式,使自己学到了不少知识,也经历了不少艰辛,但收获同样巨大。
在整个设计中我懂得了许多东西,也培养了我独立工作的能力,树立了对自己工作能力的信心,相信会对今后的学习工作生活有非常重要的影响。
而且大大提高了动手的能力,使我充分体会到了在创造过程中探索的艰难和成功时的喜悦。
虽然这个设计做的也不太好,但是在设计过程中所学到的东西是这次实验的最大收获和财富,使我终身受益。
要实现这个Dtw与Test的算法,主要是弄懂它的帧匹配距离的由来和累积距离的计算公式。
这也是实现本系统最难得一环,经过不断的调试修改,最终实现了算法的要求。
Dtw算法采用动态规划技术,存在一些问题:(1)运算量大。
由于要找出最佳匹配点,因此要考虑多种可能的情况.虽然路径限制减少了运算量,但运算量仍然很大,因而使识别速度减慢.这在大词汇量的识别中是一个严重缺点。
(2)识别性能过分依赖于端点检测。
端点检测的精度随着不同音素而有所不同,有些音素的瑞点检测精度较低。
由此影响识别率的提高。
(3)没有充分利用语音信号的时序动态信息。
在检测语音信号的端点时,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。
如果所取窗长度较小,显然能够比较精确地检测到语音的端点,但会使运算量加大识别速度减慢,同时会把一些短时的脉冲噪音误认为语音,从而产生错误的识别。
如果所取窗长较大,可以加快语音处理的速度,会跳过一些短时噪音,但是端点的检测误差增加,对DTW这种端点非常敏感的算法几乎是致命的。
窗长取一合适的中间值固然可以减少窗长过短和过长的消极影响,但毋庸置疑也减弱了其积极的一面。