孤立词语音识别系统设计
孤立词语音识别系统的DSP实现

孤立词语音识别系统的DSP实现
何翔;刘大健
【期刊名称】《现代电子技术》
【年(卷),期】2009(32)17
【摘要】语音识别是人杌通信技术的基础之一,目前正广泛应用于控制、通信、消费等行业.介绍一种基于DSP的孤立词语音识别系统.对以TMS320VC5402芯片为核心的系统硬件设计进行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS30VC5402对语音信号进行训练和识别,并由LCD显示结果;该系统核心识别算法采用动态时间规整(DTW)算法.主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果.所做的研究工作,是为汉语孤立词语音识别进入商业化进行有效的探索.
【总页数】4页(P118-120,123)
【作者】何翔;刘大健
【作者单位】中国计量学院,浙江,杭州,310018;中国计量学院,浙江,杭州,310018【正文语种】中文
【中图分类】TN912.34
【相关文献】
1.小词汇量孤立词语音识别系统的DSP实现 [J], 龚伟
2.孤立词语音识别系统的DSP实现 [J], 郑德忠;宋婧婧;周朝霞
3.基于孤立词语音识别系统的DTW硬件实现 [J], 肖春华;黄樟钦;侯义斌;李达;霍
思佳
4.基于DSP的孤立词语音识别系统的设计 [J], 俞斌;贾雅琼
5.基于DTW的孤立词语音识别系统的研究与实现 [J], 王娜;刘政连
因版权原因,仅展示原文概要,查看原文内容请购买。
声控机器人的特定人孤立词汉语识别系统设计

文章 编号 :6 1 7 5 20 ) 1 0 3 o 17 —8 5 ( 0 6 0 - 0 5一 4
De i n o i e e S e k r・d p n e ta d I oa e — r p e h sg fCh n p a e — e e d n n s l t d・ wo d S e c s ・ ・ Re o n t n S se o ie Co t o b t c g i o y t m fVo c n r lRo o i
声控机器人 的特定人 孤立词汉语识 别 系统设计
何燕玲 马建 国
四川绵 阳 611) 200 ( 西南科 技大学信息工程学院
摘要: 利用语音命令对机器人的行动控制, 有很大的实用价值。介绍了采用动态时问弯折(yw, ya i T e 1 r Dnmc i m Wa i ) r n 算法进行模式匹配的特定人孤立词汉语识别系统。l w算法简单有效, pg y r 尤其适合孤立词语识别系统。用
凌 阳单片机 SC 01 建的机器人平 台对 系统 进行 测试 , 表明 , P E 6A搭 结果 系统识 别效 果 良好 , 制者通 过语音 可以实 控
时控制机器人行动 。
关键词 : 语音识别
动 态时间弯折算法
特定 人
孤立词
中图分类号 :P 4 . 3 T 22 6’
文献 标识码 : A
c i.T e tsigrs l h w a erc g io efr n e i g o d te ma iuao a c iv hp h t e ut s o t tt o nt n p r ma c s o d a n p ltrc n a he e e n s h h e i o n h el i ra —t o t lo erb tb oc . mec nr ft o y v ie o h o Ke r s p e hr c g io ;d a ct r igag rtm ;s e k rd p n e t slt r y wo d :s e c o t n y mi i wapn oi e n i n me l h p a e e d n ;i aewod e o
【精品】-一种孤立词语音识别的实现方法及改进

一种孤立词语音识别的实现方法及改进刘丽媛,严家明(西北工业大学电子信息学院,陕西西安 710129)摘 要:通过对特征提取模块2个重要部分:端点检测和线性预测倒谱(L PCC )相关原理的介绍分析,阐述了一种以线性预测倒谱(L PCC )为基础,进行特征提取的孤立词语音识别的具体实现方法,并对该方法所描述的系统进行了软件建模。
通过分析研究,给出了提高识别率的具体改进方案。
最后使用Matlab 软件对相关方法及结论进行了验证,表明该方法确实在传统方法的基础上提高了识别率,且速度较快,具有实用性和良好的硬件可移植性,并讨论了它在一些关键环节的未来实现及改进方向。
关键词:语音识别;特征提取;L PCC ;Matlab中图分类号:TN912.3234 文献标识码:A 文章编号:10042373X (2010)1620109204R ealization and Improvement of Isolated Word Phonetic R ecognitionL IU Li 2yuan ,YAN Jia 2ming(School of Electronic Information ,Northwestern Polytechnical University ,Xi ’an 710129,China )Abstract :An implementation method of the isolated word speech recognition with feature extraction based on the linear prediction cepstrum (L PCC )is elaborated by the analysis of the relevant principles of two important parts (the endpoint detec 2tion and L PCC )of the feature extraction module.The software modeling of the system which is described by the method is carried out.A specific improvement program to improve the recognition rate is given through the analysis.carried on the con 2firmation for the relevant method and conclusion are demonstrated with Matlab software.The demonstration shows that the method can raise the recognition rate indeed based on the traditional method ,and has the characteristics of high 2speed recognition ,good practicability and hardware portability.The direction of the f uture implementation and improvement in some key links is discussed for the method.K eywords :phonetic recognization ;feature extraction ;L PCC ;Matlab收稿日期:2010203230 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术,而特征提取阶段是其至关重要的一步。
基于HMM的孤立词(0-9)识别系统实现

基于HMM的孤立词(0-9)识别系统实现摘要:近几十年来,在业内专家学者的努力下语音识别技术取得显著进步,已经从实验室走向市场。
在这个过程中,深度学习和神经网络的发展做出不少贡献,但神经网络依赖大量数据而且神经网络模型具有不确定性,当训练数据与目标数据分布存在差异时识别效果可能非常差。
在一些领域我们对识别系统的精度要求非常高。
我们已经明显感觉到,语音识别技术在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域都可以发挥重要作用。
探索使用HMM模型来识别孤立词在我们的生活中具有重大意义。
隐马尔可夫模型是成熟的模型,在语音识别,机器视觉等多个领域有着广泛的应用。
隐马尔可夫模型能够很好地为语音等序列数据建模,可以很好地描述序列数据之间的关系。
隐马尔可夫模型与GMM模型的完美融合可以使HMM模型在语音识别中更好地对状态进行建模从而提高识别率。
因为GMM模型的加入使得HMM的观测矩阵更真实地贴近观测概率。
加入GMM的HMM模型经过5个人的数据的训练其识别精确度可以达到87%。
在数据量得到扩充的前提下效果有望达到100%。
关键词隐马尔可夫模型;高斯混合模型;语音识别;状态建模隐马尔可夫模型在语音识别中可以很好地描述一段连续的音频序列。
在隐马尔可夫模型中往往不直接使用音频数据而是把从音频中抽取到的某种特征来近似代替音频。
隐马尔可夫模型的隐马尔可夫性假设使得我们可以计算出某一个状态出现的概率,隐马尔可夫性假设:系统在t时间的状态只与其在时间t-1的状态相关即 P(q i|q i-1,……,q1) = P(q i|q i-1)。
隐马尔可夫的另外一个假设:不动性假设(即某一状态的出现与其所处的具体时间无关可用公式P(q i+1|q i) =P(q j+1|q j),对任意i,j成立。
这里的q i指的是在第i时刻的状态。
第三个假设:输出独立性假设(即某一时刻的输出仅与当前状态有关)p(O1,……,O T |q1,……,q T)= Πp(O t | q t)。
基于HMM的孤立词语音识别

Markov链 (, A)
状态序列 q1, q2, ..., qT
随机过程 (B)
观察值序列 o1, o2, ..., oT
LOGO
HMM可解决的问题
4.HMM可解决的问题:
问题一: (前向后向算法) 给定观察序列O=O1,O2,„OK,以及模型λ =(π ,A,B), 如何计算 P(O|λ )?即在λ 模型下观察到O=O1,O2,„OK结果的概率是多少。 问题二: (Viterbi算法) 给定观察序列O=O1,O2,„OK以及模型λ ,如何选择一个对应的状态序 列S = s1,s2,„sT,使得S能够最为合理的解释观察序列O?即给定 上述模型,若观察到上述序列,最可能的状态转换序列是什么? 问题三: (Baum-Welch算法) 如何调整模型λ =(π ,A,B)的参数,对于给定观测值O=O1,O2,„OT, 使得P(O|λ )最大?即模型中的状态转移矩阵A、状态输出概率B和 初始状态分布π 均未知,如何根据观察序列得到λ 模型?
中的某一个模板获得最佳匹配的过程。
示例:模板库:M0、M1、M2、M3、M4、M5、M6、M7、M8、M9
M3-M6-M9-M7
3-6-9-7
LOGO
HMM介绍
隐马尔科夫模型的介绍
隐马尔科夫模型(Hidden Markov Model, HMM)
HMM是一种统计分析模型,是在马尔可夫链的基础上发展起来的。
算量相对较大。
LOGO
马尔可夫链
1.马尔可夫链:
在已知系统目前的状态(现在)的条件下,一个过程的“将来”仅依赖 “现在”而与“过去”无关,这种过程称为无记忆的单随机过程(马尔可 夫过程)。时间和状态都离散的马尔可夫过程称为马尔可夫链。设S是一 个由有限个状态组成的集合,S={1, 2, 3, „,n-1, n},可以把马尔可夫 链看做小球随时间在n种状态跳动的过程。
基于DTW的孤立词语音识别系统设计

基于DTW的孤立词语音识别系统设计叶硕;彭春堂;杜珍珍;贺娟【摘要】设计了一种基于小波变换的孤立词语音识别系统.该系统提取语音信号的特征矢量,使用DTW算法对待测语音进行匹配,通过对输入信号的降噪处理,提高孤立词在噪声环境下的识别精度.测试结果表明,在无强噪声干扰条件下,该系统能较好实现孤立词语音识别.【期刊名称】《长江大学学报(自然版)理工卷》【年(卷),期】2018(015)017【总页数】5页(P33-37)【关键词】语音识别;小波变换;孤立词;DTW【作者】叶硕;彭春堂;杜珍珍;贺娟【作者单位】武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000【正文语种】中文【中图分类】TP18;TP391.42语音作为人类主要的通信手段,是信息获取的主要来源,无论是民用还是军事,一直以来都受到世界各国的高度重视[1]。
随着互联网技术的发展,智能终端中以语音为主的交互越来越多,人们对移动设备的语音识别能力有了更高的要求。
笔者设计了一种基于动态时间规整(Dynamic Time Warping, DTW)[2]的孤立词语音识别系统:以Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)为核心,使用DTW算法对孤立词语音进行识别,通过小波变换对原始信号进行处理,提高孤立词在一定噪声环境下的识别精度,并借助MATLAB完成仿真。
1 语音识别系统设计语音信号作为一种非平稳信号,其形成和感知的过程是一个复杂信号的处理过程[3],本质上来说,就是模式匹配的过程。
语音识别的性能主要受到2个方面的影响: 一个是由环境噪声在前端随语音信号输入而产生的影响;另一个是建立的模型与语音实际的特征统计特性有差异而产生的影响[4]。
该系统识别过程包括预处理、特征提取、语音训练和语音识别4个部分,框图如图1所示。
孤立词语音识别算法研究和实现(可编辑)

孤立词语音识别算法研究和实现硕士学位论文孤立词语音识别算法的研究和实现THE RESEARCH ANDIMPLEMENTATIONOF ALGORITHM OFISOLATED WORD SPEECH RECOGNITION李硕哈尔滨工业大学2010年12月国内图书分类号:TM431.2 学校代码:10213国际图书分类号:621.3 密级:公开硕士学位论文孤立词语音识别算法的研究和实现硕士研究生: 李硕导师: 王明江教授申请学位: 工学硕士学科专业: 微电子学与固体电子学所在单位: 深圳研究生院答辩日期: 2010 年 12 月授予学位单位: 哈尔滨工业大学 Classified Index: TM431.2U.D.C: 621.3Dissertation for the Master Degree of EngineeringTHE RESEARCH ANDIMPLEMENTATIONOF ALGORITHM OFISOLATED WORD SPEECHRECOGNITIONCandidate: LishuoSupervisor: Prof. Wang MingjiangAcademic Degree Applied for: Master of EngineeringMicroelectronics and Solid-StateSpecialty:ElectronicsAffiliation:Shenzhen Graduate SchoolDate of Defence: December, 2010Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文摘要语音识别技术以语音信号处理为研究对象。
本文主要研究小词汇量、非特定人、孤立词的汉语语音识别算法与实现。
文章首先介绍了隐马尔可夫模型HMM,包括 HMM 的参数估计,Viterbi算法等。
采用离散HMM的孤立词识别系统

摘要本文探讨了离散马尔可夫模型的基本原理及在孤立词识别中的应用,并且实现了一个文本有关的孤立词识别系统,其正确识别率达到96.3%。
关键词隐马尔可夫模型Mel频率倒谱系数矢量量化语音识别1引言目前,隐马尔可夫模型技术是语音信号处理中的主流技术,孤立词识别是语音识别的一个重要分支,可以有效地应用于电话查询、电话银行业务等领域,有很高的实用价值。
离散HMM在训练及识别时计算量小,对输入矢量的分布不必作先验假设,因而在对实时性要求较高的场合得到了较多的应用。
本文实现的是一个基于离散的HMM的孤立词识别系统。
2HMM对语音信号的描述及应用语音信号是通过声源经声道处理产生的,是一种时变的随机信号。
我们的语音发音是有限的,所有可以认为声道的状态是有限的。
我们将人的声道特性划分为有限个特性平稳的部分或状态,每个状态对声音信号作用产生受该处的声道物理参量决定的短时信号[1]。
这样,声道特性的变化用HMM的状态转移概率来描述,某一声道特性产生短时语音信号观察值的概率分布用HMM的状态生成概率表征,则HMM模型就有效地用于描述时变语音信号。
3系统实现3.1特征矢量的形成语音信号的采样率为8K,采样后的语音信号通过预加重运算、分帧、最后将每帧语音转换成相应的特征矢量,本系统的特征矢量是采用20阶MFCC(mel–frequencycepstralcoefficient)系数,即mel倒谱系数,对应于一个短时帧的20阶MFCC系数组成的20维矢量空间的一个特征矢量。
3.2HMM结构和状态数的选择在小词汇表、孤立字词识别时,HMM多采用自左向右无跳转或有跳转模型,本系统采用的是无跳转的自左向右模型结构。
在若干的汉字实验中表明,若状态数取6~8是较为合理的选择[3],本系统状态数为6。
3.3离散HMM的VQ码本形成采用DHMM,则需对输入特征矢量进行VQ处理,即用LBG算法对话者的训练,集中所有的训练矢量(帧)训练出VQ码本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学生签名:
年月日
指导教师意见:
签名:
院系领导意见:
签名:
年月日
深圳大学本科毕业论文(设计)开题报告
题目
孤立词语音识别系统设计
学生姓名朱雯学号200 Nhomakorabea130019
专业
电子信息工程
学院
信息工程学院
指导教师
郑能恒
本选题的意义及国内外发展状况:
国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。但真正取得实质性进展(在小词汇量、孤立词的识别方面),并将其作为一个重要的课题开展研究则是在60年代末70年代初。在70年代,提出了语音信号线性预测编码(LPC)技术,动态时间规整(DTW)技术,矢量量化(VQ)和隐马尔可夫模型(HMM)理论。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。第一个高性能的大词汇量连续语音识别系统Sphinx诞生在卡耐基梅隆大学。这一时期,语音识别的研究更进一步,兴起了人工神经网络在语音识别中的应用。而且隐马尔柯夫模型(HMM)技术的不断完善和日渐成熟,使之成为了目前语音识别的主流方法。进入20世纪90年代后,语音识别系统开始从实验室走向实用。许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。比较有代表性的系统有:IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper, Sun的VoiceTone等。
研究方法、手段及步骤:
非特定人语音识别系统设计分为系统定义,训练和识别三个阶段。在系统定义阶段,要根据系统具体应用范围定义系统的词汇库,即系统的识别词汇。在训练阶段,通过麦克风输入定义的语音命令,然后对模拟语音信号进行预处理,对处理后得到的数字语音信号进行语音特征提取,为不同用户的不同语音特征参数建立一个相应的语音特征模型库。训练完成后,进入语音识别阶段,麦克风输入定义的词汇中的一个或若干个词汇(任意组合任意次序),然后进行预处理,对处理后得到的数字语音信号进行特征参数提取,紧接着用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。系统采用C语言编程实现,大致具体步骤:
孤立词语音识别的基本原理:特征提取,训练,识别,失真测度。主要识别框架:基于模板匹配的动态时间规整法DTW和基于统计模型的隐马尔柯夫模型法HMM。特征提取就是通过数字信号处理技术从语音波形中提取最能表征语音的语意信息的特征参数。镁倒谱系数MFCC:是在语音识别过程当中最常用的倒谱特征参数,它将一般的频谱转换到基于Mel尺度(基于人耳的听觉特性而设计的,具有很好的识别性能和抗噪声能力)的非线性频谱上,然后再进过一组滤波器,最后转换到倒谱域中。训练是预先分析出语音特征参数,制作语音模板或其它(统计)模型并存放在语音模型库中。识别是待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板型一一比较,并采用判决的方法找出最接近语音特征的模型,得出识别结果。失真测度是计量语音特征参数矢量之间的“失真(距离)测度”。隐马尔柯夫模型法HMM为当前语音识别的主流算法,它将将语音模拟成一对时域与频域上并存的随机过程(时域:状态转移过程,频域:混合高斯分布)。其优点是训练和识别过程都有很完备的理论框架,跟高层次的语言学模型可以很好地结合。
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。利用语音识别技术来实现数码相机的拍摄指令控制不像传统的拍照模式,必须要手动按下机身上的快门键,或者其他按钮来操控相机。而是通过识别输入的实时语音命令,从而实现对相机的控制。这样很大程度上方便了一些残障人士使用相机,同时也完全解决了手动操作相机带来的轻微抖动造成的画质降低。并且通过语音控制相机,只要一选好合适的角度,拍摄人能轻易实现抓拍,自拍功能,非常方便快捷。因此,
预处理:包括语音信号采样、反混叠带通滤波、语音识别基元的选取、端点检测、语音分帧加窗以及预加重等处理工作。
特征提取:提取语音中反映本质特征的声学参数,如平均能量、平均过零率、共振峰等;并提取特征参数,如线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。
模型训练:在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
模式匹配:根据一定规则(如某种距离测度),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语义信息。
参考文献:
《语音识别基础》上海交通大学计算机系 吴亚栋
《基于HMM的孤立词语音识别系统的研究》硕士论文王明奇
《语音识别技术研究及实现》高宏涛张德贤
《基于DSP的机器人语音识别及控制系统设计》硕士论文刘京诚
这种语音识别系统设计有其独特的优势和应用前景。
研究内容:
本次的设计是基于孤立词语音识别的对非特定人的数码相机语音控制系统。主要目的是实现简单的实时数码相机拍摄控制(例如连拍张数选择,闪光灯的使用)。因此,识别词汇定义为一些简短的拍摄命令关键词,与十个阿拉伯数字。
孤立词语音识别是指识别的单元为字、词或短语,它们组成识别的词汇表,并对它们中的每一个通过训练建立标准模板或模型。非特定人语音识别的模板或模型适应于指定的某一范畴的说话人(如说标准普通话),模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。