孤立词语音识别程序文件

合集下载

基于DTW改进算法的孤立词语音识别仿真

基于DTW改进算法的孤立词语音识别仿真
( 山东理 工 大 学 交 通 与车辆 工程 学 院 ,山东 淄博 2 5 5 0 9 1 ) 摘 要 :为提 高识 别率和 识别 效 率 , 采 用双 门限过零 率和 短 时能 量作 为 端 点检 测 的依 据 , 提取 Me l
频率倒 谱 系数作 为语 音 特征 参 数 , 并使用 D TW 算 法进 行 模 式 匹配. 由于 传 统 D TW 算 法 计 算 量 大, 所 以采 用局部 路 径约束 和 区域 约束进 行 改进 , 并用 Ma t l a b对 改进后 的 DT W 算 法进 行 了仿 真. 实验证 明该 算 法对孤 立词 语 音识别 能够 达到 较好 的识别 结 果.
l a r g e a m ou nt o f da t a i n t h e ma t c h i ng p r oc e s s , D TW a l go r i t hm i s i m pr o v e d by us i ng l o c a l c o n—
第 2 7卷 第 1 期
2 0 1 3年 1月
山 东 理 工 大 学 学 报( 自 然 科 学 版)
J o u r n a l o f S h a n d o n g Un i v e r s i t y o f Te c h n o l o g y ( Na t u r a l S c i e n c e Ed i t i o n )
Vo 1 . 2 7 No . 1
J a n .2 0 1 3
文章 编 号 : 1 6 7 2 — 6 1 9 7 ( 2 0 1 3 ) 0 1 — 0 0 6 3 — 0 4
基于 D TW 改进 算 法 的孤 立词 语 音 识 别 仿 真
刘 静 ,王 儒 ,曲金 玉 ,李 东荣

在孤立词语音识别中动态时间规正的改进算法

在孤立词语音识别中动态时间规正的改进算法
18 1
2 1 ,6 2 ) 0 0 4 ( 5
C m u r n ier ga d p l ain 计算机工程与应用 o p  ̄ E gn ei n A p i t s n c o
@数 据 库 、 号 与信 息处 理@ 信
在孤 立词语音 识别 中动态 时 间规正 的改进 算法
汲清 波 , 卢 侃 李 , 康。
语 音识别是机器通过识别和理解 过程把人类的语言信号 转 变为 响应 的文本 或命令 的技术 , 本质 上是一种模 式识别 的
过程, 模板匹 配法是模式 识别 中最 常用 的一种基 于相 似度计

要 : 态时间规 正( y1 cTmew唧 ig 是语音 识别 中的一种经典算法 , 动 D I mi i a n) 算法简单 有效 , 因此在 实现孤 立词识 别 系统中获
得 了广泛的应用。提 出-  ̄ DT 的改进算法 , - W 采用两次在 时间域上的规正 , 计算程序 简洁规 范, 使 计算量减少。经 实验验证 , 改
a d Ap l a in . 0 0 4 ( 5 : 1 — 2 . n pi t s2 1 .62 ) 181 0 c o
Ab t a t Dy a c i W ap n i a i d f c a sc l l o i m i s e c r c g i o s se Be a s t e l o i m i sr c : n mi T me r i g s k n o l s ia a g rt h n p e h e o n t n y t m. c u e h a g r h i t s smp e a d v l . t a h e e x e sv p l a i n i p e h r c g i o f sn l r . i a e a s s mp o e i l n ai i c iv s e tn i e a p i t n s e c e o n t n o i g e wo dTh s p p r r ie i r v d DT a- d c o i W l g rt m t t c t wap n S h t t oi h wi h wie i me r i g, O t a i wi a e r g a n r t e n r d c t e ac lt n wo k. ay i f t e l m k p o r m o ma i a d e u e h c lu a i r An l ss l v o o h smu a i n r s l h ws t a e i r v d DT l o i m o n y c n i c e s e o n t n s e d b t a s mp o e p a f a i lt e u t s o h t t mp o e o s h W ag rt h n t o l a n r a e r c g i o p e u lo i r v r c c - i i

基于DTW和EMD的孤立词语音识别研究

基于DTW和EMD的孤立词语音识别研究
XuBiwei1,SuChengli1,Yang Wei2,CaoJiangtao1
(1.SchoolofInformationandControlEngineering,LiaoningShihuaUniversity,FushunLiaoning 113001,China; 2.Liaoning EquipmentManufacturing Vocationaland TechnicalCollege,ShenyangLiaoning 110000,China)
referencetemplateandthetemplatetobe measuredisusedastherecognitionresult.Thesimulationresultsshowthatthe
proposedalgorithmcanimprovetherecognitionefficiencyofspeechandtheaccuracyofrecognition. Keywords: Speechrecognition;Empiricalmodedecomposition;Dynamictimewarping;Isolatedwordrecognition
timezerocrossingrateandshort���t���imeenergyareusedtodetecttheendpointdetectionofspeechsignal.Afterthespeechfeature parametersareextracted,thespeechsignalis matched withthereferencetemplate.Finally,theshortestpathbetweenthe
第38卷 第1期 2018 年 2 月

基于HMM的安多藏语非特定人孤立词语音识别研究

基于HMM的安多藏语非特定人孤立词语音识别研究

前字 — 。T L. ^加 加 — I 口 [ 口_ 后字 ,于 —叉Ⅳ u

语 音 识 别技 术 是集 声 学 、 音 学 、 言 学 、 语 语 计算 机 科 学 、 信
号 与 信 处 理 、 工 智 能 等 诸 领 域 的 一 门 交 叉 学 科 , 究 难 度 较 人 研 大 。 前 语 音 识 别 技 术 的 研 究 成 果 还 远 没 有 达 到 使 计 算 机 和 人 目 之 间 能 自然 交 流 这 个 终 极 目标 。
第9 第 7 卷 期
2 1 年 7月 00
软 件 导 刊
So t r fwa eGu d ie

Vo . 7 1 No. 9
J _ Ol ul 2 0
基于 H MM 的安 多藏 语非特定人 孤立词 语音识别研 究
韩 清 华 . 洪 志 于
( 北 民族 大学 中国民族 信 息技 术研 究 院 , 肃 兰 州 70 3 ) 西 甘 3 0 0
藏 语 孤 立 词 的 MF C( l 率 倒 谱 系 数 ) 并 以 此 训 练 并 建 立 C me 频 , 孤立 词语 音特 征参 考模 板库 , 终 实现 孤立 词 的语 音识 别 。 最 语音识 别 系统 的流 程 图如 图 1 示 : 所
2 MF C参 数 提 取 C
图 1 孤 立 词 识 别 系统 图
摘 要 : VC 6 以 抖 . 开 发 平 台 , 现 一 个 基 于 隐 马 尔 可 夫 模 型 ( d e ro d l简 称 HMM ) 特 定 人 的 安 多 0为 实 Hid nMakvMoe , 非
藏语 孤 立 词语 音 识 别 系统 。对 有 声段 语 音 进 行 MF C参 数 的提 取 ,对提 取 后 的 MF C参数 进 行 矢量 量化 后 训 练 C C

基于DTW改进算法的孤立词语音识别仿真

基于DTW改进算法的孤立词语音识别仿真

基于DTW改进算法的孤立词语音识别仿真刘静;王儒;曲金玉;李东荣【摘要】为提高识别率和识别效率,采用双门限过零率和短时能量作为端点检测的依据,提取Mel 频率倒谱系数作为语音特征参数,并使用DTW算法进行模式匹配.由于传统DTW算法计算量大,所以采用局部路径约束和区域约束进行改进,并用Matlab对改进后的DTW算法进行了仿真.实验证明该算法对孤立词语音识别能够达到较好的识别结果.【期刊名称】《山东理工大学学报(自然科学版)》【年(卷),期】2013(027)001【总页数】4页(P63-66)【关键词】孤立词;语音识别;Matlab;DTW【作者】刘静;王儒;曲金玉;李东荣【作者单位】山东理工大学交通与车辆工程学院,山东淄博255091;山东理工大学交通与车辆工程学院,山东淄博255091;山东理工大学交通与车辆工程学院,山东淄博255091;山东理工大学交通与车辆工程学院,山东淄博255091【正文语种】中文【中图分类】TP391.42语音识别研究开始于20世纪50年代,贝尔实验室的Davis等人研制了特定说话人孤立数字识别系统[1].20世纪60年代末,RAC实验室的Martin等人开始研究语音信号时间尺度不统一的解决办法,开发了一系列的时间规正方法,明显地改变了识别性能[2].1972年,Sakoe提出了DTW算法,DTW是把时间归正和距离测度计算结合起来的一种非线性归正技术,也是语音识别中一种很成功的匹配算法,掀起了语音识别研究的热潮[3].孤立词语音识别是语音识别的一个重要研究领域,不仅比连续语音识别灵活性好,而且具有很高的应用价值[4],主要应用于自动控制,如驾驶、机器人操纵、仪器设备操纵及收集拨号、智能玩具、家用电器操纵,尤其当人手已被占用或无法使用的情况下,进行声音控制可以起到不可替代的作用.本系统基于Matlab软件,系统主要功能有语音信号的采样及量化、预处理、端点检测、特征提取、训练和识别,系统的开发流程如图1所示.1.1 采样及量化Matlab软件运用wavrecord函数可进行语音录制,应用wavread函数读取录制好的wav语音文件,采样频率为8k Hz.为了处理方便,先将信号进行幅度归一化处理,运用命令x=x/max(abs(x))便可实现.1.2 预处理1)预加重经过采样和量化过程后,还要对语音信号进行预加重[2].预加重用具有6dB/倍频程提升高频特性的预加重数字滤波器实现,其计算公式为式中,u=0.95,预加重后的信号在分析处理之前要进行去加重处理,即加上―6dB/倍频程下降的频率特性来还原成原来的特性.数字“6”预加重后的波形如图2所示. 2)加窗分帧为了得到短时的语音信号,要对语音信号进行加窗操作.本系统采用可以有效克服泄漏现象的汉明窗,汉明窗公式为数字“6”加窗分帧后的波形如图3所示.1.3 端点检测语音的端点检测就是确定语音的起点和终点,从语音信号中排除无声段[5],常用的检测参数有短时能量和短时过零率等[6].本文采用双门限端点检测算法,利用短时能量来检测浊音,利用短时过零率来检测清音,两者配合以实现可靠的端点检测.1)短时能量分析由于短时能量是对信号进行平方运算,人为增加了高低信号之间的差距,因此采用短时平均幅度来表示能量的变化[7].短时能量的计算公式为3)检测语音起点和终点用短时平均过零率区分无声和清音在有些情况下不是很可靠[8],本文采用双门限端点检测法,将门限提高一些,这对于清音的影响不大,而在无背景噪声的情况下,无声段将不会穿越这一提高的电平,因此可以正确区分清音段和无声段.首先根据浊音情况下的短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数MH,MH= min(M1,max(M)/4).根据MH可判定输入语音的前后两个点A1和A2,但语音的精确起点还要在A1之前和A2之后仔细查找.再设定一个较低的阈值参数ML,由A1点向前找,当短时平均幅度由大到小减至ML时,可以确定B1点.类似地,可以确定B2点.在A2和B2之间仍能肯定是语音段.数字“6”的端点检测结果如图4所示.1.4 特征提取特征提取是语音识别的一个重要步骤,本系统采用Mel频率倒谱系数(MFCC,Mel-Frequency Cepstral Coefficients)进行特征提取.Mel频率表示公式为Mel滤波器组如图5所示,MFCC倒谱系数的计算过程如图6所示.先将信号进行预加重和汉明窗处理,然后进行短时傅里叶变换得到其频谱.求出频谱平方,即能量谱,再用24个带通滤波器进行滤波,得到功率谱.将每个滤波器的输出取对数并进行反离散余弦变换,得到15个MFCC系数,MFCC系数计算公式为用公式(7)求一阶和二阶差分参数,得到相应的动态特征.1.5 模板匹配在孤立词语音识别中,最为简单有效的方法是采用DTW算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法[9].假设参考模板的特征矢量序列为输入语音特征矢量序列为DTW算法就是要寻找一个最佳的时间归正函数,使待测语音的时间轴j非线性地映射到参考模板的时间轴i上,使总的累计失真量最小.设时间归正函数为式中,N为路径长度,c(n)表示第n个匹配点对是由参考模板的第i(n)个特征矢量与待测模板的第j(n)个特征矢量构成的匹配点对.两者之间的距离称为局部匹配距离.DTW算法就是通过局部最优化的方法实现加权距离总和最小,即式中为加权函数.为了提高识别速度,给时间规正函数如图7(a)所示的局部路径约束和如图7(b)所示的平行四边形区域约束Reg.平行四边形有两个位于(1,1)和(N,M)的顶点,相邻两条边的斜率分别为2和1/2.求累计距离的递推公式为式中对于图7(a)所示的局部路径,一般取距离加权值为Wn(1)=Wn(3)=1,Wn(2)=2. 程序运行后,首先读入wav文件,用vad函数对其进行端点检测,用mfcc函数获得其MFCC参数,并保存语音部分的MFCC参数到参考模板的结构数组ref(i).mfcc 中或测试模板的结构数组test (i).mfcc中.在模板匹配阶段,计算所有测试模板和参考模板之间的距离,保存到矩阵中,将最后的匹配分数用min函数找到最小值对应的模板.表1为测试语音与标准模板库之间的匹配矩阵,图中行表示数字“1~10”的标准模板库,列表示数字“1~10”的测试语音.语音样本“1~10”均和模板库中的模板“1~10”有最小的距离,因此具有较好的相似性,即都取得了较好的识别效果.本文在Matlab编程上实现了简单词的语音识别.DTW算法较HMM算法运算量小,在孤立词小词汇量的语音识别系统有着较为广泛的应用.实验结果证明,通过提高端点检测结果的准确率和运用改进的DTW算法,系统取得了较好的识别效果.后续可以通过完善语音数据库来提高模板搜寻匹配的效率和可靠性,通过改进语音识别算法来提高识别的精度和准确性.【相关文献】[1]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.[2]杨曦,苏娟,彭勇群.孤立词语音识别系统的MATLAB实现[J].微计算机信息,2007,23(3-1):288-290.[3]吴黎明,王桂堂,吴正光.语音信号及单片机处理[M].北京:科学出版社,2007.[4]彭辉,魏玮,陆建华.特定人孤立词的语音识别系统研究[J].控制工程,2011,5(3):397-400. [5]朱蕊楠.车载蓝牙语音控制系统的语音识别算法研究与设计[D].长春:吉林大学,2011. [6]江官星,王建英.一种改进的检测语音端点的方法[J].微计算机信息,2006,22(5-1):138-139. [7]刘志伟,卢文科.孤立词的语音识别[J].微计算机信息,2011,27 (6):181-182.[8]刘长明,任一峰,语音识别中DTW特征匹配的改进算法研究[J].中北大学学报:自然科学版,2007,27(1):37-40.[9]肖春华,黄樟钦,侯义斌,等.基于孤立词语音识别系统的DTW硬件实现[J],微计算机信息,2010,26(11-2):114-117.。

基于SoPC的孤立词语音识别系统的设计

基于SoPC的孤立词语音识别系统的设计

基于SoPC的孤立词语音识别系统的设计孙玉;郭宝增【摘要】This system uses the SoPC method to realize an isolated-word speech recognition system. The system is based on the improved DTW algorithm, and it can be easily integrated into other systems. The endpoint detection algorithm and pattern recognition algorithm are selected and modified: The speed and accuracy of the system can satisfy the needs of voice control. By SoPC technology, the system is flexible and easy to be modified for different applications.%采用SoPC方法,实现了基于动态时间规整(DTW)算法的孤立词语音识别系统,该系统可以作为电器系统的语音命令控制模块使用。

考虑嵌入式系统的特点,对端点检测算法和模式匹配算法进行了选择和调整。

实验表明,该语音识别系统运行速度和识别准确性能够适应语音控制的要求。

SoPC设计方式灵活,适合对系统进行改进升级。

【期刊名称】《微型机与应用》【年(卷),期】2012(031)002【总页数】4页(P74-76,79)【关键词】SoPC;Nios;II;语音识别;动态时间规整【作者】孙玉;郭宝增【作者单位】河北大学电子信息工程学院,河北保定071002;河北大学电子信息工程学院,河北保定071002【正文语种】中文【中图分类】TP391随着计算机技术、模式识别技术等的发展,国内外对语音识别的研究也不断进步。

噪音环境下孤立词的语音识别

噪音环境下孤立词的语音识别
声 环境 下 语音 识 别 系 统 的研 究 也 就 变得 尤 为重 要 。
个 语 音 识 别 系 统 主 要 包 括 训 练 和 识 别 两 个 阶
段 .无论 是 训 练还 是 识 别. 需 要 首 先 对 输 入 的原 始 都 语 音 进 行 预 处理 。 并进 行 特 征 提 取 。
的语 音 识 别 系 统 的 设 计 和 实 现 的 细 节 和 方 法 不 尽 相
端 点 检 测 的 2种 常 用 方 法 是 短 时 能 量 和过 零 率
根 据 语 音 特 征 短 时 能 量方 法 能 够 很 好 的检 测 到 浊音 . 但 是 可 能 会漏 掉 清音 . 过 零 率 反 映 的 是 语 音 频 率 高 而 低 , 清 音 的 频 率 较 高 . 以 可 以较 好 的检 测 清 音 , 而 所 而 对 低 频 的浊 音 识 别 率相 对较 低 因此 本 文 提 出将 两 种 方 式 结 合 起 来 的方 法 . 行 端 点 检 测 进
关键 词 : 音 识 别 ;P ; 语 L C DTW ; 音 增 强 ; 减 法 语 谱
中图分类号 : N 1 T 92
文ቤተ መጻሕፍቲ ባይዱ标识码 : A
文章编号 :0 9 3 4 (0 72 — 1 9 — 2 1 0 — 0 42 0 )3 4 3 9 0
Sp ch Rec gnt s a ed W or n Noiy En r nmen ee o ion ofIolt i ds i s vi o t
to yt e r a e n iea d rc g nz s l td wo d , rv d t e rc g t n rt. in wa o d c e s os n e o iie ioae r si mp o e h e o ni o ae i

HMM非特定人孤立词语音识别系统的FPGA实现

HMM非特定人孤立词语音识别系统的FPGA实现
目前 国内也一直 在进行 这方 面的研究 。本着 这个 目
型, 是语音信号时变特征 的有效表示法 , 在话音处理 各个 领域 中得 到 了成 功 应用 [。 目前孤 立词 语 音识 2 】
别技术 已经 趋 于成熟 , 、 词 表 ( 中 小 词表 容 量 为 1 O~ 10个 ) 0 的识别 率 已经 达 到 9 %以上 , 立词 语 音识 8 孤 别技 术 已经 由 P C机 走 向嵌 入式 应 用 [。孤 立 词识 3 ]
2 0 牟g 2 08 1期
中图分类号 :P9 . T 3 14 文献标识码 : A 文章编 号 :09 52 20 )2— 09 4 10 —25 (08 1 0 8 —0
H MM 非 特定 人孤 立 词 语 音 识 别 系统 的 F G P A实现
万卫锋 ,赵 峰
( 上海交通 大学微电子学院 ,上海 204 ) 0 20
( A ) ae el . nr cl a o sc t i o eost f t e x at nadd oig ot V D bsdO t g E e ya e rtna oie wt vi ne,e u t co e d e nh o g c ei s a d h c a rer i n c n th
识别方法的不足 , 许多科研机构相继开始研发基于
非特定 人 的语 音识 别 芯 片 。20 美 国 T 公 司 开 00年 I 发 出 以 T S25x系列 D P为核心 的嵌入 式非 特定 M 304 S 人语音识 别 芯片 , 系 统 英 文 连 续 数字 串的识 别 率 该
为 9 . 3 条英文控制指令 的识别率为9 .%_, 82 4 %, 84 4 ]
( do o Mi ol t ne,l a J o n nvrt,Sa ga 04 , n ) S a ̄ f e e e o i s1 r e r s 啪I i i t gU iesy hn hi 0 20 O ̄ a a o i 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息处理仿真实验语音处理部分

一、 实验目的 按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析所设计系统的特性。熟悉不同模块间如何进行有效的组合,以及模块的设计,重点掌握特征参数的提取和模式识别方法,并对不同的特征参数提取方法和模式匹配方法有大概的了解,知道其不同的优缺点。 二、 实验容 1、 熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计这三个模块的matlab子程序。 2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并测试。

三、 实验原理及设计步骤 1、孤立词语音识别系统:先用端点检测将语音中有用的语音部分提取出来(即将头部和尾部的静音部分除掉),然后提取语音信号的Mel尺度倒谱参数(MFCC),进行动态归整(DTW算法)后与模板库里面的标准语音作比较,具体流程如下:

图3.1孤立词语音识别系统 2、各模块解析 ⑴预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。这里将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点检测以捕捉到数据中的语音信息。 端点检测采用双门限法来检测端点。同时,利用过零率检测清音,用短时能量检测浊音,两者配合。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。 在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。 在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要 两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。 而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信进入语音段了。 一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不能维持足够长的时间,这些可以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回

⑵特征参数提取:常用的语音识别参数有线性预测参数(LPC),线性预测倒谱参数(LPCC)和Mel尺度倒谱参数(MFCC)等。这里提取语音信号的Mel尺度倒谱参数(MFCC),步骤如下:

预加重汉明窗傅立叶变换取模三角滤波函数组取对数

离散余弦变换

语音信号MFCC归一

化导谱提升

计算差分系数并合并

特征参数

图3.2特征参数提取 分析: ①预加重

()()-0.97(1)ynxnxn ②加汉明窗 ()()()wxnynwn ③ FFT 12/0()()NjnkNwwnXkxne



这里直接采用现成的FFT快速算法。 ④对频谱进行三角滤波 程序采用归一化mel滤波器组系数 ⑤计算每个滤波器的输出能量

120()ln()()0NwmkSmXkHkmM





⑥离散余弦变换(DCT)得到MFCC 1()()cos(0.5)/1,2,...,MmCnSmnmMnp

通常协方差矩阵一般取对角阵,三角滤波器组的对数能量输出之间存在着很大的相关,采用 DCT 这种正交变换可以去除参数之间的相关性,从而使后端识别模型采用对角阵具有更高的识别率 ⑦归一化倒谱提升 w = 1 + 6 * sin(u / 12) 1u12w = w/max(w) ⑧计算差分系数并合并mfcc参数和一阶差分mfcc参数 将其作为一个整体,让参数更完备。

⑶模式匹配:有矢量量化技术、DTW、HMM技术、人工神经网络技术。 目前,语音识别的匹配主要应用HMM和DTW两种算法。DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。鉴于此,DTW更适合本系统的要求。 DTW算法原理:该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。如果把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。 DTW算法可以直接按上面的描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。 无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板采用相同形式的MFCC系数、相同的帧长、相同的窗函数和相同的帧移。 假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离 D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法常采用欧氏距离。 四、实验结果及分析 首先通过训练得到词汇表中('盘古';'伏羲';'女娲';'神农')各参考语音的特征序列,直接将这些序列存储为模板。在进行识别时,将待识语音的特征序列依次与各参考语音特征序列进行DTW匹配,最后得到的总失真度最小且小于识别阈值的就认为是识别结果:

正在计算参考模板的参数... ans =68 24 ans =73 24 ans = 65 24 ans = 67 24 正在计算测试模板的参数... ans =50 24 ans =67 24 ans =53 24 ans =50 24 正在进行模板匹配... 正在计算匹配结果... 测试模板 1 的识别结果为:盘古 测试模板 2 的识别结果为:伏羲 测试模板 3 的识别结果为:女娲 测试模板 4 的识别结果为:神农 分析: 从输出的结果看,识别得到了正确的结果,这是由于采用了预加重、归一化导谱提升、加入差分系数。为了进一步验证识别的正确性,看一下匹配距离距阵dist的数据: dist = 1.0e+004 * 2.3121 4.7722 7.2296 4.6276 6.8274 2.8580 9.4980 7.1958 7.2506 6.6624 2.4080 5.3798 3.9750 4.7198 4.7717 3.6102 距离距阵的对角线上是正确匹配模板的对应分数,可见对角线上的4个数值都是在本行中最小的,由此验证了识别结果的正确性。 但由于需要对大量路径及这些路径中的所有节点进行匹配计算,导致计算量极大,随着词汇量的增大其识别过程甚至将达到难以接受的程度,因此无法直接应用于大、中词汇量识别系统。 五、实验体会与思考 这次实验,我所做的工作主要是设计并实现各模块的合理组合。虽然在学习课程中已经对MATLAB有过一定的理论学习,但是要读懂MATLAB的程序还需要找相关的书来看,通过这次实践,对matlab的语法与应用更加了解,培养了我们独立分析问题和解决问题的能力。 在设计过程中,我通过查阅大量有关资料,与同学交流经验和自学,并向老师请教等方式,使自己学到了不少知识,也经历了不少艰辛,但收获同样巨大。在整个设计中我懂得了许多东西,也培养了我独立工作的能力,树立了对自己工作能力的信心,相信会对今后的学习工作生活有非常重要的影响。而且大大提高了动手的能力,使我充分体会到了在创造过程中探索的艰难和成功时的喜悦。虽然这个设计做的也不太好,但是在设计过程中所学到的东西是这次实验的最大收获和财富,使我终身受益。 要实现这个Dtw与Test的算法,主要是弄懂它的帧匹配距离的由来和累积距离的计算公式。这也是实现本系统最难得一环,经过不断的调试修改,最终实现了算法的要求。 Dtw算法采用动态规划技术,存在一些问题:(1)运算量大。由于要找出最佳匹配点,因此要考虑多种可能的情况.虽然路径限制减少了运算量,但运算量仍然很大,因而使识别速度减慢.这在大词汇量的识别中是一个严重缺点。(2)识别性能过分依赖于端点检测。端点检测的精度随着不同音素而有所不同,有些音素的瑞点检测精度较低。由此影响识别率的提高。(3)没有充分利用语音信号的时序动态信息。 在检测语音信号的端点时,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。如果所取窗长度较小,显然能够比较精确地检测到语音的端点,但会使运算量加大识别速度减慢,同时会把一些短时的脉冲噪音误认为语音,从而产生错误的识别。如果所取窗长较大,可以加快语音处理的速度,会跳过一些短时噪音,但是端点的检测误差增加,对DTW这种端点非常敏感的算法几乎是致命的。窗长取一合适的中间值固然可以减少窗长过短和过长的消极影响,但毋庸置疑也减弱了其积极的一面。

相关文档
最新文档