嵌入式语音识别的前后端处理关键技术研究

第２７卷第２期计算机仿真２０１０年２月文章编号：１００６—９３４８（２０１０）０２—０１９２—０４

嵌入式语音识别的前后端处理关键技术研究

何东之，黄樟钦，侯义斌，丁志浩

（北京工大学软件学院，北京１００１２４）

摘要：在语音识别技术的研究中，语音端点检测和拒识是语音前后端处理的关键技术。在噪声环境下，传统的过零率和短时能量的端点检测效果会变得很差；频域的端点检测方法虽然较时域的端点检测方法鲁棒性更高，但是它需要进行大量的计算不能很好地满足嵌入式系统。针对嵌入式系统的特点，为提高语音识别能力，提出了基于统计理论的孤立词的端点检测算法，在一个相对较长的时问段内语音信号服从正态分布，而噪音信号主要存在于信号均值的一定方差范围之内。方法既满足了嵌入式系统的计算要求，又有一定鲁棒性。

关键词：语音处理；语音识别；拒识；端点检测；支持向量机

中图分类号：１∞９１．４２文献标识码：Ｂ

ＲｅｓｅａｒｃｈｏｎＫｅｙＴｅｃｈｎｏｌｏｇｉｅｓｏｆＦｒｏｎｔ——ｅｎｄａｎｄＢａｃｋ——ｅｎｄ

ｆｏｒＥｍｂｅｄｄｅｄＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ

ＨＥＤｏｎｇ—ｚｈｉ，ＨＵＡＮＧＺｈａｎｇ—ｑｉｎ，ＨＯＵＹｉ—ｂｉｎ，ＤｉＮＧＺｈｉ—ｈａｏ

（ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ，ＢｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１００１２４，Ｃｈｉｎａ）

ＡＢＳＴＲＡＣＴ：Ｓｐｅｅｃｈｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎａｎｄｏｕｔ??ｏｆ——ｖｏｃａｂｕｌａｒｙｒｅｊｅｃｔｉｏｎａｌ＇ｅｔｗｏｉｍｐｏｒｔａｎｔｐａｒｔｓｏｆｔｈｅｗｈｏｌｅａｕｔｏ－ｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｐｒｏｃｅｓｓ．Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｒａｄｉｔｉｏｎａｌｓｐｅｅｃｈｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｓｈｏｒｔ—ｔｅｒｍｅｎ—ｅｒｇｙ

ａｎｄ７沱１＂０一ｃｒｏｓｓｉｎｇｒａｔｅｂｅｃｏｍｅｓｖｅｒｙｐｏｏｒｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｓ，ａｎｄｓｏｍｅｔｉｍｅｓｅｖｅｎｕｎａｂｌｅｔｏｗｏｒｋ．Ｍｅｔｈｏｄｓｂａｓｅｄｏｎｆｒｅｑｕｅｎｃｙ—ｄｏｍａｉｎｎｅｅｄｃｏｍｐｌｅｘｃｏｍｐｕｔｉｎｇ，ａｎｄｉｔｃａｎｎｏｔｍｅｅｔｅｍｂｅｄｄｅｄｓｙｓｔｅｍｓｗｅｌｌ．Ｉｎｔｈｉｓｐａｐｅｒａｎｅｗｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｉｓｐｒｅｓｅｎｔｅｄ．ｗｈｉｃｈｉｓｂａｓｅｄｏｎｓｔａｔｉｓｔｉｃａｌｔｈｅｏｒｙｆｏｒ

ｉｓｏｌａｔｅｄ—ｗｏｒｄ．Ｉｎｏｒｄｅｒｔｏｄｉｓ—

ｔｉｎｇｕｉｓｈｓｐｅｅｃｈａｎｄｎｏｉｓｅ，ｓｐｅｅｃｈｓｉｇｎａｌｓ８ｒｅｌｏｏｋｅｄ鹊ｓｕｂｍｉｔｔｉｎｇｔｏｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎｉｎａｒｅｌａｔｉｖｅ

ｌｏｎｇｄｕｒａｔｉｏｎ，

ａｎｄｎｏｉｓｅｓｉｇｎａｌｓｅｘｉｓｔｏｎｌｙｗｉｔｈｉｎ０．６２ｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎ．Ｕｓｉｎｇｔｈｉｓｍｅｔｈｏｄ，ｓｕｃｃｅｓｓｆｕｌｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｉｓｃａｒ－ｒｉｅｄｏｕｔ．

ＫＥＹＷＯＲＤＳ：Ｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇ；Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ；Ｏｕｔ一０ｆ—ｖｏｃａｂｕｌａｒｙｒｅｊｅｃｔｉｏｎ；Ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ；Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ（ＳＶＭ）

１引言

语音识别又称自动语音识别（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉ－ｔｉｏｎ，ＡＳＲ），属于多维模式识别和智能计算机接口的范畴，它研究的根本目的是实现一种具有听觉功能的机器，能直接接受人的口令，理解人的意图并做出相应的反应，即可以用语音的方式与机器顺畅通信与交流…。语音识别技术被认为是本世纪初信息技术领域十大重要技术之一，正逐步成为信息技术中人机接口的关键技术。

近年来随着嵌入式技术的快速提高和应用领域的不断拓展，基于嵌入式系统应用的嵌入式语音识别技术已成为语基金项目：北京市优秀人才培养资助个人项目（２００８１Ｄ０５０１５００１６９）收稿日期：２００９一ｌＯ—１１修回日期：２００９—１１—１８

．．——１９２?－——音识别的一个重要发展方向旧１。具有语音识别功能的嵌入式系统有助于提高人机交互的效率，增强人对智能化设备的控制，具有广阔的市场应用前景，可广泛应用于语音导航、语音拨号、智能家电和玩具的语音控制等领域。

嵌入式语音识别技术不是简单地将通用的语音识别技术应用到嵌入式系统，它受到嵌入式处理器的处理能力、存储资源、应用环境及成本等方面的严格限制和制约，需要对语音识别算法、语音特征参数和噪声处理等方面做出改进或提出新的方法。目前，应用到嵌入式系统的语音识别算法通常是基于模板匹配的识别算法，相对成熟稳定，而语音识别系统的前后端处理成为影响系统识别效果的关键因素。语音的端点检测是语音识别前端处理过程中的关键技术。准确的语音端点检测不仅提高了，系统的处理效率同时也能够

万方数据