基于神经网络的语音识别研究

基于神经网络的语音识别研究
基于神经网络的语音识别研究

中国传媒大学2011-2012 学年第3学期数字语音技术课程

题目基于神经网络的语音识别研究

学生姓名秦越

学号200910013126

班级电子信息工程3班

学生所属学院信息工程学院

任课教师戴志强

教师所属学院信息工程学院

成绩

摘要:本文主要提出了一种基于双权值神经网络的非特定人连续语音识别的新算法。这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别。

关键词:双权值神经网络连续语音语音识别

概述

语音是人类交流和交换信息中最便捷的工具和最重要的媒体。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点。

语音识别系统可以依照语音识别的单元及语音识别系统是否依赖特定人而分成以下四类:

(1) 特定人,孤立词语音识别;

(2) 非特定人,孤立词语音识别;

(3) 特定人,连续语音识别;

(4) 非特定人,连续语音识别。

可以看出,这四类系统的难度是依次增加的。在语音识别系统的性能中,语音识别的正确率以及字表大小和内容是主要的,此外还有系统对发音的要求高低、系统的抗噪声能力、训练量的大小等等。目前常用的语音识别算法有动态时间规整法(DTW)、隐马尔可夫模型(HMM)和人工神经网络(ANN)等,其中基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。然而,HMM语音识别模

型也存在一些严重的缺陷,如:鲁棒性不够理想,抗噪音的能力比较弱以及需要大量的训练样本等等。另外,由于连续语音识别技术存在单词切分困难的特点,而单词切分错误又直接影响到语音识别的识别率。基于以上连续语音识别技术的难点,本文从双权值神经网络的结构出发,提出了一种基于双权值神经网络的非特定人连续语音识别的新算法。这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,得到了较为满意的识别结果

1 双权值神经网络的结构

双权值神经元模型的结构图如图 1所示。双权值神经元的典型的特点就是它不仅有相当于前馈网络中的方向权值 w ,而且还有相对于RBF 径向基函数网络中的核心权值 z 。这样的双权值神经元是一个具有良好的局部反应性质、 各向异性的高阶神经元。

图1 双权值神经元模型 双权值神经元的基本算式为:0()[|()|]|()|s

M j j j p j j j f j j j W X W Y f W X W W X W θ=??'-'=-- ? ?'-??∑ 其中 Y 为神经元的输出, f 为神经元激励函数,θ为神经元的阈值, j W 为由第 j 个输入端接至神经元的方向权值, j W '为由第 j 个输入端接

至神经元的核心权值, j X 为第 j 个输入端 (正值) ,M 为输入空间维数,

S 为决定单项正负号方法的参数, S = 0时单项符号永为正,S =1时单项的符号与 Wj 的符号相同, P 为幂参数。

这种网络模型是一种通用的神经元网络模型 ,传统的通用前馈网络和径向基函数 (RBF)网络都是它的一种特例。如果核心权值W '全为 0, S = 1,p = 1,则 2 - 12式就是一个经典的神经元数学模型;如果核心权值W '全为 1, S = 0, p = 2,则 y 是一个径向基函数 (RBF)网络

的神经元。

2 构造双权值神经网络的学习算法

步骤 1: 设某类问候语单字所有的样本点集合为α= {1A ,

2A , …, N A } ,N 为样本点总数。

计算出这些点两两之间的距离 ,找到距离最小的两个点 ,记为1B 、2B ,计算其它点到这两点的距离和 ,将

距离和最小 ,且与11B 、12B 不共线的点记作13B 点 ,这样构成第一个平面

三角形111213B B B ,记作1θ ,用一个双权值神经元来覆盖 ,其覆盖范围为:

{}

()()[][]{}111211*********|h,;|[1]1,0,1,0,1n X P X T X R Y Y a a B a B a B a a θρθ=≤∈==+-+-∈∈

其中1

X θρ表示点 X 到空间1θ的距离。 步骤 2:对于前一个已构造好的几何形体 P1 ,判断剩余点是否被该形体包含,若在形体覆盖范围内,则排除该点。对于在形体之外的样本点,按照第 1步的方法,找出离111213B B B 三点距离和最小的点21B ,将111213B B B 三点中离21B 最近的两个点记作2223B B , 22B 与 构成第二个平

面三角形 ,记作θ, 111213B B B 三点中离21B 最近的两个点记作2223B B , 22B 23B 与21B 构成第二个平面三角形212223B B B ,记作2θ ,同样用一个双权

值神经元来覆盖,其覆盖范围为:

{}

()()[][]{}222212112222312|h,;|[1]1,0,1,0,1n X P X T X R Y Y a a B a B a B a a θρθ=≤∈==+-+-∈∈其中2X θρ表示点 X 到空间2θ的距离。

步骤 3: 在剩余点中排除包含在前面 ( i - 1)个双权值神经元覆盖体积内的样本点 ,在覆盖体积外的样本点中 ,找出离前面第 i - 1个三角形的顶点的距离和最近的点记作1i B ,同离其最近的第 i - 1个三角

形的两个顶点记作23i i B B ,构成第 i 个平面三角形123i i i B B B ,记作3θ ,同样用一个双权值神经元来覆盖 ,其覆盖范围为:

{}()()[][]{}23211122312|h,;

4|[1]1,0,1,0,1n i X i i i P X T X R Y Y a a B a B a B a a θρθ=≤∈==+-+-∈∈

步骤 4: 重复步骤 (3) ,直到处理完所有的样本点。最终共产生 m 个双权值神经元 ,每一类问候语单字的覆盖面积是这些神经元覆盖面积的并集:1m

i i P P == ,在识别时 ,取 Th = 0, pS i3神经元的表达式为

()123,,||||W W W X ρθ=-。神经元的输出ρ是点 X 到有限区域()123

,,W W W θ的距离 ,距离的计算采用的是近似算法。

待识样本 X 到第 i 类问候语单字的高维空间点覆盖神经网络覆

盖区的距离为1min ,1,...,11i

M i ij j i ρρ===其中 Mi 为第 i 类问候语单字的高维空间点覆盖神经网络的 pS i3神经元的个数。ρ ij 为待识样本待识样本 X 到第 i 类问候语单字的高维空间点覆盖神经网络中第 j 个神经元覆盖区域的距离。

将离开待识样本 X 距离最小的那一类问候语单字的高维空间点覆盖双权值神经元所属类别,作为待识样本 X 的所属问候语单字类别,

判别方法为:1min ,1,...,11i

M i ij j i ρρ=== 3 实验及分析

在问候语连续语音识别中 ,将待识别的问候语连续语音所提取的长度不等的特征向量 ( 128维 ×n)作为高维空间的 n 个点 ,求出这 n 个点中依次各点到每一类覆盖区的距离 ,然后找出每一点到各类覆盖区的最短距离 ,把最短距离所对应的那一类作为该点所属类别,最

短距离是随时间变化的曲线,取最小的几个极小值点对应的问候语单字类别作为最终识别结果。

下面以“ni hao zao shang hao ”的连续语音串为例( n = 113) ,图1为这n个点到18类问候语中的1类覆盖区的距离,横坐标为时间轴( n个点) ,纵坐标为各点( n个点)到各类高维空间点覆盖区的距离。

图2 “ni hao zao shang hao”到“shang ”的覆盖范围的距离

图3 连续语音到各类高维空间点覆盖区的最短距离

图2为离开“shang”覆盖范围的距离随时间的变化曲线,图中有1个极小点,它的距离值在50到100之间。通过这种方法找到这n个点到18类问候语中的每一类覆盖区的最小距离。由于最短距离是随时间变化的曲线,取最小的几个极小值点对应的问候语单字类别作为最终识别结果。图3就是连续语音“ni hao zao shang hao”到各类高维空间点覆盖区的最短距离。

据统计我们的识别系统最终达到字错误率为15.38% ,字正确率为84.62%。由于问候语语句受语法的限制程度较强,对于问候语语句的识别我们采用了关键字识别的方法,即在一个问候语语句中只要识别出它的关键字,我们就认为它识别出了这个句子。在我们的识别系统中,问候语语句的句识别正确率为93.50%。

4结论

由于连续语音的分割困难,而它又直接影响到语音识别的识别率,有实验考证如果将在前期的分割错误加以纠正,则系统的字错误率至少可以降低11.7%。因此可以说以外的系统对连续语音的识别率不高在很大程度上与连续语音端点检测的准确率不高密切相关。因此本文一改传统语音识别先切分后识别的模式,采用了动态搜索的算法,实现了不用切分的连续语音识别。本文从双权值复杂的几何形体出发,给出了双权值神经网络的学习算法在语音中的算法,今后希望能够应用的大词汇语音识别中去。

参考文献:

1张利平.汉语连续语音识别系统的研究与实现.西北大学硕士学位论文,2010

2张晓俊,基于听觉特性和神经网络的汉语数字语音识别研究.苏州大学硕士学位论文,2007

3徐霄鹏,吴及,刘庆升,黄文浩,中国科学技术大学精密仪器系,孤立词语音识别算法性能研究与改进。2007

4郭业晓,山东大学,硕士学位论文。基于RBF神经网络的语音识别方法的应用,2003

5邹超君,邓秋香等。基于HMM与神经网络的语音识别技术研究,2007.

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

人工神经网络原理及实际应用

人工神经网络原理及实际应用 摘要:本文就主要讲述一下神经网络的基本原理,特别是BP神经网络原理,以及它在实际工程中的应用。 关键词:神经网络、BP算法、鲁棒自适应控制、Smith-PID 本世纪初,科学家们就一直探究大脑构筑函数和思维运行机理。特别是近二十年来。对大脑有关的感觉器官的仿生做了不少工作,人脑含有数亿个神经元,并以特殊的复杂形式组成在一起,它能够在“计算"某些问题(如难以用数学描述或非确定性问题等)时,比目前最快的计算机还要快许多倍。大脑的信号传导速度要比电子元件的信号传导要慢百万倍,然而,大脑的信息处理速度比电子元件的处理速度快许多倍,因此科学家推测大脑的信息处理方式和思维方式是非常复杂的,是一个复杂并行信息处理系统。1943年Macullocu和Pitts融合了生物物理学和数学提出了第一个神经元模型。从这以后,人工神经网络经历了发展,停滞,再发展的过程,时至今日发展正走向成熟,在广泛领域得到了令人鼓舞的应用成果。本文就主要讲述一下神经网络的原理,特别是BP神经网络原理,以及它在实际中的应用。 1.神经网络的基本原理 因为人工神经网络是模拟人和动物的神经网络的某种结构和功能的模拟,所以要了解神经网络的工作原理,所以我们首先要了解生物神经元。其结构如下图所示: 从上图可看出生物神经元它包括,细胞体:由细胞核、细胞质与细胞膜组成;

轴突:是从细胞体向外伸出的细长部分,也就是神经纤维。轴突是神经细胞的输出端,通过它向外传出神经冲动;树突:是细胞体向外伸出的许多较短的树枝状分支。它们是细胞的输入端,接受来自其它神经元的冲动;突触:神经元之间相互连接的地方,既是神经末梢与树突相接触的交界面。 对于从同一树突先后传入的神经冲动,以及同一时间从不同树突输入的神经冲动,神经细胞均可加以综合处理,处理的结果可使细胞膜电位升高;当膜电位升高到一阀值(约40mV),细胞进入兴奋状态,产生神经冲动,并由轴突输出神经冲动;当输入的冲动减小,综合处理的结果使膜电位下降,当下降到阀值时。细胞进入抑制状态,此时无神经冲动输出。“兴奋”和“抑制”,神经细胞必呈其一。 突触界面具有脉冲/电位信号转换功能,即类似于D/A转换功能。沿轴突和树突传递的是等幅、恒宽、编码的离散电脉冲信号。细胞中膜电位是连续的模拟量。 神经冲动信号的传导速度在1~150m/s之间,随纤维的粗细,髓鞘的有无而不同。 神经细胞的重要特点是具有学习功能并有遗忘和疲劳效应。总之,随着对生物神经元的深入研究,揭示出神经元不是简单的双稳逻辑元件而是微型生物信息处理机制和控制机。 而神经网络的基本原理也就是对生物神经元进行尽可能的模拟,当然,以目前的理论水平,制造水平,和应用水平,还与人脑神经网络的有着很大的差别,它只是对人脑神经网络有选择的,单一的,简化的构造和性能模拟,从而形成了不同功能的,多种类型的,不同层次的神经网络模型。 2.BP神经网络 目前,再这一基本原理上已发展了几十种神经网络,例如Hopficld模型,Feldmann等的连接型网络模型,Hinton等的玻尔茨曼机模型,以及Rumelhart 等的多层感知机模型和Kohonen的自组织网络模型等等。在这众多神经网络模型中,应用最广泛的是多层感知机神经网络。 这里我们重点的讲述一下BP神经网络。多层感知机神经网络的研究始于50年代,但一直进展不大。直到1985年,Rumelhart等人提出了误差反向传递学习算法(即BP算),实现了Minsky的多层网络设想,其网络模型如下图所示。它可以分为输入层,影层(也叫中间层),和输出层,其中中间层可以是一层,也可以多层,看实际情况而定。

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

基于BP神经网络的语音识别技术

海事大学 神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间:

目录 一.绪论 (3) 1.1 研究背景及意义 (3) 1.2 语音识别的国外研究现状 (3) 1.3研究容 (4) 二.语音识别技术 (5) 2.1语音信号 (5) 2.2语音信号的数学模型 (5) 2.3 语音识别系统结构 (6) 2.4 语音信号预处理 (7) 2.4.1 语音信号的采样 (8) 2.4.2语音信号的分帧 (8) 2.4.3语音信号的预加重 (9) 2.4.4 基于短时能量和过零率的端点检测 (9) 2.5 特征参数提取 (12) 三.基于BP神经网络语音识别算法实现 (14) 3.1 BP神经网络原理 (14) 3.2 输入层神经元个数的确定 (14) 3.3网络隐含层数的确定 (15) 3.4隐含层神经元个数的确定 (15) 3.5 BP神经网络构造 (15) 3.6 BP神经网络的训练 (16) 3.6.1训练样本集合和目标值集合 (16) 3.6.2 网络训练 (16) 3.7网络训练 (17) 3.8 语音的识别结果 (18) 四.总结 (19) 参考文献 (20) 附录 (21)

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的容,

人工神经网络的发展及应用

人工神经网络的发展与应用 神经网络发展 启蒙时期 启蒙时期开始于1980年美国著名心理学家W.James关于人脑结构与功能的研究,结束于1969年Minsky和Pape~发表的《感知器》(Perceptron)一书。早在1943年,心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型(即M—P模型),该模型把神经细胞的动作描述为:1神经元的活动表现为兴奋或抑制的二值变化;2任何兴奋性突触有输入激励后,使神经元兴奋与神经元先前的动作状态无关;3任何抑制性突触有输入激励后,使神经元抑制;4突触的值不随时间改变;5突触从感知输入到传送出一个输出脉冲的延迟时问是0.5ms。可见,M—P模型是用逻辑的数学工具研究客观世界的事件在形式神经网络中的表述。现在来看M—P 模型尽管过于简单,而且其观点也并非完全正确,但是其理论有一定的贡献。因此,M—P模型被认为开创了神经科学理论研究的新时代。1949年,心理学家D.0.Hebb 提出了神经元之间突触联系强度可变的假设,并据此提出神经元的学习规则——Hebb规则,为神经网络的学习算法奠定了基础。1957年,计算机学家FrankRosenblatt提出了一种具有三层网络特性的神经网络结构,称为“感知器”(Perceptron),它是由阈值性神经元组成,试图模拟动物和人脑的感知学习能力,Rosenblatt认为信息被包含在相互连接或联合之中,而不是反映在拓扑结构的表示法中;另外,对于如何存储影响认知和行为的信息问题,他认为,存储的信息在神经网络系统内开始形成新的连接或传递链路后,新 的刺激将会通过这些新建立的链路自动地激活适当的响应部分,而不是要求任何识别或坚定他们的过程。1962年Widrow提出了自适应线性元件(Ada—line),它是连续取值的线性网络,主要用于自适应信号处理和自适应控制。 低潮期 人工智能的创始人之一Minkey和pape~经过数年研究,对以感知器为代表的网络系统的功能及其局限性从数学上做了深入的研究,于1969年出版了很有影响的《Perceptron)一书,该书提出了感知器不可能实现复杂的逻辑函数,这对当时的人工神经网络研究产生了极大的负面影响,从而使神经网络研究处于低潮时期。引起低潮的更重要的原因是:20世纪7O年代以来集成电路和微电子技术的迅猛发展,使传统的冯·诺伊曼型计算机进入发展的全盛时期,因此暂时掩盖了发展新型计算机和寻求新的神经网络的必要性和迫切性。但是在此时期,波士顿大学的S.Grossberg教授和赫尔辛基大学的Koho—nen教授,仍致力于神经网络的研究,分别提出了自适应共振理论(Adaptive Resonance Theory)和自组织特征映射模型(SOM)。以上开创性的研究成果和工作虽然未能引起当时人们的普遍重视,但其科学价值却不可磨灭,它们为神经网络的进一步发展奠定了基础。 复兴时期 20世纪80年代以来,由于以逻辑推理为基础的人工智能理论和冯·诺伊曼型计算机在处理诸如视觉、听觉、联想记忆等智能信息处理问题上受到挫折,促使人们

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.360docs.net/doc/ca18245029.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

神经网络在语音识别上应用

Harbin Institute of Technology 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性x(n)频谱,变换公式: X (k ) 0n,k N-1 X (k )=∑N ?1n =0x(n)e ?j2πk n ≤≤(3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为f mel =2595log (1+f hz 700) (4)求对数能量。为了使计算结果对噪声和谱估计噪声有更好的鲁棒性,一般将上述经过Mel 频谱取对数能量。则由线性频谱得到对数频谱的总的X(k)S(m)传递函数为:

人工神经网络的发展及应用

人工神经网络的发展及应用 西安邮电学院电信系樊宏西北电力设计院王勇日期:2005 1-21 1 人工神经网络的发展 1.1 人工神经网络基本理论 1.1.1 神经生物学基础生物神经系统可以简略地认为是以神经元为信号的处理单元,通过广泛的突触联系形成的信息处理集团,其物质结构基础和功能单元是脑神经细胞,即神经元(neuron) 。 (1)神经元具有信号的输人、整合、输出三种主要功能作用行为,结构如图1 所示: (2)突触是整个神经系统各单元间信号传递驿站,它构成各神经元之间广泛的联接。 (3)大脑皮质的神经元联接模式是生物体的遗传性与突触联接强度可塑性相互作用的产物,其变化是先天遗传信息确定的总框架下有限的自组织过程。 1.1.2 建模方法神经元的数量早在胎儿时期就已固定,后天的脑生长主要是指树突和轴突从神经细胞体中长出并形成突触联系,这就是一般人工神经网络建模方法的生物学依据。人脑建模一般可有两种方法:①神经生物学模型方法,即根据微观神经生物学知识的积累,把脑神经系统的结构及机理逐步解释清楚,在此基础上建立脑功能模型;②神 经计算模型方法,即首先建立粗略近似的数学模型并研究该模型的动力学特性,然后冉与真实对象作比较(仿真处理方法)。1.1.3 概

念人工神经网络用物理町实现系统采模仿人脑神经系统的结构和功能,是一门新兴的前沿交义学科,其概念以T.Kohonen.Pr 的论述 最具代表性:人工神经网络就是由简单的处理单元(通常为适应性神经元,模型见图2)组成的并行互联网络,它的组织能够模拟生物神 经系统对真实世界物体所作出的交互反应。 1.2 人工神经网络的发展 人工神经网络的研究始于40 年代初。半个世纪以来,经历了兴起、高潮与萧条、高潮及稳步发展的较为曲折的道路。1943 年,心理学家W.S.Mcculloch 和数理逻辑学家W.Pitts 提出了M—P 模型, 这是第一个用数理语言描述脑的信息处理过程的模型,虽然神经元的功能比较弱,但它为以后的研究工作提供了依据。1949 年,心理学家D. O. Hebb提出突触联系可变的假设,根据这一假设提出的学习规律为神经网络的学习算法奠定了基础。1957 年,计算机科学家Rosenblatt 提出了著名的感知机模型,它的模型包含了现代计算机的一些原理,是第一个完整的人工神经网络。1969 年,美国著名人工智能学者M.Minsky 和S.Papert 编写了影响很大的Perceptron 一书,从理论上证明单层感知机的能力有限,诸如不能解决异或问题,而且他们推测多层网络的感知能也不过如此,在这之后近10 年,神经网络研究进入了一个缓慢发展的萧条期。美国生物物理学家J.J.Hopfield 于1982年、1984 年在美国科学院院刊发表的两篇文章,有力地推动了神经网络的研究,引起了研究神经网络的

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

人工神经网络题库

人工神经网络 系别:计算机工程系 班级: 1120543 班 学号: 13 号 姓名: 日期:2014年10月23日

人工神经网络 摘要:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成,由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。 关键词:神经元;神经网络;人工神经网络;智能; 引言 人工神经网络的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method )得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。 一、人工神经网络的基本原理 1-1神经细胞以及人工神经元的组成 神经系统的基本构造单元是神经细胞,也称神经元。它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突。树突的作用是向四方收集由其他神经细胞传来的信息,轴突的功能是传出从细胞体送来的信息。每个神经细胞所产生和传递的基本信息是兴奋或抑制。在两个神经细胞之间的相互接触点称为突触。简单神经元网络及其简化结构如图2-2所示。 从信息的传递过程来看,一个神经细胞的树突,在突触处从其他神经细胞接受信号。 这些信号可能是兴奋性的,也可能是抑制性的。所有树突接受到的信号都传到细胞体进行综合处理,如果在一个时间间隔内,某一细胞接受到的兴奋性信号量足够大,以致于使该细胞被激活,而产生一个脉冲信号。这个信号将沿着该细胞的轴突传送出去,并通过突触传给其他神经细胞.神经细胞通过突触的联接形成神经网络。 图1-1简单神经元网络及其简化结构图 (1)细胞体 (2)树突 (3)轴突 (4)突触

基于BP神经网络的语音识别技术

上海海事大学神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间: 目录

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 语音识别的国内外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语

人工神经网络及其应用实例_毕业论文

人工神经网络及其应用实例人工神经网络是在现代神经科学研究成果基础上提出的一种抽 象数学模型,它以某种简化、抽象和模拟的方式,反映了大脑功能的 若干基本特征,但并非其逼真的描写。 人工神经网络可概括定义为:由大量简单元件广泛互连而成的复 杂网络系统。所谓简单元件,即人工神经元,是指它可用电子元件、 光学元件等模拟,仅起简单的输入输出变换y = σ (x)的作用。下图是 3 中常用的元件类型: 线性元件:y = 0.3x,可用线性代数法分析,但是功能有限,现在已不太常用。 2 1.5 1 0.5 -0.5 -1 -1.5 -2 -6 -4 -2 0 2 4 6 连续型非线性元件:y = tanh(x),便于解析性计算及器件模拟,是当前研究的主要元件之一。

离散型非线性元件: y = ? 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6 ?1, x ≥ 0 ?-1, x < 0 ,便于理论分析及阈值逻辑器件 实现,也是当前研究的主要元件之一。 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6

每一神经元有许多输入、输出键,各神经元之间以连接键(又称 突触)相连,它决定神经元之间的连接强度(突触强度)和性质(兴 奋或抑制),即决定神经元间相互作用的强弱和正负,共有三种类型: 兴奋型连接、抑制型连接、无连接。这样,N个神经元(一般N很大)构成一个相互影响的复杂网络系统,通过调整网络参数,可使人工神 经网络具有所需要的特定功能,即学习、训练或自组织过程。一个简 单的人工神经网络结构图如下所示: 上图中,左侧为输入层(输入层的神经元个数由输入的维度决定),右侧为输出层(输出层的神经元个数由输出的维度决定),输入层与 输出层之间即为隐层。 输入层节点上的神经元接收外部环境的输入模式,并由它传递给 相连隐层上的各个神经元。隐层是神经元网络的内部处理层,这些神 经元在网络内部构成中间层,不直接与外部输入、输出打交道。人工 神经网络所具有的模式变换能力主要体现在隐层的神经元上。输出层 用于产生神经网络的输出模式。 多层神经网络结构中有代表性的有前向网络(BP网络)模型、

神经网络在语音识别上的应用

H a r b i n I n s t i t u t e o f T e c h n o l o g y 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号 后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性频谱,变换公式: 0n,k N-1 (3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

基于BP神经网络的语音识别技术

上海海事大学 神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间:

目录 一.绪论 (3) 1.1 研究背景及意义 (3) 1.2 语音识别的国内外研究现状 (3) 1.3研究内容 (4) 二.语音识别技术 (5) 2.1语音信号 (5) 2.2语音信号的数学模型 (5) 2.3语音识别系统结构 (6) 2.4语音信号预处理 (7) 2.4.1 语音信号的采样 (8) 2.4.2语音信号的分帧 (8) 2.4.3语音信号的预加重 (9) 2.4.4 基于短时能量和过零率的端点检测 (9) 2.5 特征参数提取 (13) 三.基于BP神经网络语音识别算法实现 (16) 3.1 BP神经网络原理 (16) 3.2 输入层神经元个数的确定 (16) 3.3网络隐含层数的确定 (17) 3.4隐含层神经元个数的确定 (17) 3.5 BP神经网络构造 (17) 3.6 BP神经网络的训练 (18) 3.6.1训练样本集合和目标值集合 (18) 3.6.2 网络训练 (18) 3.7网络训练 (19) 3.8 语音的识别结果 (20) 四.总结 (21) 参考文献 (22) 附录 (23)

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国内外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,

人工神经网络概述及其在分类中的应用举例

人工神经网络概述及其在分类中的应用举例 人工神经网络(ARTIFICIAL NEURAL NETWORK,简称ANN)是目前国际上一门发展迅速的前沿交叉学科。为了模拟大脑的基本特性,在现代神经科学研究的基础上,人们提出来人工神经网络的模型。人工神经网络是在对人脑组织结构和运行机智的认识理解基础之上模拟其结构和智能行为的一种工程系统。 神经网络在2个方面与人脑相似: (1) 人工神经网络获取的知识是从外界环境中学习得来的。 (2) 互连神经元的连接强度,即突触权值,用于存储获取的信息。他既是高度非线性动力学系统,又是自适应组织系统,可用来描述认知、决策及控制的智能行为。神经网络理论是巨量信息并行处理和大规模并行计算的基础。 一人工神经网络的基本特征 1、并行分布处理:人工神经网络具有高度的并行结构和并行处理能力。这特别适于实时控制和动态控制。各组成部分同时参与运算,单个神经元的运算速度不高,但总体的处理速度极快。 2、非线性映射:人工神经网络具有固有的非线性特性,这源于其近似任意非线性映射(变换)能力。只有当神经元对所有输入信号的综合处理结果超过某一门限值后才输出一个信号。因此人工神经网络是一

种具有高度非线性的超大规模连续时间动力学系统。 3、信息处理和信息存储合的集成:在神经网络中,知识与信息都等势分布贮存于网络内的各神经元,他分散地表示和存储于整个网络内的各神经元及其连线上,表现为神经元之间分布式的物理联系。作为神经元间连接键的突触,既是信号转换站,又是信息存储器。每个神经元及其连线只表示一部分信息,而不是一个完整具体概念。信息处理的结果反映在突触连接强度的变化上,神经网络只要求部分条件,甚至有节点断裂也不影响信息的完整性,具有鲁棒性和容错性。 4、具有联想存储功能:人的大脑是具有联想功能的。比如有人和你提起内蒙古,你就会联想起蓝天、白云和大草原。用人工神经网络的反馈网络就可以实现这种联想。神经网络能接受和处理模拟的、混沌的、模糊的和随机的信息。在处理自然语言理解、图像模式识别、景物理解、不完整信息的处理、智能机器人控制等方面具有优势。 5、具有自组织自学习能力:人工神经网络可以根据外界环境输入信息,改变突触连接强度,重新安排神经元的相互关系,从而达到自适应于环境变化的目的。 6、软件硬件的实现:人工神经网络不仅能够通过硬件而且可借助软件实现并行处理。近年来,一些超大规模集成电路的硬件实现已经问世,而且可从市场上购到,这使得神经网络具有快速和大规模处理能力的实现网络。许多软件都有提供了人工神经网络的工具箱(或软件包)如Matlab、Scilab、R、SAS等。 二人工神经网络的基本数学模型

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。自此,我国语音识别技术进入了一个新的发展阶段。 自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

神经网络在语音识别中的应用

Information Technology ? 信息技术Electronic Technology & Software Engineering 电子技术与软件工程? 249【关键词】智能终端 神经网络 语音识别 语音特征 现阶段智能终端与用户之间的人机交互方式仍然是触屏、键盘或鼠标,传统操作式的人机交互已经无法满足信息时代对信息快速交互的需求,创新式语音交互技术不仅提高了人机交互效率,而且属于人类所习惯的交互方式。语音交互的核心技术为语音识别技术,语音识别技术优劣直接决定了语音交互方式是否可用。截止目前,关于语音识别技术的研究已有数十载,基于英语的语音识别技术的准确率已接近98%,而基于汉语的语音识别技术的准确率却相对较低,主要是由于汉语的复杂度相对应用更广,同音字较多且发音较短致使语音识别精度降低。神经网络凭借其神经网络拓扑结构在识别方面具有更好的识别效果,基于此,本文对神经网络在语音识别的应用展开了研究。 1 语音识别系统研究 语音识别系统是通过对语音信号进行分析,与词汇语音进行匹配处理,使得计算机能理解语音信号所传递的信息。经典的语音识别系统结构主要包括信号预处理、特征提取、数据训练、匹配计算、识别判决。 通过对语音识别系统的结构进行分析可知,可将其划分为三个模块,信号预处理模块、语音特征提取模块、训练与识别模块。神经网络在语音识别中的应用 文/冀瑞国 (1)信号预处理处于系统的前端,语音 信号的预处理将便于语音的特征提取,主要包括采样滤波、预加权、信号分帧、端点检测。其中本文的采样滤波的频率为8KHz ,并选择预加权方式对高频阶段的语音进行加权处理,从而有效地提高其信噪比。在信号分帧方面,本文所采纳的时间段为20ms ,并通过端点检测方法实现词汇信号与噪声信号的分割,从而完成语音信号的预处理。(2)语音特征提取模块主要是为语音数据训练与识别提供分析数据,所以语音特征的合理选择不仅能提升识别模型的训练效率,而且能有效提高模型的识别精度。本文基于特征独立性、信号有效表征和精简计算的原则选择的语音特征主要包括线性预测系数(LPC )、线性预测倒谱系数(LPCC )、美儿频率倒谱系数(MFCC )、改进的混合MFCC 。(3)训练与识别模块作为语音识别系统的核心,主要是对特征进行分析得到信号归属词汇。目前常用的识别模型主要有神经网络、支持向量机、深度学习和人工智能,支持向量机的识别精度相对较低,深度学习与人工智能需要大量的训练样本且实时性较差。由于语音识别对识别精度和实时性要求较高,因此本文选择神经网络作为语音识别模型。2 神经网络应用于语音识别神经网络由输入层、隐层和输出层构成,网络基本单元为神经元,输入层的神经元为所提取的语音信号特征,隐层的神经元通过样本训练构建,输出层的神经元为语音识别词汇。通过对神经网络的结构分析可知,神经网络具有很强的非线性映射能力、泛化能力和容错能力。神经网络进行语音识别之前需要对模型进行科学的训练,神经网络的训练流程如图1所示,首先需要准备大量词汇的语音特征,对词汇进行编号,然后将准备的语音特征作为模型训练的输入,将特征对应的词汇编号作为参考数据,最后检查模型训练的输出数据与参考数据之间的误差,当两者之间的数据误差低于所设置的阈值时停止训练,保存隐层神经元的阈值,以及各个神经元之间的链接权值,从而实现神经网络模型的建立。语音识别系统首先对语音信号的进行采样滤波、预加权、信号分帧、端点检测操作;其次提取预处理数据的LPC 、LPCC 、MFCC 、改进MFCC 值;最后训练构建的神经网络模型根据语音信号特征识别语音所对应的词汇,至此实现语音信号的识别。3 结论本文先对语音识别系统展开了研究,语音识别系统由信号预处理、语音特征提取、模型训练与识别三个模块构成,并分析了神经网络相对于支持向量机、深度学习和人工智能的优势,基于此设计了一套基于神经网络的语音识别系统。识别系统首先借助大量词汇的语音特征完成识别模型的训练,再利用训练合格的语音识别模型对从预处理数据中提取的LPC 、LPCC 、MFCC 、改进MFCC 的语音信号特征进行语音识别。参考文献[1]吴进,张青等.一种改进的孤立词语音识别系统设计[J].西安邮电大学学报,2016,21(01):76-80.[2]佘明洪.系统辨识中神经网络应用的初步研究与讨论 [J].科技展望,2016,26(34).[3]金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018(02):200-205.作者简介冀瑞国(1991-),男,山东省聊城市人。大学本科学历。工程师。研究方向为人工智能语音识别。作者单位北京智合大方科技有限公司 北京市 100070 图1:BP 神经网络训练流程

相关文档
最新文档