语音识别方法及发展趋势分析

合集下载

语音识别技术的现状和未来发展趋势

语音识别技术的现状和未来发展趋势

语音识别技术的现状和未来发展趋势在这个信息化和智能化的时代,语音识别技术成为了一个备受关注的话题。

无论是个人用户还是企业用户,都希望能够通过语音识别技术快速高效地完成一些操作,提高生产和工作效率。

那么,语音识别技术的现状是怎样的呢?它存在哪些问题?未来发展的趋势又是什么?一、语音识别技术的现状语音识别技术是利用计算机技术对人类语言进行识别和理解的一种技术。

目前,语音识别技术已经得到了广泛应用,例如智能语音助手、语音输入、智能家居、智能客服等等。

在百度、科大讯飞、阿里云、微软、Google等大型科技公司的带动下,语音识别技术和语音交互技术正在不断得到发展和优化。

目前,语音识别技术的准确率已经达到了较高的水平,但仍然存在着一些挑战和困难。

1. 语音识别准确率不够高目前,语音识别准确率已经达到了较高的水平,但仍然存在着一些问题。

例如,语音信噪比较差时,语音识别准确率会大幅降低;语音识别对于方言和口音的识别准确率也比较低。

这对于一些特定的用户群体而言,会造成不便和影响。

2. 语音识别技术的反应速度和稳定性还需提高当前语音识别技术对于简单的指令和问题的识别已经比较可靠,但是语音识别技术的反应速度和稳定性还需要进一步提高。

有时候,语音识别技术会产生延迟等问题,这对于用户而言会造成不便和影响。

3. 语义理解和对话管理还需加强除了基础的语音识别之外,语义理解和对话管理也是语音交互技术中的两个关键环节。

目前,语音识别技术依然存在着一些误识别和困惑的问题,因此对于语义理解和对话管理的需求也越来越大。

二、未来语音识别技术的发展趋势随着人工智能和大数据技术的不断发展,语音识别技术也在不断地得到发展和提升。

从目前的趋势来看,未来语音识别技术的发展趋势主要有以下几个方向。

1. 语音识别技术将更加智能化和精确化随着深度学习技术的不断发展,未来语音识别技术将更加智能化和精确化。

大型科技公司正在不断优化其语音识别算法,这将为用户提供更好的语音交互体验。

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势语音识别技术作为一项重要的人工智能技术,在现代社会中扮演着越来越重要的角色。

语音识别技术,指通过计算机软件,对人类语言进行模拟和识别,实现计算机与人之间的交流,以及数据的获取、处理和分析等功能。

本文将探讨语音识别技术的现状和发展趋势。

一、语音识别技术的现状语音识别技术的起源可以追溯到1950年代,当时科学家们就开始研究如何将人类语言转化为计算机代码。

随着计算机技术的不断发展,语音识别技术也得到了迅速的发展。

目前,语音识别技术已经在很多领域得到应用,如智能家居、智能手机、智能音箱等。

在智能家居中,语音识别技术可以让家居设备变得更加智能化。

通过语音控制,居民可以轻松地打开灯、调节温度、播放音乐等。

另外,语音识别技术还可以用于智能音箱中,如苹果的Siri、亚马逊的Alexa等。

这些智能音箱和语音助手,可以对用户发出的指令进行自动回答,帮助用户完成各种操作。

二、语音识别技术的发展趋势随着技术的不断进步,语音识别技术已经开始向更多领域拓展。

下面将从以下三个方面展开:1. 声纹识别技术声纹识别技术是指通过分析声音的频率、亮度、响度等特征,获取声音特征码,从而识别出说话人身份的技术。

声纹识别技术的应用领域非常广泛,如安全领域、司法领域等。

2. 情感识别技术情感识别技术是指通过分析人类语言的微表情、声调和语调等特征,识别出人类的情感状态。

这项技术可以用于机器人互动、虚拟客服、市场营销等领域。

3. 智能语音交互技术智能语音交互技术是指通过语音指令,实现非常具体的任务。

这种技术可以应用到人脑计算机接口的开发上,在人的语音输入和电脑的输出之间实现快速传递。

智能语音交互技术可以提高生产效率,在保证准确率的同时降低生产成本。

在未来,随着人工智能技术的不断发展,语音识别技术也将会得到进一步的提升。

未来的语音识别技术,将通过深度学习、大数据分析等手段,提高识别准确率,同时还能够实现多语种、情感分析等更高级的功能。

人工智能语音识别之前沿技术与发展趋势

      人工智能语音识别之前沿技术与发展趋势

人工智能语音识别之前沿技术与发展趋势一、前沿技术人工智能语音识别(Automatic Speech Recognition,ASR)是一门涉及语音识别、音频信号处理、自然语言处理等多学科交叉的科技。

ASR技术从简单的数字识别到语音合成及自然语言交互等领域都发挥着重要作用,在自动化、信息化和智能化领域具有广泛的应用价值。

ASR技术发展经历了漫长的历史,主要经历了以下几个阶段:1.特征提取阶段:早期的语音识别技术主要采用模式匹配来进行语音识别,而最初的模式匹配算法大部分都基于像Mel频率倒谱系数(MFCCs)之类的人工特征,以及动态时间规整(Dynamic Time Warping,DTW)之类的算法。

2.统计模型阶段:随着计算机性能的提高,新的参数建模方法得以应用,如隐马尔可夫模型(Hidden Markov Model,HMM)和贝叶斯网络方法等。

3.深度学习阶段:自20世纪90年代中期以来,深度学习技术发展迅速,为ASR技术带来了一次重大革命。

现今的ASR模型使用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和深度神经网络(Deep Neural Network,DNN)等先进的深度学习架构,提升了语音识别的准确度。

二、发展趋势1.语义理解能力逐渐增强ASR技术的一个关键发展趋势是通过深度学习模型来增强语义理解能力,使得语音识别能够更好地理解自然语言。

语义理解是指将语音转化为意义,而不是简单匹配字词,这对于提高语音识别的准确度和实用性都至关重要。

2.多模态输入分析随着人们生活方式的变化,ASR技术正在逐步向多模态输入分析方向发展。

多模态输入分析指的是从多种语音输入源中获取数据,如语音、图像和视频数据,利用多种特征提取和深度学习模型进行训练,从而提高语音识别的准确度和可靠性。

3.嵌入式应用近年来,物联网技术的迅速发展和终端设备的智能化趋势,催生了嵌入式ASR技术的快速发展。

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势随着科技的不断发展,各种人工智能产品逐渐走进我们的生活中,其中语音识别技术的应用越来越广泛。

这项技术可以将人类的语言转化为计算机可识别的形式,实现人机交互,让我们的生活更便捷、更智能。

本文从语音识别技术的现状、应用场景、技术难点、发展趋势等方面进行探讨。

一、语音识别技术的现状语音识别已经成为商业化产品,在智能家居、智能手机、智能音箱等设备中得到广泛应用。

其中,智能音箱是应用最广泛的一种形式,如亚马逊Echo、谷歌Home、小米AI音箱等。

这些智能音箱的语音识别技术实现了多种功能,如语音搜索、播放音乐、聊天、控制家庭设备等。

此外,语音助手在智能手机、智能手表、智能车辆等领域也得到了广泛应用。

语音助手可以帮助用户完成电话、短信、导航、音乐播放、天气查询等操作,方便了生活。

二、语音识别技术的应用场景语音识别技术的应用场景非常广泛。

除了上述的智能家居、手机、音箱等领域,语音识别还可以应用于医疗、教育、金融、零售、物流等行业。

在医疗领域,语音识别可以用于病历记录、医嘱输入等操作,提高医生的效率。

在教育领域,语音识别可以用于智能教学,让学生更加深入地了解知识。

在金融领域,语音识别可以用于语音支付、客服问题解答等操作,提高金融服务的效率。

在零售领域,语音识别可以用于语音导航、商品介绍等操作,提高顾客的购物体验。

在物流领域,语音识别可以用于指挥货运,提高货物的配送效率。

三、语音识别技术的技术难点尽管语音识别技术已经得到广泛应用,但是其仍面临着一些技术难点。

一是方言和口音问题。

方言和口音是语音识别的难点之一,由于不同地区人口音差异大,语音识别的准确率也会受到影响。

二是多说者语音识别问题。

在多人场景下,语音识别技术需要识别多个说话者的语音,并对话语进行区分,这对语音识别技术的准确率提出了更高的要求。

三是语言模型问题。

语言模型是语音识别中非常重要的一步,它用于判断用户说的话是否符合语言规范。

语音识别技术发展及应用前景分析

语音识别技术发展及应用前景分析

语音识别技术发展及应用前景分析在当今数字化社会中,语音识别技术越来越受到广泛关注。

语音识别技术是指通过电脑等设备,将人所讲的语音信号转化为文本或命令的系统。

它不仅可以改进生产效率,而且也能帮助人们沟通更为自然,简化许多工作流程,并且在许多现代技术设备的应用中扮演着重要角色。

1.语音识别技术发展历程随着计算机技术的飞速发展,语音识别技术也在不断更新和完善。

在过去十年中,语音识别技术得到了极大的改善。

语音识别技术的发展历程可以分为四个阶段:不准确阶段、统计模型阶段、深度学习模型阶段和多模态融合阶段。

(1)不准确阶段这个阶段是第一代语音识别系统的时代。

在20世纪60年代至70年代,人们发明了语音识别机,使用有限的单词识别系统,它们无法应对复杂的交互式对话。

由于数据处理方面的限制,这些系统的识别准确率非常低。

(2)统计模型阶段这个阶段的关键性变革发生在20世纪90年代。

随着计算机容量变大,统计模型开始出现。

通过人工提取的声学特征和概率图模型处理语音信号,识别准确度得到了显著提升。

(3)深度学习模型阶段在21世纪初,深度学习模型的诞生为语音识别领域带来了重大的变革。

相比于传统的机器学习算法,深度学习模型可以更好地处理更为复杂的语音信号。

其中,深度神经网络(Deep Neural Network,DNN)是其中的代表。

(4)多模态融合阶段当前,语音识别技术发展已迈入多模态融合的阶段。

多模态包括图像、语音、实时数据和手势等,这些信息同时传输给计算机,从而让计算机更好地识别用户的意图,改善用户交互体验。

这一阶段的应用,将会带来更多丰富的、直观的、人性化的用户体验。

2.语音识别技术市场分析(1)医疗行业在医疗行业中,语音识别技术有着广泛的运用。

医生们可以用语音输入病历,这使得关键数据的输入更准确,同时节省了宝贵的时间。

而医院管理者则可以用语音识别技术测量医院工作效率,从而发现工作中存在的问题并加以解决。

(2)金融行业在金融行业中,语音识别技术可以帮助认证客户的个人身份,同时检测诈骗行为和进行可靠的客户服务。

语音识别技术的发展与应用

语音识别技术的发展与应用

语音识别技术的发展与应用随着人工智能技术的发展,语音识别技术已经逐渐成为一项热门技术。

语音识别技术,就是指通过计算机系统识别和转换人声为数字信号,进而实现语音命令、语音输入和语音交互等功能。

本文将从语音识别技术的发展历程、应用领域以及未来发展趋势等方面进行探讨。

一、语音识别技术的发展历程语音识别技术的历程可以追溯到20世纪50年代。

那时的语音识别技术还很简单,只能通过分析语音信号的频率等参数进行简单的识别。

直到20世纪70年代,出现了基于隐马尔科夫模型的语音识别模型。

该模型利用语音的音频特征(如共振峰、时长等)和单词的概率分布,实现对语音信号的分析和识别。

此后,随着神经网络、深度学习等技术的不断发展,语音识别技术取得了重大突破。

二、语音识别技术的应用领域语音识别技术已经被广泛应用到生活和工作中。

以下是语音识别技术的主要应用领域:1. 语音助手:市面上出现了苹果的Siri、微软的Cortana、亚马逊的Alexa等语音助手,这些语音助手都是利用语音识别技术实现的。

2. 语音输入:在手机、电脑等设备中,用户可以使用语音输入代替打字。

3. 语音交互:智能家居、智能车载、金融、医疗等领域中,语音交互已经成为一种常见的方式。

4. 语音翻译:语音翻译技术可以实现不同语种之间的实时交流,具有很大的应用潜力。

三、语音识别技术的未来发展趋势未来语音识别技术的发展重点将在以下几方面:1. 强化语音识别的准确度和速度:在深度学习等技术的支持下,语音识别技术已经取得了巨大的提升,未来还需在准确度和速度上下功夫。

2. 拓宽语音识别的应用场景:目前应用场景仍然受到限制,未来语音识别技术需要不断拓宽应用领域,让语音交互变得更加普及。

3. 提升语音识别的多模态融合能力:多模态融合技术可以将不同传感器获取的信息进行整合,产生更加精准的结果,未来语音识别技术需要提升自身的多模态融合能力。

4. 加强语音识别与自然语言处理的结合:语音识别技术终究是以文字的形式输出,与自然语言处理紧密结合,可以进一步提升语音识别的准确度和实用性。

语音识别技术的发展

语音识别技术的发展

语音识别技术的发展语音识别技术是近年来备受关注的一种人工智能技术,它通过对人类语言的理解和转化,实现人机交互的智能化。

随着科技的不断进步,语音识别技术也在不断地发展,本文将探讨语音识别技术的发展历程、现状及未来趋势。

一、发展历程语音识别技术的发展可以追溯到上世纪50年代,当时科学家们开始研究语音信号的处理和分析。

随着计算机技术的发展,到了70年代,基于声学模式的语音识别技术得到了广泛的应用。

然而,由于这种方法依赖于对语音信号的精确测量和建模,其应用范围受到了很大的限制。

进入90年代,随着人工智能和信号处理技术的发展,基于统计的语言模型和隐马尔科夫模型(HMM)的语音识别技术得到了广泛的应用。

这种方法可以通过对语音信号的分析和处理,实现对人类语言的自动识别。

随着技术的不断进步,语音识别技术逐渐从实验室走向了实际应用,如智能家居、智能车载、智能客服等领域。

二、现状目前,语音识别技术已经得到了广泛的应用。

在智能家居领域,语音识别技术可以实现通过语音控制家电设备,如空调、电视、音响等。

在智能车载领域,语音识别技术可以实现通过语音导航、语音播报等功能,提高驾驶安全性。

在智能客服领域,语音识别技术可以实现通过语音识别用户的输入,进而提供个性化的服务。

此外,在医疗、教育、娱乐等领域,语音识别技术也得到了广泛的应用。

然而,尽管语音识别技术已经取得了很大的进展,但仍存在一些问题需要解决。

首先,语音识别的准确率仍然需要提高。

由于人类语言的复杂性,不同的方言、口音、语速等因素都会影响语音识别的准确性。

其次,语音识别的速度也需要进一步提高。

在一些需要快速响应的场景下,如紧急呼叫、实时导航等,提高语音识别的速度显得尤为重要。

三、未来趋势随着人工智能和机器学习技术的发展,未来语音识别技术将会朝着更加智能化、个性化的方向发展。

首先,随着深度学习技术的发展,语音识别技术将会更加精准地识别人类语言。

通过利用更复杂的神经网络结构和算法,可以更好地处理各种复杂的语音信号,提高识别的准确率。

语音识别技术的研究现状和未来发展趋势

语音识别技术的研究现状和未来发展趋势

语音识别技术的研究现状和未来发展趋势语音识别技术是一项近年来备受关注的技术领域,随着科技的发展和人们对智能化生活的追求,语音识别技术的应用范围也越来越广泛。

本文旨在探讨语音识别技术的现状及未来发展趋势。

一、语音识别技术的现状语音识别技术是一种实现机器与人之间自然语言交互的关键技术,它通过分析和识别人们的语音输入,将其转化为可读取的文本或命令,从而实现机器智能化操作。

随着科技的不断发展和智能语音助手的逐渐普及,目前语音识别技术已经具备了一定的应用条件和使用经验。

目前,全球各大科技公司都在加大对语音识别技术的研发力度。

谷歌、亚马逊、苹果等公司的语音助手技术普及率较高,可以实现语音识别、语音合成、自然语言处理、对话管理等多项技术的应用。

而在中国,百度、阿里、腾讯等公司也在积极投入语音识别领域的研究和开发。

不过,语音识别技术目前还存在较多的技术瓶颈。

与人类的语音理解能力相比,机器的语音识别精度和效率仍然存在着很大的差距。

此外,针对不同语言、声音背景和口音等因素的歧义处理和模型训练也需要不断地迭代和优化。

二、语音识别技术的未来发展趋势未来,语音识别技术将持续向更加智能化、个性化、多样化等方向发展。

首先,随着深度学习、云计算等技术的不断成熟和应用,语音识别技术的精度和效率将得到显著提升,从而为更多的应用场景提供支持。

此外,不同于传统的基于规则和特征提取的语音识别方法,深度学习技术可以更好地实现语音信号的端到端自我学习,从而更加符合人类自然语言处理的特性。

其次,随着智能硬件设备的普及和应用场景的扩大,个性化语音识别技术的需求也将日益增长。

不同的用户拥有不同的口音、用语和语气,因此如何实现个性化的语音识别和语音合成将成为未来的发展方向之一。

最后,随着AI对话系统、人工智能等领域的不断拓展,语音识别技术也将在更多智能应用场景中得以应用,为人类智能化生活提供更多便利和支持。

三、结语总的来说,语音识别技术的研究和应用前景十分广阔,只要不断创新和优化技术方法和模型,充分满足用户需求和应用场景需求,未来的语音识别技术一定会有越来越广阔的市场和应用前景。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别改进方法及难点分析——《模式识别》结课小论文学院:化工与环境学院学号:2120151177姓名:杜妮摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。

本文根据近105年文献,分析最新声音识别的方法和应用。

关键字:模式识别声音识别方法应用随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。

人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。

语音识别的研究发展将在不远的将来极大地方便人们的生活。

语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。

作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。

本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。

一、语音识别的改进方法(一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。

提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。

语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。

目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。

而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点【1】。

由于考虑到人耳的听觉特性,Mel 倒谱系数或感知线性预测系数【2】已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。

语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(LinearPredictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstralcocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。

但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。

如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。

对语音识别实际应用过程中的噪声问题,付丽辉给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。

通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。

新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点【3】。

为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,黄丽霞等人采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理。

在仔细研究FIR滤波器参数确定方法的基础上,详细介绍了La-guerre滤波器原理及参数计算方法,并给出了计算结果。

孤立词、非特定人语音识别实验结果表明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降【4】。

陈斌等人提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法(Linear discriminant analysis,LDA),并将其应用到连续语音识别中的特征变换。

该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵。

利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。

实验结果表明,与传统的MFCC 特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1。

41%,相比于HLDA(Heteroscedastic LDA)和近似成对经验正确率准则(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%【5】。

(二)声学模型训练改善声学模型是语音识别系统的底层模型,是语音识别系统中最为关键的一部分。

其目标就是提供一种有效的方法,计算语音的特征矢量序列和每一个发音模板之间的距离。

传统的声学建模方式大都基于隐马尔科夫框架,采用混合高斯模型(Guassian mixture model,GMM)来描述语音声学特征的概率分布。

针对传统的“隐马尔科夫模型-高斯混合模型”声学模型,目前常用的解决方案有: 结构化协方差矩阵/精度矩阵建模方法【6】,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1 的) 基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone) 建模方法【7】,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到更为精确的参数估计;子空间高斯混合模型(Subspace Gaussian mixture model,SGMM)【8】,将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。

与传统的高斯混合模型相比,SGMM 声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别【9】。

张文林等人提出从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型。

将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型。

将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型。

最终每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。

基于RM 语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model,GMM) 和子空间高斯混合模型(Subspace Gaussian mixture model,SGMM),新声学模型在测试集上的平均词错误率(Word error rate,WER) 分别相对下降了33。

1% 和9。

2 %【10】。

由于隐马尔科夫属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,而目前识别挑战越来越严峻,在大量的数据下其性能将会受到限制。

随着人工智能的进一步发展,人们开始利用人工神经网络(artificial neural network,ANN)来模拟人类大脑存储及处理信息的相应模型。

目前,微软、IBM、Goolge等许多国际知名语音研究机构都投入了大量的经历开展深层神经网络的研究。

近年来,微软利用上下文相关的深层神经网(context dependent deep neural network,CD-DNN)进行声学模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句错误率相对下降23.2%的性能改善,掀起了深层神经网络在语音识别领域的热潮【11】。

为了克服经典语音识别建模方式在大数据环境下的局限性,张晴晴等人提出利用卷积神经网络来完成海量数据下的语音识别。

她提出,音识别中,卷积神经网络( Convolutionalneural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。

她在文章中深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。

在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强【11】。

(三)语音模型训练改进随着语音识别技术的不断发展,语言模型在语音识别中的作用也显得越来越重要。

由于声学信号的动态时变、瞬时和随机性,单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。

一些较高层次的语言知识的利用可以在声学识别的层次上减少模式匹配的模糊性,从而提高识别的准确性。

并且一个大词汇量连续语音识别系统必须在每一时刻检测是否遇到语音发音边界,这样许多不同的字或词将会从不同的语音流中识别出来。

为了消除这些字或词之间的模糊性,语言模型是必不可少的。

语言模型可以提供字或词之间的上下文信息和语义信息。

语言模型不仅用在语音识别系统中,而且可以用在机器翻译、信息检索等研究领域【13】【14】。

基于隐马尔科夫模型的参数语音合成系统,在采用线谱对参数表征语音频谱特征时,传统MGE训练中使用的欧氏距离生成误差计算方法并不能较好地反映生成频谱与自然频谱之间的真实距离。

因此雷鸣等人提出一种基于感知加权线谱对(Line Spectral Pair,LSP)距离的最小生成误差(Minimum Generation Error,MGE)模型训练方法,采用与谱参数无关的对数谱间距(Log Spectral Distortion,LSD)定义的生成误差函数来改善这一问题,但改进后主观效果不明显,且运算复杂度很高【15】。

为了克服语音身份确认中语音分割、特征提取和鲁棒性差的困难,朱秉诚等人在深入分析叩齿声音波形特性后,提出一种了一种利用叩齿声音进行身份确认的方法.这种方法使用二阶微分方程建立齿震动发声的近似模型,以此为基础提出基于叩齿声音信号的身份确认方法。

经过实验证明,叩齿声音信号稳定性强,处理复杂度低于声纹信号,应用于身份识别性能优良。

该方法和经典的支持向量机、最近邻算法相比,运算量低,所需训练样本少。

【15】(四)识别搜索算法改进搜索就是在由语句构成的空间当中,按照一定的优化准则,寻找最优句子的过程,也就是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识以及语法语义知识等),在状态(指的是词组、词、建模单元或HMM 的状态)空间中找到最优的状态序列。

相关文档
最新文档