视觉及语音识别技术的当下与未来
语音识别技术的现状和未来发展趋势

语音识别技术的现状和未来发展趋势在这个信息化和智能化的时代,语音识别技术成为了一个备受关注的话题。
无论是个人用户还是企业用户,都希望能够通过语音识别技术快速高效地完成一些操作,提高生产和工作效率。
那么,语音识别技术的现状是怎样的呢?它存在哪些问题?未来发展的趋势又是什么?一、语音识别技术的现状语音识别技术是利用计算机技术对人类语言进行识别和理解的一种技术。
目前,语音识别技术已经得到了广泛应用,例如智能语音助手、语音输入、智能家居、智能客服等等。
在百度、科大讯飞、阿里云、微软、Google等大型科技公司的带动下,语音识别技术和语音交互技术正在不断得到发展和优化。
目前,语音识别技术的准确率已经达到了较高的水平,但仍然存在着一些挑战和困难。
1. 语音识别准确率不够高目前,语音识别准确率已经达到了较高的水平,但仍然存在着一些问题。
例如,语音信噪比较差时,语音识别准确率会大幅降低;语音识别对于方言和口音的识别准确率也比较低。
这对于一些特定的用户群体而言,会造成不便和影响。
2. 语音识别技术的反应速度和稳定性还需提高当前语音识别技术对于简单的指令和问题的识别已经比较可靠,但是语音识别技术的反应速度和稳定性还需要进一步提高。
有时候,语音识别技术会产生延迟等问题,这对于用户而言会造成不便和影响。
3. 语义理解和对话管理还需加强除了基础的语音识别之外,语义理解和对话管理也是语音交互技术中的两个关键环节。
目前,语音识别技术依然存在着一些误识别和困惑的问题,因此对于语义理解和对话管理的需求也越来越大。
二、未来语音识别技术的发展趋势随着人工智能和大数据技术的不断发展,语音识别技术也在不断地得到发展和提升。
从目前的趋势来看,未来语音识别技术的发展趋势主要有以下几个方向。
1. 语音识别技术将更加智能化和精确化随着深度学习技术的不断发展,未来语音识别技术将更加智能化和精确化。
大型科技公司正在不断优化其语音识别算法,这将为用户提供更好的语音交互体验。
语音识别技术的现状与前景

语音识别技术的现状与前景在当今信息化迅速发展的时代,语音识别技术以其独特的交互方式正逐渐成为人们生活中不可或缺的一部分。
这项技术使得计算机能够接收、理解并响应人类口头指令,极大地便利了人们的日常生活及工作。
目前,语音识别技术已广泛应用于多个领域,智能手机、智能家居、汽车导航系统以及客服中心等都有它的身影。
随着深度学习算法的应用和大数据的支持,现代语音识别系统的准确率有了显著提升,能够在嘈杂的环境下也实现较为准确的识别。
此外,多语种识别、方言识别甚至情感分析都已被纳入研究范围,进一步扩展了该技术的应用场景。
语音识别技术的发展并非一帆风顺,它仍面临着一系列挑战。
背景噪音干扰、口音差异、语言多样性以及用户隐私保护等问题都是亟待解决的难点。
尤其是隐私保护方面,如何在收集语音数据进行系统训练的同时保护用户个人信息安全,是摆在技术开发者面前的一大课题。
未来的语音识别技术将朝着更加智能化、个性化和无缝集成化的方向发展。
智能化意味着系统不仅能理解用户的指令,还能根据语境进行合理推断和主动服务;个性化则是指系统能根据用户的使用习惯和偏好进行自我调整,以提供更为精准的服务;而无缝集成化则预示着语音识别技术将更深入地融入日常生活中的每一个角落,从而变得无处不在。
除了技术上的进步,语音识别技术的普及还将带动相关产业的发展,如智能穿戴设备、辅助驾驶系统、远程医疗咨询等。
这些应用不仅提高了生活质量,也为经济发展注入了新的活力。
在教育领域,语音识别技术的引入能够辅助语言学习,为非母语学习者提供准确的发音指导和实时反馈。
在无障碍服务方面,该技术能够帮助视障人士或行动不便者更方便地获取信息和服务,提高他们的生活质量。
虽然当前语音识别技术还存在一些局限性,但随着研究的不断深入和技术的日益成熟,这些问题将逐步得到解决。
未来,语音识别技术有望实现更加流畅自然的交互体验,成为连接人与人、人与机器、人与世界的桥梁,开启全新的智能生活方式。
语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势语音识别技术作为一项重要的人工智能技术,在现代社会中扮演着越来越重要的角色。
语音识别技术,指通过计算机软件,对人类语言进行模拟和识别,实现计算机与人之间的交流,以及数据的获取、处理和分析等功能。
本文将探讨语音识别技术的现状和发展趋势。
一、语音识别技术的现状语音识别技术的起源可以追溯到1950年代,当时科学家们就开始研究如何将人类语言转化为计算机代码。
随着计算机技术的不断发展,语音识别技术也得到了迅速的发展。
目前,语音识别技术已经在很多领域得到应用,如智能家居、智能手机、智能音箱等。
在智能家居中,语音识别技术可以让家居设备变得更加智能化。
通过语音控制,居民可以轻松地打开灯、调节温度、播放音乐等。
另外,语音识别技术还可以用于智能音箱中,如苹果的Siri、亚马逊的Alexa等。
这些智能音箱和语音助手,可以对用户发出的指令进行自动回答,帮助用户完成各种操作。
二、语音识别技术的发展趋势随着技术的不断进步,语音识别技术已经开始向更多领域拓展。
下面将从以下三个方面展开:1. 声纹识别技术声纹识别技术是指通过分析声音的频率、亮度、响度等特征,获取声音特征码,从而识别出说话人身份的技术。
声纹识别技术的应用领域非常广泛,如安全领域、司法领域等。
2. 情感识别技术情感识别技术是指通过分析人类语言的微表情、声调和语调等特征,识别出人类的情感状态。
这项技术可以用于机器人互动、虚拟客服、市场营销等领域。
3. 智能语音交互技术智能语音交互技术是指通过语音指令,实现非常具体的任务。
这种技术可以应用到人脑计算机接口的开发上,在人的语音输入和电脑的输出之间实现快速传递。
智能语音交互技术可以提高生产效率,在保证准确率的同时降低生产成本。
在未来,随着人工智能技术的不断发展,语音识别技术也将会得到进一步的提升。
未来的语音识别技术,将通过深度学习、大数据分析等手段,提高识别准确率,同时还能够实现多语种、情感分析等更高级的功能。
语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势随着科技的不断发展,各种人工智能产品逐渐走进我们的生活中,其中语音识别技术的应用越来越广泛。
这项技术可以将人类的语言转化为计算机可识别的形式,实现人机交互,让我们的生活更便捷、更智能。
本文从语音识别技术的现状、应用场景、技术难点、发展趋势等方面进行探讨。
一、语音识别技术的现状语音识别已经成为商业化产品,在智能家居、智能手机、智能音箱等设备中得到广泛应用。
其中,智能音箱是应用最广泛的一种形式,如亚马逊Echo、谷歌Home、小米AI音箱等。
这些智能音箱的语音识别技术实现了多种功能,如语音搜索、播放音乐、聊天、控制家庭设备等。
此外,语音助手在智能手机、智能手表、智能车辆等领域也得到了广泛应用。
语音助手可以帮助用户完成电话、短信、导航、音乐播放、天气查询等操作,方便了生活。
二、语音识别技术的应用场景语音识别技术的应用场景非常广泛。
除了上述的智能家居、手机、音箱等领域,语音识别还可以应用于医疗、教育、金融、零售、物流等行业。
在医疗领域,语音识别可以用于病历记录、医嘱输入等操作,提高医生的效率。
在教育领域,语音识别可以用于智能教学,让学生更加深入地了解知识。
在金融领域,语音识别可以用于语音支付、客服问题解答等操作,提高金融服务的效率。
在零售领域,语音识别可以用于语音导航、商品介绍等操作,提高顾客的购物体验。
在物流领域,语音识别可以用于指挥货运,提高货物的配送效率。
三、语音识别技术的技术难点尽管语音识别技术已经得到广泛应用,但是其仍面临着一些技术难点。
一是方言和口音问题。
方言和口音是语音识别的难点之一,由于不同地区人口音差异大,语音识别的准确率也会受到影响。
二是多说者语音识别问题。
在多人场景下,语音识别技术需要识别多个说话者的语音,并对话语进行区分,这对语音识别技术的准确率提出了更高的要求。
三是语言模型问题。
语言模型是语音识别中非常重要的一步,它用于判断用户说的话是否符合语言规范。
语音识别技术的发展现状与未来趋势

语音识别技术的发展现状与未来趋势语音识别技术近年来取得了长足的发展,给人类社会带来了巨大的变革。
从最初的语音输入到现在的智能语音助手,语音识别技术已经广泛应用于各个领域,改变了我们的生活方式和工作方式。
本文将从语音识别技术的现状出发,探讨其未来的发展趋势。
首先,我们来看一下语音识别技术的现状。
随着机器学习和深度学习算法的发展,语音识别技术取得了突破性的进展。
目前,市面上常见的智能语音助手如Siri、小爱同学等,都是基于语音识别技术实现的。
这些智能语音助手不仅可以根据用户的语音指令进行文字转换,还可以根据用户的需求提供相关的服务,例如查询天气、点播音乐等。
此外,语音识别技术还广泛应用于自动驾驶、语音翻译、语音搜索等领域,方便了人们的生活和工作。
然而,语音识别技术仍然存在一些挑战和不足之处。
一方面,语音识别的准确率还有待提高。
尽管现有的语音识别系统在标准测试数据上的准确率已经达到了相当高的水平,但在复杂的环境下,如有噪音、口音等情况下,仍然会出现误识别的情况。
另一方面,语音识别技术在处理长句子、复杂语义和多语种方面仍然有所欠缺,需要进一步加强研究和开发。
未来,语音识别技术有望取得更大的突破和应用。
首先,随着计算能力的提升和算法的不断优化,语音识别的准确率将进一步提高。
目前,深度神经网络已经成为主流的语音识别算法,并且在不断地进行优化和改进。
未来,通过更深层和更复杂的神经网络结构,以及更大规模的数据训练,语音识别的准确率有望更上一层楼。
其次,语音识别技术在多语种方面的研究也将得到加强。
随着全球化的进程,不同语种之间的交流变得越来越频繁。
因此,开发一种能够准确识别多语种的语音识别系统显得尤为重要。
未来,多语种语音识别技术将成为一个研究热点,有望满足人们在跨语种沟通和交流方面的需求。
此外,语音识别技术在智能家居、智能医疗等领域也有广阔的应用前景。
随着人工智能和物联网的快速发展,智能语音助手将成为人们与智能设备之间的重要媒介。
语音识别技术的研究现状和未来发展趋势

语音识别技术的研究现状和未来发展趋势语音识别技术是一项近年来备受关注的技术领域,随着科技的发展和人们对智能化生活的追求,语音识别技术的应用范围也越来越广泛。
本文旨在探讨语音识别技术的现状及未来发展趋势。
一、语音识别技术的现状语音识别技术是一种实现机器与人之间自然语言交互的关键技术,它通过分析和识别人们的语音输入,将其转化为可读取的文本或命令,从而实现机器智能化操作。
随着科技的不断发展和智能语音助手的逐渐普及,目前语音识别技术已经具备了一定的应用条件和使用经验。
目前,全球各大科技公司都在加大对语音识别技术的研发力度。
谷歌、亚马逊、苹果等公司的语音助手技术普及率较高,可以实现语音识别、语音合成、自然语言处理、对话管理等多项技术的应用。
而在中国,百度、阿里、腾讯等公司也在积极投入语音识别领域的研究和开发。
不过,语音识别技术目前还存在较多的技术瓶颈。
与人类的语音理解能力相比,机器的语音识别精度和效率仍然存在着很大的差距。
此外,针对不同语言、声音背景和口音等因素的歧义处理和模型训练也需要不断地迭代和优化。
二、语音识别技术的未来发展趋势未来,语音识别技术将持续向更加智能化、个性化、多样化等方向发展。
首先,随着深度学习、云计算等技术的不断成熟和应用,语音识别技术的精度和效率将得到显著提升,从而为更多的应用场景提供支持。
此外,不同于传统的基于规则和特征提取的语音识别方法,深度学习技术可以更好地实现语音信号的端到端自我学习,从而更加符合人类自然语言处理的特性。
其次,随着智能硬件设备的普及和应用场景的扩大,个性化语音识别技术的需求也将日益增长。
不同的用户拥有不同的口音、用语和语气,因此如何实现个性化的语音识别和语音合成将成为未来的发展方向之一。
最后,随着AI对话系统、人工智能等领域的不断拓展,语音识别技术也将在更多智能应用场景中得以应用,为人类智能化生活提供更多便利和支持。
三、结语总的来说,语音识别技术的研究和应用前景十分广阔,只要不断创新和优化技术方法和模型,充分满足用户需求和应用场景需求,未来的语音识别技术一定会有越来越广阔的市场和应用前景。
语音识别技术的发展现状与前景探讨

语音识别技术的发展现状与前景探讨随着AI技术的发展,语音识别技术日渐成熟,愈发广泛地应用于人们的日常生活和工作中。
而且随着技术的不断发展和优化,语音识别将会有更加广泛的应用领域,这无疑是一个充满着机遇和挑战的领域。
本文将探讨语音识别技术的发展现状以及未来的前景。
一、语音识别技术的历史发展人工语音识别始于20世纪50年代,而且人们一直在寻找更好的方法来使得它更加可靠并且兼容性更好。
根据历史数据,语音识别技术经历了多次的由粗糙到精细的演进,并逐渐成为一项完全自主式的服务。
首先,早期识别技术都是基于声学检测的模式识别技术。
这些早期的识别技术主要是通过声音特征来建立语音识别体系,但由于时代条件的限制,这些技术还存在着很多不足,例如容错率不够高,适应性也相对较差。
接着由于计算机硬件和软件等方面得到了长足的发展,使得基于模板匹配和神经网络的语音识别技术得到了长足的发展。
同时,图像和语音识别的领域开始日益深入,进一步助推了相关技术的突破。
随着时代快速发展,语音识别技术也在向前迈进,通过机器学习等方法,逐渐实现了更加准确而智能的语音识别。
现在,语音识别技术已经得到广泛应用,例如人工智能的智能客服、智能家居、智慧医疗等行业,且这些领域还有着更加广泛和深入的发展前景。
二、语音识别技术现状基于深度学习的语音识别技术,已经逐渐成为了当前语音识别技术发展的热点课题,也是破解语音识别技术难题的重要方向。
此外,支持多种语言和口音的语音识别技术也得到了长足的发展,并且在实际使用中逐渐切实可行。
同时,在不同领域的应用中,语音识别技术也得到了广泛应用。
例如,在许多商业领域,语音识别技术已经在广泛应用,例如语音唤醒、智能助手等;在智能家居领域,语音识别技术也被广泛应用,包括控制家庭电器、开关灯等。
三、语音识别技术未来前景在未来,随着技术的不断涌现和进步,语音识别技术在未来的前景也将会愈加辉煌。
随着社会老龄化程度的不断加重,越来越多的老年人将会使用这种语音技术,越来越广泛的应用场景也将出现,例如游戏、安保等。
语音识别技术的发展趋势与应用前景

语音识别技术的发展趋势与应用前景随着科技的不断进步和智能化的发展,语音识别技术作为一项重要而炙手可热的技术,正逐渐进入人们的视野。
本文将介绍语音识别技术的发展趋势以及其在各个领域的应用前景。
一、语音识别技术的发展趋势1.1 神经网络技术的崛起随着深度学习技术的发展与应用,神经网络已经成为语音识别中的主流模型。
深度神经网络具有强大的泛化能力和学习能力,能够处理大量的数据和复杂的语音情境,这使得语音识别的准确率得到了极大的提高。
1.2 多模态融合技术的应用随着人机交互的要求越来越高,语音识别技术与其他感知技术的结合成为一种趋势。
例如,将语音识别与图像处理技术相结合,可以实现更精准的场景识别和语义理解,提升语音识别的效果和应用范围。
1.3 端到端的语音识别模型传统的语音识别系统通常由前端特征提取、声学模型和语言模型等多个模块组成,复杂而繁琐。
而端到端的语音识别模型直接将语音信号映射为文本,简化了模型结构,降低了系统延迟,提高了识别效果。
二、语音识别技术的应用前景2.1 智能助手语音识别技术在智能助手领域有着广泛的应用。
诸如苹果的Siri、微软的Cortana、亚马逊的Alexa等智能助手已经成为人们生活中不可或缺的一部分。
通过语音识别技术,智能助手能够以自然语言进行交互,为用户提供各种信息和服务。
2.2 无线耳机与智能音箱语音识别技术的进步也带来了无线耳机与智能音箱领域的革新。
我们可以通过声音指令来控制和操作这些设备,实现音乐播放、设备控制、智能家居管理等功能,为用户带来更加便捷的体验。
2.3 自动驾驶语音识别技术在自动驾驶领域的应用也日益广泛。
通过语音指令,驾驶员可以实现对车辆的操作和控制,避免分散注意力对驾驶安全产生的风险。
同时,语音识别也可以用于车辆内部的语音交互系统,提供更加智能的车内服务。
2.4 医疗领域语音识别技术在医疗领域的应用前景可谓广阔。
通过语音识别技术,医生可以通过语音指令快速记录病人的情况和诊疗方案,提高工作效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视觉、语音识别技术
【引言】:在这个信息高速发展的时代下,人们已经不再停留于对于信息的解读与计算,未来信息时代的发展方向是人机互动,更确切的说,是人物互动,通过识别系统来感知外界信息以达到互动,而最直接的便是视觉、语音识别技术的识别,同时我们可以把这个互动看作机器的智能反应,而识别技术便是达成该飞跃的密钥。
【摘要】
1.视觉、语音识别技术的概念,及其发展至今的过程。
2.视觉、语音识别系统的应用。
3.视音融合的未来的展望。
*计算机视觉、语音识别
语音识别技术,也被称为自动语音识别,即Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
与说话人识别及说话人确定不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
这本身就是富有挑战性的,计算机需要去通过智能技术计算出当事人的身份,以达到识别的目的
而作为人类视觉模拟的计算机视觉是利用计算机从而为图中提取景物的二维或三维的结构和属性的描述,并加以理解。
计算机视觉同样是一个重要又富有挑战意义的研究领域。
对于计算机视觉系统来说,输入时表示三维景物投影的灰度阵列,可以有若干个输入阵列,这些阵列可提供从不同方面、不同视角、不同时刻得到的信息。
纵观语音识别的历史,早在计算机发明之前,自动语音识别的设想就已经被提上日程,早起的声码器可被视作语音识别的雏形。
1960年,人工神经网络被引入了语音识别。
这一时代的两大突破时线性预测编码和动态时间弯折技术。
而语音识别技术的最重大突破是隐马尔科夫模型的应用。
*视觉识别和语音识别的应用
视觉识别的应用很多,视觉的最大优点是与被测对象无接触,因此对观测者与被观测者都不会产生任何损伤。
而智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题。
伴随网络技术和数字视频技术的飞速发展,监控技术正走向智能化、网络化方向不断前进。
它在工业上可应用于对烟叶品质进行图像处理,借助MATLAB图像处理工具箱和神经网络技术,对各种类型的烟叶的数字图像进行计算机视觉分析,包括边缘检测、轮廓提取、用图像工具箱抽取烟叶数字图像特征,最后通过自动识别待测烟叶样本的品质的只能评定。
在商业上,如商业人流统计、防止扒窃等等。
其理念是将风险的分析和识别转交给计算机或者芯片,使值班人员从“死盯”监视器的工作中解脱出来,将人为失误的可能性降至最低,在不需要人为干预情况下,利用计算机视觉和视频分析的方法对摄像机拍摄的图像序列进行自动分析,实现对动态场景中目标的定位、识别和跟踪,并在此基础上分析和判断目标的行为,从而既能完成日常管理工作又能在异常情况发生时做出反应。
军事方面,计算机视觉开辟了人工智能的一个全新领域,它模拟并帮助理解人类的视觉系统。
就军事领域的应用而言,在执行地空突防飞行和其它空袭任务过程中,采用被动式地形侦查与勘测技术能够提高飞行的隐蔽性,解决易于被敌方探测的需要。
当然不得不提视觉识别技术在公安工作中的应用,例如计算机人脸识别技术是利用计算机对人脸图像进行分析,从中提取有效地识别信息,用来“辨别”身份的一门极速。
它涉及到图像处理、模式识别、计算机视觉和神经网络等等。
人脸识别技术在商业上和法律上都有
大量应用,入身份证、护照、信用卡、驾驶执照与实际持证人的核对,这些细小之处足见视觉识别技术对我们日常百姓的重要。
同时,视频监控系统中的人物跟踪,Video图像的实时匹配、公安系统的犯罪身份识别、银行及海关的监控系统和自动门卫系统。
在日、夜间进行车辆的检测,通过对道路交通样本库的采集和组织,运用虚拟线圈法或者目标跟踪法对车辆进行检测。
这些基础应用已经对世界产生了潜移默化的影响。
北京大学的视觉信息处理研究室的:建筑物与复杂场景三维数字化技术的基础研究,数学机械化与自动推理平台“课题”信息安全、传输与可靠性研究,基于小波的视频压缩与通讯系统研究等等,都体现了视觉信息处理的整个大的发展趋势。
而语音识别技术在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成一个服务的“提供者”和生活“伙伴”。
使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,语音识别正逐步成为实习技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作,其发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已大于98%,对特定人语音识别系统的识别精度就更高,当然这只是在中小词汇量或特定人的情况下产生的精度。
现阶段,由于大规模集成电路技术的发展,这些复杂的语音识别系统也可以完全制成专用芯片,大量生产,在西方经济发达国家,大量的语音识别产品进入市场和服务领域。
一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。
当然,在这里我们不研究最后的效果如何,但是我们必须承认,语音识别技术领域依然有很大的发掘空间,值得我们去继续探索,最终将高端技术运用到现实生活中。
*未来的展望
计算机视觉识别技术和计算机语音识别技术是两个分立的技术,顾名思义,一个从视觉入手,一个从语音入手,但是它们又是密不可分的,因为介于现阶段技术层面的不成熟,视觉和语音识别在目前都还无法支持无限领域,如果进行单一的识别会出现一系列的问题。
例如,视觉识别技术的分辨是可调的,即高分辨和低分辨,但是实际应用过程中,用户会因为与之前的信息由细微差别而无法通过高分辨,也就无法完成识别的目的。
同时,如果将识别模式调整为低分辨,则又会出现非本人的用户通过识别,同样也无法完成识别。
语音识别一样也面临着同样的窘境,视觉识别和语音识别最本质的东西都是一样的,是通过逻辑运算,运用统计学计算概率来达到识别的目的。
随着个人计算机CPU处理速度的不断提升、存储容量的加大,人机交互技术已经越来越引起人们的重视。
传统的人机交互设备,如键盘,鼠标等,由于自身速度、友好性方面的限制,会逐渐被更加友好的人机交互设备所替代,人机交互技术已经从以计算机为中心,逐步转移到以人为中心的交互方式。
在此篇论文上半部分我提到,单一的识别具有局限性,语音识别在相对安静的环境下能够对连续的单词及词组达到较高的识别率。
然而,使其应用到有背景噪声的多人交互的真实环境时,其较差的抗干扰能力,使其无法满足广泛的要求。
事实上,在真实的吵杂环境中,人们对语言的感知是双模态的,它很自然的包含了语言及视觉信息。
其中,最显著的例子就是当人们欣赏电影片段时,清晰的画面与音响效果同样重要。
早在1954年Pollack就提到了视觉信息在语音识别中的辅助性,而McGurk效应则说明了视、听融合在语言感知的重要性。
因此,对于计算机语音识别技术来说,除了传统的音频信息以外,也可以通过人脸嘴部的视觉信息,或人体的手势动作来提高人机交互的识别效果。
类似与通过观察说话人的口型进行语音交流,人机交互中视觉特征的引入可以提高传统单语音识别系统的性能。
由于视觉特征不受外界噪音环境的影响,系统识别能力更具健壮性、实用性。
因此,视觉的语音识别技术在未来的实用性更高,它可突破单一识别模式的局限性,
广泛应用于安全识别、视频电话、交互式电视、视频游戏、军事应用等领域。
同时,这种视---音融合可使二者的优势有机的结合到一起,在未来中达到高质量的识别。
当然,视--音融合依旧在初级阶段,首先,根据未来系统识别的要求,此类数据库应该具有更多说话人视频、语音的训练资源和完整标注。
这些资源的建立需要空前庞大的人员以及时间才能符合系统的要求。
其次,语音识别中视、音的互补性。
对视--音双模态数据库中同步的视频语音数据,分别提取视觉特征和语音特征,进行语音识别下视、音互补性的研究。
这需要对人体视觉及听觉系统的物理器官作深入的分析,找出其相互的联系。
结论:
视觉识别技术和语音识别技术都还在发展阶段,都还有一定的发展空间,但同时,它们各自的局限却也是不能回避的,视觉识别自身分辨程度不同会对模式影响颇大,并没有一个统一的规则来决定分辨底线,语音识别技术则是过于依赖于外界环境的好坏,没有非常完美的抗干扰能力。
未来,我们需要将二者统一,通过双模式识别,来最终识别当事人,视--音融合,各取所长,在最大的概率下识别。
在未来,随着各识别技术的发展,我们最终会迎来跨世纪的一个时代,实现以人为主的人机互动。
【参考文献】
1:《智能视频监控中目标检测与识别》上海交通大学出版社作者:万卫兵、霍宏、赵宇明编著
2:《基于视觉信息的语音识别技术研究》上海大学作者:刘家涛
3:《计算机视觉识别技术的应用》作者:吴楚林。