语音识别技术介绍

合集下载

语音识别技术的典型应用

语音识别技术的典型应用

语音识别技术的典型应用一、介绍语音识别技术语音识别技术是一种将人类语言转换为计算机可读形式的技术。

它可以将人类的口语输入转换为文本或命令,使得计算机可以理解和执行。

这种技术已经广泛应用于各个领域,如智能家居、智能客服、医疗健康等。

二、智能家居1. 语音控制家电随着人们生活水平的提高,对生活品质的要求越来越高,智能家居应运而生。

语音识别技术可以让人们通过口头指令来控制家中各种设备的开关和调节,比如灯光、温度、窗帘等等。

用户只需要说出相应的指令即可实现操作,非常方便。

2. 语音助手智能家居还可以通过语音助手来实现更多功能。

比如,用户可以通过与语音助手交互来获取天气预报、新闻资讯等信息;也可以使用它来设置提醒事项或日程安排;甚至还可以让它帮你下厨做菜。

三、智能客服1. 自动接听电话在传统的客服中心,客服人员需要手动接听电话并进行人工服务。

这种方式效率低下,容易出现疏漏和误解。

而使用语音识别技术,可以实现自动接听电话并进行语音交互。

客户只需要说出问题或需求,系统就可以自动识别并给予相应的回答或解决方案。

2. 自助查询智能客服还可以通过语音识别技术实现自助查询功能。

比如,在银行、电商等场景中,用户可以通过与系统交互来查询账户余额、订单状态等信息。

这种方式不仅方便快捷,还能减轻客服工作压力。

四、医疗健康1. 语音诊断在医疗领域中,语音识别技术也有着广泛的应用。

比如,在一些基层医疗机构中,医生可以使用语音诊断系统来帮助患者进行初步的检查和诊断。

患者只需要说出自己的症状和感觉即可得到初步的诊断结果。

2. 智能健康管理除了在医疗机构中使用外,语音识别技术还可以用于智能健康管理。

用户可以通过与智能健康管理系统交互来记录自己的身体数据,比如体重、血压、心率等等。

系统会自动分析这些数据,并给出相应的健康建议和指导。

五、总结语音识别技术是一种十分有用的技术,它可以帮助人们更方便地进行交互和操作。

在智能家居、智能客服、医疗健康等领域中,它已经得到了广泛的应用。

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法语音识别技术是一种将人类语音转化为文字的技术,它正被越来越广泛地应用于智能助理、语音输入、自动翻译等领域。

本文将详细讨论语音识别技术的原理及其实现方法,以帮助读者更好地了解这一技术并掌握其应用。

一、语音识别技术的原理语音识别技术的原理可以分为三个主要步骤:信号处理、特征提取和模型匹配。

1. 信号处理:语音信号在传输过程中可能受到多种噪声的干扰,如环境噪声、话筒噪声等。

因此,首先需要对音频信号进行预处理,以提高识别准确率。

该步骤通常包括音频去噪、降噪、增强等技术。

2. 特征提取:在预处理后,需要对语音信号进行特征提取,即将连续的语音信号转换为更具区分度的特征向量。

常用的特征提取方法有MFCC (Mel Frequency Cepstral Coefficients)和PLP(Perceptual Linear Prediction)等。

这些特征提取方法通过对不同频率的声音进行分析,提取出语音信号的关键特征,如音高、音频的形态和时长等。

3. 模型匹配:在特征提取后,需要建立一个匹配模型,将特征向量与预先训练好的语音模型进行比对,以确定输入语音对应的文字内容。

常用的模型包括隐马尔可夫模型(HMM)和深度神经网络(DNN)等。

这些模型通过学习大量的语音样本,使模型能够根据输入的特征向量判断最有可能的文字结果。

二、语音识别技术的实现方法语音识别技术的实现需要借助特定的工具和算法。

以下是常用的语音识别技术实现方法:1. 基于统计模型的方法:该方法主要基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)。

隐马尔可夫模型用于描述语音信号的动态性,而高斯混合模型则用于对特征向量进行建模。

这种方法的优点在于其模型简单,容易实现,但其处理长时语音和噪声的能力较弱。

2. 基于神经网络的方法:随着深度学习技术的发展,深度神经网络(DNN)成为语音识别领域的热门技术。

该方法使用多层神经网络模型来学习语音信号的特征表示和模式匹配。

语音识别技术的阐述并举例说明

语音识别技术的阐述并举例说明

语音识别技术的阐述并举例说明1. 语音识别技术的概述在当今这个信息爆炸的时代,语音识别技术可谓是一个火热的领域。

简单来说,它就是让计算机“听懂”人类说话,把语音转换成文字。

想想看,以前咱们打字得慢吞吞的,现在只要“嘿,你好”,手机就能把你说的话变成文字,简直就像是在和外星人聊天!这种技术背后的原理其实挺复杂的,但咱们不必深究,简单理解就好。

1.1 语音识别的工作原理语音识别技术的工作原理其实就是把声音信号变成数字信号,再通过一些算法分析这个信号,最后识别出你说的内容。

就像是把你在大街上听到的音乐变成乐谱,虽然中间的过程可能有点曲折,但最后能听出个所以然来。

不过,别以为这就简单,想让计算机分清楚“我爱你”和“我爱鱼”可得下不少功夫呢!1.2 语音识别的发展历程语音识别的发展也可谓是一波三折。

从最初的只支持简单命令的系统,到现在的智能助手,真是翻天覆地的变化。

记得早些年,咱们说话时,系统经常听错,结果出来的文字让人哭笑不得。

可是,现在的技术已经进步了不少,能适应不同的口音、语速,甚至能理解一些俚语,真是让人叹为观止!2. 语音识别的应用场景那么,语音识别到底能用在哪里呢?这就不得不提到它的广泛应用了。

无论是日常生活还是工作中,语音识别技术都在悄悄改变着我们的方式。

2.1 智能助手大家一定听说过 Siri、Alexa 这些智能助手吧?它们的工作原理就是利用语音识别技术,帮助我们完成各种任务。

想查天气、定闹钟,甚至找餐馆,只要说出来,助手就能帮你搞定。

试想一下,早上起床的时候懒得动,只要躺在床上说:“给我来杯咖啡”,不久后咖啡就送到手边,简直就是现代人的梦想生活啊!2.2 客服服务再比如在客服领域,语音识别技术也发挥了大作用。

想想打客服热线的情景,你说:“我想投诉。

” 这句话通过语音识别系统,能迅速进入正确的处理流程,不再让你等得心急火燎。

以往那些烦人的按键导航真是让人心累,现在只需说出你的需求,简单明了,真是让人感觉“技术改变生活”不是空话!3. 语音识别的未来发展当然,语音识别的未来还有更多可能。

语音识别技术

语音识别技术

语音识别技术语音识别技术是一种将语音信号转化为文本的技术。

随着科技的不断发展,语音识别技术在各个领域得到了广泛的应用。

本文将从语音识别的原理、发展历程、应用领域以及未来发展等方面进行阐述,以期对读者对语音识别技术有更深入的了解。

语音识别技术的原理是通过分析语音信号的频谱、时域波形等特征,将其转换为对应的文本内容。

这涉及到信号处理、模式识别、统计学等多个学科的知识。

语音识别技术的核心是建立识别模型,即将语音信号映射到文本的过程。

目前主流的语音识别技术包括隐马尔可夫模型(HMM),深度神经网络(DNN)和循环神经网络(RNN)等。

语音识别技术的发展历程可以追溯到上世纪50年代。

最初的语音识别系统是基于模板匹配的,效果较差。

随着计算能力的提高,HMM 成为了主流的语音识别方法,取得了一定的成果。

近年来,深度学习的兴起为语音识别技术带来了革命性的突破。

其基于大规模数据的训练和复杂的神经网络结构,使得语音识别的准确率得到了显著提升。

语音识别技术广泛应用于多个领域。

首先是语音助手。

智能手机上的语音助手,如Siri、小冰等,实现了与用户的智能对话,能够识别用户的语音指令并做出相应的响应。

其次是语音翻译。

语音识别技术可以将一种语言转化为另一种语言的文本,为跨语言交流提供了便利。

另外,语音识别技术还广泛应用于智能家居、医疗健康、智能交通等领域。

语音识别技术的发展仍然面临着一些挑战和难题。

首先是对口音、语速、噪音等非理想环境的适应能力。

不同人的语音特征差异很大,因此如何建立更加健壮的语音识别模型仍然是一个研究热点。

其次是语义理解的精准度。

语音识别技术目前主要关注将语音转化为文本,而语义理解的精准度仍然有待提高。

此外,数据的稀缺性和隐私保护问题也是当前亟待解决的难题。

展望未来,语音识别技术有很大的发展空间和潜力。

一方面,随着深度学习技术的进一步发展和计算能力的提高,语音识别的准确率将得到进一步提升。

另一方面,语音识别技术将与其他技术相结合,实现更加智能化的交互方式。

多媒体应用的语音识别技术

多媒体应用的语音识别技术

多媒体应用的语音识别技术随着科技的快速发展,多媒体应用的使用变得越来越普遍。

语音识别技术作为一种重要的人机交互方式,在多媒体应用中起到了重要的作用。

本文将介绍多媒体应用的语音识别技术,并分析其应用场景和优势。

一、语音识别技术概述语音识别技术是指将人类的语音信息转化为文字或者命令的计算机技术。

通过对语音信号的分析和处理,计算机可以将语音转化为可读的文字或者执行相关命令。

语音识别技术主要包括语音信号的采集、预处理、特征提取和模型匹配等环节。

二、多媒体应用中的语音识别技术应用场景1. 智能助手随着智能设备的普及,人们越来越多地使用智能助手进行语音交互。

语音识别技术可以使智能助手更加智能化,可以通过语音指令进行操作,如打开软件、播放音乐等。

通过语音识别技术,智能助手可以更好地理解人们的需求,提供更加精准的服务。

2. 语音搜索语音搜索是一种越来越受欢迎的搜索方式。

通过语音识别技术,用户可以直接通过语音输入进行搜索,无需手动输入关键词。

语音搜索技术可以提升搜索的便利性和速度,使用户获得更好的搜索体验。

3. 语音录入在多媒体应用中,语音录入是一种常用的输入方式。

通过语音识别技术,用户可以通过语音进行文本的输入,如发送短信、撰写邮件等。

语音录入可以提高输入效率,避免了繁琐的手动输入。

4. 语音翻译在多媒体应用中,语音翻译是一种重要的功能需求。

通过语音识别技术,可以将其他语言的语音信息转化为文字,并进行翻译。

语音翻译技术可以帮助用户更好地理解其他语言的内容,拓宽跨文化交流的能力。

三、多媒体应用的语音识别技术优势1. 便捷高效语音识别技术可以通过语音指令实现对多媒体应用的控制,节省了操作的步骤和时间。

用户无需手动输入,只需通过语音输入即可完成相应的操作。

语音识别技术使得多媒体应用更加便捷高效。

2. 智能化交互语音识别技术可以使多媒体应用更智能化。

通过语音指令,用户可以与应用进行自然语言交互,更好地表达自己的意图。

语音识别技术可以提高多媒体应用的智能化程度,提供更个性化、智能化的服务。

《语音识别技术介绍》课件

《语音识别技术介绍》课件
2 语音识别技术的局限性
在复杂环境、多语言等情况下,识别准确性仍存在挑战。
3 语音识别技术的前景展望
随着技术的不断进步,语音识别将在更多领域别技术的应用案例
智能语音助手
如Siri、小爱同学等,提供语音 交互、查询信息、控制设备等 功能。
电话客服系统
利用语音识别技术提供自动语 音导航、语音识别、智能推荐 等服务。
聊天机器人
通过语音识别技术实现与用户 的自然语言对话,提供智能问 答、娱乐等功能。
语音识别技术的挑战和未来
1 声音环境的复杂性
语音识别技术广泛应用于智能语音助手、电话客服系统、聊天机器人等领域。
3 语音识别技术与其他技术的关系
语音识别技术与自然语言处理、机器学习等技术密切相关,共同构成智能语音系统。
语音识别技术的原理
1 语音采样和信号处理
通过麦克风采集语音信号,并对信号进行去噪、增强等处理。
2 特征提取
从语音信号中提取语音特征,如音频频谱、梅尔频率倒谱系数等。
语音识别技术需要应对噪声、回声等干扰,提高在复杂环境下的识别准确性。
2 多语言语音识别技术的发展
对不同语言、方言的准确识别是多语音识别技术发展的重要方向。
3 语音识别技术的未来发展趋势
随着人工智能技术的发展,语音识别技术将更加智能化、个性化、多场景应用。
结论
1 语音识别技术的优点
提供了人机交互的新方式,方便快捷、便于特定场景操作。
《语音识别技术介绍》 PPT课件
# 语音识别技术介绍
语音识别技术是指通过计算机对人类语音进行自动识别和理解的技术。本课 件将介绍语音识别技术的概述、原理、常见技术、应用案例、挑战和未来。
概述
1 什么是语音识别技术?

语音识别技术原理是什么

语音识别技术原理是什么

语音识别技术原理是什么
语音识别技术是指将人的语音信号转化为机器能够理解和处理的文字或命令。

其原理主要包括以下几个步骤:
1. 音频采集:使用麦克风等设备采集人的语音信号,将声音转化为模拟电信号。

2. 信号预处理:对采集到的信号进行预处理,包括消除噪声、滤波等操作,使语音信号更加清晰。

3. 特征提取:将预处理后的语音信号转化为机器可以理解的特征向量。

常用的特征提取方法有MFCC(Mel频率倒谱系数)等。

4. 音频切割:将连续的语音信号切割成单个的语音片段,以便进行后续的处理。

5. 声学建模:通过使用大量标注好的语音数据,训练声学模型。

声学模型将语音片段与对应的文本进行对齐,建立语音与文字之间的映射关系。

6. 语言模型:使用大量的文本数据进行训练,建立语言模型,用于预测语音对应的文字顺序和语法规则。

7. 解码匹配:将特征向量与声学模型和语言模型进行匹配,找到最有可能的文字序列作为识别结果。

8. 后处理:对识别结果进行修正和优化,包括语法纠正、自适应模型更新等。

需要注意的是,语音识别技术涉及到信号处理、机器学习和自然语言处理等多个领域的知识,具体的实现方式和算法会有所不同。

以上仅为一般的语音识别技术原理概述。

人工智能语音识别技术

人工智能语音识别技术

人工智能语音识别技术人工智能(Artificial Intelligence,简称AI)作为当今世界最炙手可热的前沿技术之一,已经在各个领域展现出强大的应用潜力。

其中,人工智能语音识别技术(Artificial Intelligence Speech Recognition,简称ASR)更是备受关注。

本文将探讨人工智能语音识别技术的基本原理、应用场景以及其对社会的影响。

一、人工智能语音识别技术的原理人工智能语音识别技术是指通过计算机对人类语音进行自动识别和解析的技术。

其基本原理是将语音信号转换为对应的文本或指令,然后再进行后续的分析和处理。

这一技术基于大规模的语音数据集和深度学习算法,通过对声波频率和语音特征的提取,实现对语音信号的识别和理解。

二、人工智能语音识别技术的应用场景1. 语音助手:人工智能语音识别技术被广泛应用于智能助手领域,如Apple的Siri、Amazon的Alexa、Google的Google Assistant等。

这些智能助手通过语音识别技术实现了人机交互,用户只需通过语音指令就可以完成各种操作,提高了用户的使用便捷性和效率。

2. 语音输入:人工智能语音识别技术也广泛应用于语音输入领域,如语音转文字软件、语音搜索、语音翻译等。

这些应用能够将人们的语音转化为文本,大大提升了输入速度和便利性。

3. 电话客服:人工智能语音识别技术在电话客服领域大显身手。

通过语音识别技术,语音客服系统能够快速准确地识别客户的语音指令,提供个性化的服务,实现自动化处理,极大地提高了客户满意度。

4. 智能交通:人工智能语音识别技术在智能交通领域也有广泛运用。

例如,在车载导航系统中,驾驶员可以通过语音识别系统进行语音导航、音乐播放等操作,避免分散注意力带来的安全隐患。

5. 医疗护理:人工智能语音识别技术被应用于医疗护理领域,协助医生进行病历录入、辅助诊断等工作。

这一技术的应用大大提高了工作效率,减少了医疗事故的发生。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别概述
70年代语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动 态时间规整技术(DTW)的基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模 型(HMM)理论。在实践上,小词汇量孤立词的识别方面取得了实质性的进展 , 实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。这一时期的 语音识别方法基本上是采用传统的模式识别策略。 80年代语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经 元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T Bel实验室的Rabiner等科学家的努力,他们把HMM纯数学模型工程化,从而为 更多研究者了解和认识。研究的重点逐渐转向大词汇量、非特定人连续语音识别。 90年代,随着多媒体时代的来临,在语音识别技术的应用及产品化方面出现 了很大的进展。许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT 等著名公司都为语音识别系统的实用化开发投以巨资。语音识别技术实用化进程 大大加速,并出现了许多实用化产品。 IBM公司率先推出的汉语ViaVoice语音识别系统,带有一个32,000词的基本 词汇表,可以扩展到65,000词,平均识别率可以达到95%,可以识别上海话、广 东话和四川话等地方口音,是目前具有代表性的汉语连续语音识别系统。
语音识别概述
目前语音识别的研究主流是大词汇量的非特定人的连续语音系统,但是事实 上,对于许多应用来说,一个语音识别系统只要一组词汇或命令,它就可能为用 户提供一个有效的工具,简单有效的孤立词特定人语音识别系统就能满足要求。 正是孤立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进 行研究 目前市场上出现的语音识别器大多数是特定人孤立单词语音识别系统。 孤立词语音识别系统中的难点问题: (1) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即 使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音识别 系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境 下有声段和无声段时能量存在很大差异,由此判断语音的起点。但是当噪声的能 量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。
Hann:
w ( n ) 0 . 5 (1 cos( 2
n N 1
)), 0 n N 1
矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,汉明窗的主瓣 最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性, 应用更广泛。
预处理及特征参数提取
语音信号的时域分析 1、短时平均能量 短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律。可以从语音 中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大 很多。其计算公式如下:
模式匹配 模式匹配部分是整个系统的核心,其作用是按照一定的准则求取待测语音特 征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。
预处理及特征参数提取
语音信号的数字化和预处理 1、语音信号数字化 要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处 理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在4KHz 以上便迅速下降。而清音语音信号的频谱在4KHz以上频段反而呈上升趋势,甚至 超过了8KHz以后仍没有明显下降的苗头。实验表明语音清晰度和可懂度有明显 影响的成分最高频率约为5.7KHz。而语音信号本身的冗余度又比较大,少数辅 音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为 10KHz或16KHz。 2、预加重 为了消除声门激励和口鼻辐射的影响,需要对语音信号作预加重理。它的目 的在于消除低频干扰尤其是50Hz的工作频率干扰,将对语音识别更为有用的高 频部分的频谱进行提升。使信号的频谱变的平坦,保持在低频到高频的整个频带 中,能用同样的信噪比求频谱, 以便于频谱分析。 预加重数字滤波器一般是一阶的数字滤彼器:H ( z ) 1 z ,其中u的取值一般 介于0.93和0.98之间。
语音识别概述
语音识别系统分类:
从说话者与识别系统的相关性分: (1)特定人语音识别系统:仅考虑对于专人的话音进行识别,与说话的语种没 有关系; (2)非特定人语音识别系统:识别的语音与人无关,通常要用大量不同人的语 音数据库对识别系统进行学习,识别的语言取决于采用的训练语音库; (3)多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语 音进行学习,通常可以识别三到五个人的语音。
语音识别系统基本原理
语音信号产生的时域模型
语音识别系统基本原理
语音信号分析基础 语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语谱分 析等。 语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的运动密切 相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为 短时平稳的,其频谱特性和某些物理参数在10-30ms时间段内是近似不变的,对 语音信号进行处理都是基于这个假设
从说话的方式分: (1)孤立词语音识别系统:其输入系统要求输入每个词后要停顿; (2)连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些 连音现象; (3) 连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连音和 变音。
另外从识别系统的词汇量大小分:小词汇量语音识别系统(几十个词);中等 词汇量语音识别系统(几百到上千个词);大词汇量语音识别系统(几千到几万 个词)。
语音识别概述
语音识别的基本方法:
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模 板匹配的方法以及利用人工神经网络的方法。
(1)语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由 于其模型及语音知识过于复杂,现阶段没有达到实用的阶段. (2)模板匹配的方法 模板匹配的方法发展比较成熟,目前己达到了实用阶段。常用的技术有三种: 动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。 (3)神经网络的方法 基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构 成。由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处 于实验室研究阶段。
语音信号处理与识别
一、语音识别概述 二、语音识别系统基本原理 三、预处理及特征参数提取 四、模板匹配技术及相似性判断方法 五、语音识别系统的设计和实现
语音识别概述
让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随计算机技 术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进 入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一。 语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方 向 。其最终目标是实现人与机器进行自然语言通信。 发展和现状:
1
预处理及特征参数提取
3、语音分帧 语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内,其频谱 特性和某些物理特征参量可近似地看作是不变的。这样就可以采用平稳过程的分 析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧 再加以处理。分帧可以采用连续分段的方法,也可采用交叠分段的方法。一般采 用交叠分段的方法,即帧与帧之间有交叠,交叠的目的是使帧与帧之间平滑过渡, 保持其连续性。语音信号处理的帧长一般取20ms
语音识别概述
21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产品方面, 各大公司纷纷推出自己产品。目前世界上最先进的语音识别软件,既不是微软生 产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking己经得到了大多数用户的认可。用户 对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误.久而久 之,该软件就会适应用户的说话风格。 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从 实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机 专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研 究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势, 并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中 科院自动化研究所模式识别国家重点实验室。 由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语 数码串连续语音识别系统,识别精度达到了94.8%(不定长数字串)和96.8%(定长 数字串).
20世纪50年代,AT&T Bell(贝尔)研究所成功研制了世界上第一个能识别10 个英文数字的语音识别系统一Audry系统,这标志着语音识别研究的开始。
60年代计算机的应用推动了语音识别的发展。这一时期的重要成果是动态规 划(Dynamic Programming, DP)和线性预测分析(Linear Predictive)技术。其中后 者较好的解决了语音信号产生的模型问题,对语音识别产生了深远的影响。
N m 1
Em
nm

S w (n m )
语音信号产生模型 语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的 音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音的 激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源 是位于声道某个闭合点处建立起来的气压及其突然释放。 语音生成系统分为三个部分,在声门(声带)以下,称为声门子系统,它产生 激励振动,是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出 去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用三个子 模型:激励模型、声道模型和辐射模型的串联表示。
相关文档
最新文档