语音信号的提取与识别的研究

合集下载

语音信号的提取与识别技术——说话人识别系统的研究

语音信号的提取与识别技术——说话人识别系统的研究

毕业设计说明书语音信号的提取与识别技术——说话人识别系统的研究作者:学号:学院(系):专业:指导教师:评阅人:20**年6月中北大学毕业设计(论文)任务书学院、系:专业:学生姓名:学号:设计(论文)题目:语音信号的提取与识别技术起迄日期: 20**年2月15日~20**年6月21日设计(论文)地点:指导教师:系主任:发任务书日期:20**年2月15日毕业设计(论文)任务书1.毕业设计(论文)课题的任务和要求:1.了解声音信号的特征参数,及现阶段研究处理方法。

以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。

2.学会在语音信号处理中使用MATLAB软件工具。

3.针对基本的个别个体的特定声音进行与信识别研究。

4.根据研究情况利用MATLAB语言进行相关算法的实现。

2.毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1.查阅相关资料,利用已学的相关知识进行消化和理解。

2.了解现阶段的语音处理情况,分析研究相关的产品。

3.研究学习基本的识别处理方法。

4.学习相关信号处理软件。

5.对软件的学习达到能对基本的算法进行软件的处理。

6.完成毕业设计论文。

毕业设计(论文)任务书3.对毕业设计(论文)课题成果的要求〔包括毕业设计(论文)、图纸、实物样品等):1、毕业论文一份;2、英文文献1份,相应的中文译文1份。

4.毕业设计(论文)课题工作进度计划:起迄日期工作内容2006年2月15日~ 3月31日4月 1日~ 5月31日6月 1日~ 6月20日6月20日~ 6月21日系统学习,查阅资料,作开题报告;英文资料翻译;撰写毕业论文;论文答辩。

学生所在系审查意见:系主任:年月日中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:专业:设计(论文)题目:语音信号提取与识别技术指导教师:20**年 3 月 8 日毕业设计(论文)开题报告1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,撰写2000字左右的文献综述:文献综述语音信号识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法语音识别技术是一种将人类语音转化为文字的技术,它正被越来越广泛地应用于智能助理、语音输入、自动翻译等领域。

本文将详细讨论语音识别技术的原理及其实现方法,以帮助读者更好地了解这一技术并掌握其应用。

一、语音识别技术的原理语音识别技术的原理可以分为三个主要步骤:信号处理、特征提取和模型匹配。

1. 信号处理:语音信号在传输过程中可能受到多种噪声的干扰,如环境噪声、话筒噪声等。

因此,首先需要对音频信号进行预处理,以提高识别准确率。

该步骤通常包括音频去噪、降噪、增强等技术。

2. 特征提取:在预处理后,需要对语音信号进行特征提取,即将连续的语音信号转换为更具区分度的特征向量。

常用的特征提取方法有MFCC (Mel Frequency Cepstral Coefficients)和PLP(Perceptual Linear Prediction)等。

这些特征提取方法通过对不同频率的声音进行分析,提取出语音信号的关键特征,如音高、音频的形态和时长等。

3. 模型匹配:在特征提取后,需要建立一个匹配模型,将特征向量与预先训练好的语音模型进行比对,以确定输入语音对应的文字内容。

常用的模型包括隐马尔可夫模型(HMM)和深度神经网络(DNN)等。

这些模型通过学习大量的语音样本,使模型能够根据输入的特征向量判断最有可能的文字结果。

二、语音识别技术的实现方法语音识别技术的实现需要借助特定的工具和算法。

以下是常用的语音识别技术实现方法:1. 基于统计模型的方法:该方法主要基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)。

隐马尔可夫模型用于描述语音信号的动态性,而高斯混合模型则用于对特征向量进行建模。

这种方法的优点在于其模型简单,容易实现,但其处理长时语音和噪声的能力较弱。

2. 基于神经网络的方法:随着深度学习技术的发展,深度神经网络(DNN)成为语音识别领域的热门技术。

该方法使用多层神经网络模型来学习语音信号的特征表示和模式匹配。

语音信号的特征提取与分类研究

语音信号的特征提取与分类研究

语音信号的特征提取与分类研究语音信号是一种常见的信号,它传递了人类的语言信息,是人类进行交流的重要媒介之一。

但是,要对语音信号进行处理以便于机器学习或实现其他应用,需要提取出语音信号中的特征,并对其进行分类。

本文将重点探讨语音信号的特征提取与分类研究。

一、语音信号的特征提取语音信号是一种时域信号,包含了大量的声音信息。

在对语音信号进行处理前,需要将其转化为数字信号,并从中提取出有用的特征。

下面介绍几种经典的语音信号特征提取方法。

1. 短时能量和短时平均幅值短时能量和短时平均幅值是语音信号最基本的特征之一。

它们可以反映语音信号的音量大小和能量密度分布。

具体方法是将语音信号分成若干小段,在每一小段内求出能量和幅值的平均值。

这种方法简单易行,但是对于含有大量噪声的语音信号效果不佳。

2. 过零率语音信号中能量与过零率相关联,因此,过零率可以反映信号中的频率成分。

过零率表示的是语音信号穿过0的次数。

在计算过零率时,需要将语音信号分成若干小段,计算每一小段内0的穿过次数,并求出平均值。

过零率在识别某些语音词汇时具有一定的作用。

3. 短时倒谱系数短时倒谱系数是一种基于滤波器的语音信号特征提取方法。

它的原理是将语音信号输入到一个数字滤波器中,输出的结果就是短时倒谱系数。

这种方法比较复杂,需要涉及数字滤波器的设计和使用,但是效果很好。

4. 线性预测系数线性预测系数是一种基于自回归模型的语音信号特征提取方法。

它的原理是将语音信号视为一个自回归信号,通过线性预测模型估计自回归系数。

这种方法需要对语音信号进行复杂的数学运算,但是可以提取出语音信号的主要频率成分。

二、语音信号的分类研究经过特征提取后,语音信号就可以被机器进行分类了。

分类的目的是通过对语音信号的特征进行分析,将语音信号划分到不同的类别中,以便于机器进行语音识别或其他应用。

1. 基于深度学习的语音信号分类深度学习是近年来非常流行的一种机器学习方法,其在语音识别领域中也取得了一定的成果。

语音识别技术的最新研究和应用

语音识别技术的最新研究和应用

语音识别技术的最新研究和应用近年来,随着人工智能技术的飞速发展,语音识别技术也得到了显著提升。

语音识别技术是一种将人的语音信息转化为电子信息的技术,其最大的优点就是可以将人的口语和书面语相互转换,为人们的生活和工作带来了很多便利。

本文将探讨语音识别技术的最新研究和应用。

一、语音识别技术的原理语音识别技术的原理是通过电子设备对人的声音进行采集和分析,最终将声音转化为可识别的文字和语音。

其主要流程包括声音的采集、语音的前端处理、语音的特征提取、模式匹配和输出结果等几个环节。

其中最重要的就是模式匹配,即将采集到的声音信息与语言模型进行匹配,然后输出识别结果。

二、语音识别技术的最新研究随着计算机硬件和算法的不断提高,语音识别技术也呈现出了不断创新的趋势。

其中,深度学习技术的应用受到了广泛的关注。

深度学习是一种基于人工神经网络的机器学习方法,其最大的优点就是可以自动地学习和提取特征。

而在语音识别领域,深度学习技术可以提高语音信号的处理精度和速度。

此外,语音识别技术也在不断探索新的领域。

如今,语音助手已逐渐成为人们生活中的一部分,这也促使语音识别技术逐渐扩展到社交、娱乐等领域。

同时,在医疗、交通等领域也得到广泛应用。

比如,医疗领域中的语音识别技术可以用来识别疾病的症状,从而为医生提供更准确的诊断。

三、语音识别技术的应用语音识别技术的应用非常广泛,尤其是在智能家居、车载导航、智能客服等领域。

在智能家居方面,语音识别技术可以实现语音控制家电,在没有遥控器的情况下轻松控制空调、电视等家电产品。

在车载导航方面,语音识别技术可以实现语音导航,安全性和便捷性更高。

在智能客服方面,语音识别技术可以通过语音识别技术和机器人技术,实现自动语音应答服务,为用户提供更好的服务体验。

在翻译领域,随着国际交往的不断加强,语音识别技术也得到了广泛应用。

目前市面上的翻译机大多都采用了语音识别技术和机器翻译技术,不仅可以满足旅游者的出行需求,还可以促进不同国家之间的交流。

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术语音信号的特征提取和语音识别技术是语音处理领域中的重要研究方向,主要用于从语音信号中提取有效的特征,并将其应用于语音识别任务中。

一、语音信号的特征提取语音信号的特征提取旨在从原始语音信号中提取出能够最有效地进行区分和表示的信息。

常见的语音信号的特征提取方法包括:1.短时能量和过零率:短时能量描述了语音信号在短时时间内的能量大小,过零率描述了语音信号经过零点的频率,可以用于检测语音的活动性和边界。

2.声谱图:声谱图是将语音信号转换为频谱的一种可视化表示方法,在声谱图中可以看到声音在不同频率上的强度分布情况,可以用于语音信号的频域分析。

3.倒谱系数:倒谱系数是通过对语音信号的离散傅里叶变换(DFT)和对数运算得到的,倒谱系数描述了语音信号在倒谱域内的频谱特性,常用于语音识别中的声学特征表示。

4.线性预测系数:线性预测系数是通过对语音信号进行线性预测分析得到的,用于表示语音信号的谐波结构和共振峰,常用于语音识别中的声学特征表示。

5.梅尔频率倒谱系数:梅尔频率倒谱系数是在倒谱系数的基础上引入了梅尔滤波器组,在梅尔频率域内对语音信号进行分析和表示,更符合人类声音感知的特性。

语音识别技术是指将语音信号转换为对应的文本或命令的过程。

常见的语音识别技术包括:1.隐马尔可夫模型(HMM):HMM是一种统计模型,用于描述语音信号与文本之间的关系。

它将语音信号的声学特征序列映射为文本的概率分布,通过最大似然估计和维特比算法来进行识别。

2.深度神经网络(DNN):DNN是一种基于多层神经网络的机器学习模型,通过训练大量的语音数据来进行语音识别。

DNN在特征提取和模型训练方面都具有较好的性能。

3.循环神经网络(RNN):RNN是一种具有记忆功能的神经网络,在语音识别中可用于处理序列数据,如语音信号的语音帧。

4.语言模型:语言模型是用来描述文本序列的概率分布模型,常用于语音识别中对候选文本进行评分和选择。

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:信息与通信工程学院通信工程系专业:通信工程设计(论文)题目:语音信号提取与识别技术指导教师:2006年 3 月 8 日开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。

此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及所在专业审查后生效;2.开题报告内容必须用按教务处统一设计的电子文档标准格式(可从教务处网页上下载)打印,禁止打印在其它纸上后剪贴,完成后应及时交给指导教师签署意见;3.学生写文献综述的参考文献应不少于15篇(不包括辞典、手册)。

文中应用参考文献处应标出文献序号,文后“参考文献”的书写,应按照国标GB 7714—87《文后参考文献著录规则》的要求书写,不能有随意性;4.学生的“学号”要写全号(如020*******,为10位数),不能只写最后2位或1位数字;5. 有关年月日等日期的填写,应当按照国标GB/T 7408—94《数据元和交换格式、信息交换、日期和时间表示法》规定的要求,一律用阿拉伯数字书写。

如“2004年3月15日”或“2004-03-15”;6. 指导教师意见和所在专业意见用黑墨水笔工整书写,不得随便涂改或潦草书写。

毕业设计(论文)开题报告毕业设计(论文)开题报告毕业设计(论文)开题报告附件:参考文献注释格式学术期刊作者﹒论文题目﹒期刊名称,出版年份,卷(期):页次如果作者的人数多于3人,则写前三位作者的名字后面加“等”,作者之间以逗号隔开。

例如:[1]李峰,胡征,景苏等. 纳米粒子的控制生长和自组装研究进展. 无机化学学报,2001, 17(3): 315~324[2] J.Y.Li, X.L.Chen,H.Li. Fabrication of zinc oxide nanorods.Journal of Crystal Growth, 2001,233:5~7学术会议论文集作者﹒论文题目﹒文集编者姓名﹒学术会议文集名称,出版地:出版者,出版年份:页次例如:[3] 司宗国谢去病王群﹒重子湮没快度关联的研究﹒见赵维勤,高崇寿编﹒第五届高能粒子产生和重离子碰撞理论研讨会文集,北京:中国高等科学技术中心,1996:105 图书著者﹒书名﹒版本﹒出版地:出版者,出版年﹒页次如果该书是第一版则可以略去版次。

语音信号的识别与分析技术

语音信号的识别与分析技术

语音信号的识别与分析技术语音信号是我们日常交流中最为普遍和基础的通信手段,随着科技的不断发展,越来越多的人工智能设备和人机交互系统也采用语音作为信息输入和输出的方式,语音信号的识别与分析技术也越来越成为了一个重要的研究领域。

语音信号的识别可以分为语音识别和说话人识别两种。

语音识别是指将说话人说的语音信号转化为文本或命令等符号组合的技术,它是现代人机交互和自然语言处理的基础;而说话人识别是指通过对语音信号中的说话人身份进行识别,从而实现区分不同说话人的功能。

语音信号的分析则是指对说话人语音信号的声学和语言特征进行分析,以提取有效信息的技术。

从声学角度来说,语音信号的分析可以分别在时域和频域上进行。

在时域上,可以利用数字信号处理技术对语音信号进行连续采样,并对其物理特性(如频率、振幅、波形等)进行分析;在频域上,可以将语音信号转化为频域信号,并利用现代声学理论对其进行分析。

在语言学角度来说,语音信号分析的主要任务是对语音信号中的语言信息进行抽取和处理。

语音信号中的语言信息包括音位、音节、单词和语调等。

而对于这些语言信息的抽取和处理,则需要运用到语言学理论、音韵学和自然语言处理等相关技术。

除了语音识别和说话人识别以外,语音信号的识别和分析技术还能够应用于很多其他领域。

例如,通过语音识别技术的应用,可以实现智能家居、手写识别、虚拟助手等人工智能设备的语音交互功能;通过说话人识别技术的应用,可以实现声纹识别、安全认证等方面的应用;而通过语音分析技术的应用,则可以实现情感分析、语音合成等应用。

尽管语音信号的识别和分析技术在很多领域得到了广泛的应用,但是在实际应用中仍然存在一些困难和挑战。

例如,现有的语音识别技术在语音噪声和口音干扰比较大的情况下准确率较低,而现有的说话人识别技术在多说话人同时发言的情况下也容易出现识别困难;而对于语音信号的分析,则由于人类语言的复杂性和多样性,其分析也面临着很大的挑战。

总体来说,语音信号的识别与分析技术已经逐渐成为了计算机科学和人工智能领域中的研究重点之一,随着机器学习和深度学习等技术的不断进步和应用,我们期待这一领域在未来的进一步发展。

语音信号的提取与识别-任务书

语音信号的提取与识别-任务书
7.完成毕业设计论文。
毕业设计(论文)任务书
3.对毕业设计(论文)课题成果的要求〔包括毕业设计(论文)、图纸、实物样品等):
1.利用所学知识对具体的语音信号的特征及处理方法进行学习研究,达到对专业知识的复习与理解。
2.利用所学的处理软件,对声音信号进行一定的处理,并有相关例子的图形表示。
3.按要求完成毕业论文。
2.毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):
1.查阅相关资料,利用已学的相关知识进行消化和理解。
2.了解现阶段的语音处理情况,分析研究相关的基本算法。
3.研究学习一种基本的识别处理方法。
4.学习相关信号处理软件。
5.对软件的学习达到能对基本的算法进行软件的处理。
6.并在对算法理解的基础上用MATLAB编制相关程序并调试完成实验。
毕业和要求:
1、了解声音信号的特征参数,及现阶段研究处理方法。以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。
2、针对不同说话人的语音信号特征进行说话人识别初步研究。
3、学会在语音信号处理中使用MATLAB软件工具。
4、根据研究情况利用MATLAB语言进行相关算法的实现。
4.毕业设计(论文)课题工作进度计划:
起迄日期
工作内容
2005年
3月15日~4月1日
4月1日~5月30日
6月1日~6月22日
查阅相关资料,并对专业知识进行学习。
按要求进行论文的准备工作。
论文答辩
所在专业审查意见:
负责人:
年月日
学院(系)意见:
院(系)领导:
年月日
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号的提取与识别摘要语音识别(Speech Recognition)是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。

本课题通过采用DTW(Dynamic time warping, 动态时间伸缩)算法,对孤立词的识别进行了初步探讨和研究,实现了在MATLAB 软件环境下对特定人特定语音的识别,并针对DTW的主要特点及不足做出了总结。

DTW算法基于动态规划(DP)的思想,解决了孤立词发音长短不一的模板匹配问题。

文中还针对动态规划的不足提出了改进。

关键词:语音识别,DTW,MATLAB,动态规划Abstract:V oice-identification is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. In this paper, DTW arithmetic is adapted to study and research the implement the identification of single-word, and Speech recognition for single-word is realized by using MATLAB. In the end, this paper gets a conclusion on the feature and the shortage of DTW.DTW arithmetic based on the method of DP has solved the problem that the voice has different time during the template matching. This paper also put forward some advises about DP.Key words: V oice-Identification,DTW,MATLAB,DP目录1 引言 (6)1.1概述 (6)1.2语音识别的发展历史 (6)1.3语音识别技术的现状及发展趋势 (7)1.4语音识别技术进入商用 (9)2 语音识别基础 (10)2.1语音信号生成的数学模型 (10)2.2语音信号的端点检测 (10)2.2.1 语音信号的分帧 (12)2.2.2 短时能量的计算 (12)2.2.3 过零率计算 (14)2.3语音信号的特性分析 (17)2.4语音识别系统的分类方式及依据 (18)2.5语音识别系统的基本构成 (18)3 语音识别技术详述 (19)3.1语音识别单元的选取 (19)3.2特征参数提取技术 (20)3.3模式匹配及模型训练技术 (22)4 MATLAB 简介 (24)5 核心算法阐述 (24)5.1DTW算法原理 (24)5.2DTW算法实现 (26)5.2.1 算法简介 (26)5.2.2 程序运行流程 (27)5.3运行结果 (27)5.4算法改进 (29)6 总结 (30)6.1课题总结 (30)6.2实际困难 (30)6.3展望 (31)附录源程序代码 (32)参考文献 (35)致谢 (36)目录1 引言 (6)1.1概述 (6)1.2语音识别的发展历史 (6)1.3语音识别技术的现状及发展趋势 (7)1.4语音识别技术进入商用 (9)2 语音识别基础 (10)2.1语音信号生成的数学模型 (10)2.2语音信号的端点检测 (10)2.2.1 语音信号的分帧 (12)2.2.2 短时能量的计算 (12)2.2.3 过零率计算 (14)2.3语音信号的特性分析 (17)2.4语音识别系统的分类方式及依据 (18)2.5语音识别系统的基本构成 (18)3 语音识别技术详述 (19)3.1语音识别单元的选取 (19)3.2特征参数提取技术 (20)3.3模式匹配及模型训练技术 (22)4 MATLAB 简介 (24)5 核心算法阐述 (24)5.1DTW算法原理 (24)5.2DTW算法实现 (26)5.2.1 算法简介 (26)5.2.2 程序运行流程 (27)5.3运行结果 (27)5.4算法改进 (29)6 总结 (30)6.1课题总结 (30)6.2实际困难 (30)6.3展望 (31)附录源程序代码 (32)参考文献 (35)致谢 (36)1 引言1.1 概述语言是人类特有的功能,声音是人类最常用的工具。

通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式。

语言信号是人类进行思想疏通和情感交流的最主要途径[1]。

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别是一门交叉学科,它以语音分析技术为理论基础, 结合计算机模式识别技术、语音生理学和语言学知识而形成,正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。

人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一性[2]。

在本课题中,将针对DTW算法,讨论如何实现对个别个体的特定声音进行语音识别的问题。

1.2 语音识别的发展历史语音识别的研究工作大约开始于50年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

60年代,计算机的应用推动了语音识别的发展。

这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中,后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

70年代,语音识别领域取得了突破。

在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代,语音识别研究进一步走向深入。

其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应。

HMM模型的广泛应用应归功于AT&TBell 实验室科学家们的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,ANN 和HMM模型建立的语音识别系统,性能相当。

进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。

许多发达国家如美国、日本、韩国以及IBM、Apple、ATTNTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院自动化所、声学所及北京大学等单位研究开发。

鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。

美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。

目前语音识别研究的方向是生理学和自然语言处理与语音识别技术的结合,因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科学技术发展。

多媒体时代的来临,迫切要求解决自动语音识别的难题,必然推动语音识别理论和应用研究的进展。

二十一世纪语音识别技术将会在理论上和应用上都取得突破性进展我们将体会到语音识别带来的种种便利[3]。

1.3 语音识别技术的现状及发展趋势1、就算法模型方面而言,需要有进一步的突破。

目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。

目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。

此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。

可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。

2、就自适应方面而言,语音识别技术也有待进一步改进。

目前,象IBM的ViaV oice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。

这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。

并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。

因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。

现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。

如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。

事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

3、就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。

目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。

很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。

在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。

此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。

语音识别技术要进一步应用,就必须在强健性方面有大的突破。

4、多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。

相关文档
最新文档