语音识别系统及其特征参数的提取研究

合集下载

语音信号的提取与识别的研究

语音信号的提取与识别的研究

语音信号的提取与识别摘要语音识别(Speech Recognition)是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。

本课题通过采用DTW(Dynamic time warping, 动态时间伸缩)算法,对孤立词的识别进行了初步探讨和研究,实现了在MATLAB 软件环境下对特定人特定语音的识别,并针对DTW的主要特点及不足做出了总结。

DTW算法基于动态规划(DP)的思想,解决了孤立词发音长短不一的模板匹配问题。

文中还针对动态规划的不足提出了改进。

关键词:语音识别,DTW,MATLAB,动态规划Abstract:V oice-identification is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. In this paper, DTW arithmetic is adapted to study and research the implement the identification of single-word, and Speech recognition for single-word is realized by using MATLAB. In the end, this paper gets a conclusion on the feature and the shortage of DTW.DTW arithmetic based on the method of DP has solved the problem that the voice has different time during the template matching. This paper also put forward some advises about DP.Key words: V oice-Identification,DTW,MATLAB,DP目录1 引言 (6)1.1概述 (6)1.2语音识别的发展历史 (6)1.3语音识别技术的现状及发展趋势 (7)1.4语音识别技术进入商用 (9)2 语音识别基础 (10)2.1语音信号生成的数学模型 (10)2.2语音信号的端点检测 (10)2.2.1 语音信号的分帧 (12)2.2.2 短时能量的计算 (12)2.2.3 过零率计算 (14)2.3语音信号的特性分析 (17)2.4语音识别系统的分类方式及依据 (18)2.5语音识别系统的基本构成 (18)3 语音识别技术详述 (19)3.1语音识别单元的选取 (19)3.2特征参数提取技术 (20)3.3模式匹配及模型训练技术 (22)4 MATLAB 简介 (24)5 核心算法阐述 (24)5.1DTW算法原理 (24)5.2DTW算法实现 (26)5.2.1 算法简介 (26)5.2.2 程序运行流程 (27)5.3运行结果 (27)5.4算法改进 (29)6 总结 (30)6.1课题总结 (30)6.2实际困难 (30)6.3展望 (31)附录源程序代码 (32)参考文献 (35)致谢 (36)目录1 引言 (6)1.1概述 (6)1.2语音识别的发展历史 (6)1.3语音识别技术的现状及发展趋势 (7)1.4语音识别技术进入商用 (9)2 语音识别基础 (10)2.1语音信号生成的数学模型 (10)2.2语音信号的端点检测 (10)2.2.1 语音信号的分帧 (12)2.2.2 短时能量的计算 (12)2.2.3 过零率计算 (14)2.3语音信号的特性分析 (17)2.4语音识别系统的分类方式及依据 (18)2.5语音识别系统的基本构成 (18)3 语音识别技术详述 (19)3.1语音识别单元的选取 (19)3.2特征参数提取技术 (20)3.3模式匹配及模型训练技术 (22)4 MATLAB 简介 (24)5 核心算法阐述 (24)5.1DTW算法原理 (24)5.2DTW算法实现 (26)5.2.1 算法简介 (26)5.2.2 程序运行流程 (27)5.3运行结果 (27)5.4算法改进 (29)6 总结 (30)6.1课题总结 (30)6.2实际困难 (30)6.3展望 (31)附录源程序代码 (32)参考文献 (35)致谢 (36)1 引言1.1 概述语言是人类特有的功能,声音是人类最常用的工具。

语音识别技术研究及实现

语音识别技术研究及实现

纯数学模型,没有考虑人类听觉系统对语音的处理特点。Md 参 能力。( 3 )处卫咙 入的能力。新增的插入的能力是语音识别软件
数和丛于感知线性预测(P任)分析提取的感知线性预侧倒谱, 的另一个主要进步,插人的能力允许用户在系统提 时中断系
在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉 统 而系统依然能知道用户的请求。(引软件身份验证的能力
了摸型数口但却提高了易混淆音节的区分能力
作者简介搞宏涛 (1982一 ) 男,河南工业大学信息科学与工程学 2. 2 特征参 提取技术
院 创犯1级学牛;
语音信号中含有丰富的信息,特征提取就是从语音信号中
张德贤( 196 1一 )男加喃 省开封市人,博士 ,slj 教授 ,主要研究 同: 计怀机书能技术
( Colle罗 of Inf(1rmaI1on sciellce and Engineering,Henan Unlversity of 『1丫广hno1。盯,工lenan Zhen 邵卜。1,45005 1 )
价y 哟山 : Speel ll 民co邵ition teehnolo盯;selec上ing teehn()1)盯 浦 cll盯肛ter par meteT;n]le日(〕f l〕故ltem lnal〔hing and te cl 比101 0即 of rn odej t皿 ni n琶; HM M
1 引言
语音识别以语音为研究对象,是模式识别的一个分支,也是 语音信号处理的一个重要研究方向,涉及到生理学、心理学、语
长时时变的特性,并且能根据一此基本建模单元构造成连续语 音的句子模型,达到了比较高的建模精度和建模灵活性_
2 语音识别的关键技术
言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的 2注 语音识别单元的选取

语音识别中的语音训练数据收集与处理方法

语音识别中的语音训练数据收集与处理方法

语音识别中的语音训练数据收集与处理方法语音识别是一种将人类语音转化为可被计算机理解的文本或指令的技术。

在实现高度准确的语音识别系统之前,我们需要大量的语音训练数据来进行模型训练和优化。

因此,语音训练数据的收集和处理是构建有效的语音识别系统不可或缺的重要步骤。

本文将介绍语音训练数据收集的常用方法以及数据处理的关键步骤。

一、语音训练数据收集方法1. 自由对话录音:将一组志愿者请到实验室,让他们进行自由对话,并使用高质量的麦克风进行录音。

这种方法主要用于收集自然、非特定领域的语音数据。

优点是数据真实、多样性大,但缺点是成本较高且难以控制录音质量。

2. 专业演讲录音:通过邀请专业演讲者录制各种主题的演讲,收集清晰、完整的语音数据。

这种方法适用于需要特定领域的语音数据,如新闻、音乐等。

优点是数据质量高、领域特定性强,但缺点是演讲者数量有限,数据多样性不够。

3. 电话录音:通过电话或VoIP服务录制用户的语音通话,获取常见的语音应用场景数据。

这种方法适用于收集实际应用中的语音数据,如语音助手、电话客服等。

优点是数据真实、场景多样,但缺点是通话质量参差不齐,对话内容可能难以获取。

4. 有声书籍录音:邀请专业演员朗读有声书籍,收集高质量的语音数据。

这种方法适用于收集流畅、清晰的语音数据,并且可以覆盖多个领域。

优点是录音质量高、语音流畅,但缺点是量产的有声书籍数量有限。

二、语音训练数据处理方法1. 数据清洗:语音录音后,需要进行数据清洗以去除噪音、口吃或其他不理想的录音质量。

通常使用音频处理技术如降噪、滤波来去除噪音,并通过自动语音识别技术检查录音质量。

2. 分割和标注:将录音文件分割成较小的语音片段,并为每个片段添加正确的转录文本。

这一步骤需要一些人工参与,通过手动转录或自动对齐技术来准确标注每个语音片段的文本。

3. 特征提取:从每个语音片段中提取特征,将语音信号转化为可被机器学习算法处理的数值表示。

常用的特征提取方法包括梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等。

有关语音识别技术的研究

有关语音识别技术的研究

有关语音识别技术的研究作者:李宏梅伍小芹来源:《现代电子技术》2010年第08期摘要:语音识别是将音频数据转换成文本或者其他形式的计算机可以处理的信息。

这里简单介绍语音识别技术的发展历史和现状,阐述了典型语音识别系统的基本原理,对语音识别的基本方法和识别过程进行深入分析,探讨语音识别技术发展过程中的难点问题,给出了相应对策。

关键词:语音识别; 音频数据;典型的语音识别系统; 特征参数中图分类号:TP391.42文献标识码:A文章编号:1004-373X(2010)08-0138-03Research on Speech Recognition TechnologyLI Hong-mei, WU Xiao-qin(Hainan University, Haikou 570228, China)Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter0 引言语言是人类获取信息的主要来源之一,是人类与外界交流信息最方便、最有效、最自然的工具,随着计算机技术的快速发展,语音技术的研究也越来越受到重视。

用于人脸动画的语音特征提取算法研究

用于人脸动画的语音特征提取算法研究

【 s a t p ehf tr xrco l rh ae nw vlt akt nls rp sdfr i a sec ytei . Abt c 】Sec aueet tna oi m b sdo a e c e aayi ipo oe s l pehsnhs e r e ai g t ep ss o vu z
提 取 过 程 ,结 合 小 波 理 论 在 语 音 识 别 中 的 广 泛 应 用 , 兼 顾 语 音 动 态 特 性 在 音 视 频 映 射 中 的影 响 .针对 可 视 语 音 合 成 提 出 了 一 种 基 于 小 波 包 分 析 和 主 成 分 分 析
o so i i lt n h f i a e r it d c d P A( r cpeC mp n n A a s )i ui zd t rd c i n n as c t n r a o s i o pf m sae nr u e . C P i i o o e t n l i s ti u edme — ao e i p l r o n l y s le o e s no ei u e c . i a s e c y te i ytm b s do MM( id n Mak v M d 1 n ia s h t h f c i f h p t p e h V s l p e hs nh s ess ae n H o t n s u z e H d e ro o e)id t a tee e t c et
【 关键词 】语音特征提取 ;小波包分析 ;入脸语 音动画;主成分分析
【 中图 分 类 号 】T 9 2 N 1 【 献 标 识 码 】A 文
Re e r h f r S e c e t r t a t n Al o i m rn s a p e h S n h s e s a c o p e h F a u e Ex r c i g r t o h Du i g Viu l S e c y t e i z

《语音信号处理》实验5-DTW算法实现及语音模板匹配

《语音信号处理》实验5-DTW算法实现及语音模板匹配

华南理工大学《语音信号处理》实验报告实验名称:DTW算法实现及语音模板匹配姓名:学号:班级:10级电信5班日期:2013年6 月17日一、实验目的运用课堂上所学知识以及matlab工具,利用DTW(Dynamic Time Warping,动态时间规整)算法,进行说话者的语音识别。

二、实验原理1、语音识别系统概述一个完整特定人语音识别系统的方案框图如图1所示。

输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等,然后是参数特征量的提取。

提取的特征参数满足如下要求:(1)特征参数能有效地代表语音特征,具有很好的区分性;(2)参数间有良好的独立性;(3)特征参数要计算方便,要考虑到语音识别的实时实现。

图1 语音识别系统方案框图语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。

模式匹配中需要用到的参考模板通过模板训练获得。

在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。

在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。

2、语音信号的处理1、语音识别的DTW算法本设计中,采用DTW算法,该算法基于动态规划(DP)的思想解决了发音长短不一的模板匹配问题,在训练和建立模板以及识别阶段,都先采用端点检测算法确定语音的起点和终点。

在本设计当中,我们建立的参考模板,m为训练语音帧的时序标号,M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。

所要识别的输入词条语音称为测试模板,n为测试语音帧的时序标号,N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。

参考模板和测试模板一般都采用相同类型的特征矢量(如LPCC系数)、相同的帧长、相同的窗函数和相同的帧移。

考虑到语音中各段在不同的情况下持续时间会产生或长或短的变化,因而更多地是采用动态规划DP的方法。

基于深度神经网络的语音识别模型研究共3篇

基于深度神经网络的语音识别模型研究共3篇基于深度神经网络的语音识别模型研究1随着人工智能技术的不断发展,语音识别技术已经成为了人机交互的一个重要领域。

语音识别技术对于改善人们的生活和工作具有重要的作用。

传统的语音识别技术主要是基于模板匹配和高斯混合模型的方法。

但是这些方法具有很多的局限性,如处理长文本准确度低、噪声干扰较敏感、实时性不高等问题。

近年来,深度神经网络(Deep Neural Networks,DNN)作为一种新的模型结构被引入到了语音识别中。

基于深度神经网络的语音识别技术,常常被称为“端到端的语音识别”,相比传统技术,它具有许多优势。

首先,DNN 可以自适应学习特征来表示语音信号。

其次,DNN具有实时性,可以很好地处理长语音文本。

最后,DNN具有良好的噪声屏蔽能力,能够在较差的语音环境中准确识别语音。

基于深度神经网络的语音识别模型在近年来的研究中取得了很大的进展。

首先,目前的模型采用了长短期记忆网络(LSTM)、卷积神经网络(CNN)和残差神经网络(ResNet)等结构,在语音识别性能上得到了不错的提升。

此外,针对深度神经网络模型存在的参数多、训练时间长、内存消耗大等问题,学者们提出了很多优化方法,比如剪枝、量化、跳跃连接等。

深度神经网络语音识别的实现过程可大致分为如下几个步骤:首先将语音信号转化为语音特征向量,然后将其送入深度神经网络中进行训练,完成后使用深度神经网络进行验证和应用。

语音识别中最重要的一步就是特征提取,而时频展示法(Spectrogram)是最常用的特征表述法。

Spectrogram 将语音信号在时域方向上进行分割,并将每份信号转换为对应的频谱图。

许多学者通过对 Spectrogram 进行分析和优化,不断提高其性能。

深度神经网络语音识别的训练过程可分为监督学习和无监督学习。

监督学习使用有标注的语音样本作为训练数据,利用这些数据来训练深度神经网络,使其能够自动识别未标注的样本。

基于卷积神经网络的语音识别技术研究

基于卷积神经网络的语音识别技术研究语音识别技术是人工智能的重要研究领域之一,其核心是自然语言处理。

目前,基于深度学习的语音识别技术已经被广泛应用于语音助手、智能家居、智能客服等领域。

其中,卷积神经网络(CNN)作为一种成功的深度学习架构,在语音识别中也发挥着非常重要的作用。

一、卷积神经网络的基本结构卷积神经网络由卷积层、池化层、全连接层等组成。

其中,卷积层是CNN的核心层次,用来提取语音信号中的特征特征,应用复杂的函数实现了从原始输入到特征提取的映射。

池化层用来对特征进行降维和抽样。

全连接层将特征提取出来的特征进行整合和分类。

整个CNN模型在训练过程中通过反向传播算法自动学习如何从语音信号中提取信息,从而实现了语音识别。

二、卷积神经网络的优点相比传统的语音识别方法,卷积神经网络具有以下优点:1.神经网络能够自动学习语音信号中的特征,避免了繁琐的人工特征提取过程。

2.卷积层的卷积核可以实现对语音信号的局部响应,提高了对信号变化的适应性。

3.卷积神经网络具有高度的灵活性,能够适应不同噪音水平和说话人口音的输入环境,并且模型参数也不需事先平衡。

三、卷积神经网络语音识别的研究问题和解决方案虽然卷积神经网络在语音识别领域具有良好的应用前景,但在实际应用中也存在一些问题。

主要问题如下:1.数据量问题:语音是一个高度动态的信号,需要大量的样本数据才能有效地训练模型。

目前,不同语种及不同口音的大规模数据集仍然是绝大多数研究所面临的难题。

2.语音噪声问题:噪声对语音识别的影响极大,尤其在实际应用环境中,噪声较多,因此如何对卷积神经网络进行优化以适应不同的噪音环境是一个很重要的问题。

3.实时性问题:语音识别在实际应用中需要达到实时性,即输入语音信号到输出文字结果的时延要达到可接受的范围。

如何快速适应语音信号的变化并实现实时性也是一个重要的问题。

针对以上问题,研究人员提出了以下解决方案:1.数据增强:通过降噪、语速变换、声道增强等技术,扩充数据的变化范围,提高模型的鲁棒性和分类效果。

声学信号的特征提取与分析算法

声学信号的特征提取与分析算法声学信号是指通过声波传播而产生的信号,它在我们日常生活中无处不在,如语音、音乐、环境声等。

对声学信号的特征提取与分析是一项重要的研究课题,它可以帮助我们理解声学信号的本质,从而应用于语音识别、音乐分析、环境声场建模等领域。

一、声学信号的特征提取声学信号的特征提取是指从原始声学信号中提取出能够反映信号特性的参数。

常见的声学信号特征包括时域特征和频域特征。

时域特征是指对声学信号在时间上的变化进行分析,常用的时域特征包括短时能量、过零率和短时自相关函数等。

短时能量反映了信号的能量大小,过零率表示信号波形穿过零点的次数,短时自相关函数描述了信号在不同时间延迟下的相似性。

频域特征是指对声学信号在频率上的变化进行分析,常用的频域特征包括功率谱密度、频谱包络和谱熵等。

功率谱密度表示信号在不同频率上的能量分布,频谱包络描述了信号频谱的整体形状,谱熵反映了信号频谱的复杂程度。

二、声学信号的特征分析算法声学信号的特征分析算法是指通过对声学信号的特征进行提取和分析,来揭示信号的内在规律和特点。

常用的声学信号特征分析算法包括时域分析和频域分析。

时域分析是指对声学信号在时间上的变化进行分析,常用的时域分析算法包括自相关函数法、短时傅里叶变换法和小波变换法等。

自相关函数法可以用来计算信号的过零率和短时自相关函数,短时傅里叶变换法可以将信号从时域转换到频域,并提取出频率信息,小波变换法可以对信号进行多尺度分析。

频域分析是指对声学信号在频率上的变化进行分析,常用的频域分析算法包括傅里叶变换法、功率谱估计法和谱减法等。

傅里叶变换法可以将信号从时域转换到频域,并提取出频率成分,功率谱估计法可以计算信号的功率谱密度,谱减法可以通过减去噪声谱来增强信号的清晰度。

三、声学信号特征提取与分析的应用声学信号的特征提取与分析在许多领域都有广泛的应用。

在语音识别领域,通过提取语音信号的特征参数,可以将语音信号转化为数字特征向量,用于识别不同的语音单元。

如何提升人工智能语音识别准确率的研究

如何提升人工智能语音识别准确率的研究人工智能语音识别(Automatic Speech Recognition, ASR)技术的发展已经进入了一个快速的发展阶段。

ASR系统的应用范围越来越广泛,比如智能音箱、智能客服、智能家居等等,而ASR系统的核心技术就是准确地将人的语音信号转化为文本信号。

然而,由于ASR系统涉及到语音的多样性、噪声的影响等多种因素,导致ASR系统仍然存在准确率不高的问题。

针对这一问题,本文将探讨如何提升ASR系统的语音识别准确率的研究方法及其技术手段。

一、语音信号采集与前处理ASR系统的核心是将语音信号转化为文本信号,因此语音信号质量的好坏直接影响到识别结果的准确率。

因此,语音信号采集与前处理是提高ASR系统语音识别准确率的重要前提。

1.1 语音信号采集目前市面上ASR系统应用广泛,其中智能音箱是目前最为常见的应用。

而智能音箱采集语音信号的时候,由于使用者不一定能够准确说出需要的指令,同时室内的噪声也会影响ASR系统的识别结果,因此需要进行一系列采集语音信号的方法。

其中比较常见的方法是通过众包的方式进行大规模人工录制,既可以降低采集成本,又可以提高采集速度。

此外,也可以借助于人工智能技术进行语音合成,通过模拟人的语音特征获取更加丰富的语音信号,以提高ASR系统的识别准确率。

1.2 语音信号前处理语音信号的前处理主要是通过一系列处理手段获取尽量干净、清晰的语音信号,可以有效地去除噪声,提高ASR系统的识别率。

常见的前处理方法包括噪声去除、语音增强、语音分割等。

其中噪声去除技术采用很多方法,包括利用语音信号的周期性和谐波特性、谱减法等;语音增强技术采用降噪算法、频域增强算法等;语音分割技术主要是获取语音信号的端点,可以将语音信号和非语音信号分割开来,是ASR系统的前处理一部分。

二、特征提取技术语音识别的另一个关键环节就是特征提取。

ASR系统需要将语音信号转换为文本格式,因此需要将语音信号进行特征提取,把它们转换为识别引擎中可以使用的特定的数学特征。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机与现代化 2009年第9期JISUANJIYUXIANDAIHUA总第169期

文章编号:100622475(2009)0920167202

收稿日期:2009204215

基金项目:广西壮族自治区教育厅科研资助项目(200808MS008)作者简介:魏星(19802),男,四川资中人,桂林电子科技大学硕士研究生,桂林航天工业高等专科学校计算机系讲师,研究方向:计算机网络,语音信号处理;周萍(19632),女,桂林电子科技大学计算机与控制学院副教授,研究方向:语音信号处理。

语音识别系统及其特征参数的提取研究魏 星1,2,周 萍1(1.桂林电子科技大学计算机与控制学院,广西桂林541004;

2.桂林航天工业高等专科学校计算机系,广西桂林541004)

摘要:在语音识别系统中,特征参数的选择对系统的识别性能有关键性的影响,本文主要研究几种重要的语音特征参数,

包括线性预测倒谱系数、美尔倒谱系数、基于小波分析的参数等,并对这些参数进行了分析和比较,最后对语音识别的研究未来进行了展望。关键词:语音识别;线性预测倒谱系数;美尔倒谱系数;小波分析中图分类号:TP391 文献标识码:A doi:10.3969/j.issn.100622475.2009.09.048

ResearchonSpeechRecognitionSystemandItsCharacteristicParametersExtractionWEIXing1,2,ZHOUPing1(1.ComputerandControlCollege,GuilinUniversityofElectronicTechnology,Guilin541004,China;

2.DepartmentofComputerScience,GuilinCollegeofAerospaceTechnology,Guilin541004,China)

Abstract:Inspeechrecognitionsystem,thechoiceofcharacteristicparametersofthesystemhaskeyinflucetoidentifytheimpactofperformance.Thispaperresearchesonseveralimportantparametersofthevoicecharacteristics,includingthelinearpredictioncepstrumcoefficient,Mel2FrequencyCepstrumCoefficient,theparametersbasedonwaveletanalysis,etc.Andtheseparametersareanalyzedandcompared.Finally,prospectedthespeechrecognitionresearchinfuture.Keywords:speechrecognition;linearpredictioncepstrumcoefficient;Mel2FrequencyCepstrumCoefficient;waveletanalysis

0 引 言说话人识别(SpeakerRecognition,SR),也称为声纹识别(VoiceprintRecognition),是利用说话人的语音信号同预先提取的说话人语音特征相比较来确定或鉴别说话人身份的技术。每个人由于自己独特的声道特性和发音特点,使其讲话具有区别于其他说话人的特征,这就是说话人识别的基本依据。说话人识别基本上有两条思路。一是基于模型的,即为语音的生成过程建立一个物理模型,通过求解微分方程得到模型参数,最终达到识别目的。线性预测分析方法和一些学者采用的反演方法,就是采取这种思路的。另一思路是利用信号处理技术,模拟被识别人的语音的过程,从语音信号中提取可唯一表征人个体因素的特征参数,利用这些参数进行识别。1 语音识别技术存在的问题近二十年来,说话人识别方面探索十分活跃,目前,在语音识别技术方面虽然取得了一定成功,但仍然存在问题,主要有以下几个方面:

(1)尚未找到简单可靠的说话人语音特征参数

:

语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,

也没有找到简单的声学参数能够可靠地识别说话人。(2)语音信号的变异性:语音信号的变异性从本

质上使说话人特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性。(3)说话人识别的应用还受到伪装发音等问题

的困扰。168 计 算 机 与 现 代 化2009年第9期2 语音识别系统构成

图1 说话人识别系统原理框图说话人识别系统的基本原理如图1所示,主要包括以下几个阶段:(1)语音信号的预处理。通过预处理滤除掉各种噪声和干扰,提升信号中的高频部分,

并进行端点检测,去掉非有效语音帧,为特征提取提供有效的语音段。(2)语音特征参数的提取。即提取能够有效表征说话人特征的参数。(3)说话人参数模型的建立和模型匹配距离的计算。在训练阶段,

系统的每个使用者说出训练语句,提取说话人的语音特征,系统据此建立并存储每个使用者的参考模型;

在识别阶段,由待识别说话人的语音信号经过特征提取后形成的待测模型,然后与系统训练时产生的参考模型进行比较。(4)对于说话人确认系统,通过判断测试语音两个模型的匹配距离是否小于一定阈值来做出判决,若确认成功,则对参考模型进行更新。如图1所示。

3 说话人特征参数的提取语音参数的选择是整个话者识别系统的基础,对正确识别率有着直接的影响,如何找到稳定有效的特征参数来表征说话人,是说话人识别中的关键问题。目前常用的特征参数包括线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、美尔

倒谱系数(Mel2FrequencyCepstrumCoefficient,MF2CC)、基于小波分析的特征参数提取等。传统的特征

参数采用短时傅立叶分析(STFT),将语音信号分割成10~20ms的小帧,以满足短时平稳的要求。但实际上语音信号的频谱特性是随时间变化的,是一种典型的非平稳信号,而小波分析正是一种处理非平稳信号的有力武器。在语音识别和说话人识别中,关于小波分析的应用仍然处于探索阶段。

3.1线性预测倒谱系数LPCC系数是一种非常重要的特征参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,因此在识别中取得了较好的效果。它的基本思想是:一个语音信号的采样值可以用过去若干个采样值的线性

组合来逼近。通过使实际语音采样值与线性预测采样值的均方误差达到最小,可以确定唯一的一组线性预测系数。通过原理的分析,就是要求LPC参数,主要是使预测误差的均方值最小。随着p的增大,总能使均方值减小,但当p增加到一定程度以后,再增大p值也只能使均方值有微弱下降,而且p值选得很大虽然可以略微改善逼近效果,但也带来一些负作用。一方面是加大了计算量,另一方面有可能增添一些不必要的细节,比如在用声道模型谱进行共振峰分析时反而使效果变坏。线性预测参数是模拟人的发音器官的,每段声管则对应一个线性预测模型的极点。一般情况下,极点的个数在12~16个之间,就可以足够清晰地描速语音信号的特征。3.2美尔倒谱系数与普通实际频率倒谱分析不同,MFCC的分析着眼于人耳的听觉特性,Mel频率尺度的值大体上对应于实际频率的对数分布关系,更符合人耳的听觉特性。MFCC参数的突出优点是不依赖全极点语音产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而提高识别系统的性能。但是在系统实时处理上,与LPCC参数相比,MF2CC参数计算有两个缺点:一是计算量大,计算时间长,很难达到实时性;二是精度难以保证,由于MFCC

参数的计算需要FFT变换和对数操作,影响了计算的动态范围,要保证其在单片机或DSP平台上的运算速度,就只有牺牲参数精度。

3.3基于小波包分析的特征参数将小波变换引入语音特征参数的提取,用离散小波(包)变换代替短时傅立叶变换或直接利用小波知识来进行新参数的提取。由于语音信号的非平稳性,

可以用小波包分析代替语音信号处理中的傅立叶分析和滤波器组,导出基于小波包分析的语音特征。近年来的方法有:用小波变换代替离散余弦变换分离滤波器输出能量[1],直接采用小波变换和小波包

变换的子带能量作特征[2],用固定小波分解树计算子

带能量[3]。在TIMIT标准语音库上,文献[1]和文献[3]进行了音素识别,文献[2]进行了说话人识别。在音素识别中,小波方法在变化剧烈的如爆破音上具有优势,传统的傅立叶方法在周期性较强的如元音上具有优势。而在说话人识别中,两种方法差别不大。

4 未来研究方向说话人识别的研究主要集中在以下几个方面:如何增强特征矢量的鲁棒性和辨识(下转第172页)

相关文档
最新文档