基于 MBIC 的决策树聚类算法在连续语音识别中的应用
音频信号处理技术在语音识别中的应用算法

音频信号处理技术在语音识别中的应用算法音频信号处理技术是将人耳无法感知的声音信号转化为数字信号,并对其进行分析和处理的过程。
在语音识别领域,音频信号处理技术起着至关重要的作用。
本文将介绍音频信号处理技术在语音识别中的应用算法。
一、特征提取算法特征提取算法是将音频信号转化为计算机能够处理的数字特征。
1. 短时能量(Short-Time Energy)算法:该算法通过将音频信号分割为短时间段的小片段,并计算每个片段内的能量大小来提取特征。
短时能量越大,表示该时间段内的声音越强烈。
2. 短时过零率(Short-Time Zero Crossing Rate)算法:该算法计算音频信号过零点的频率,过零率越高,表示音频信号的频率越高。
3. 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)算法:该算法模拟了人耳对声音的感知机制,将音频信号转化为一组特征向量。
MFCC算法在语音识别中应用广泛,具有较好的鲁棒性和区分度。
二、语音分割算法语音分割算法主要是将语音信号从背景音乐或其他干扰音中分离出来。
1. 短时能量和过零率结合算法:该算法通过计算短时能量和过零率的变化来判断语音信号的开始和结束。
2. 声道消除算法:该算法通过建立模型,将语音信号从录音中的声道效应中分离出来。
3. 频域分析:该算法通过将语音信号在频域进行分析,根据频率和幅度的变化来进行语音分割。
三、语音增强算法语音增强算法主要是提高语音信号质量,减少噪声和干扰的影响。
1. 自适应滤波器:该算法通过对噪声进行建模,采用自适应滤波器去除语音信号中的噪声。
2. 光谱减法:该算法通过将语音信号和噪声信号在频域进行相减,以消除噪声的影响。
3. 噪声估计算法:该算法根据已知的背景噪声估计当前噪声的频谱,并对语音信号进行相应的处理。
四、语音识别算法语音识别算法是将处理后的语音信号转化为文字。
1. 隐马尔可夫模型(Hidden Markov Model,HMM):HMM是一种基于概率模型的语音识别算法,它将语音信号建模为由状态之间转化的马尔可夫链。
语音信号的特征提取与分类研究

语音信号的特征提取与分类研究语音信号是一种常见的信号,它传递了人类的语言信息,是人类进行交流的重要媒介之一。
但是,要对语音信号进行处理以便于机器学习或实现其他应用,需要提取出语音信号中的特征,并对其进行分类。
本文将重点探讨语音信号的特征提取与分类研究。
一、语音信号的特征提取语音信号是一种时域信号,包含了大量的声音信息。
在对语音信号进行处理前,需要将其转化为数字信号,并从中提取出有用的特征。
下面介绍几种经典的语音信号特征提取方法。
1. 短时能量和短时平均幅值短时能量和短时平均幅值是语音信号最基本的特征之一。
它们可以反映语音信号的音量大小和能量密度分布。
具体方法是将语音信号分成若干小段,在每一小段内求出能量和幅值的平均值。
这种方法简单易行,但是对于含有大量噪声的语音信号效果不佳。
2. 过零率语音信号中能量与过零率相关联,因此,过零率可以反映信号中的频率成分。
过零率表示的是语音信号穿过0的次数。
在计算过零率时,需要将语音信号分成若干小段,计算每一小段内0的穿过次数,并求出平均值。
过零率在识别某些语音词汇时具有一定的作用。
3. 短时倒谱系数短时倒谱系数是一种基于滤波器的语音信号特征提取方法。
它的原理是将语音信号输入到一个数字滤波器中,输出的结果就是短时倒谱系数。
这种方法比较复杂,需要涉及数字滤波器的设计和使用,但是效果很好。
4. 线性预测系数线性预测系数是一种基于自回归模型的语音信号特征提取方法。
它的原理是将语音信号视为一个自回归信号,通过线性预测模型估计自回归系数。
这种方法需要对语音信号进行复杂的数学运算,但是可以提取出语音信号的主要频率成分。
二、语音信号的分类研究经过特征提取后,语音信号就可以被机器进行分类了。
分类的目的是通过对语音信号的特征进行分析,将语音信号划分到不同的类别中,以便于机器进行语音识别或其他应用。
1. 基于深度学习的语音信号分类深度学习是近年来非常流行的一种机器学习方法,其在语音识别领域中也取得了一定的成果。
汉语连续语音识别中的分级聚类算法的研究和应用

汉语连续语音识别中的分级聚类算法的研究和应用汉语连续语音识别一直是语音处理领域的一个难点问题。
而分级聚类算法作为一种无监督的聚类算法,在汉语连续语音识别中拥有广泛的应用前景。
分级聚类算法是指将多个数据点依次聚合成簇,并且在每个聚类的过程中,都可以确定这些数据所属的层级。
其最大特点是基于相似度来聚类,和聚类的过程中连续的更新层级。
这种算法可以在不知道数据点群的大小和聚类数量的情况下,自动地帮助实现分组识别,提高汉语连续语音识别的精准度。
分级聚类算法在汉语连续语音识别领域的应用主要体现在两个方面,一是可用于构建词典,即将来自声学空间中的语音特征进行聚类,每个簇代表一个词,从而建立语音词典。
二是用于实现音素分类,在汉语连续语音的语音信号流中,一般由一系列音素的连续出现形成,这时可以利用分级聚类算法实现对音素的分类识别。
目前在使用分级聚类算法识别汉语连续语音时,需要着重考虑以下三个问题:一是数据预处理,数据预处理不当会对算法的运行效果和结果产生较大的影响。
对于汉语语音信号,需要预处理的内容包括去噪、降噪、标注、分割等。
这些序列的分割有很大的难度,但如果分割的不当,会导致整个算法识别错误程度的加重。
二是特征表示的选取。
对于声音信号的数据点,通常可以用多种方式表示。
目前在汉语连续语音领域,MFCC技术是广泛使用的一种特征提取技术。
与其他特征提取技术相比,MFCC技术可以将语音信号转化为一组包含了感知听觉信息的特征向量,能够更好地反映人耳对音频信号的感知。
但MFCC方法提取特征复杂度和提取精度和点击率较大,将对算法的时间成本和准确性产生影响。
三是聚类参数的设定,分级聚类算法常常是需要预设聚类个数、聚类算法、距离测量方式等等,而这些参数的实际意义和取值对声音语音识别的识别精度都有重大影响。
对于聚类个数的设定,应该试图通过训练集、方法论或不同的距离公式进行确定。
而针对票选聚类算法,通常是采取被划分的样本与类中心的距离之和最小化的策略。
语音情感识别中的特征提取与分类算法

语音情感识别中的特征提取与分类算法引言近年来,随着人工智能技术的迅速发展,语音情感识别作为一种重要的人机交互技术,受到了广泛的关注和研究。
语音情感识别的目标是通过分析语音信号,准确地识别出说话者的情感状态,这对于提高人机交互的体验和效果具有重要意义。
在语音情感识别的研究中,特征提取和分类算法是非常关键的环节,本文将结合实际案例,对语音情感识别中的特征提取与分类算法进行探讨。
一、语音情感特征提取1.1 声学特征提取声学特征是指从语音信号中提取出来的与个体发音特点、语言习惯以及情感状态等相关的特征。
常见的声学特征包括基频、声道特征和共振峰等。
基频是指语音信号的周期性振动频率,与说话者的性别和情感状态密切相关。
声道特征反映的是声音通过口腔和鼻腔等共鸣腔体时的频率响应情况,可以通过声道模型进行提取。
共振峰是指声音信号谱中的共振峰频率,与发音部位、声音的共振特性以及语音的清晰度等有关。
1.2 语音情感特征提取方法为了提取语音情感特征,研究人员提出了多种方法。
一种常用的方法是基于时域的特征提取,例如短时过零率、短时能量和短时自相关系数等。
短时过零率可以反映语音信号的频率变化情况,短时能量反映了语音信号的整体强度,而短时自相关系数可以表示语音信号的周期性相关性。
此外,还可以使用频域特征提取方法,例如基频、谐波比、频谱熵等。
基频用于表示声音的音高,谐波比可以反映声音的富谐波特性,频谱熵则用于度量频谱的均匀性。
二、语音情感分类算法2.1 传统机器学习算法在语音情感分类算法中,传统机器学习算法被广泛运用。
常用的算法包括支持向量机(SVM)、K最近邻算法(KNN)和决策树等。
SVM算法通过不同的核函数将语音情感特征向量映射到高维空间,并在高维空间中构造一个最优的超平面来实现情感分类。
KNN算法采用最近邻搜索的方式,将未知语音特征向量与已有的标记样本进行比对,并将其分类到离他最近的K个样本所在的类别中。
决策树算法则通过构建一个树状的决策模型,根据特征向量的不同取值来进行分类。
机器学习在语音识别中的应用有哪些

机器学习在语音识别中的应用有哪些在当今科技飞速发展的时代,语音识别技术已经成为我们日常生活和工作中不可或缺的一部分。
从智能手机中的语音助手到智能音箱,从车载语音导航到语音转文字软件,语音识别技术的应用无处不在,为我们带来了极大的便利。
而机器学习作为推动语音识别技术不断发展的核心力量,其在语音识别中的应用更是多种多样。
首先,机器学习在语音特征提取方面发挥着重要作用。
语音信号是一种复杂的时变信号,包含了丰富的信息。
要实现准确的语音识别,就需要从原始语音信号中提取出有效的特征。
传统的特征提取方法,如基于短时傅里叶变换的梅尔频率倒谱系数(MFCC),在一定程度上能够表征语音的特征,但存在局限性。
机器学习算法,特别是深度学习中的卷积神经网络(CNN)和循环神经网络(RNN),可以自动学习语音信号中的深层次特征。
例如,CNN 能够捕捉语音信号中的局部模式和频谱特征,而 RNN 及其变体,如长短期记忆网络(LSTM)和门控循环单元(GRU),则擅长处理语音信号的时序信息。
通过这些机器学习算法提取的特征,能够更准确地反映语音的本质特征,从而提高语音识别的性能。
其次,机器学习在声学模型的构建中起着关键作用。
声学模型用于描述语音信号与语音单元(如音素、音节等)之间的概率关系。
早期的声学模型基于高斯混合模型(GMM)和隐马尔可夫模型(HMM),但这些模型的表达能力有限。
随着机器学习的发展,深度神经网络(DNN)被引入到声学模型中,大大提高了模型的性能。
DNN 能够学习语音特征与声学单元之间的复杂非线性关系,从而更准确地预测语音的声学特征。
此外,基于 RNN 和 LSTM 的声学模型能够更好地处理语音的长时依赖关系,进一步提高了语音识别的准确率。
在语言模型方面,机器学习也有重要的应用。
语言模型用于预测语音识别结果中的词汇序列的概率分布。
传统的语言模型基于 ngram 模型,但这种模型受限于数据规模和语言的复杂性。
机器学习中的神经网络语言模型,如循环神经网络语言模型(RNNLM)和长短时记忆网络语言模型(LSTMLM),能够利用大规模的文本数据进行训练,学习到语言的语法、语义和语用等知识,从而更准确地预测语音识别的结果。
深度学习算法在语音识别中的应用案例

深度学习算法在语音识别中的应用案例近年来,深度学习算法在各领域中展示出了强大的能力,其中之一便是语音识别。
语音识别是指将人类语音信号转换为文字或其他指令的技术,而深度学习算法则可以通过对大量数据的学习和模式识别,实现对语音信号的高效准确识别。
本文将介绍几个深度学习算法在语音识别中的应用案例,以展示其在该领域的重要作用。
首先,深度卷积神经网络(CNN)在语音识别中有着广泛的应用。
CNN是一种专门处理图像识别任务的深度学习算法,但它同样适用于语音信号的处理。
例如,通过将语音信号转换为频谱图像,可以将其输入到CNN网络中,进行语音识别任务。
这种方法的优势在于能够高效地捕捉语音信号中的频谱特征,并与已有的训练数据进行比较,从而快速而准确地识别语音指令。
其次,循环神经网络(RNN)也在语音识别中发挥着重要作用。
RNN是一种能够处理序列数据的深度学习算法,它在语音信号的时间序列分析中表现出了出色的性能。
通过将语音信号分割为时间步,并将每个时间步的数据输入到RNN网络中,可以在不同时间步骤上对语音信号进行建模。
这种方法的优势在于能够捕捉语音信号的时间依赖关系,从而更好地进行语音识别任务。
除了CNN和RNN,深度神经网络(DNN)也是语音识别的重要算法之一。
DNN通常由多个隐藏层组成,利用反向传播算法进行训练。
在语音识别中,DNN可以通过学习语音信号的复杂特征表示,实现对不同语音指令的准确识别。
DNN在语音识别领域取得重大成功的一个典型应用案例是谷歌公司的语音识别系统。
他们通过使用大规模DNN模型,实现了令人印象深刻的语音识别准确率,为用户提供了高品质的语音交互体验。
另外,先进的深度学习算法还可以应用在多模态语音识别中。
多模态语音识别是指通过同时利用语音和其他感知模态的信息,来提高语音识别的精确度。
例如,结合图像信息与语音信号进行识别,可以更准确地分析语音中的内容。
这种方法的优势在于能够通过多种信息源的融合,减少语音识别中的误差,提高识别的准确率。
聚类算法在语音识别中的最新研究

聚类算法在语音识别中的最新研究一、聚类算法概述聚类算法是数据挖掘和机器学习领域中的一种重要技术,它旨在将数据集中的样本划分为若干个簇,使得同一簇内的样本相似度高,而不同簇间的样本相似度低。
聚类算法在语音识别领域扮演着至关重要的角色,尤其是在处理大规模语音数据集时,能够有效地提高语音识别的准确性和效率。
1.1 聚类算法的核心概念聚类算法的核心概念包括簇、相似度度量、距离度量等。
簇是将数据集中相似的样本聚集在一起形成的集合。
相似度度量和距离度量是评估样本之间相似性的方法,常见的有欧氏距离、曼哈顿距离等。
1.2 聚类算法的类型聚类算法主要分为以下几类:- 划分聚类:如K-means算法,通过迭代优化簇中心来划分样本。
- 层次聚类:如AGNES算法,通过逐步合并或分裂样本来构建层次结构的聚类树。
- 基于密度的聚类:如DBSCAN算法,根据样本的密度来划分簇。
- 基于网格的聚类:如STING算法,将数据空间划分为有限数量的单元,然后在这些单元上快速进行聚类。
1.3 聚类算法的应用场景聚类算法在语音识别领域的应用场景广泛,包括但不限于:- 语音特征提取:通过聚类算法对语音信号进行特征提取,以便于后续的语音识别处理。
- 语音数据预处理:利用聚类算法对语音数据进行去噪、归一化等预处理工作。
- 语音模型训练:聚类算法可以用于语音识别模型的训练过程中,帮助模型更好地学习和区分不同的语音特征。
二、聚类算法在语音识别中的应用聚类算法在语音识别中的应用主要体现在以下几个方面:2.1 语音特征的提取与优化语音特征是语音识别系统的基础,聚类算法可以用于语音特征的提取和优化。
通过对大量语音数据进行聚类分析,可以识别出具有相似特性的语音样本,从而提取出更加稳定和有代表性的语音特征。
2.2 语音数据的预处理在语音识别过程中,语音数据往往受到噪声、语速变化等因素的影响。
聚类算法可以用于语音数据的预处理,如通过聚类来识别并去除噪声,或者对不同语速的语音样本进行归一化处理。
基于MFCC特征聚类变换的歌曲中歌声的识别

基于MFCC特征聚类变换的歌曲中歌声的识别作者:吕兰兰来源:《电脑知识与技术》2016年第31期摘要:针对直接采用MFCC作为歌曲中歌声识别的特征参数存在数据量大、且所包含的歌手歌唱特征较少的问题,提出一种基于MFCC特征聚类变换的歌曲中歌声的识别方法。
通过对MFCC特征进行GMM聚类变换,以各个高斯分布的均值作为SVM分类器的特征参数,利用GMM数据描述能力强的特点,突出歌手的歌唱特征,降低特征参数的数据量。
实验结果表明,该方法在歌曲中歌声识别上的平均识别率较标准GMM方法略有提高,且数据处理量减少了65.8%。
关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this,an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .Key words:singing voice detection;MFCC;feature clustering and transform1 引言歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1( 2
Klog2π
+
log
σˆ m
+ K)γm
Σ = -
1 2
γm
K
( log2π
k =1
+
log
σˆ(mk)
+
1. 0)
(5)
其中,γm( t)、γm 分别指在 t 时刻结点 Sm 的占有概率和在
观察序列 O 下结点 Sm 的占有概率:
t
Σ Σ γm( t) = γm,(i t),γm = γm( t)。
通过以上的分析可以看出,MBIC 的这种特性可以很好的
应用于控制决策树结点的分裂:当训练数据充分时,MBIC 倾
向于增大结点分裂,以提高模型的区分能力;当训练数据不充
分时,MBIC 倾向于减少结点分裂,让相似的状态尽可能的绑
定在一起,以提高模型的鲁棒性。
2. 2 基于 MBIC 的分裂停止准则
如图 2,假设结点 S0 分裂成 M 个叶结点 S1 ,…,SM ,则模
Key words: Continuous Speech Recognition ( CSR) ; clustering based on decision-tree; Minimum Bayesian Information Criterion( MBIC) ; splitting and stopping criterion
0 引言
近来主流的连续语音识别系统都采用连续密度的 HMM 模型和上下文相关的声学模型对语音数据进行建模。在连续 语音中,协同发音现象十分严重,采用上下文相关单元是很有 必要的。在实际情况中,由于上下文单元数目通常非常庞大, 训练数据就会显得相对不足,一般会有一半以上的上下文单 元没有对应的训练数据,通过共享不同模型状态可以有效地 解决数据稀疏问题。
i∈Sm
t =1
2 基于 MBIC 的决策树状态共享
2. 1 MBIC 方法 贝叶斯信息准则( Bayesian Information Criterion,BIC)常
用于 ARMA 模型的经验定阶[2],现简述如下:假设有一概率
模型 i 和一数据点集 xN = {x1 ,…,xN },模型 i 的 BIC 计算公式
第 25 卷第 12 期 2005 年 12 月
计算机应用 Computer Applications
Vol. 25 No. 12 Dec. 2005
文章编号:1001 - 9081(2005)12 - 2792 - 03
基于 MBIC 的决策树聚类算法在连续语音识别中的应用
陈国平1,2 ,杜利民2 ,付跃文3 ,王劲林1,2 (1. 中国科学院 声学研究所,北京 100080; 2. 中国科学院 研究生院,北京 100080;
第 12 期
陈国平等:基于 MBIC 的决策树聚类算法在连续语音识别中的应用
2793
起初位于同一棵决策树的根结点上,从根结点开始在某个问 题提问下分裂成两个相继的结点( 称为 yes 和 no 结点),然后 再以相继的结点为根结点,在某个问题提问下继续向下分裂, 直到满足分裂停止准则为止,最后,每个叶结点上的状态就构 成一个共享的状态集合。 1. 1 决策树的构造过程
4)重复步骤 3),直到对数似然值的增加值低于设定的域
值。
1. 2 基于 MLC 的分裂停止准则
基于 MLC 的决策树的分裂停止准则是:
ΔLq > Threshold
(1)
ΔLq 是结点 Sm 在 q 提问下分裂前后的对数似然值之差,
即:
ΔLq = L( Sm,(y q))+ L( Sm,(n q))- L( Sm )
(2)
结点 Sm 的对数似然值 L( Sm )是通过训练数据观察向量
的均值、方差以及结点的期望占有数近似计算所得。
Σ 先给出 结 点 Sm 的 输 出 分 布 为 高 斯 分 布 N( µm , m
| Sm ),其均值向量和对角协方差矩阵的计算公式如下:
Σ / Σ µˆ(mk) =
γ µ(k) m,i m,i
型 U = {S1 ,…,SM }的 BIC 计算公式如下:
M
M
Σ Σ (l U)≈ - Q( Sm )+ 4MKlog γm
m =1
ቤተ መጻሕፍቲ ባይዱ
m =1
(7)
其中,K 是向量维数,其余变量的含义和式(5)相同。模
型 U 的维数是 2KM( M 个均值向量,M 个协方差矩阵对角元素
向量)。
图 2 结点分裂
假设结点 S 在问题 q 的提问下分裂成 Sqy 和 Sqn ,令:
3. College of Information Science and Engineering, Nanjing University of Technology, Nanjing Jiangsu 210009, China)
Abstract: an algorithm based on Minimum Bayesian Information Criterion ( MBIC) was proposed to help optimize the node-splitting degree in a decision tree. First, it was proved in theory that MBIC can find a good balance between the complexity of model parameters and the scale of the training sets. Then, a formula was proposed to describe MBIC decision tree splitting and stopping criterion. Finally, the experiment on Chinese all-syllable recognition shows that MBIC has much better adaptive ability to variable acoustic model parameters and training sets than the classical Maximum Likeihood Criterion method.
γm,i
(3)
i∈Sm
i∈Sm
Σ Σ / Σ σˆ(mk) =[
γm,(i
µ( k) m,i
-
µˆ(mk))2
+
γ
σ ] (k)
m,i m,i
γm,i
i∈Sm
i∈Sm
i∈Sm
(4)
其中 µm,i 、σm,i 、γm,i 分别是结点 Sm 中某元素的第 i 个状态 的均值向量、对角协方差矩阵、占有概率。上标 k 表示向量的
Δ(q S) = -[ Q( Sqn + Q( Sqy )- Q( S)]+ 4KlogГS (8) 当 Δ(q S)< 0 时结点 S 进行分裂,否则结点 S 停止分裂。 实验中发现,当结点占有数 ГS 比较低时,其中模型状态 输出的高斯分布的方差一般很小,结点更倾向于分裂,这和具
3. 南京工业大学 信息科学与工程学院,江苏 南京 210009) ( chenguoping97@ tsinghua. org. cn)
摘 要:提出了一种采用最小贝叶斯信息准则( Minimum Bayesian Information Criterion,MBIC)来 最优化控制决策树结点分裂程度的算法。首先在理论上证明了 MBIC 能够较好地解决模型参数复杂 度与训练数据集规模之间的权衡问题,然后给出了基于 MBIC 的决策树分裂停止准则的计算公式。 汉语连续语音全音节识别实验表明:与传统的最大似然准则( Maximum Likeihood Criterion,MLC)相 比,MBIC 对声学模型参数和训练数据集的变化具有更好的适应能力。
模型状态共享策略大致可以分为两类:一类是基于数据 驱动的,另一类是基于决策树的。基于决策树的状态共享可 以得到与基于数据驱动相似的聚类性能,此外这种聚类方法 还为训练数据集中没有包含但实际语流中又可能会出现的语 音单元提供一个较为可靠的参数估计。
基于最大似然准则( Maximum Likeihood Criterion,MLC) 的决策树状态共 享[1]已 在 连 续 语 音 识 别 的 模 型 状 态 共 享 中 得到了广泛应用,但 MLC 本身并不能有效地控制决策树结点 的分裂程度。在大部分情况下,随着分裂数目增多,其似然值 几乎一直在增大,最后的叶结点数目通常和参与共享的状态 数目一样多,无法解决数据稀疏问题。通过人工选取适当的
列),又由于 Q( S1 )≥ Q( S2 )⇒L( S1 )≥ L( S2 ),所以可用辅助 函数 Q( Sm )替代 L( Sm )。如果忽略模型内状态转移概率对似 然值计算的影响,可以得到:
T
Σ Q( Sm )≈ lo[g N( ot ,µˆ m ,σˆ m )]·γm( t) t =1
| | = -
(1. Speech Interaction Technology Research, Institute of Acoustic, CAS, Beijing 100080, China; 2. Graduate School of Chinese Academy Sciences, Beijing 100080, China;
1 决策树状态共享策略
图 1 决策树的结构
如图 1,基于决策树的状态共享是一种自顶向下的聚类 过程。假设上下文相关模型的同一个中心基元的同一个状态
收稿日期:2005 - 06 - 22;修订日期:2005 - 08 - 30 作者简介:陈国平(1979 - ),男,江苏宜兴人,博士研究生,主要研究方向:语音识别、语音合成; 杜利民(1957 - ),男,四川人,研究员,博 士生导师,主要研究方向:语 音 信 号 与 信 息 处 理 技 术; 付 跃 文( 1968 - ),男,山 西 孝 义 人,博 士,主 要 研 究 方 向:信 号 处 理 与 模 式 识 别; 王劲林(1964 - ),男,北京人,研究员,主要研究方向:多媒体通信.