基于多特征向量的语音情感识别
基于多模态融合的情感识别与分析技术研究

基于多模态融合的情感识别与分析技术研究随着人工智能技术的发展,情感识别和分析技术逐渐受到广泛关注。
基于多模态融合的情感识别与分析技术作为一种综合利用视觉、语言和声音等多种信息进行情感分析的方法,具有很大的应用潜力。
本文将介绍基于多模态融合的情感识别与分析技术的研究进展和应用领域,并分析该技术存在的挑战和发展方向。
一、基于多模态融合的情感识别与分析技术研究进展1. 多模态数据的采集:多模态融合的情感识别与分析技术需要综合利用不同类型的数据,如图像、文本和声音等。
因此,首先需要采集并整理这些数据,以构建一个包含多模态信息的数据集。
目前,已有学者通过人工标注和自动化方法来构建多模态数据集,如使用情感标签对图像和文本进行标注,或利用语音识别技术对声音进行转换和分析。
2. 多模态特征提取:为了利用多模态数据进行情感识别与分析,需要从不同的数据类型中提取有信息量的特征。
对于图像数据,可以提取颜色、纹理和形状等视觉特征;对于文本数据,可以提取词袋模型、词向量和情感词典等文本特征;对于声音数据,可以提取音调、音频特征和语音情感特征等。
通过综合利用多种特征,可以更准确地表达情感信息。
3. 多模态融合方法:多模态融合是基于多模态融合的情感识别与分析技术的核心。
目前,已有学者提出了多种多模态融合方法,如特征级的融合、决策级的融合和模型级的融合。
特征级的融合将不同数据类型的特征进行拼接或加权,以得到一个综合的特征向量;决策级的融合将从不同数据类型得到的情感判断结果进行结合,以得到最终的情感分析结果;模型级的融合则是通过构建联合训练的模型或使用深度神经网络来整合多模态信息。
二、基于多模态融合的情感识别与分析技术的应用领域基于多模态融合的情感识别与分析技术在许多领域都有广泛的应用前景。
1. 社交媒体分析:社交媒体是人们表达情感的重要平台,利用基于多模态融合的情感识别与分析技术可以对用户在社交媒体上发布的图像、文本和声音等内容进行情感分析。
基于多模态的用户情感分析与识别技术研究

基于多模态的用户情感分析与识别技术研究多模态的用户情感分析与识别技术是一种新兴的研究领域,主要用于分析和识别用户通过不同的媒介表达的情感状态。
这些媒介包括语音、文本、图像等多种形式。
多模态情感分析技术有望在多个领域得到广泛应用,例如自然语言处理、智能客服、人机交互等。
为了实现多模态情感分析,首先要解决的问题是如何将不同形式的信息进行统一的表示和处理。
这需要针对不同的媒介设计相应的特征提取方法和模型。
例如,对于语音信号,可以从声音的频率、幅度、谐波等方面进行分析;对于文本,则可以考虑词语、语法、语义等方面的特征。
除了特征提取外,情感分类模型的选择也是非常重要的。
传统的监督学习算法,如支持向量机、决策树、神经网络等都可以应用于情感分析任务,而随着深度学习的兴起,也出现了许多基于深度神经网络的情感分析方法。
这些方法可以充分利用多种形式的信息提取丰富的特征,进而得到更准确的分类结果。
在情感分析任务中,情感词汇的识别也是比较关键的问题。
情感词汇的情感极性一般分为正面和负面两种,例如“喜欢”、“高兴”等是正面情感词汇,而“讨厌”、“痛苦”等则是负面情感词汇。
情感词汇的识别可以采用基于规则、词典、机器学习等不同的方法,其中基于机器学习的方法表现相对较好。
除了单一媒介的情感分析外,多模态情感分析也是当前研究的热点之一。
针对多模态情感分析,一种常用的方法是将不同媒介的信息融合起来,并在融合后的信息上进行情感分类。
例如,可以将图像的颜色、纹理、形状信息与文本中的关键词和语法信息进行融合,从而得到更为丰富的特征向量。
针对多模态情感分析的研究还面临着许多挑战。
首先,不同媒介之间存在巨大的差异性,如何找到有效的融合方法仍然是一个尚未完全解决的难题。
其次,在不同媒介上进行情感分类过程中还需要大量的样本数据进行训练,如何获取足够数量的标注数据也是另一个难点。
总的来说,多模态情感分析是一个具有挑战性和广泛潜力的研究领域。
随着技术的不断发展和数据的增加,相信该领域的研究将会取得更加深入和广泛的进展,为实现智能客服、人机交互等领域的自动化应用奠定良好的基础。
基于多模态数据的情绪识别系统研究

基于多模态数据的情绪识别系统研究近年来,随着人工智能技术的不断发展,多模态数据的应用越来越广泛,在情感计算领域中也不例外。
基于多模态数据的情绪识别系统也越来越受到研究者的关注。
多模态数据指的是由多种不同类型的数据组成的数据集,例如图像、文本、语音、生理信号等。
情感计算领域的研究者通过分析这些数据中的情感信息来识别出人类的情绪变化。
在情感计算领域中,情绪识别是一个重要的研究方向,它可以应用于很多领域,如心理辅助、智能客服、虚拟现实等。
然而,情感识别是一个复杂的任务,因为情感并非只存在于文本或语音中,还存在于行为、声音、面部表情等多个方面。
因此,传统的单一模态情感识别方法难以实现准确的情感识别。
基于多模态数据的情绪识别系统成为解决这个问题的重要途径。
基于多模态数据的情绪识别系统的作用是将从多种数据源中得到的情感数据进行整合,结合多种模态的信息,得出更准确和丰富的情感分析结果。
研究表明,基于多模态数据的情绪识别系统能够提高情感分析的准确性,并且对于复杂情感的识别能力也更强。
多模态数据的情感识别方法主要可以分为两种:一是融合方法,即将多个模态的信息进行融合,得到一个综合的情感分析结果。
二是联合方法,即在联合不同模态的信息的同时,对每种模态的情感分析结果进行计算和相互验证。
在融合方法中,研究者通常采用特征级融合和决策级融合两种方法。
特征级融合是将原始的情感数据转换为一组特征向量,通过特征级融合将多种模态的特征向量进行融合。
而决策级融合则是将不同模态计算得出的情感分析结果进行融合。
在联合方法中,研究者通常采用神经网络模型进行数据联合和特征提取。
例如,可以使用卷积神经网络(CNN)和长短时记忆网络(LSTM)分别对图像和语音数据进行特征提取,再将两种模态的特征进行融合。
在基于多模态数据的情绪识别系统中,情感分类器是非常重要的组成部分。
在情感分类器的训练过程中,需要使用大量的标注数据进行训练。
而且,由于多模态数据的特殊性,情感分类器的训练量需要更加充足。
基于多特征融合的藏语语音情感识别

现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov. 2023Vol. 46 No. 210 引 言语音情感识别(Speech Emotion Recognition, SER )是实现人机交互的重要发展方向,其主要有语音情感数据库构建、语音情感特征提取和分类模型三大方面[1]。
由于影响语音情感识别的因素很多,其中不同的语言对情感的表达影响是很大的,这就让语音情感特征提取成为一个重要的研究方向。
深度学习的发展让提取特征变得容易,但是只有输入最能表征语音情感的手工特征,深度学习模型才能从中提取最好的深度特征,得到更好的效果。
为了提高藏语语音情感识别率,本文提出了一种基于藏语的语音情感特征提取方法,通过藏语本身的语言特点手工提取出一个312维的藏语语音情感特征集(TPEFS ),再通过长短时记忆网络(Long Short Term Memory Network, LSTM )提取深度特征,最后对该特征进行分类。
藏语语音情感识别结构如图1所示。
基于多特征融合的藏语语音情感识别谷泽月1, 边巴旺堆1,2, 祁晋东1(1.西藏大学 信息科学技术学院, 西藏 拉萨 850000; 2.信息技术国家级实验教学示范中心, 西藏 拉萨 850000)摘 要: 藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。
基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS ),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS 特征集在支持向量机(SVM )、多层感知机(MLP )、卷积神经网络(CNN )、长短时记忆网络(LSTM )这些经典网络中都取得了不错的效果。
基于MD-CGAN去噪和BF特征增强的语音情感识别算法

基于MD-CGAN去噪和BF特征增强的语音情感识别算法基于MD-CGAN去噪和BF特征增强的语音情感识别算法摘要:语音情感识别一直是人工智能研究领域的重点之一,它在识别社交媒体中用户情感等方面具有广泛的应用。
但语音情感识别面临的最大难题之一是信噪比低的语音数据的使用。
本文提出了一种基于多目标深度卷积生成对抗网络(MD-CGAN)去噪和Beam Forming(BF)特征增强的语音情感识别算法。
该算法首先使用MD-CGAN模型去除语音信号中的噪声,然后应用BF技术进一步增强特征,最后使用支持向量机(SVM)分类器对语音情感进行识别。
实验结果表明,本文提出的算法在去噪和特征增强方面取得了优越的效果,其准确度高于传统的语音情感识别算法。
关键词:语音情感识别;MD-CGAN;去噪;Beam Forming;特征增强;支持向量机1. 前言语音情感识别技术是指通过对语音信号的分析、处理和识别,来判断说话者语音中所表现的情感。
随着人机交互技术的不断发展,语音情感识别被广泛应用于社交媒体、手机语音助手和自动客服等领域。
然而,实际应用中,由于环境噪声等因素的影响,语音信号常常呈现出低信噪比(SNR~10dB)的情况,从而降低了语音情感识别的准确性和稳定性。
2. 相关工作现有的语音情感识别算法主要包括基于高斯混合模型(GMM)、基于支持向量机(SVM)和深度神经网络(DNN)的方法。
其中,DNN方法具有较高的识别准确度,但在低信噪比下的效果较差。
为此,针对信噪比低的语音数据,许多学者提出了各种去噪算法,如基于小波变换的去噪算法和基于深度学习的去噪算法。
同时,由于信号增强可以提高语音信号的质量,从而提高语音情感识别的识别率和稳定性,因此也有很多学者提出了增强算法,如Beam Forming(BF)算法和卷积神经网络(CNN)等算法。
3. 算法设计本文主要采用基于多目标深度卷积生成对抗网络(MD-CGAN)去噪和Beam Forming(BF)特征增强的语音情感识别算法。
基于语音特征提取的情感辨别算法研究

基于语音特征提取的情感辨别算法研究随着人工智能技术的不断发展,情感辨别算法得到了越来越广泛的应用。
情感辨别算法可以通过分析语言或声音特征来判断人的情感状态,这种算法被广泛应用于社交媒体、研究心理学、市场调研等领域。
在这些应用中,语音情感辨别算法尤为重要。
语音情感辨别算法的主要手段是语音特征提取。
接下来本文将从语音特征提取方法、情感辨别算法的研究现状以及算法应用场景这三个方面,探讨基于语音特征提取的情感辨别算法研究。
一、语音特征提取方法语音特征提取是语音信号处理的核心。
语音特征提取可以从语音中提取出比较稳定和重要的特征值,然后将这些特征值用于后续的情感辨别算法的分析和处理。
常用的语音特征提取方法有Mel频率倒谱系数(MFCC)、线性预测编码(LPC)和基频提取等。
其中,MFCC是目前最常用的语音特征提取算法,它基于多普勒效应模拟了人耳的感受,将语音信号转化为一种更方便处理的频谱序列。
LPC是线性预测编码,是在时域直接处理语音信号,它通过分解语音信号的加突函数,进而提取语音信号的特征。
二、情感辨别算法的研究现状近年来,情感辨别算法已经得到了较为广泛的应用。
在情感辨别算法方面的研究中,传统的机器学习算法(如SVM、决策树等)是目前常见的方法,这些算法对语音特征进行分析和建模,通过构建一个分类模型,对情感进行判断。
同时,深度学习作为一种新兴的技术手段,开始被应用于情感辨别领域。
深度学习通过建立更为复杂的神经网络模型,能够更加准确地提取语音特征,训练出更为精准的情感判断模型。
例如,卷积神经网络(CNN)在语音情感识别中的应用,取得了较好的研究效果。
三、算法应用场景语音情感辨别算法可应用于多个场景,例如音乐推荐系统、客户服务呼叫中心、医疗服务等。
在音乐推荐系统中,情感辨别算法可以根据用户的情感状态进行歌曲推荐;在客户服务呼叫中心,情感辨别算法可以根据客户的情感状态进行自动化响应;在医疗服务中,情感辨别算法可以通过分析患者的语音情感,判断其疾病状态。
语音情感识别技术研究与应用

语音情感识别技术研究与应用近年来,随着互联网的普及,人们使用语音交互的频率越来越高。
但是,人们的情感表达并不仅仅停留在语言上,而是往往通过语音来表现出来。
在这种情况下,语音情感识别技术的开发和应用就变得尤为重要。
本文将会涉及语音情感识别技术的研究与应用情况。
一、语音情感识别技术的研究现状语音情感识别技术是一项基于人工智能和机器学习的技术,它能够通过动态分析语音信号中的声学特征,自动判断说话人的情感状态。
当前研究中,语音情感识别技术主要有以下几种:1.基于情感语料库的方法情感语料库是由完整的语音信号组成的数据集。
通常情况下,利用情感语料库可以获取到每个语音信号的基本情感特征,包括音频文件中的波形,功率谱、基音周期和线性变化。
这些特征被用来训练一个过程化的分类模型,以进行情感识别。
2.基于语音特征向量的方法基于语音特征向量的情感识别方法需要从语音信号中提取关键的语音特征。
这些特征可以是谐波、基音周期、语速、能量、频率和线性预测系数等。
基于这些特征向量,可以使用机器学习算法来对语音进行情感识别。
二、语音情感识别技术的应用场景语音情感识别技术在众多应用场景中,得到了广泛的关注和研究。
在这种情况下,我们就能看到许多应用场景发展出来,包括:1.客服语音助手随着人们对智能家居的需求不断增加,智能客服也成为了越来越重要的领域之一。
语音情感识别技术可以用来识别客服工作人员和用户之间的情感状态,进而提高工作人员的工作效率。
2.教育领域在教育领域,语音情感识别技术也得到了广泛的应用。
例如,在英语教育领域中,语音情感识别技术能够识别学生发音方面的问题,从而及时纠正,提高英语学习的效率。
3.医疗领域在医疗领域中,语音情感识别技术也有着很大的应用空间。
例如,在提高自闭症患者社交能力方面,语音情感识别技术可以通过识别患者的情感状态来引导患者进行相关的训练。
三、存在的问题尽管语音情感识别技术在应用方面已经取得了一定的成就,但目前仍然存在一些问题:1. 数据集问题在使用语音情感识别技术时,获取大量的情感语音数据集也是至关重要的。
基于多模态深度学习的情感识别技术研究

基于多模态深度学习的情感识别技术研究1.引言情感识别一直是自然语言处理领域的一个重要问题。
近年来,随着社交网络等大数据应用的兴起,情感识别技术得到了更广泛的应用。
目前,情感识别技术主要基于文本分析和语音分析,但是这些方法的准确度和效率都有一定的局限性。
随着深度学习技术的不断发展,人们开始探索基于多模态深度学习的情感识别技术,这在很大程度上提升了情感识别的效果和精度。
2.文本情感识别方法文本情感识别是情感识别中比较成熟的一种技术。
传统的文本情感识别方法主要基于机器学习算法,例如支持向量机(SVM)、朴素贝叶斯(Naive Bayes)等。
这些方法可以对文本进行特征抽取和分类,但是准确度和鲁棒性方面都存在一定的问题。
随着深度学习技术的广泛应用,人们开始使用神经网络模型进行文本情感识别。
近年来,基于多层感知机的情感分析方法取得了很好的效果。
比如,快速文本情感分类器(FastText)就是一种基于神经网络的情感分析方法。
该方法主要利用词向量表示和矩阵运算,可以实现高效的情感识别。
此外,基于递归神经网络(RNN)的情感识别方法也得到了广泛研究。
在这种方法中,RNN能够从上下文信息中获取语义特征,并对情感进行分类。
这种方法具有一定的泛化能力和鲁棒性,但是计算速度较慢。
3.语音情感识别方法随着智能语音助手等语音交互应用的普及,语音情感识别也成为了热门的研究领域。
传统的语音情感识别方法主要基于声学特征的分析。
例如,基于高斯混合模型(GMM)的语音情感识别方法就是一种常见的声学特征分析方法。
该方法通过对语音信号的频率、能量、谐波等声学特征进行分析,提取出特征向量,并使用GMM进行情感分类。
这种方法需要大量的语音样本进行训练,且对噪声等干扰较为敏感。
近年来,基于深度学习的语音情感识别方法也得到了广泛研究。
在这种方法中,神经网络模型可以对语音信号进行特征提取和分类。
例如,基于卷积神经网络(CNN)的语音情感识别方法就可以从语音信号中提取出频谱、光谱等特征,并对情感进行分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
万方数据 万方数据3实验与实验结果3.1数据库说明本文采用北京航空航天大学情感语音工作组录制的诱发语音库(BHUDES)。
该语料库采用了Ekman等建立的情感分类标准u…,包括悲伤、愤怒、惊奇、恐惧、喜悦、厌恶6种情感语句,说话人为4名男性和3名女性,采用了诱导型录音方式,说话人年龄在20~30岁之间,文化程度在本科以上。
录音设备统一采用配备signmTelC-major声卡的华硕M2413N-DR笔记本电脑;头戴式麦克风;使用GOLDWAVE完成录音工作;采样率为11025Hz,双通道、16Bit量化,格式为PCM。
20旬录音脚本集合基本覆盖汉语语音的主要元音和辅音,脚本长度控制在短句的范围内,在3~12字之间;采用口语化的陈述旬,每句录音脚本均适于用各种情感进行表达,每条语句的每种情感被录制3次。
录制工作完成后,利用专门的语音情感评价系统对所录语音进行评价,综合多人评价的结果得出每个语句的情感可信度,将可信度大于0.7的挑选出来作为本文所用的实验数据,共714条。
将所有实验数据分为3组,对应语句的第一次录音(254句)、第二次录音(286句)和第3次录音(174句),分别作为训练样本,特征选择样本和测试样。
3.2基于最优特征组合的HMM识别实验首先提取常用情感特征,韵律特征包括:瞬时能量、过零率、能频积[¨j、基频以及它们的一、二阶差分;声学特征包括:10阶线性预测系数(LPC)、10阶线性预测倒谱系数(LP(℃)、10阶Mel倒谱系数(MFCC)和第一共振峰频率及其一、二阶差分等,共45维。
基于分类器正确率判据对所选特征进行评估是最直接的方法,本文用优先选择(PFS)算法对数据集中提取的45维动态特征进行选择,评估模块选择离散HMM交叉验证正确率判别准则,由于HMM运算量较大,即使采用PFS算法仍然非常耗时,考虑到45维动态特征中LPC,LP(℃和MF(TC可分别视为一个整体,因此将其分别与其余15维特征中的每一维组合进行可分性判别,从而大大减少运算量。
实验表明,对所有情感平均识别最优的特征组合为:基频的一、二阶差分+能量的一、二阶差分+10阶MFCC,当采用该组特征向量时,平均识别率达到71.9%。
3.3基于最优特征组合的I-IMM识别实验用上述方法,以HMM对每种情感的识别性能作为依据,得到分别对应6种情感状态最佳识别性能的特征向量,如表l所列。
其中,悲伤和惊奇对应同一组特征向量。
表1各分类器特征矢量情感悲伤愤怒惊奇恐惧喜悦厌恶特征向量第一共振峰及其一、二阶差分+10阶MH℃过零率的一阶差分+lo阶I.P(X:第一共振峰及其一、二阶差分+lo阶MFOc基音频率的一、二阶差分+10阶I.PCC能叛积及其一、二阶差分+10阶l脚瞬时能量的一、二阶差分分别以这6组特征向量作为输入得到6个HMM分类器,然后对第2组样本(特征选择样本)进行识别,结果如表2所列。
其中,第一列标号1~6分别表示悲伤、愤怒、惊奇、恐惧、喜悦和厌恶6种情感状态,7表示平均识别率。
表2各单特征向量HMM对第2次录音语句的识别(%)坌娄墨!:!坌耋墨!坌茎墨!坌耋墨!坌耋墨!识别率误失率识别率误失率识别率误失宰识别率误失率识别率误失率从表2的实验数据可以看出,6个分类器对不同情感的识别性能有差异,如分类器6的平均识别率很低。
但对厌恶的识别率却远高于其它7个分类器,因此町通过采用多特征向量HMM来提高系统整体识别性能。
对每种情感,选择对应其最优识别性能的特征向量进行建模,利用图2所示模型对第2次录音语句进行识别,其结果如表3所列,表中数值表示百分比。
表3悲伤1003.4识别实验将第3次录音语句作为测试样本,分别用单特征向量分类器和多特征向董HMM进行情感状态的识别,得到结果如表4所列,表中数值表示百分比。
表4各单特征向量分类器对第3次录音语句的识别(%)分类器悲伤94.455.683.377.888.9100愤怒45.968.238.523.734.876.5惊奇64.457.o53.368.242.271.5恐惧32.532.545.o32.532.559.3喜悦45.o20.o80.o70.o30.O63.8厌恶77.128.648.691.491.491.4平均60.o47.458.757.848.375.11.3246本文算法采用交叉实验的方法,从3组语音样本中分别选择原始训练集、重组训练识别集和测试集,共有6种方案进行实验,得到单分类器识别平均率和多特征向量HMM分类系统的平均识别率,如图3所示。
其中,X坐标的序号1—6表示第1到第6个分类器,序号7表示新分类器。
Y坐标代表各分类器的平均识别率。
从图3可以看到,新分类器的识别率高于基于单一特征向量分类器。
图3单特征向量HMM和多特征向量HMM的识别率比较结束语HMM在情感计算领域具有重要地位。
本文利用语音特征矢量对不同情感状态辨识可靠性的差异,基于漏识率和误识率最小的决策原则,为每种情感状态选择最优的特征向量,然后用这些特征向量建立对应情感状态的HMM模型。
实验表明,在仅仅采用几种常用情感特征的条件下,新·233·956841晒!|Ⅲ|l拟三|73l4438碱孔钝:;;乩g922699㈣嘁泡l;蚴圣I764l2O6绝弧钆地记觎弧;&孔一O689809她弧钝砜弘跑魄珀口;nZ&口;一78714D5鼠蛾地观叭他川强弼¨删氓一 万方数据分类系统仍可获得较高的识别精度。
实验中还发现:原始训练样本及重组训练用测试样本越多,得到对应每种情感的最优子HMM的可靠性越高,重组模型也越稳定;否则,当训练样本数量不是很多但达到一定数量时,分类系统中可能用到某些情感的次优特征向量,识别效果不是最理想,但相对于单特征向量分类器来说,整体性能仍得到提高。
参考文献[1]MurrayI,AmottJL.TowardstheSimulationofemotioninSyntheticSpeech:AreviewoftheLiteratureHUlThanVoealEmotionEJ].JournaloftheAcousticSocietyofAmerican,1993,93(Z):1097—1108F2]CowieR,Douglas-CowieE,TsapatmulisN。
eta1.EmotionReecrgnitioninHuman-ComputerInteractionFJ].IEEESignalPro—cessingmagazine,2001,18(1):32—80[3]赵力.语音信号处理[M].北京:机械工业出版社,2003[-4-]SehullerB,RigoUG,LangM.HiddenMarkovModel—BasedSpeechEmotionRecognition[C]∥ICASSP’03.2003(2):1-4F5]NweTL,FooSW。
SilvaLCD.SpeechEmotionRecognitionUsingHiddenMarkovModels[J].SpeechCommunication,2003,41(4):603—623[6]NogueirasA,MorenoA,BonafonteA,eta1.SpeechEmotionRecognitionUsingHiddenMarkovModels[A]∥Eurospeech2001[c].Scandinavia,2001[7]LeeCM,YildirimS,BulutM,etaLEmotionRecognitionBasedPhonemeClasses[A]∥ICSLP2004[C].2004:889—892[8]谢波,陈岭,陈根才,等.普通话语音情感识别的特征选择技术口].浙江大学学报:工学版,2007,41(11):1816—1822[9]IVhoXia,ZhangBing。
LuoYi.SpeechemotionrecognitionbasedhybridofHMM/ANN[C]。
}}The7thWSEASInternationalConferenc己2007:181-184[10]OrtonyA,TunenTJ.what’sBasicAboutbasicEmotions[M].PsychologicalReviews,1997,3;315—331[11]ChenGuanghua,LiuJunhai,YeJurLAnimprovedmethodofendpointsdetectionbasedenergy-frequency-value[C3#1EEEProceedingsofHDP’06.2006:9-11(上接第216页){5},{6),{7}。
(4)数据处理首先分别按3种推理方式对DBNs模型分别执行BK推理算法和1.5片联合树算法(JT)12次,记录下各自的运行时间;去掉运行时间的最大值及最小值,将剩下的lo组数据取其平均值,如表1所列。
由表1可知,BK算法在滤波、平滑和固定步长平滑的推理中的时间性能要明显好于1.5片联合树算法。
由图3可知,1.5片联合树算法可以看成是BE:算法的特殊情况,即当BK算法中将所有接口结点分为一个团时即成为1.5片联合树算法;且随着分团个数增加,误差逐步增加。
表1BK算法与1.5片联合树算法时间性能比较表(时间单位:秒)时同片102030405060708090100、…JT0.187o.397o.5910.8030.9521.1961.3981.5471.90B1.962一一EK0.129o.2500.3820.528o.645o.788o.9241.0631.2111.289...JTo.156o.329o.496o.664o.8221.0081.1461.336L5101.695。
”’日(o.122o.240o.3500.474o.586o.710o.841o.965L0771.218固定步JT0.215o.469o.685o.963I.1831.4261.659I.908Z1562.373长平滑琢(o.1700.363o.557o.736o.9401.1341.3171.5191.7071.914图3BK算法精度分析时间性能分析:①1.5片联合树算法的时间复杂度o(MT)。
其中,M表示状态变量最多能取到的值的个数,J表示接口中所含的结点的个数,T表示时间步骤。
②引入分割团的BK推理算法的时间复杂度最少为0(丁(蚴一幅‘q"+~‘tH1)。
其中,M表示状态变量最多能取到的值的个数,R是团ct中变量的父结点数,s(cf)表示G·234·中所含结点数,T表示时间步骤。