【CN109767790A】一种语音情感识别方法及系统【专利】

【CN109767790A】一种语音情感识别方法及系统【专利】
【CN109767790A】一种语音情感识别方法及系统【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910173689.0

(22)申请日 2019.02.28

(71)申请人 中国传媒大学

地址 100000 北京市朝阳区定福庄东街1号

(72)发明人 巩微 范文庆 金连婧 伏文龙 

黄玮 

(51)Int.Cl.

G10L 25/63(2013.01)

G10L 25/30(2013.01)

G10L 25/45(2013.01)

(54)发明名称

一种语音情感识别方法及系统

(57)摘要

本发明公开一种语音情感识别方法及系统。

所述识别方法包括:获取语音信号;预处理所述

语音信号,获得预处理语音信号;计算所述预处

理语音信号对应的语谱图;计算多个不同语段长

度的所述预处理语音信号的情感识别率,将所述

情感识别率最高对应的语段长度确定为最佳语

段长度;根据所述最佳语段长度对应的语谱图提

取所述语音信号的声学特征;将所述声学特征采

用卷积神经网络分类识别所述语音信号的情感。

采用基于语谱图和卷积神经网络的语音情感识

别方法提升了语音情感识别率。权利要求书3页 说明书6页 附图1页CN 109767790 A 2019.05.17

C N 109767790

A

1.一种语音情感识别方法,其特征在于,所述识别方法包括:

获取语音信号;

预处理所述语音信号,获得预处理语音信号;

计算所述预处理语音信号对应的语谱图;

计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;

根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;

将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。

2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述预处理所述语音信号,获得预处理语音信号具体包括:

将所述语音信号经过数字化处理,获得脉冲语音信号;

将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;

将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;

将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。

3.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述计算所述预处理语音信号对应的语谱图具体包括:

获取所述预处理语音信号的采样频率F s 、采样数据序列S g 和语段长度;

根据所述语段长度和窗函数的窗长N new 将所述预处理语音信号分为N段,获得N段语音信号;

根据所述语段长度和所述N段语音信号计算帧移N sfgtft ;

对第i帧语音信号S i 加窗处理,获得加窗语音信号S i ′,

S i ′=S i ×hanning(N new ),其中i的取值为1,2,......,N;

将所述加窗语音信号S i ′进行傅里叶变换,获得傅里叶变换语音信号Z i ;

根据所述傅里叶变换语音信号Z i 的相位θi 计算所述第i帧语音信号S i 的能量密度函数|Z i |2;将所述窗函数进行N sfgtft 个帧移,获得第i+1帧语音信号S i+1的能量密度函数|Z i+1|2;

获得一个[N new /2]+1行、N列的矩阵R;

将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。

4.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:

所述语谱图采用卷积神经网络的卷积层处理,

三维的所述语谱图转换为N个二维特征;其中,b j 为能够训练的偏差函数,k ij 为卷积核,x i 表示输入的第i段语谱图;y i 表示输出的第i段语谱图对应的二维特征;

将所述输出的第i段语谱图对应的二维特征y i 通过池化层处理,获得低分辨率声学特征y i ′;

所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全

权 利 要 求 书1/3页2CN 109767790 A

基于安卓的语音情感识别系统设计与实现

基于安卓的语音情感识别系统设计与实现 语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用 NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更 多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信 息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的 信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别

语音情感识别中特征参数的研究进展

传感器与微系统(Transducer and Microsystem Technologies)2012年第31卷第2期 语音情感识别中特征参数的研究进展* 李杰1,周萍2 (1.桂林电子科技大学计算机科学与工程学院,广西桂林541004; 2.桂林电子科技大学电子工程与自动化学院,广西桂林541004) 摘要:语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征 降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性,介绍了语 音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征 降维常用方法,并对其进行了分析比较。展望了语音情感识别的可能发展趋势。 关键词:语音;情感识别;特征参数;特征降维 中图分类号:TP391文献标识码:A文章编号:1000—9787(2012)02—0004—04 Research progress on feature parameters of speech emotion recognition* LI Jie1,ZHOU Ping2 (1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin541004,China;2.School of Electric Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China) Abstract:Speech emotion recognition is one of the new research projects,the extraction of feature parameters extraction influence the final recognition-rate efficiency directly,dimension reduction can extract the most distinguishing feature parameters of different emotions.The importance of feature parameters in speech emotion recognition is point out.The system of speech emotion recognition is introduced.The common methods of feature parameters is detailed.The common methods of dimension reduction which are used in emotion recognition are compared and analyzed.The development of speech emotion recognition in the future are prospected. Key words:speech;emotion recognition;feature parameter;dimension reduction 0引言 随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达,是因为语音特征在不同情感状态下的表现不同。因此,很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征,以及语音质量特征与情感之间的定性关系[1],使得韵律学特征成为语音情感识别的常用特征。此后,研究者又加入了共振峰参数和语音学特征,如MFCC,使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时,还需要求出其派生特征和各种统计特征,如范围、均值和方差等,并把它们组成特征向量。由于到目前为止,声学特征与情感状态的对应关系缺乏统一的结论,为了尽可能保留有意义的信息,研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论,高维特征集合不仅不会提高识别率,还会造成“维数灾难”[2]。大量的研究表明:语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组,这就需要用到特征降维技术。 目前,已有数篇综述文献总结了语音情感识别的研究成果[3 6],但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结,并对近几年提出的情感特征参数进行阐述。 1语音情感识别系统的概述 基于语音的情感识别大致分为预处理、特征提取和情感分类三步,大致框架如图1所示。特征提取作为情感分 收稿日期:2011—07—20 *基金项目:国家自然科学基金资助项目(60961002)4

【CN109767790A】一种语音情感识别方法及系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910173689.0 (22)申请日 2019.02.28 (71)申请人 中国传媒大学 地址 100000 北京市朝阳区定福庄东街1号 (72)发明人 巩微 范文庆 金连婧 伏文龙  黄玮  (51)Int.Cl. G10L 25/63(2013.01) G10L 25/30(2013.01) G10L 25/45(2013.01) (54)发明名称 一种语音情感识别方法及系统 (57)摘要 本发明公开一种语音情感识别方法及系统。 所述识别方法包括:获取语音信号;预处理所述 语音信号,获得预处理语音信号;计算所述预处 理语音信号对应的语谱图;计算多个不同语段长 度的所述预处理语音信号的情感识别率,将所述 情感识别率最高对应的语段长度确定为最佳语 段长度;根据所述最佳语段长度对应的语谱图提 取所述语音信号的声学特征;将所述声学特征采 用卷积神经网络分类识别所述语音信号的情感。 采用基于语谱图和卷积神经网络的语音情感识 别方法提升了语音情感识别率。权利要求书3页 说明书6页 附图1页CN 109767790 A 2019.05.17 C N 109767790 A

1.一种语音情感识别方法,其特征在于,所述识别方法包括: 获取语音信号; 预处理所述语音信号,获得预处理语音信号; 计算所述预处理语音信号对应的语谱图; 计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度; 根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征; 将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。 2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述预处理所述语音信号,获得预处理语音信号具体包括: 将所述语音信号经过数字化处理,获得脉冲语音信号; 将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号; 将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号; 将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。 3.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述计算所述预处理语音信号对应的语谱图具体包括: 获取所述预处理语音信号的采样频率F s 、采样数据序列S g 和语段长度; 根据所述语段长度和窗函数的窗长N new 将所述预处理语音信号分为N段,获得N段语音信号; 根据所述语段长度和所述N段语音信号计算帧移N sfgtft ; 对第i帧语音信号S i 加窗处理,获得加窗语音信号S i ′, S i ′=S i ×hanning(N new ),其中i的取值为1,2,......,N; 将所述加窗语音信号S i ′进行傅里叶变换,获得傅里叶变换语音信号Z i ; 根据所述傅里叶变换语音信号Z i 的相位θi 计算所述第i帧语音信号S i 的能量密度函数|Z i |2;将所述窗函数进行N sfgtft 个帧移,获得第i+1帧语音信号S i+1的能量密度函数|Z i+1|2; 获得一个[N new /2]+1行、N列的矩阵R; 将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。 4.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括: 所述语谱图采用卷积神经网络的卷积层处理, 三维的所述语谱图转换为N个二维特征;其中,b j 为能够训练的偏差函数,k ij 为卷积核,x i 表示输入的第i段语谱图;y i 表示输出的第i段语谱图对应的二维特征; 将所述输出的第i段语谱图对应的二维特征y i 通过池化层处理,获得低分辨率声学特征y i ′; 所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全 权 利 要 求 书1/3页2CN 109767790 A

情感语音识别开题报告

太原理工大学信息工程学院 本科毕业设计(论文)开题报告 毕业设计(论文)题目 语音情感识别及其特征提取的研究 学生姓名付建梅导师姓名张雪英 专业通信工程 报告日期2011.4 班级0701 指导教 师意见 签字年月日 专业(教 研室)主 任意见 年月日系主任 意见 年月日

1. 国内外研究现状及课题意义 1.1课题研究意义 现在社会,人类跟计算机的交往越来越受到研究者的重视。自然和谐的人机界面的沟通应该能理解用户的情绪和意图,对不同用户、不同环境、不同任务给予不同的反馈和支持。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样地观察、理解和生成各种情感特征的能力,使计算机能够更加自动适应操作者。实现这些,首先必须能够识别操作者的情感,而后根据情感的判断来调整交互对话的方式。 情感计算研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。情感计算,受到越来越多的国内外学者和研究机构的重视。美国的各大信息技术实验室正加紧进行情感计算系统的研究。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人的情感。目前国内的情感计算研究重点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而创建个人的情感计算系统。情感计算已经应用到生活中的各个领域:在信息家电和智能仪器中增加自动感知人们情绪状态的功能,可以提供更好的服务:在信息检索过程中,通过情感分析解析功能,则可提高智能信息检索的精度和效率:在远程教育平台中,情感计算技术的应用能提升教学效果;利用多模式的情感交换技术,还可以构筑更贴近人们生活的智能空间和虚拟场景。此外,情感计算还能应用在机器人、智能玩具、可视会议、唇读系统、可视电话系统的应用场合,在传输语音信号的时候能够显示视频动画,将有助于人类特别是听力有障碍的人对语音的理解。 正是基于以上课题对于科研、社会的重要意义,我的毕业论文的主要任务是建立带有情感的音视频数据库,研究音频信号中能体现情感的特征,分析哪些特征可以有效地表达情感,进行特征提取并进行情感识别实验。这些工作是为后面进行带有感情的音视频合成动画系统建立基础。 1.2国内外研究现状 语音信号处理中,语音识别作为一个重要的研究领域,已经有很长的研究历史,其中语音特征提取与情感识别又是其中的一个重要方面。 在1972 年,Williams 发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990 年,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感。1996 年日本东京Seikei 大学提出情感空间的概念并建立了语音情感模型。2000 年,Maribor 大学的Vladimir Hozjan 研究了基于多种语言的语音情感识别。2009 年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等。在国内,语音情感识别的研究起步较晚。2001 年,东南大学赵力等人提出语音信号中的情感识别研究。2003 年,北京科技大学谷学静等人将BDI Agent 技术应用与情感机器人的语音识别技术研究中。另外,2003 年12 月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005 年10 月又在北京主办了首届国际情感计算及智能交互学术会议。

语音情感识别

人机交互中的语音情感识别 一.研究内容及其意义 随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。 包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。例如,同样一句话,由于说话人表现的情感不同,在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样利用各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。 语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而,情感的变化能够通过语音的特征参数来反映,研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生

理上的变化会对语音带来直接的影响,而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外,语音情感识别中所采用的识别方法也会对结果产生影响。 目前,关于情感信息处理的研究正处在不断的深入之中,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如,用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。 二.国内外的研究现状 语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。 在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感[1]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[2]。2009年4月,日本产业技术综合研究所(AIST)研制

基于深度学习的语音情感识别建模研究

基于深度学习的语音情感识别建模研究 随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。目前的情感识别任务大多采用人工提取多种声学特征并物理降维,构建特征工程的方法,提升识别结果。本文旨在探究语音中情感信息的表达,了解语音中情感信息的变与不变, 从语音中提炼出情感的本质特征,并搭建最合适的表征情感信息的网络结构。基于以上研究重点,本文内容包括以下几个部分:1.研究了基于传统声学特征的情感识别网络在大量的声学特征中,对现有数据做统计分析筛选出声学特征及其统计特征,搭建有效且完备的情感特征工程。从物理意义上出发,筛选合理的表达情感的特征并验证它们的有效性;从数学统计层面考虑,使用卡方检验做特征选择,去除特征集合的冗余信息,提高网络训练效率,构建完备的特征工程。2.研究了基于语谱图的深度学习情感识别网络语谱图几乎包含了所有的语音特征,二维频谱结构既可以体现谐波等激励源特征,又可以分析倒谱、共振峰等声道特性。深度神经网络引入非线性信息,具有自主学习输入数据特征的优点。搭建基于语谱图的深度学习情感识别网络,选用局部感知和跳跃连接的ResNet网络,并基于卷积核权重系数做出改进。再此基础上,搭建ResNet-LSTM网络,对ResNet网络学出的高层情感特征进行时序建模。3.引入了注意力机制,研究了低级描述符和高层语义信息的特征融合将经过验证的可以表征情感信息的声学特征集 合作,与ResNet-LSTM网络学习到的语音信号的高层语义信息进行融合,将融合后的特征经过DN-N网络分类输出,增加深度学习的解释性

和人工辅助。此外,引入注意力机制,探索语音中的关键帧信息。将学习到的注意力作为权重系数加入到人工提取的低级描述符特征中,并将它应用于特征融合实验。本文主要从情感的产生和感知层面出发,落实到特征和网络两个研究重点上展开工作,产生上探究如何构建具有情感表征意义的完备的特征集合,感知上从网络结构入手,尝试搭建具有情感认知的网络结构,并通过注意力机制讨论语音情感的局部关键性,结合产生、感知、和局部特性探讨语音情感的表达。

情感识别综述

龙源期刊网 https://www.360docs.net/doc/5110253536.html, 情感识别综述 作者:潘莹 来源:《电脑知识与技术》2018年第08期 摘要:情感交互在人机自然交互的研究中受到了很大的重视,而情感识别是人机情感交互的关键,其研究目的是让机器感知人类的情感状态,提高机器的人性化水平。该文首先对情感识别理论进行了概述,继而对情感识别的研究方法进行了分类描述,接着简述了情感识别的应用领域,最后对情感识别的发展进行了展望。 关键词:情感识别;综述;多模态融合;特征提取;情感分类 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0169-03 1引言 随着智能技术的迅猛发展以及智能机器在各领域的广泛应用,人们渴望对机器进行更深层次地智能化开发,使机器具备和人一样的思维和情感,让机器能够真正地了解用户的意图,进而让机器更好地为人类提供智能化的服务。在智能机器研究中,自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础,能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为人机自然交互的关键要素。同时,情感识别融多学科交叉为一体,其发展将会带动多学科共同发展,其应用也会带来巨大的经济效益和社会效益。因而,情感识别技术的研究具有很大的发展前景和重要的学术价值。 2情感识别概述 情感是一种综合了行为、思想和感觉的状态。情感信息主要表现在内外两个层面:一是外在情感信息,是指通过外表能自然观察到的信息,如面部表情、唇动、声音、姿势等,二是内在情感信息,是指外部观察不到的生理信息,如心率、脉搏、血压、体温等。 情感识别本质上也是一种模式识别,它是指利用计算机分析各种情感信息,提取出描述情感的情感特征值,建立特征值与情感的映射关系,然后对情感信息进行分类,从而推断出情感状态的过程。 3情感识别的研究方法 情感识别的研究方法主要有:面部表情识别、语音情感识别、姿态表情识别、文本识别、生理模式识别和多模态情感识别。情感识别过程一般包括四个部分:数据获取、数据预处理、情感特征提取、情感分类。情感特征提取过程一般包括:特征提取、特征降维和特征选择。其中,特征提取的方式各有不同,而特征降维和选择的方式大致相同。

服务机器人的语音情感识别与交互技术研究

万方数据

万方数据

1468 小型微型计算机系统2010年 4技术应用 4.1机器人平台介绍 本文将语音情感识别技术应用在国家”八六三“高技术 研究发展计划项目”家庭生活支援多机器人系统”的语音子 系统中,验证了语音情感特征提取和情感识别方法的有效性.该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭合、头部的转动等并能做出基本的表情.机器人的结构设计和系统设计完全根据生理学人体结构来设计,控制系统采用上下位机结构.机器人的移动部分使用两轮差动机构进行驱动,并且配有两个6自由度的手臂,可以进行复杂操作.上位机采 电源L 毪。 -——z==一 —包QQ翻 麦克风卜上位监控PC -—====—??J 摄像头卜 ............一 ———1—一I 工业现场总线 l 自囱审豳豳囱囱 图2机器人平台构成 Fig.2 Theslructureofrobot p/afform 用工业PC机,主要负责导航、身体的协调控制、语音情感的识别、语音识别和语音合成等工作;下位机是基于现场总线的集散式控制模块,主要负责传感器信息接收及初级处理、电机驱动和运动控制等工作.监控模块与各执行机构之间通过传感系统进行联系,上位机和下位机通过局域网进行连接和通信.用户可以通过网络、手机、无线麦克风等方式实现对该机器人的控制,以此满足各种家庭信息的需求.通过下位监控模块的感知,机器人上位监控程序针对不同的语音输人识别出不同的情感状态,从而做出不同的情感表达和交互.如图2为机器入平台构成. 图3实验系统主界面 Hg.3 Themaininterfaceofexperimentalsystem 4.2机器人语音情感识别系统实验过程 本实验主要完成机器人对语音信号的情感的识别,使人 与机器人之间可以完成情感和语音的交互,同时可使机器人听从人的指挥完成一定的任务.如图3为语音情感识别实验系统主界面. 在语音情感识别实验中,首先邀请8名大学生参加录音。 录音者均为表演专业学生.所录制语料经过4名非录音者进行听辨实验,去除了其中30%左右情感类型不明显的语料, 挑选出共计550条语料用于测试,其中包含高兴,伤心,生气, 害怕,惊讶5类情感语料各110句左右,组成了录制情感语音数据库,录制格式为llKHz,16bit的单声道WAV音频格式;然后进行语音信号的特征提取并通过本文隐马尔可夫模型识别方法对语音中的情感进行识别和计算;同时语音识别模块会识别出语音中包含的文字信息,这样机器人可以根据文字和情感信息来与用户进行更人性化的交流.4.3实验结果分析与比较 表l实验结果表明,伤心的识别率为86.4%,生气的识 别率为73.6%,其他三种情感的识别率略低,平均识别率为69.8%,还是比较理想的. 表1语音情感识别实验结果 Table1 Theresultof experiment 文献[14]研究了基音频率、振幅能量和共振峰等目前常 用的情感特征在语音情感识别中的作用,重点研究了加1。C 和AMFCC,将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统。取得了64.4%的平均识别率.该方法对于生气、高兴、伤心、害怕的识别率分别达到了64.5%、54.9%、83.3%、55.0%。而本 图4语音交互模块框图 Fig.4 The diagramofspeechinteractionmodule 文中的识别方法对这几种情感的识别率都有所提高,平均识 别率也提高了5.4%.文献[15]利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度,提出了 一种利用模糊熵对情感参数有效性进行度量的方法,并将参 数有效性分析结合模糊综合判别对情感语音信号作情感识 万方数据

语音情感识别研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/5110253536.html, Journal of Software,2014,25(1):37?50 [doi: 10.13328/https://www.360docs.net/doc/5110253536.html,ki.jos.004497] https://www.360docs.net/doc/5110253536.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 语音情感识别研究进展综述 韩文静1, 李海峰1, 阮华斌2, 马琳1 1(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) 2(清华大学计算机科学与技术系,北京 100084) 通讯作者: 韩文静, E-mail: hanwenjing07@https://www.360docs.net/doc/5110253536.html, 摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识 别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究 人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋 势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别 中图法分类号: TP391文献标识码: A 中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37?50.https://www.360docs.net/doc/5110253536.html,/ 1000-9825/4497.htm 英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50 (in Chinese).https://www.360docs.net/doc/5110253536.html,/1000-9825/4497.htm Review on Speech Emotion Recognition HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1 1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) 2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@https://www.360docs.net/doc/5110253536.html, Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models, representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, and presents detailed comparison and analysis between these methods. Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora; emotion-related acoustic feature; speech emotion recognition 人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能 够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类 上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些 声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然 ?基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央 高校基本科研业务费专项资金(HIT.NSRIF.2012047) 收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01 CNKI网络优先出版: 2013-11-01 13:49, https://www.360docs.net/doc/5110253536.html,/kcms/detail/11.2560.TP.20131101.1349.001.html

情感识别研究调查综述

情感识别研究现状综述 ------------------------赵启明 摘要:语音情感识别是目前研究领域比较热门的话题,许多研究学者都作出很大的成就,但目前情感识别还不能大规模融入实际使用主要存在着几方面的问题,首先就是语音数据的获得,目前最主要的还是 现在对目前大家经常使用的一些特征提取,分类方法进行一些归纳总结 一、情感分类 经过Plutchik等人的研究,通过在激活-评估空间(Activation-Evaluation space)上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。对于自然原点,认为它是一种具有各种情感因素的状态,但是由于这些情感因素在该点的强度太弱而得不到体现。通过向周围不同方向的扩展,表现为不同的情感。情感点同自然原点之间的距离体现了情感的强度。由于各种情感在自然原点的周围排成了一个圆形,所以这种对情感进行分类的方法叫做情感轮(Emotion Wheel),如图 2.2所示。对于任何一种情感,可以根据其情感强度和情感方向,在情感轮组成的二维平面中用唯一的一个情感矢量E来表示。其中情感强度表现为这个情感矢量的幅度值,而情感方向则表现为该情感矢量的角度。 大部分学者认为主要情感包括:害怕(fear)、愤怒(anger)、高兴(joy)、悲伤(sadness)和厌恶(disgust),主要情感的特点有: 》主要情感是所有人类文化和社会化的哺乳动物所共有的,比如害怕。

》主要情感通常有特殊的表现,比如面部表情通常可以作为区分主要情感的依据。 》对于人类来说,主要情感通常在幼年就会出现。 》主要情感来自于进化的需要。比如,害怕是警告同类有危险出现。 次要情感由主要情感变化或混合得到,就像三元色混合原理一样。这类情感的生成理论也叫情感的调色板理论。次要情感包括自豪(高兴的一种变化形式)、感激(高兴的一种派生形式)、悲痛、惊奇等等。 在本文的研究中,针对主要情感,害怕(fear)、愤怒(anger)、高兴Joy)、悲伤(sadness)和厌恶(disgust),加上一个常有的次要情感,惊讶(surprise)作为研究的情感对象。 六大类:害怕(fear)、愤怒(anger)、高兴(joy)、悲伤(sadness)和厌恶(disgust)惊讶(surprise) 二、语音数据库的制作和选择 1、语音数据库的制作 如何衡量一个语音数据库的好坏目前还没有一个统一的标准,不同的研究者使用的情感语音数据库存在许多差异。至今已有英语,德语,日语,荷兰语,西班牙语,丹麦语,瑞典语,汉语,俄罗斯语等情感语音数据库,少数语音库也含有多种语言,如[35],但大部分都只包含一到两种语言,包含多种语音多个不同年龄不同性别说话者的大情感语音库至今还没有。此外各类语音的长短也不尽相同,有很短的只有一到几个字的词,也有具有七八个句子的段落[36],但大部分是生活中常用的短句。目前研究中主要使用的语音数据库主要有两种,其真实性,实用性各有不同。 第一种数据库来自专业或业余演员的表演,或者是高校的学生和职员的模仿,这些参加录音的人想象自己处于某种情感状态中,朗读预先准备的句子或段落。用这种方法获取情感语音数据库的优点就是试验条件容易控制,且可以用不同情感重复同样的句子或段落,去除语意的影响,在同样条件下比较各种不同情感状态的语音特征。由于这种方法操作简单,目前大部分情感语音数据库都是用这种方法获得的。如Bhatti等人就是使用这种方法录制了包含六种情感和四种语言的500句情感语音[35],而Nicholson则是请一个专业的广播演员进行八种情感语音的录音,其他100个日本人进行模仿并录音。但这类方法也有缺点,最大的问题就是其自然度很受质疑[37],参加录音的人只是“想象”自己处于某种情感状态下或者是模仿专业演员的录音,因此跟现实情感还是有差距,当他们真的处于这种情感状态下时表现是否一样无从考证。 第二种数据库来自于虚拟环境中诱引出来的语音,这种方法让录音者置身于一个虚拟场景中,比如使用WOZ[38,39]场景让录音者感觉自己就像真的在跟一个计算机进行对话一样,从而发出尽可能真实的情感语音。或者使用计算机游戏让玩游戏者发出自己真实的喜怒哀乐[40] 。这种情况下录制的情感语音相对于第一种方法更接近现实,但由于录音者知道自己处于拟场景中,因此所表达的情感无法确定是否跟其在真实情况下一样,其自然度也无法保证。此外,虚拟场景的设置使得这一方法的操作比较困难,个体差异及其配合程度也直接影响情感语音的真实度。

LVA语音情感深层分析系统

语音情感深层分析系统 从询问对象口中得到真实的信息一直是调查的重要环节。为此也出现了许多 种手段,从传统的询问讯,心理分析,测谎技术乃至药物。有经验的审讯人员可 以通过嫌疑人的一些下意识的动作(手指的搅动,眼珠的转动等)判断嫌疑人说 的是否是真实。但这种手段极大地依赖于侦查人员本身的素质,成为一个高明的 审讯人员需要大量的实践经验和长时间的学习,即使经过这些过程,也不是所有 人员都能成为高明审讯人员。而且这种方式受很多主观因素制约。审讯人员的感觉,嫌疑人的心理素质等等各种因素都会影响最终结果。 测谎仪通过测量嫌疑人的生理体征的变化(心率,血压,呼吸速率,皮电等)来判断嫌疑人是否有欺骗的行为,这种方法有一定的客观性。需要相关的辅助设备,对场地,人员的要求都比较严格导致其不能够大规模,普遍的使用。测谎仪 的测试的是生理变化,而生理变化的产生由很多因素引起。无辜的人有可能焦虑,恐惧,生理体征的变化。有经验的罪犯也会通过各种手段混淆测试结果。 语音情感深层分析系统技术建立在人类的发声机制深刻了解的基础上。人类 的发声机制是非常复杂的处理过程,相当数量的肌肉和身体器官参与,并且采用 一定的方式将其在精确的时间内同步。首先,大脑会理解一个给定的情景并且评 估由于说话而带来的影响。然后决定发言时,空气会从肺部被挤压向上到声带, 导致声带在特定频率振动产生声音,振动的空气继续流向大脑操纵的舌头,牙齿 和嘴唇而产生声音,成为我们能理解的单词或词组。大脑会严密的监测这个处理 过程,以保证所发出的声音唯一的表达了意图,能够被理解以及能够被倾听者听到。语音情感深层分析系统正是利用专有和独特的技术,发现以时声音为媒介的 大脑活动“痕迹”。这项技术基于这样的理念,一个人说话时的声音波形能够反 映出大脑对事件的认知和诠释的改变。 语音情感深层分析系统的核心源于信息生成算法,精确的检测从较高频率(RHFR)和较低频率范围(RLFR)内的微小的变化。绝大部分我们能够理解,听 到的以及能够分析的声音都处于这两个范围之内。基于独特的算法区分不同的压 力和类型、认知过程和情感反应。使用129个音频参数精确发现和测量声波中无 意识的变化并创建一个基调以便标示谈话者的情绪图谱。用来理解一个人在谈话 时的精神状态和情感结构。能够识别不同型的压力,认知过程和情感反应。通过 研究这些信息可以深刻理解个人思维;什么让他困惑;什么让他兴奋;他回答中 哪一部分是他不确定的;哪些信息是他格外关注,哪一部分是他比较敏感的问题。通过分析谈话中的关键声音属识别出性标示,可以识别出精神状态。分析各种不 同的压力类型,认知过程和情感反应。检测出欺骗的企图、犯罪意图和大致的可 信度。 语音深层分析系统不需要在谈话对象身体上安置感应器。只需要获得谈话人 清晰地语音即可。也不许要编制专门的试题。可以即时的分析询问;也可以谈话 录音后剪辑分析,使用5-8个问题,10分钟时间。通过后期降噪,剪辑和屏蔽通 过系统运行分析得出初始值再加以对案件

相关文档
最新文档