情感语音特征对语料库依赖性的统计分析

情感语音特征对语料库依赖性的统计分析
情感语音特征对语料库依赖性的统计分析

语音情感识别中特征参数的研究进展

传感器与微系统(Transducer and Microsystem Technologies)2012年第31卷第2期 语音情感识别中特征参数的研究进展* 李杰1,周萍2 (1.桂林电子科技大学计算机科学与工程学院,广西桂林541004; 2.桂林电子科技大学电子工程与自动化学院,广西桂林541004) 摘要:语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征 降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性,介绍了语 音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征 降维常用方法,并对其进行了分析比较。展望了语音情感识别的可能发展趋势。 关键词:语音;情感识别;特征参数;特征降维 中图分类号:TP391文献标识码:A文章编号:1000—9787(2012)02—0004—04 Research progress on feature parameters of speech emotion recognition* LI Jie1,ZHOU Ping2 (1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin541004,China;2.School of Electric Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China) Abstract:Speech emotion recognition is one of the new research projects,the extraction of feature parameters extraction influence the final recognition-rate efficiency directly,dimension reduction can extract the most distinguishing feature parameters of different emotions.The importance of feature parameters in speech emotion recognition is point out.The system of speech emotion recognition is introduced.The common methods of feature parameters is detailed.The common methods of dimension reduction which are used in emotion recognition are compared and analyzed.The development of speech emotion recognition in the future are prospected. Key words:speech;emotion recognition;feature parameter;dimension reduction 0引言 随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达,是因为语音特征在不同情感状态下的表现不同。因此,很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征,以及语音质量特征与情感之间的定性关系[1],使得韵律学特征成为语音情感识别的常用特征。此后,研究者又加入了共振峰参数和语音学特征,如MFCC,使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时,还需要求出其派生特征和各种统计特征,如范围、均值和方差等,并把它们组成特征向量。由于到目前为止,声学特征与情感状态的对应关系缺乏统一的结论,为了尽可能保留有意义的信息,研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论,高维特征集合不仅不会提高识别率,还会造成“维数灾难”[2]。大量的研究表明:语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组,这就需要用到特征降维技术。 目前,已有数篇综述文献总结了语音情感识别的研究成果[3 6],但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结,并对近几年提出的情感特征参数进行阐述。 1语音情感识别系统的概述 基于语音的情感识别大致分为预处理、特征提取和情感分类三步,大致框架如图1所示。特征提取作为情感分 收稿日期:2011—07—20 *基金项目:国家自然科学基金资助项目(60961002)4

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语音情感识别

人机交互中的语音情感识别 一.研究内容及其意义 随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。 包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。例如,同样一句话,由于说话人表现的情感不同,在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样利用各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。 语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而,情感的变化能够通过语音的特征参数来反映,研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生

理上的变化会对语音带来直接的影响,而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外,语音情感识别中所采用的识别方法也会对结果产生影响。 目前,关于情感信息处理的研究正处在不断的深入之中,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如,用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。 二.国内外的研究现状 语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。 在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感[1]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[2]。2009年4月,日本产业技术综合研究所(AIST)研制

包含在语音信号中情感特征的分析

包含在语音信号中情感特征的分析 摘要:分析了含有欢快、愤怒、惊奇、悲伤等4种情感语音信号的时间构造、振幅构造、基频构造和共振峰构造的特征。通过与不带情感的平静的语音信号的比较,总结了不同情感语音信号情感特征的分布规律,为情感信号处理和识别提供了有实用价值的理论数据。关键词:情感特征语音信号时间构造振幅构造基频构造共振峰构造 语言是人类交际的最重要的工具。人类的话语中不仅包含了文字符合信息,而且还包含了人们的感情和情绪等信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给听者的印象就会不同,所谓“听话听音”就是这个道理。传统的信息科学世界只是处理符号信息的“无神经”的知识世界。例如,传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽略了包含在语音信号中的情感因素。所以它只是反映了信息的一个方面。与知识世界相对应且具有同等重要地位的感性科学世界,也是信息处理的重要组成部分。因此情感信号特征的人工处理,在信号处理和人工智能等领域具有重要意义。从语音信号提取情感特征,判断说话人的喜怒哀乐,是国外近几年刚刚兴起的研究课题。由于刚刚起步,这方面的研究成果还很少[5],就目前的研究水平来看,一般也都只限于通过分析情感语音信号的持续时间、发音速度、振幅、基频、频谱等变化特点,寻找能够反映情感特征的物理参数。本文针对含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号,分析了它们的时间构造、振幅构造、基频构造和共振峰构造的特征。并且通过和不带感情的平静语音信号进行比较,找出了不同情感信号特征的分布规律。作为情感信号处理的初步研究,为汉语情感语音信号处理和情感识别提供了有实用价值的理论数据。1 情感分析用语音资料的选择适当选择用于情感分析的语音信号具有重要意义。然而,国内外现在还没有提出情感分析用语音资料的条件和标准[4]。在我们的情感分析实验中,对实验用语句的选择主要考虑了两个方面:第一,所选择的语句必须具有较高的情感自由度;第二,对同一个语句应该能施加各种情感进行分析比较。根据这两个原则,我们选用了如表1所示的4个语句作为情感分析用语音资料。并邀请了5名善于表演的男性话者用平静、欢快、愤怒、惊奇、悲伤等5种情感对每个句子各发音3遍,一共搜集了300个分析用语句。 录音是在安静的房间里并且使用索尼DAT设备完成的。录音数据使用创通公司PCI64位声卡通过11025Hz采样、16bit A/D变换转化成数字信号存储在PC机中。为了检验所搜集的实验用情感语音数据的有效性,我们做了一个听取实验。我们要求以上五名发音者以外的另三名实验者坐在电脑终端前,然后随机播放所搜集到的带有各种情感的语句,让实验者通过主观评价说出所放语音的情感类型。经过反复听取比较,对其中情感特征不明显的句子进行了删除和重新制作。2 分析实验和结果一般来说,语音中的情感特征往往通过语音韵律的变化表现出来[4]。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,这些都是人们直接可以感觉到的。本文中,我们主要就含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号的时间构造、振幅构造和基频构造等韵律特征和不含感情的平静语音信号进行比较,找出了不同情感信号特征的构造特点和差别。为了求出分析所需要的语音信号韵律特征参数,首先按12kHz的抽样频率对输入信号进行A/D变换,然后对抽样信号加上窗长21.33ms(256点),窗移10ms的汉明窗,最后根据不同的分析需要求出短时能量,基音频率等韵律特征参数。由于语音信号中的情感信息受到语句词汇内容的影响,所以为了使分析结果消除这方面的影响,一般都是通过分析情感语音和不带感情的平静语音的相对关系,找出这种相对特征的构造、特点和分布规律,用来处理和识别不同的情感语音信号。 2.1 时间构造的分析分析情感语音的时间构造主要着眼于不同情感语音的发话时间构造的差别,对由情感引起的持续时间等的变化进行分析和比较。本文中我们主要就发话持续时间长度(简称为T)以及平均发话速率和情感的关系进行了分析和比较。我们把上述300

基于安卓的语音情感识别系统设计与实现

基于安卓的语音情感识别系统设计与实现 语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用 NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更 多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信 息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的 信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别

老年人的心理特征浅析(非常专业)

老年人的心理特征 (一)老年人小心谨慎 1、重视准确、忽视速度 心理学家发现:老年人在做一件事情时,往往比较重视完成任务 的准确性即比较注意避免犯错误,而对完成任务所花时间的长短并不是很在意。生活中老年人常常嫌年轻人做事毛手毛脚,不够踏实认真。 2、不会轻易冒险 老年人表现在行动上的另一种小心谨慎就是做事稳扎稳打,轻易不愿冒风险。这也是一般人对老年人的一种印象深刻的看法。心理实验证实:老年人宁拿较低的工资,也不愿冒较大的风险去选择一份有机会得到高工资的工作。 (二)老年人“固执” 性格是一个人对自己、对别人、对周围的社会生活环境所持的一种态度和行为方式,是心理特征的一种稳定表现。进入老年期之后,人的活动能力和生理机能就开始逐渐衰退。许多在年轻时意气风发、活泼向上的人,到了老年期之后就变得低沉、缓慢和淡漠。此外,老年人由于一生经历众多,经验丰富,因此其性格特点就更为突出。随着时间的推移和个人思想的逐渐成熟,老年人的世界观、人生观和价值观都逐渐成型,有了自己独特的为人处事的模式。那些不了解老年人身心特点和个性特点的人就会感觉到老年人是越来越冥顽不化和固执己见了。 对于个性特点较为固执的老年人,有一种心理技巧和策略可以一试,就是低球技术。其具体做法就是:先提出一个较小的要求,待老年人接受了之后,接着再提出一个较大的要求,这个要求需要老年人负出比第一个要求更多的物质和精神代价。心理学的研究表明:使用低球技术比直接提出那个较大的要求来得更容易,并且为老年人接受。 (三)老年人爱“唠叨” 俗话说:树老根多,人老话多。老年人一但上了年纪之后,说话就开始重复,早就过去的一件小事也会唠叨个不停,而且对自己的想法和观点还深信不疑,决不屈从别人的意见。 老年人由于生理衰老的原因,开始显得精力不够充沛,许多事情自己不能直接参与,或者无法再象年轻时那样从容和潇洒地把事情做得较为理想。因此,他们只好通过说话来表达自己内心的想法和情绪,这样他们才会觉得心理平衡。同时由于自尊心的强烈作用,老年人对于自己的态度和观点都会进行坚决地维护,也就是心理学上说的自我防卫。这个时候,老年人为了排出寂寞,也会借助重复和唠叨的语言为自己的生活增添一点热闹的气氛;老年人最善于津津乐道的就是自己的陈年往事,自己以前取得的成绩,这都是为了能得到一点心灵上的慰籍,以解脱现时的空虚和无奈。 (四)老年人的“怀旧情绪” 对于过去的时光和以往美好时代的怀念之情,感染着全世界的老人们。这种现象也可以理解为多数老年人对不断变化、急剧动荡的当今时代感觉到无法适应,从而企图逃避现实的一种方式。 古语说得好:树高千尺,落叶归根。人到老年,仿佛思想就开始退步,不再象年轻时那样憧憬未来,而是开始对自己几十年走过的路进行回味和自我评价,说的话和做的事都带着浓厚的怀旧色彩。由于退休之后突然之间就失去了生活奋斗的目标,生活的节奏也骤然放慢,老年人的心态渐渐地进入到一种安详和宁静的停滞状态。(1月14号发现的新话术点) 在心理上,由于老年人不太可能在获得新的、重大的成就和自豪感的满足,于是就转而进行自我的心理

服务机器人的语音情感识别与交互技术研究

万方数据

万方数据

1468 小型微型计算机系统2010年 4技术应用 4.1机器人平台介绍 本文将语音情感识别技术应用在国家”八六三“高技术 研究发展计划项目”家庭生活支援多机器人系统”的语音子 系统中,验证了语音情感特征提取和情感识别方法的有效性.该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭合、头部的转动等并能做出基本的表情.机器人的结构设计和系统设计完全根据生理学人体结构来设计,控制系统采用上下位机结构.机器人的移动部分使用两轮差动机构进行驱动,并且配有两个6自由度的手臂,可以进行复杂操作.上位机采 电源L 毪。 -——z==一 —包QQ翻 麦克风卜上位监控PC -—====—??J 摄像头卜 ............一 ———1—一I 工业现场总线 l 自囱审豳豳囱囱 图2机器人平台构成 Fig.2 Theslructureofrobot p/afform 用工业PC机,主要负责导航、身体的协调控制、语音情感的识别、语音识别和语音合成等工作;下位机是基于现场总线的集散式控制模块,主要负责传感器信息接收及初级处理、电机驱动和运动控制等工作.监控模块与各执行机构之间通过传感系统进行联系,上位机和下位机通过局域网进行连接和通信.用户可以通过网络、手机、无线麦克风等方式实现对该机器人的控制,以此满足各种家庭信息的需求.通过下位监控模块的感知,机器人上位监控程序针对不同的语音输人识别出不同的情感状态,从而做出不同的情感表达和交互.如图2为机器入平台构成. 图3实验系统主界面 Hg.3 Themaininterfaceofexperimentalsystem 4.2机器人语音情感识别系统实验过程 本实验主要完成机器人对语音信号的情感的识别,使人 与机器人之间可以完成情感和语音的交互,同时可使机器人听从人的指挥完成一定的任务.如图3为语音情感识别实验系统主界面. 在语音情感识别实验中,首先邀请8名大学生参加录音。 录音者均为表演专业学生.所录制语料经过4名非录音者进行听辨实验,去除了其中30%左右情感类型不明显的语料, 挑选出共计550条语料用于测试,其中包含高兴,伤心,生气, 害怕,惊讶5类情感语料各110句左右,组成了录制情感语音数据库,录制格式为llKHz,16bit的单声道WAV音频格式;然后进行语音信号的特征提取并通过本文隐马尔可夫模型识别方法对语音中的情感进行识别和计算;同时语音识别模块会识别出语音中包含的文字信息,这样机器人可以根据文字和情感信息来与用户进行更人性化的交流.4.3实验结果分析与比较 表l实验结果表明,伤心的识别率为86.4%,生气的识 别率为73.6%,其他三种情感的识别率略低,平均识别率为69.8%,还是比较理想的. 表1语音情感识别实验结果 Table1 Theresultof experiment 文献[14]研究了基音频率、振幅能量和共振峰等目前常 用的情感特征在语音情感识别中的作用,重点研究了加1。C 和AMFCC,将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统。取得了64.4%的平均识别率.该方法对于生气、高兴、伤心、害怕的识别率分别达到了64.5%、54.9%、83.3%、55.0%。而本 图4语音交互模块框图 Fig.4 The diagramofspeechinteractionmodule 文中的识别方法对这几种情感的识别率都有所提高,平均识 别率也提高了5.4%.文献[15]利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度,提出了 一种利用模糊熵对情感参数有效性进行度量的方法,并将参 数有效性分析结合模糊综合判别对情感语音信号作情感识 万方数据

情感语音识别开题报告

太原理工大学信息工程学院 本科毕业设计(论文)开题报告 毕业设计(论文)题目 语音情感识别及其特征提取的研究 学生姓名付建梅导师姓名张雪英 专业通信工程 报告日期2011.4 班级0701 指导教 师意见 签字年月日 专业(教 研室)主 任意见 年月日系主任 意见 年月日

1. 国内外研究现状及课题意义 1.1课题研究意义 现在社会,人类跟计算机的交往越来越受到研究者的重视。自然和谐的人机界面的沟通应该能理解用户的情绪和意图,对不同用户、不同环境、不同任务给予不同的反馈和支持。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样地观察、理解和生成各种情感特征的能力,使计算机能够更加自动适应操作者。实现这些,首先必须能够识别操作者的情感,而后根据情感的判断来调整交互对话的方式。 情感计算研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。情感计算,受到越来越多的国内外学者和研究机构的重视。美国的各大信息技术实验室正加紧进行情感计算系统的研究。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人的情感。目前国内的情感计算研究重点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而创建个人的情感计算系统。情感计算已经应用到生活中的各个领域:在信息家电和智能仪器中增加自动感知人们情绪状态的功能,可以提供更好的服务:在信息检索过程中,通过情感分析解析功能,则可提高智能信息检索的精度和效率:在远程教育平台中,情感计算技术的应用能提升教学效果;利用多模式的情感交换技术,还可以构筑更贴近人们生活的智能空间和虚拟场景。此外,情感计算还能应用在机器人、智能玩具、可视会议、唇读系统、可视电话系统的应用场合,在传输语音信号的时候能够显示视频动画,将有助于人类特别是听力有障碍的人对语音的理解。 正是基于以上课题对于科研、社会的重要意义,我的毕业论文的主要任务是建立带有情感的音视频数据库,研究音频信号中能体现情感的特征,分析哪些特征可以有效地表达情感,进行特征提取并进行情感识别实验。这些工作是为后面进行带有感情的音视频合成动画系统建立基础。 1.2国内外研究现状 语音信号处理中,语音识别作为一个重要的研究领域,已经有很长的研究历史,其中语音特征提取与情感识别又是其中的一个重要方面。 在1972 年,Williams 发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990 年,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感。1996 年日本东京Seikei 大学提出情感空间的概念并建立了语音情感模型。2000 年,Maribor 大学的Vladimir Hozjan 研究了基于多种语言的语音情感识别。2009 年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等。在国内,语音情感识别的研究起步较晚。2001 年,东南大学赵力等人提出语音信号中的情感识别研究。2003 年,北京科技大学谷学静等人将BDI Agent 技术应用与情感机器人的语音识别技术研究中。另外,2003 年12 月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,2005 年10 月又在北京主办了首届国际情感计算及智能交互学术会议。

语音中的情感

语音的情感信息分析与编辑* 蔡莲红 崔丹丹 蒋丹宁 杨鸿武 清华大学计算机科学与技术系,北京 100084(clh-dcs@https://www.360docs.net/doc/6d16338892.html,) 摘 要:本文研究了语音声学参数的情感区分特征,并通过情感分类的方法确定声学特征对分类的贡献。设计实现了一个语音情感编辑器,它具有编辑、修改语音韵律参数的功能,以实现不同情感的表现。 关键词:情感;声学特征;情感编辑 1 前言 人们通过语音信号传递各种信息,包含“表事”,“表意”,“表情”等信息。话音反映说话人的意向和情感状态。近年来,情感语音逐渐成为的语音研究热点。 研究表明,语音的情感信息体现在多种声学参数的变化中,文献[1]将其归纳为基频、时长、能量和频谱四个方面。在基本情感类别中,愤怒和高兴均表现为基频均值、变化范围和方差的提高,能量的加强,以及频谱中高频成分的增加。相反,悲伤对应于基频均值和变化范围的降低,能量的减弱,语速的减慢,以及频谱中高频成分的减小。害怕的特征除了基频均值、变化范围和频谱中高频成分的增加外,还包括基频曲线上抖动的加强和语速的加快。惊讶则表现为很宽的基频变化范围,以及稍减慢的语速。此外,声学参数随时间的变化情况也负载了一定的情感信息。 本文重点研究了韵律特征对情感区分和情感表现的影响。首先建立了情感语料库,统计了语料库中语音的声学参数,并选用不同的分类器、不同的声学特征进行情感分类。分类结果表明韵律特征在情感分类中扮演重要的角色。为了研究和感知韵律特征与情感表现的关系,设计实现了一个语音情感编辑器,它具有编辑、修改语音韵律参数的功能,通过韵律修改表现不同的情感。 2 情感语音的区分特征 我们知道,与情感表现有关的声学参数包括基频、时长、能量和频谱参数。我们首先在句子范围内计算声学参数统计值,如平均值、标准差、最大值、变化范围等,以反映参数的全局特性。其次计算声学参数的时序特征,它是短时特征的序列,反映了参数随时间的变化情况。目前对声学特征的情感区分性的研究较少。实际上,不同的声学特征反映情感的不同侧面,从而在情感分类中具有互补性和区分性,因此研究情感特征的区分是非常必要的。 我们考虑了六种基本情感,为每类情感设计了200个语句。在每类情感的文本中,包含了不同的句子类型(陈述句和疑问句),句子长度,以及声调和重音分布等情况。语句的平均长度为7个到13个音节,最短的语句包含2个音节。语料的发音人为一名不带口音的女性发音人。2.1基本参数的统计特征 表1列出了情感语料中各种声学参数的统计平均值。可见,与中性语句的统计结果相比,愤怒、高兴、惊讶三类情感的基频明显升高,基频变化率提高,语速加快,能量增强,频谱中高频成分增加,频谱变化剧烈。害怕表现为基频升高,语速明显加快,以及语音信号中非周期成分明显增加。悲伤表现为基频和基频变化率下降,语速减慢,能量减弱,频谱中高频能量减少,以及频谱变化缓慢。这些统计结果与他人所总结的情感声学特征是基本一致的,说明论文所录制语料的情感表现是合理的。稍微有所区别的是,录制的害怕语音仅表现为基频的提高和语速的加快,而没有出现所述的能量增强和高频成分增加。这可能是由于论文所录制的害怕并不是极端的恐惧,在激发度上相对愤怒、高兴、惊讶三类情感较低。 * 国家自然科学重点基金项目资助(60433030,60418102)

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

语音情感识别研究进展综述_韩文静

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/6d16338892.html, Journal of Software,2014,25(1):37?50 [doi: 10.13328/https://www.360docs.net/doc/6d16338892.html,ki.jos.004497] https://www.360docs.net/doc/6d16338892.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 语音情感识别研究进展综述 韩文静1, 李海峰1, 阮华斌2, 马琳1 1(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) 2(清华大学计算机科学与技术系,北京 100084) 通讯作者: 韩文静, E-mail: hanwenjing07@https://www.360docs.net/doc/6d16338892.html, 摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识 别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究 人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋 势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别 中图法分类号: TP391文献标识码: A 中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37?50.https://www.360docs.net/doc/6d16338892.html,/ 1000-9825/4497.htm 英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50 (in Chinese).https://www.360docs.net/doc/6d16338892.html,/1000-9825/4497.htm Review on Speech Emotion Recognition HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1 1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) 2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@https://www.360docs.net/doc/6d16338892.html, Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models, representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, and presents detailed comparison and analysis between these methods. Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora; emotion-related acoustic feature; speech emotion recognition 人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能 够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类 上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些 声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然 ?基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央 高校基本科研业务费专项资金(HIT.NSRIF.2012047) 收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01 CNKI网络优先出版: 2013-11-01 13:49, https://www.360docs.net/doc/6d16338892.html,/kcms/detail/11.2560.TP.20131101.1349.001.html

口语语料库

Part2 pop person A popular person that I want to say is Jinxing, who is a very famous ballerina and modern dancer in China. A lot of people knew her started from the news that she became one of the first few transsexuals to be recognized as a woman by the government in China. 事实上,我对她不了解,直到我看了2017年她在达沃斯世界经济论坛上的一个采访视频才逐渐加深对她的认识。她当时在和另外两位主持人讲述变性相关的话题,场下还 有很多商业精英和嘉宾们听着她的讲话。乍一眼看,我觉得她不就是和其他杂志上的 成功人士差不多嘛。然而,对于同性的话题,她的谈吐和率真的讲话真的打动到了我。我相比在场的各位和我一样,起初都是对这些问题怀有偏见,但是听了她的讲话感觉 这些偏见烟消云散。 Actually, I wasn’t familiar with her until I saw a video clip in which she was being interviewed by the media in the World Economic Forum in 2017. She was talking something about the transgender issues with many people. At first , I thought she was just another successful person like what we read in the magazines. However, the way she talks and those true of homosexuality really touched me. I guess everyone were the same, you know, the prejudice that was deeply rooted in our heart about LGBT and things like soon gone with the wind. 我觉得她受欢迎的一个原因就是她很勇敢地绕过重重障碍,作为一个榜样或者楷模, 帮助了其他和她类似的人突破传统的束缚。 The reason why I think she is so popular in china and abroad is that she has been brave enough to step out of the obstacles that she got and set an example, as a role model actually, for those who are struggling with those sensitive issues in a traditional cultural environment. 当谈话结束的时候,每个到场的嘉宾都站了起来,为她鼓掌。是的,我觉得她值得大 家的尊敬。她的个人生活可以说是改变了很多中国年青一代人的思想观念。生活中我 们会遵行传统和保守的观点,但是生命同样也只有一次,你得活得像你想要的样子吧,不是吗? When the dialogue finished, everyone stood up and gave her a great round of applause. Yes, I assume that she deserves it. Her personal life has definitely changed the view of love, marriage, and life principles of the whole young generation in China.Life i s with traditions and conservative things, but it’s about the life that you could only live once.

相关文档
最新文档