语音中的情感
智能语音的情感识别技术在人机对话中的应用

智能语音的情感识别技术在人机对话中的应用随着人工智能的发展,智能语音逐渐成为人机交互的重要形式。
但是,人机交互往往缺乏真正的情感交流,这限制了其在许多领域的应用。
为了解决这个问题,情感识别技术成为了人工智能发展的一个重要方向。
智能语音的情感识别技术是其中的重要一环。
本文将从智能语音的情感识别技术的基本原理、技术优势和应用需求等方面展开讨论,希望读者能对智能语音的情感识别技术有更全面的了解。
一、智能语音情感识别技术的基本原理智能语音情感识别技术的基本原理是根据语音信号中传递出的情感信息来识别用户的情感状态。
在技术实现上,一般采取语音特征提取和情感分类器构建两个步骤。
具体来说,语音特征提取主要包括基频提取、共振峰提取、能量特征提取等,将语音信号转化为数字信号,便于进行情感分类器构建;情感分类器构建则是将提取出来的语音特征送入训练好的分类器进行分类,即判断该语音信号传递的情感状态是积极还是消极。
二、智能语音情感识别技术的技术优势相对于传统的人机交互方式,智能语音的情感识别技术具有以下技术优势:1.多样化的情感识别:基于智能语音情感识别技术,能够实现对多种情感状态的识别,如高兴、悲伤、愤怒等,具有较高的准确度和实用性。
2.实时性高:智能语音情感识别技术能够实时对语音信号情感状态的识别进行分析,并根据情感状态调整回应方式,极大地提高了人机交互的交流效率。
3.全天候应用:智能语音情感识别技术不会受到外界环境的干扰,可以在嘈杂的环境下进行情感识别,实现全天候的应用。
三、智能语音情感识别技术的应用需求1.人机对话:智能语音情感识别技术可以应用于人机对话场景中,对用户语音信息进行识别和分析,提高机器人智能化程度,实现更好的人机交互体验。
2.情感识别:智能语音情感识别技术可以应用于社交场合、疾病诊断等领域,实现情感的分析和理解,更好地处理人际关系和疾病治疗。
3.广告宣传:智能语音情感识别技术可以应用于广告宣传领域,实现对受众情感状态的监测和分析,更好地促进产品的推广和市场销售。
语音情感识别准确率评估说明

语音情感识别准确率评估说明语音情感识别是指通过对人的语音进行分析和处理,识别出语音中所表达的情感状态。
它是人工智能领域的重要研究方向,可以应用于各种场景,如智能助理、情感诊断、智能客服等。
准确率评估是对该系统性能的一种重要指标,本文将对语音情感识别的准确率评估进行详细说明。
首先,准确率是指系统正确识别出的情感样本数量占总样本数量的比例。
在语音情感识别中,可以通过构建一个标注好情感的数据集来评估系统的准确率。
在数据集中,每个样本都包含了一段语音和对应的情感标签,例如"开心"、"生气"、"沮丧"等。
通过将这些样本输入到系统中进行识别,就可以得到系统的预测结果和真实情感标签。
将系统正确预测出的样本数量除以总样本数量,即可得到准确率。
其次,为了提高准确率评估的可信度,通常会采用交叉验证的方法。
交叉验证是将数据集分为训练集和测试集两部分,其中训练集用于训练系统,测试集用于评估系统的准确率。
为了避免因数据集划分的不同而导致准确率评估结果的不稳定,可以采用k折交叉验证方法。
例如将数据集分为k个子集,每次取其中一个子集作为测试集,其他k-1个子集作为训练集进行系统训练和测试,最后将k次的准确率取平均值作为最终的准确率评估结果。
另外,对于语音情感识别准确率评估中的数据集标注也是一个重要的问题。
由于情感是主观感受,对同一段语音的情感标签可能存在不同的主观理解和判断。
为了减少主观因素的影响,可以请多个人对数据集进行标注,并采用多数标签作为最终的标签。
此外,在标注时应该充分考虑语音中的声调、语速、音量等特征,以避免因这些特征的影响而导致了情感标签的不准确。
最后,准确率评估还需要结合其他性能指标一起进行综合评估。
例如,可以使用混淆矩阵来分析系统的分类效果。
混淆矩阵可以显示系统对真实情感标签的预测情况,包括真正例(系统预测正确的样本数)、假正例(系统将负例误判为正例的样本数)、假负例(系统将正例误判为负例的样本数)和真负例(系统预测正确的负例样本数)。
语音合成技术中的情感表达研究与应用

语音合成技术中的情感表达研究与应用随着人工智能技术的不断发展,语音合成技术正逐渐成为一项重要的研究领域。
语音合成技术可以将文本转换为逼真的人类语音,为人机交互、虚拟助手、语音导航等应用领域提供有力的支持。
然而,为了更好地与用户进行交流,语音合成技术需要具备情感表达的能力。
情感表达是指用声音传达人类情感状态的能力。
通常来说,情感涵盖了喜怒哀乐等多种表达方式,而这些情感在人际交流中起着至关重要的作用。
在语音合成技术中,情感表达是指将人类的情感状态通过声音准确地表达出来,使得用户能够更好地理解并与虚拟助手等系统进行交互。
一方面,情感表达在语音合成技术中的研究意义重大。
通过在合成语音中添加情感元素,可以使系统更加人性化,让用户感受到与真人对话的亲切感。
这不仅提升了用户体验,还有助于建立更强的情感连接,增加用户对系统的信任感。
此外,情感表达还能够丰富语音合成的交流功能,使其能够更好地满足用户的需求,提供更加个性化的服务。
另一方面,情感表达的应用潜力巨大。
在虚拟助手、智能客服等人机交互场景中,情感表达能够使系统更好地理解用户的需求,并提供相应的反馈。
具备情感表达能力的语音合成技术可以根据用户的情感状态来调整语速、音调、韵律等参数,使得交流更加自然流畅。
此外,在娱乐产业中,情感表达也可以被应用于电子游戏、动画等领域,为用户呈现更加生动的体验。
为了实现有效的情感表达,研究人员在语音合成技术中提出了多种方法。
一种方法是基于情感语音数据库的建立。
通过采集大量的情感语音数据,并进行人工标注,可以构建情感语音数据库。
利用这些数据库,可以训练情感合成模型,实现情感表达的功能。
另一种方法是基于语音信号的特征提取和转换。
研究人员通过分析语音信号中的声调、语速、音量等特征,发现这些特征与不同情感状态之间存在明显的关联。
基于这些特征,可以通过算法将原始语音转换为表达指定情感的语音。
然而,要实现准确且自然的情感表达仍然面临着挑战。
语音情感识别技术了解人的情绪与情感状态

语音情感识别技术了解人的情绪与情感状态随着科技的不断进步,语音情感识别技术逐渐成为人工智能领域的热门话题。
该技术可以通过分析语音信号,了解人的情绪与情感状态,为人们的交流提供更多的可能性。
本文将介绍语音情感识别技术的原理、应用以及发展前景。
一、语音情感识别技术的原理语音情感识别技术的原理是通过对语音信号进行分析和处理,提取出与情绪与情感相关的特征参数。
这些特征参数包括语速、音调、语调、能量等,通过对这些参数进行模式匹配、分类和判别,识别出语音信号中所表达的情绪与情感状态。
二、语音情感识别技术的应用1. 智能助理语音情感识别技术可以应用于智能助理,如苹果的Siri、亚马逊的Alexa等。
通过识别用户语音中的情绪与情感状态,智能助理可以更好地理解用户的需求,提供更加个性化、贴心的服务。
2. 情感分析语音情感识别技术还可以应用于情感分析领域。
例如,在市场调研中,可以通过对消费者电话回访录音进行情感识别分析,了解消费者对产品或服务的满意度,从而有针对性地改进产品和服务质量。
3. 心理健康辅助语音情感识别技术可以为心理健康领域提供有力支持。
通过识别患者语音中的情绪与情感状态,可以对患者的心理状态进行监测与评估,及早发现与干预可能存在的心理问题。
三、语音情感识别技术的发展前景语音情感识别技术在人工智能领域具有广阔的应用前景。
随着语音识别和自然语言处理等相关技术的进一步发展,语音情感识别技术将变得更加准确和稳定,能够更好地理解和识别人类语音中的情感信息。
同时,语音情感识别技术也将与人机交互、智能助手等领域相结合,为人们的生活带来更多的便利和智能化体验。
总结:语音情感识别技术通过对语音信号的分析与处理,可以了解人的情绪与情感状态。
它在智能助理、情感分析、心理健康辅助等领域有着广泛的应用。
随着相关技术的进一步发展,语音情感识别技术的准确性和稳定性将不断提高,为人们的生活带来更多的便利和智能化体验。
人工智能中的语音情感识别技术应用

人工智能中的语音情感识别技术应用随着人工智能技术的不断发展,语音情感识别技术已经成为了人工智能应用的一个重要领域。
语音情感识别技术的主要作用是,通过对语音信号进行分析和处理,识别出语音中所包含的情感信息,帮助机器理解人类的情感变化,从而更好地服务人类。
语音情感识别技术的应用场景非常广泛,包括人机交互、人际交流、情感诊断等领域。
在人机交互领域,语音情感识别技术可以帮助机器更好地理解人类的意图和情感状态,从而更好地完成任务。
例如,在语音助手领域,语音情感识别技术可以帮助机器更好地理解用户的意图和情感状态,提供更加个性化的服务。
在人际交流领域,语音情感识别技术可以帮助人们更好地理解对方的情感状态,从而更加有效地进行沟通。
例如,在电话销售领域,销售员可以借助语音情感识别技术,更好地理解客户的情感状态,从而更加有效地进行销售。
在情感诊断领域,语音情感识别技术可以帮助医生更好地诊断患者的情感状态,从而更好地制定治疗方案。
例如,在心理咨询领域,语音情感识别技术可以帮助心理医生更好地诊断患者的情感状态,从而更加有效地进行心理治疗。
语音情感识别技术的核心是情感特征提取。
情感特征提取是指将语音信号转化为能够反映情感信息的数值特征。
目前,常用的情感特征提取方法包括基于句子级别的特征提取和基于语音段级别的特征提取。
基于句子级别的特征提取是指将整个语音信号作为一个句子处理,提取其中的情感特征。
基于语音段级别的特征提取是指将语音信号分为若干个语音段,然后对每个语音段进行情感特征提取。
除了情感特征提取之外,语音情感识别技术还需要采用合适的情感分类算法。
目前,常用的情感分类算法包括SVM、决策树、神经网络等。
这些算法可以对提取到的情感特征进行分类,从而识别出语音中所包含的情感信息。
尽管语音情感识别技术已经取得了一定的进展,但是目前还存在一些问题。
其中最主要的问题是语音情感识别技术的准确度还不够高。
现有的语音情感识别技术只能识别出一部分人类情感,而无法对复杂的情感进行准确识别。
语音的情感分析研究

语音的情感分析研究随着智能手机等智能设备的普及,语音技术也日渐成熟。
语音识别和合成技术已经在日常生活中广泛应用,例如语音助手和自动回复系统等。
然而,除了这些实用功能,语音技术还具有无限的潜力,在情感分析和情感交流领域也有着广阔的应用前景。
情感分析是指通过计算机技术对人类语言中所蕴含的情感、态度和情绪等进行识别和分析。
而语音的情感分析则是指通过对人类语音信号进行处理和分析,来判断语音中所包含的情感和情绪信息。
语音的情感分析不仅可以被应用于语音助手和自动回复系统等领域,更可以为情感交流、语音诊断和虚拟现实等领域提供关键技术支持。
对于情感的识别和分析已经成为了人机交互领域中不可或缺的一部分。
人机交互的愈发普及引起了对情感识别和表达的愈发重视。
语音情感分析技术就是将语音信号中所包含的情感和情绪转化为数字化的形式,进行定量分析研究,使得计算机可以从中获取有关情感的信息。
根据此信息,计算机可以相应地表达情感,实现人与机器之间的情感沟通。
如今,语音情感分析的应用已经逐步渗透到了各行各业。
医疗领域的语音情感分析技术可以辅助医生进行诊断,例如,预测患者是否具有自杀倾向,以及对睡眠障碍的检测等。
同时,在心理学领域,语音情感分析也成为了重要的技术手段,可以通过语音情感识别技术评估心理动态状态、幸福感和情绪等方面的变化。
此外,语音情感分析技术还可以被用于虚拟现实等领域。
虚拟角色通过使用语音情感分析技术,在沟通和交流方面表现出更为逼真的情感反应。
同时,语音情感分析技术也可以应用于安全和监控上。
例如,在会议记录或监狱电话监听时,语音情感分析可以判断通话者的情感状态,以协助监察和预测可能的异常状况。
虽然语音情感分析技术的应用前景十分广阔,但是其提出并非易事。
首先,情感和情绪本身就具有多样性和相对性,即同样的语音信号在不同的语境下,可能会包含不同的情感和情绪信息。
其次,语音信号通常还会受到环境、口音和语速等方面的影响,因此情感识别需要综合考虑各种情况下情感变化的差异。
语音情感识别中的特征提取与分类算法

语音情感识别中的特征提取与分类算法引言近年来,随着人工智能技术的迅速发展,语音情感识别作为一种重要的人机交互技术,受到了广泛的关注和研究。
语音情感识别的目标是通过分析语音信号,准确地识别出说话者的情感状态,这对于提高人机交互的体验和效果具有重要意义。
在语音情感识别的研究中,特征提取和分类算法是非常关键的环节,本文将结合实际案例,对语音情感识别中的特征提取与分类算法进行探讨。
一、语音情感特征提取1.1 声学特征提取声学特征是指从语音信号中提取出来的与个体发音特点、语言习惯以及情感状态等相关的特征。
常见的声学特征包括基频、声道特征和共振峰等。
基频是指语音信号的周期性振动频率,与说话者的性别和情感状态密切相关。
声道特征反映的是声音通过口腔和鼻腔等共鸣腔体时的频率响应情况,可以通过声道模型进行提取。
共振峰是指声音信号谱中的共振峰频率,与发音部位、声音的共振特性以及语音的清晰度等有关。
1.2 语音情感特征提取方法为了提取语音情感特征,研究人员提出了多种方法。
一种常用的方法是基于时域的特征提取,例如短时过零率、短时能量和短时自相关系数等。
短时过零率可以反映语音信号的频率变化情况,短时能量反映了语音信号的整体强度,而短时自相关系数可以表示语音信号的周期性相关性。
此外,还可以使用频域特征提取方法,例如基频、谐波比、频谱熵等。
基频用于表示声音的音高,谐波比可以反映声音的富谐波特性,频谱熵则用于度量频谱的均匀性。
二、语音情感分类算法2.1 传统机器学习算法在语音情感分类算法中,传统机器学习算法被广泛运用。
常用的算法包括支持向量机(SVM)、K最近邻算法(KNN)和决策树等。
SVM算法通过不同的核函数将语音情感特征向量映射到高维空间,并在高维空间中构造一个最优的超平面来实现情感分类。
KNN算法采用最近邻搜索的方式,将未知语音特征向量与已有的标记样本进行比对,并将其分类到离他最近的K个样本所在的类别中。
决策树算法则通过构建一个树状的决策模型,根据特征向量的不同取值来进行分类。
语音情感识别的特征提取与分类方法研究

语音情感识别的特征提取与分类方法研究随着智能技术的快速发展,语音情感识别作为人机交互的重要领域之一,受到了广泛关注。
从语音中识别和分析情感状态对于实现自然、智能的人机交互具有重要意义。
本文将就语音情感识别中的特征提取与分类方法展开研究,为实现更准确、高效的语音情感识别技术提供参考和指导。
一、特征提取方法研究对于语音情感识别来说,特征提取是非常关键的一步。
有效的特征提取方法可以从语音信号中提取出与情感状态相关的信息,为后续的分类和识别工作提供有力支持。
下面介绍几种常用的特征提取方法:1. 基于声学特征的提取方法声学特征是通过对语音信号进行分析和处理得到的一些数值指标,常用的声学特征包括声调、音频强度、频率变化等。
通过使用声学特征可以有效地表达语音信号的基本特征,从而提取出与情感状态相关的信息。
常用的声学特征提取方法包括短时能量、过零率、频谱质心等。
2. 基于语音基元的提取方法语音基元是语音信号的最小单位,通过对语音信号进行分割和建模,可以提取出与情感状态相关的信息。
常用的语音基元包括音素和声韵母等。
通过对语音基元进行建模和分类,可以得到更加准确的语音情感识别结果。
3. 基于深度学习的特征提取方法深度学习是一种模仿人脑神经网络的机器学习方法,近年来在语音情感识别领域取得了很大的进展。
深度学习可以自动地学习和提取语音信号中的特征,不需要手工设计特征提取算法。
常用的深度学习模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)和双向循环神经网络(BiRNN)等。
二、分类方法研究在特征提取的基础上,选择合适的分类方法对提取到的特征进行分类和识别是语音情感识别的关键。
下面介绍几种常用的分类方法:1. 支持向量机(SVM)支持向量机是一种常用的机器学习算法,可以有效地解决二分类和多分类问题。
在语音情感识别中,SVM可以通过训练样本建立决策边界,将不同情感状态的语音信号进行分类。
2. 隐马尔可夫模型(HMM)隐马尔可夫模型是一种常用的时间序列建模方法,可以对语音信号的时间演化进行建模和预测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音的情感信息分析与编辑*蔡莲红 崔丹丹 蒋丹宁 杨鸿武清华大学计算机科学与技术系,北京 100084(clh-dcs@)摘 要:本文研究了语音声学参数的情感区分特征,并通过情感分类的方法确定声学特征对分类的贡献。
设计实现了一个语音情感编辑器,它具有编辑、修改语音韵律参数的功能,以实现不同情感的表现。
关键词:情感;声学特征;情感编辑1 前言人们通过语音信号传递各种信息,包含“表事”,“表意”,“表情”等信息。
话音反映说话人的意向和情感状态。
近年来,情感语音逐渐成为的语音研究热点。
研究表明,语音的情感信息体现在多种声学参数的变化中,文献[1]将其归纳为基频、时长、能量和频谱四个方面。
在基本情感类别中,愤怒和高兴均表现为基频均值、变化范围和方差的提高,能量的加强,以及频谱中高频成分的增加。
相反,悲伤对应于基频均值和变化范围的降低,能量的减弱,语速的减慢,以及频谱中高频成分的减小。
害怕的特征除了基频均值、变化范围和频谱中高频成分的增加外,还包括基频曲线上抖动的加强和语速的加快。
惊讶则表现为很宽的基频变化范围,以及稍减慢的语速。
此外,声学参数随时间的变化情况也负载了一定的情感信息。
本文重点研究了韵律特征对情感区分和情感表现的影响。
首先建立了情感语料库,统计了语料库中语音的声学参数,并选用不同的分类器、不同的声学特征进行情感分类。
分类结果表明韵律特征在情感分类中扮演重要的角色。
为了研究和感知韵律特征与情感表现的关系,设计实现了一个语音情感编辑器,它具有编辑、修改语音韵律参数的功能,通过韵律修改表现不同的情感。
2 情感语音的区分特征我们知道,与情感表现有关的声学参数包括基频、时长、能量和频谱参数。
我们首先在句子范围内计算声学参数统计值,如平均值、标准差、最大值、变化范围等,以反映参数的全局特性。
其次计算声学参数的时序特征,它是短时特征的序列,反映了参数随时间的变化情况。
目前对声学特征的情感区分性的研究较少。
实际上,不同的声学特征反映情感的不同侧面,从而在情感分类中具有互补性和区分性,因此研究情感特征的区分是非常必要的。
我们考虑了六种基本情感,为每类情感设计了200个语句。
在每类情感的文本中,包含了不同的句子类型(陈述句和疑问句),句子长度,以及声调和重音分布等情况。
语句的平均长度为7个到13个音节,最短的语句包含2个音节。
语料的发音人为一名不带口音的女性发音人。
2.1基本参数的统计特征表1列出了情感语料中各种声学参数的统计平均值。
可见,与中性语句的统计结果相比,愤怒、高兴、惊讶三类情感的基频明显升高,基频变化率提高,语速加快,能量增强,频谱中高频成分增加,频谱变化剧烈。
害怕表现为基频升高,语速明显加快,以及语音信号中非周期成分明显增加。
悲伤表现为基频和基频变化率下降,语速减慢,能量减弱,频谱中高频能量减少,以及频谱变化缓慢。
这些统计结果与他人所总结的情感声学特征是基本一致的,说明论文所录制语料的情感表现是合理的。
稍微有所区别的是,录制的害怕语音仅表现为基频的提高和语速的加快,而没有出现所述的能量增强和高频成分增加。
这可能是由于论文所录制的害怕并不是极端的恐惧,在激发度上相对愤怒、高兴、惊讶三类情感较低。
* 国家自然科学重点基金项目资助(60433030,60418102)表1 汉语情感语料中声学参数的统计平均值愤怒 害怕 高兴 惊讶 悲伤 中性 基频(Hz) 385 330 396 435 256 288基频变化率(Hz/ms) 0.82 0.54 0.78 0.89 0.24 0.53 时长(ms) 177 157 209 210 247 221能量(dB) 68 57 65 69 50 57 频谱质心(Hz) 3024 2651 2777 2791 2479 2664 频谱变迁 0.87 0.59 0.77 0.76 0.29 0.58频带周期性 0.59 0.57 0.68 0.73 0.62 0.622.2. 情感分类本文通过分类实验研究了情感语音的区分特征。
探讨了韵律参数、能量参数、频谱参数的统计特征和时序特征在情感分类中的作用。
在提取出基本的声学参数之后,分别针对统计特征和时序特征进行了分类实验,并通过混淆矩阵度量声学特征在每两类情感之间的区分能力。
实验表明,大部分声学参数的统计特征和频谱参数的时序特征能够较好地区分激发度不同的情感,而韵律参数的时序特征能够较好地区分激发度相近但评价性不同的情感。
我们还研究了融合统计特征和时序特征的情感分类方法。
该分类方法可提高情感分类的正确率,降低了情感间的混淆度。
分类数据是如上所述的汉语情感语料,包括六个情感类别:愤怒,害怕,高兴,悲伤,惊讶,中性。
每类情感数据包含约200句语句,为了减小随机因素的影响,提高分类结果的稳定性,在分类实验中采用了交叉检验技术。
所有语句被平均分为5份,而分类实验也相应地进行5次,每次分别将其中的1份数据作为测试集,其余的4份作为训练集。
取5次实验的平均值作为最终的分类结果。
表.2给出了分别采用MLP(多层感知器)、PNN(概率神经网络)、SVM(支持向量机)作为分类模型时,韵律统计特征、能量统计特征、频谱统计特征的平均分类正确率。
由表2可见,在单独采用一组参数的统计特征时,频谱统计特征和韵律统计特征的平均分类正确率较高,而能量统计特征的分类正确率较低。
同时,MLP、PNN、SVM三种分类模型的分类性能也有所差别。
对于各组参数的统计特征,MLP和SVM的性能优于PNN,这可能是由于PNN通过欧式距离计算测试样本与训练集中各样本之间的距离,因此各维特征被等同对待,不能通过调整权值反映各维之间的相对重要程度;另外,PNN网络中各个高斯核函数的宽度参数均设为相等的值,也会对分类性能产生影响。
表2 统计特征的平均分类正确率(%)MLP PNN SVM韵律统计特征 84.2 83.3 86.2能量统计特征 74.3 68.9 76.7频谱统计特征 88.5 85.1 89.63.1. 情感编辑器为了研究和感知韵律特征与情感表现的关系,设计实现了一个语音情感编辑器。
它具有编辑、修改语音声学参数的 图1 情感编辑器的系统框图功能,通过修改韵律来表现不同的情感。
图1显示了情感编辑器的系统框图,其核心部分包括声学特征分析、声学特征修改、以及语音重建三个模块。
在输入原始语句)(t s sou 以及与其文本相同、但情感表现不同的目标语句)(t s tar 后,首先对它们进行声学分析,提取与情感相关的声学特征。
随后根据目标语句的声学特征tar f ,以及用户编辑的情况,对原始语句的特征sou f 进行修改。
最后,语音重建模块修改原始语句的声学信号,产生具有syn f 特征的语句。
3.2 声学特征分析及修改声学特征分析模块提取的声学参数包括韵律参数和频谱参数。
其中,基频和时长信息通过一个语音编辑和处理平台VisualSpeech 标注,并保存为Tag 文件传给情感编辑器。
Tag 文件准确记录了每个音节的起、止点,以及每个基音周期中最大峰值(对应于声带闭合点)的位置。
情感分析器根据Tag 文件中的信息,恢复出完整的基频参数曲线,以及音节的时长参数。
此外,Tag 文件中记录的基音周期最大峰值位置是语音重建算法所需要的信息。
提取的频谱参数包括共振峰参数和H1-A3(基频分量与第三共振峰范围内最强的谐波分量之间的强度比)参数。
其中,共振峰描述了声道作为一个共振腔的谐振特性,在所有表示声道函数的参数中具有最明显的物理意义。
它的提取方法是对12阶LPC 多项式求根,根据各元音的共振峰范围,从中选择出表示共振峰的根,并推导出相应的共振峰频率和带宽参数。
H1-A3参数是语音谱中基频所对应的频率分量与第三共振峰频率范围内最强的谐波分量之间的强度比。
H1-A3参数反映了频谱中高频成分的相对强弱,与音色的明亮程度相关。
H1-A3参数的数值越小,则说明语音频谱中的高频成分越强,音色越明亮。
在提取出基本的声学参数之后,同时计算出它们的统计特征,包括平均值、最大值、最小值、以及在句中随时间变化的斜率。
声学特征的修改有两种方式。
第一种方式是复制目标语音的特征tar f 。
由于原始语音和目标语音的长度不同,因此首先需要进行时间规整。
在情感编辑器中,时间规整是以音节为单位进行的。
对于基频和能量参数,在每个音节的浊音段范围内,简单地根据时间比例,找到原始参数曲线和目标参数曲线之间的对应关系。
对于频谱参数,则采用了更为复杂的动态时间规整(DTW)算法。
第二种修改方式是由用户通过拖动鼠标的方式直接编辑声学参数曲线。
当采用这种方式修改声学特征时,也可以不向情感编辑器中输入目标语音。
图 2 是情感编辑器的用户界面。
用户可以在这个界面上手动修改时长、幅度,以及基频的平均值、音域和各时刻的频率数值。
在修改声学特征时,除直接对参数曲线进行修改外,也可以只修改参数的某种统计特征。
例如,可以在保持基频参数曲线变化形状不变的前提下,仅提高或降低基频的平均值。
图2 情感编辑器的功能示意本文选用汉语TTS 的输出和一部分朗读语句,通过编辑器修改成愤怒、害怕、高兴、悲伤、惊讶等情感。
为了方便情感表达,各类情感语音的文本不必相同。
但它们均包含了不同的句子类型(陈述句和疑问句)、句子长度,以及声调和重音分布等情况。
所有的情感语句均由一名女性发音人在安静环境下录音得到。
图3显示了一个通过直接编辑方式修改基频曲线的例子,将末音节“对”声调上升的斜率调高,以研究末音节声调曲线对情感表现的影响。
图3 中性语句和惊讶语句的基频曲线4 结束语本文研究了韵律特征对情感区分的影响。
建立了情感语料库,统计了语料库中语音的声学参数,最后选用不同的分类器、不同的声学特征进行情感分类。
分类结果表明韵律特征在情感分类中扮演重要的角色。
为了研究和感知韵律特征与情感表现的关系,设计实现了一个语音情感编辑器。
通过修改韵律来表现不同的情感。
语音的情感表现是语音参数的全面体现,除了韵律参数外,我们将进一步研究与情感信息相关的其他参数。
参 考 文 献[1] Cowie R., Cowie E.D., Tsapatsoulis N., etc, “Emotion Recognition in Human-Computer Interaction”[J], IEEE Signal Processing Magazine , 2001, 18(1): 32-80.[2] Paeschke A., Sendlmeier W.F., “Prosodic Characteristics of Emotional Speech: Measurements of Fundamental Frequency Movements”[A], Proc. of ISCA Workshop on Speech and Emotion [C], 2000, 75-80.[3] 赵力,蒋春晖,邹采荣等,“语音信号中的情感特征分析和识别的研究”[J],电子学报,2004,32(4):606-609。