语音质量评估
《2024年基于非侵入式语音质量评估的语音增强研究》范文

《基于非侵入式语音质量评估的语音增强研究》篇一一、引言随着人工智能和语音技术的快速发展,语音质量评估在语音处理领域中显得尤为重要。
非侵入式语音质量评估作为一种新兴的评估方法,以其便捷、快速、无损的特点,在语音增强研究中得到了广泛的应用。
本文旨在探讨基于非侵入式语音质量评估的语音增强研究,以提高语音信号的清晰度和可理解性。
二、非侵入式语音质量评估概述非侵入式语音质量评估是一种基于客观参数的语音质量评估方法,其核心在于对语音信号进行特征提取和量化分析。
与传统的主观评估方法相比,非侵入式评估具有无需人工参与、自动化程度高、可重复性强的优点。
通过分析语音信号的多个特征,如音频信号的能量分布、谐波结构、噪音水平等,非侵入式评估方法能够更准确地反映语音信号的质量。
三、语音增强研究的重要性在许多应用场景中,如语音识别、语音通信和人机交互等,语音质量的提高对提升用户体验和系统性能具有重要意义。
然而,由于各种噪声和环境因素的干扰,接收到的语音信号往往存在一定程度的失真和模糊。
因此,开展基于非侵入式语音质量评估的语音增强研究具有重要的实际应用价值。
四、基于非侵入式评估的语音增强算法研究1. 算法概述:本部分主要介绍采用非侵入式语音质量评估作为核心的语音增强算法。
该算法通过对失真语音信号的特征提取和分析,找出失真的主要因素和原因,进而采取相应的处理措施进行信号的增强。
2. 特征提取:算法中,特征提取是关键的一步。
主要提取的特征包括频谱包络、基音频率、噪音水平等。
这些特征可以有效地反映语音信号的质量和失真程度。
3. 增强处理:在得到关键特征后,算法根据失真类型和程度,采用适当的增强策略进行信号处理。
例如,针对不同类型的噪音和干扰因素,采取不同的降噪算法和滤波器进行信号的清洗和增强。
4. 效果评估:为了验证算法的有效性和性能,需要对增强后的语音信号进行质量评估。
这一过程可以通过非侵入式评估方法实现,将处理后的信号与原始清晰信号进行对比分析,得出客观的评估结果。
polqa标准

polqa标准
POLQA(Perceptual Objective Listening Quality Assessment)是一个
用于语音质量评估的算法,被ITU-T确定为推荐规范。
它适用于固网、移动通信网络和IP网络中的语音质量评估,可用于高清语音、3G、4G/VoLTE、5G网络语音质量评估。
POLQA是PESQ(ITU-T 建议书)的继承者,能够覆盖最新的语音编码和
网络传输技术,具有更高的准确度。
它避免了当前型号的弱点,并且扩展到处理更高带宽的音频信号。
POLQA支持普通电话频段 Hz)的测量,但此外还具有第二种操作模式,
用于评估宽带和超宽带语音信号中的HD-Voice赫兹)。
它还针对由具有嘴和耳模拟器的人造头部在声学上记录的语音信号的评估。
POLQA算法具有以下优点:
1. 增加对宽带(Wideband)和超宽(SuperWideband)语音质量评估的能力,支持宽带(48khz)。
2. 支持最新的语音编码和VoIP传输技术,针对现有的opus、silk编码器
进行过特殊优化。
3. 支持多语言环境,各国语言都支持。
ITU组织提供标准测试语料,可进行针对性测试。
总的来说,POLQA是一个用于语音质量评估的先进算法,能够覆盖最新的语音编码和网络传输技术,并且具有高准确度和多种功能。
语音识别中的语音合成质量评估与优化

语音合成是语音识别中的一项重要应用,其质量评估与优化对于提高语音交互系统的整体性能具有重要意义。
下面将分别介绍语音合成质量评估与优化的方法、当前面临的挑战以及未来的研究方向。
一、语音合成质量评估1. 评价指标语音合成质量的评估通常采用以下几种评价指标:(1)清晰度指数(Clarity Index,CI):用于衡量语音的清晰度,数值越高,说明语音质量越好。
(2)自然度指数(Naturalness Index,NI):用于衡量语音的自然程度,数值越高,说明语音越接近人类发音。
(3)信噪比(Signal-to-Noise Ratio,SNR):用于衡量语音信号的质量,数值越高,说明语音信号的纯净度越高。
2. 评估方法常见的语音合成质量评估方法包括主观评估和客观评估。
主观评估是通过人类听觉对语音质量进行评分,但评估结果易受评估人员的主观因素影响。
客观评估则是通过分析语音信号的特征来进行评估,如使用声学模型对语音信号进行建模,再利用机器学习算法对模型输出进行评分。
二、语音合成优化1. 技术手段为了提高语音合成质量,可以采用以下技术手段:(1)使用高质量的语音数据集进行训练,提高声学模型的性能。
(2)采用先进的信号处理技术,如噪声抑制、回声消除等,提高语音信号的纯净度。
(3)利用深度学习技术,如循环神经网络(RNN)、长短期记忆网络(LSTM)等,提高声学模型的自适应学习能力。
2. 优化策略在优化过程中,可以采用以下策略:(1)针对不同的应用场景,选择合适的声学模型和优化算法,以提高语音合成的性能。
(2)采用多模态数据集进行训练,提高声学模型的泛化能力。
(3)对语音合成结果进行反馈,不断优化声学模型和语言模型,提高语音合成的自然度和清晰度。
三、挑战与未来研究方向当前,语音合成质量评估与优化仍面临一些挑战,如评估标准的制定、多语言场景下的适应性、情感表达的准确性等。
未来研究方向包括:1. 开发更加客观、准确的评估方法,以减少主观因素的影响。
智能语音助手语音识别准确率评估说明

智能语音助手语音识别准确率评估说明智能语音助手是一种能够通过语音指令执行任务的人工智能技术。
其中,语音识别是其核心技术之一,能够将人类语音转换为计算机能够理解的指令。
语音识别的准确率是衡量智能语音助手质量的重要指标之一,对于用户体验和功能实现的稳定性具有关键性影响。
本文将就智能语音助手的语音识别准确率进行评估说明。
首先,语音识别的准确率评估主要通过与真实语音数据进行对比来完成。
通常,我们会利用大规模的语音训练数据集对语音识别模型进行训练,并利用其中一部分数据作为测试集来评估模型的准确率。
测试集的构建通常需要包括多样的语音片段,涵盖不同的说话人、环境噪声、口音等多种因素,以模拟实际使用场景。
同时,测试集还需要包括具有不同难度级别的语音指令,以便准确评估模型对不同复杂度指令的处理能力。
在进行语音识别准确率评估时,我们通常会引入准确率、召回率和F1值等指标。
其中,准确率指的是模型正确识别的语音指令数量占总体识别结果中的百分比。
召回率指的是模型正确识别的语音指令数量占测试集中真实语音指令的百分比。
F1值结合了准确率和召回率,提供了模型性能综合评估的指标。
为了提高语音识别的准确率,我们需要采取一系列的技术手段。
首先,我们可以通过增加训练数据的数量和质量来改善语音识别模型的性能。
大规模的训练数据能够帮助模型更好地学习到语音的特征和规律,提高识别的准确性。
其次,我们可以采用深度学习等先进的模型结构和算法来进行语音识别,从而提高模型的性能。
此外,我们还可以利用语音增强技术、噪声抑制技术等手段来降低环境噪声对语音识别的影响,提高准确率。
在实际的语音识别准确率评估中,我们还需要考虑到不同语音指令的重要性和优先级。
对于一些关键指令和任务,我们可以设置更高的准确率要求,以保证其高可靠性和用户满意度。
总之,语音识别准确率评估是智能语音助手开发和应用过程中不可或缺的一部分。
通过建立科学严谨的评估方法和指标体系,结合适当的技术手段,我们可以有效地评估和提升智能语音助手的语音识别准确率。
语音质量评估

语⾳质量评估语⾳质量评估,就是通过⼈类或⾃动化的⽅法评价语⾳质量。
在实践中,有很多主观和客观的⽅法评价语⾳质量。
主观⽅法就是通过⼈类对语⾳进⾏打分,⽐如MOS、CMOS和ABX Test。
客观⽅法即是通过算法评测语⾳质量,在实时语⾳通话领域,这⼀问题研究较多,出现了诸如如PESQ和P.563这样的有参考和⽆参考的语⾳质量评价标准。
在语⾳合成领域,研究的⽐较少,论⽂中常常通过展⽰频谱细节,计算MCD(mel cepstral distortion)等⽅法作为客观评价。
所谓有参考和⽆参考质量评估,取决于该⽅法是否需要标准信号。
有参考除了待评测信号,还需要⼀个⾳质优异的,没有损伤的参考信号;⽽⽆参考则不需要,直接根据待评估信号,给出质量评分。
近些年也出现了MOSNet等基于深度⽹络的⾃动语⾳质量评估⽅法。
语⾳质量评测⽅法以下简单总结常⽤的语⾳质量评测⽅法。
主观评价:MOS[1], CMOS, ABX Test客观评价有参考质量评估(intrusive method):ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5]⽆参考质量评估(non-intrusive method)传统⽅法基于信号:ITU-T P.563[6], ANIQUE+[7]基于参数:ITU-T G.107(E-Model)[8]基于深度学习的⽅法:AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]此外,有部分的⽅法,其代码已开源::该仓库包括MOSNet, SRMR, BSSEval, PESQ, STOI的开源实现和对应的源仓库地址。
ITU组织已公布⾃⼰实现的P.563: 。
GitHub上⾯的微⼩修改版使其能够在Mac上编译。
在语⾳合成中会⽤到的计算MCD:此外,有⼀本书⽤来具体叙述评价语⾳质量:Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。
语音质量评估及其优化策略

网规网优责任编辑:左永君*******************玉荣娟中国联通有限公司广东分公司收稿日期:2009年9月25日语音质量评估及其优化策略1 引言语音质量评估可以分为主观评估和客观评估两种。
主观语音评估是以人为主体根据某种预先约定的规则来对失真语音(或参考原始语音)划分质量等级,它反映了评听者对语音质量好坏程度的一种主观印象。
目前,国内外使用较多的语音质量主观评估方法为MOS(Mean Opinion Scores)方法[1],它不仅广泛用于语音编码、通信设备性能测试上,也是衡量语音质量客观评估方法好坏的重要依据之一。
但它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。
而且,这种方法费时费力,常常受到各种测试条件和测试人员主观因素的影响,使其评估结果的可靠性受到影响。
客观评估采用机器自动判别语音质量,它使用某个特定的参数去表征语音通过编码或传输系统后的失真程度,并以此来评估处理系统的性能优劣。
PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评估)[2]是目前为止,ITU公布的语音质量客观评估算法中与主观评估相关度最高的一个。
其它流行算法还有PSQM(Perceptural Speech Quality Measure)、PAMS(Perceptural AnalysisMeasurement System)和MNB(Measuring Normalizing Blocks)等。
与这些算法相比,PESQ算法既考虑了端到端时延,可以评估不同类型的网络;又采用了改进的听觉模型和认知模型技术,对通信延时、环境噪声等有较好的滤波性,其语音库由在不同的真实或仿真网络中采集而来的九种语言语音构成。
2 PESQ算法模型PESQ的思路是:首先将参考语音信号和失真语音信号的电平调整到标准听觉电平,再用输入滤波器模拟标准电话听筒进行滤波,然后将两个信号做时间对齐,将对齐好的信号做听觉转换。
语音评估PESQ介绍new

Filtering in analogue elements (such as handset or 2-wire access loop)
Variable delay (common in VoIP)
鼎利通信 鼎力支持
Dingli Communications Inc.
PESQ介绍
PESQ: Perceptual Evaluation of Speech Quality; 国际电联(ITU)P.862推荐的语音评估最新算法,同时也 是UMTS评估语音的最新标准;
FIXED NETWORK
1 0.9 0.8 0.7 0.6 0.5 average worst-case
鼎利通信 鼎力支持
PESQ PAMS PSQM PSQM+ MNB
Dingli Communications Inc.
不同语音评估算法性能比较-与MOS的相关性对比(3)
Type:Mobile
Disturbance processing The difference between the sensation surfaces
for the reference and degraded files is known as the error surface; this shows any audible differences introduced by the system under test.
鼎利通信 鼎力支持
Dingli Communications Inc.
不同语音评估算法性能比较-与MOS的相关性对比(1)
Type:Mobile
Network (移动网)
PESQ 0.962 0.905 PAMS 0.954 0.895 PSQM 0.924 0.843 PSQM+ 0.935 0.859 MNB 0.884 0.731
语音质检岗位职责

语音质检岗位职责职位概述语音质检是指对电话服务、客服咨询、呼叫中心等语音通信环节实施质量检查的工作岗位。
语音质检员通过对通话的录音进行分析和评估,确保语音服务的质量达到要求。
他们需要具备良好的语音听力和分析能力,熟悉相关的行业规范和技术标准,能够准确识别和纠正可能存在的问题,提高语音通信的质量和效率。
主要职责1. 录音分析与评估- 对公司内部和外部的电话服务进行录音分析和评估,确保通话质量和服务水平达到公司要求。
- 检查录音中可能存在的问题,如通话效率、语音准确度、礼貌用语等方面的不足,并给出改进意见和建议。
- 统计和分析录音数据,量化通话质量指标,并撰写相应的质检报告。
2. 质量提升和培训- 根据质检结果,制定相应的培训计划,针对性地培训语音服务人员,提高他们的技能和服务质量。
- 参与制定和更新公司的质量标准和流程,确保语音服务符合相关的行业规范和标准。
- 持续关注行业发展动态,学习和掌握最新的语音通信技术和质检工具,不断提升自己的专业知识和技能。
3. 问题识别和解决- 及时发现通话中的问题,如顾客投诉、信息不准确、流程不合理等,并及时提出解决方案,通过与相关部门的沟通协调,确保问题能够得到解决并不再出现。
- 分析和归纳通话过程中的常见问题和矛盾点,提出相应的改进措施,提高语音服务的质量和客户满意度。
4. 团队协作和沟通- 与语音服务人员、团队负责人以及其他部门保持良好的沟通,共同完成工作任务。
- 协助团队负责人组织机器培训和活动,提高团队的凝聚力和协同效率。
- 定期参与例会和培训,分享经验和教训,互相学习和促进共同进步。
任职要求1. 语音听力和分析能力- 具备较高的语音听力和理解能力,能够准确分辨不同的语音音频,并识别可能存在的问题,如语速、语调、清晰度等。
- 具备良好的分析能力和判断力,能够迅速分析录音中的问题,准确评估通话质量。
2. 行业知识和技术素养- 熟悉相关的行业规范和技术标准,了解语音通信的基本原理和流程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通常,人既是语音的发送主体,也是语音的接收主体。
语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义。
一般说来,语音质量至少包括三个方面内容:清晰度、可懂度和自然度。
清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度;可懂度是指语音中有意义的语言单元(如单词、单句等)内容的可识别程度;自然度则与语音的保真性密切相关。
目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则。
语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响.用于评价输出语音质量的方法分为主观评价和客观评价两种1 主观评价法主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果,它反映听评者对语音质量好坏的主观印象。
不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(Mean Opinion Score,MOS)方法、判断韵字测试(Diagnostic Rhyme Test,DRT)方法、失真平均意见分(Degradation Mean Opinion Score,DMOS)、判断满意度测试(Dignostic Acceptability Measure,DAM)方法和汉语清晰度测试。
ITU-T推荐用于传输性能的主观评价有以下几种[14]:1.绝对等级评价(Absolute Category Rating,ACR)ACR主要通过平均意见分(MOS)对音质进行主观评价。
这种情况下没有参考语音,听音人只听失真语音,然后对该语音作出1-5分的评价。
ACR评价方法不需要参考音,比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性。
2.失真等级评价(Degradation Category Rating,DCR)DCR主要通过失真平均意见分(DMOS)来实现音质的主观评价。
这种评价方法要求听音人在给失真语音打分前,先熟悉原始语音(参考语音),再将失真语音与原始语音的差异按一定标准来描述。
DCR常用于评价诸如汽车噪声、街道噪声或其他说话人干扰等为背景噪声情况下的音质。
噪声的类型和数量将直接影响评定的失真等级。
3.相对等级评价(Comparison Category Rating,CCR)CCR方法主要采用相对平均意见分(CMOS)对音质进行主观评价。
CCR类似于DCR,不同的是,在CCR方法中,原始语音和失真语音的播放次序是随机的,听音人不知道哪是原始音、哪是失真音。
听音人只是在上一个音的基础上,评定出当前音相对于上一音的好坏。
CCR方法允许对处理后语音(失真语音)的评价高于原始音的评价,因此,它可以用来评价具有噪声抑制和语音增强功能的编码器,也可以用来比较两种未知编码器的性能优劣。
MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。
在数字语音通信中,通常认为MOS分为4.04.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。
MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。
MOS分3.0以下常称为合成语音质量,指一些声码器合成的语音所能达到的质量。
它虽然有较高的可懂度,但自然度较差MOS得分法的优点是:由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;评测者只需实现进行简单训练,就可直接参与评测,因而容易完成.其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。
另外,测试条件的选择及其他一些因素会影响MOS方法的结果判断韵字测试(DRT)判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质量测试,因为这时可懂度已成为主要问题。
这种测试方法使用若干对(通常是96对)同韵母进行测试,例如中文的“为”和“费”,英文的’fast’和’vast’等。
让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是DRT得分,通常认为DRT为95%以上时清晰度为优,85%-94%为良,75%-84%为中,65%-75%为差而65%以下为不可接受。
在实际通话中,清晰度为50%时,整句的可懂度大约为80%,这是因为整句中具有较高的冗余度,即使个别字听不清楚,人们也能理解整句话的意思。
当清晰度为90%时,整句话的可懂度已接近100%,所以对于低速率语音编码,一般要求其清晰度能达到90%或以上诊断满意度测量(Diagnostic Acceptability Measure)DAM是对语音质量的综全评估,它是在多种条件下对话音质量的接受程度的一种度量。
这种评分体系相当全面,也相当复杂主观评价的优点在于直接、易于理解,真实反映语音质量的实际情况。
然而,主观评价不但对听评条件、听评流程有严格要求,为了避免个别听评者的感知偏差,还需要对大量的听评者的评价结果做统计,因此主观评价费时费力,成本高,灵活性差,重复性不好,难以应用于实时性场合。
2 客观评价法音质的客观评价是指用机器自动判别语音质量,按是否需要使用输入语音的角度可分为两类:基于输入—输出方式的客观评价和基于输出方式的客观评价。
基于输入—输出的客观评价比较输出和输入语音之间的差异(失真)程度,将差异量值作为语音质量的衡量依据;基于输出的客观评价则仅由输出语音就可对语音的质量做出评估。
在应用中,输入语音也常称为原始语音或者参考语音,通过系统的输出语音常称为失真语音。
以往的音质客观评价研究大多集中于输入—输出方式,随着技术发展、对通信服务质量的关注等,基于输出的音质评价技术正得到越来越多的关注。
客观评价不受人为主观因素的影响,成本低廉,灵活性好,效率高,具有可重复性,且可实时使用,例如对VoIP网络中语音传输质量的实时监控和用于指导系统中设备参数调整等。
尽管科学家对人类的感官感知和神经信息处理机制做了大量的研究并取得一定的成果,但人们对人类感知的机理和大脑活动的运作方法仍处在一知半解的初级阶段,因此我们还无法建立一个能完全模仿人类音质感知过程的客观评价系统,只能根据所获得的信息作出尽可能正确的评价,所建立的客观评价系统也与人类所具有的感知评价能力相差甚远。
因此,客观评价并不能完全取代主观评价。
在实际应用中,通常将主观评价和客观评价结合使用。
客观评价常用于系统的设计、调整以及现场实时监控阶段,主观评价作为实际效果的最终检验,两者相辅相成,用于不同的场合。
其次,客观评价系统的优劣取决于由它得到的客观评价结果与主观评价结果是否具有统计意义上高相关性以及小的偏差,因此客观评价系统的设计必须以主观评价为基础,并借鉴主观评价主体的感知功能和智能特性。
合格的客观评价系统可在一定使用范围内中代替主观评价对语音质量做出基本正确的判断。
3 客观评价原理基于输入—输出的客观评价是在信号特征表示的基础上对失真语音和原始语音进行比较。
下图为基于输入—输出的客观评价的模块原理图,从流程上分为预处理、语音信号特征提取、客观失真量计算和质量等级映射四大模块。
原始语音失真语音通信系统预处理预处理特征提取特征提取客观失真量计算映射模块预处理包括输入—输出语音信号的同步处理、电平规整、分帧等处理步骤。
同步处理是为了保证所比较的输入和输出语音单元之间有正确的对应关系,否则将对客观评价结果产生巨大的偏差;为了消除语音信号幅度差异对主观听觉的影响,必须通过电平规整保证输入和输出语音的声压级基本相同;虽然语音是时变的非平稳信号,但是在一个短时间范围内(1Oms-30ms),其特性相对稳定,因此可以将连续语音信号分割为短时间范围的时间片序列以便于后续的特征参数分析。
这样,对于整体的语音信号,通过预处理环节后,语音信号被分割为以帧为单位、加窗处理过的短时信号。
语音信号分析是语音信号处理的前提和基础,分析的目的是提取需要的信息,获取特征表示参数。
曾有语音处理专家在论文中表示:语音信号的表示是人类近代科学研究中很少碰到的难题之一[18]。
虽然语音信号是一维波形信号,但仅从时域上描述其特性是远远不够的,特别是在音质评价中,两个时域波形差别很大的语音信号的主观音质感觉可能基本相同,因此需要使用频域分析及其它信号分析方法表示语音信号的特征。
对于语音帧序列,语音信号特征提取模块使用适当的分析方法,得到表示语音信号的特征参数。
特征参数对音质评价效果有极其重要的影响,音质评价的特殊性对所使用的语音特征参数有着独特的要求。
客观失真量计算模块用于计算失真量。
所谓失真量是指原始语音和输出语音特征参数之间的总体差异量,该量值反映语音通过系统后的质量变化,即输出语音对于原始语音的失真程度。
由于尚不清楚人类听觉系统、感知神经系统以及大脑思维在判断语音质量过程中的相互作用,无法建立人类感知语音失真程度的真,范数形式计算客观失真量。
实数学模型,因此常采用Lp为了与主观评价等级一致,通常将客观评价所得到的失真量映射为主观评价的尺度表示,如MOS的5级表示,映射模块即完成此功能。
映射模块可按二次或者三次多项式函数拟合形式建立客观失真量与主观等级分之间的对应关系。
使用基于输入—输出的客观评价时要求原始语音和失真语音之间做到严格同步,而在实际应用中,严格同步的要求并不容易得到满足,同时在某些应用场合中难以或者不便于采集到原始语音材料,这就要求发展基于输出语音的客观评价方法。
基于输出的客观评价方法仅对输出语音进行处理,因此在预处理中不再需要端点同步处理步骤,其他处理模块的功能等同于基于输入—输出的客观评价方法,但在模块具体实现中,如特征提取等,必须使用适合基于输出评价方式的方法和技术手段。
下图为基于输出方式的客观评价的模块原理图。
原始语音失真语音通信系统预处理特征提取客观失真量计算映射模块。