语音评估PESQ介绍new

合集下载

PESQ算法介绍与分析

PESQ MOS
LY[j]n
认知模型相关计算式：
PESQ算法的改进
P862.1将PESQ得分映射为MoS-LQO得分 P862.2将PESQ算法扩展到宽带（300~3400Hz 50~7000Hz)。
PESQ的局限性
当系统中存在下列因素时会导致PESQ的评分与MoS评分有较大差异，即得到的 PESQ评分不准确。
时间对齐： 1.预处理 2.整体语音的时延估计 3.语句的标识 4.语句的延时估计 5.语句的分割
听觉转换：
பைடு நூலகம்
听觉转换模型
认知模型描述参考语音信号与失真语音信号在听觉变换过程中产生的干扰差，通过模拟不对称和对称语音信号不同部分的不同加权改进了客观评估分值与MoS分值的相关性。
LX[j]n Draw[j]n 感知相减非对称处理 DA[j]n L1阶范数求 Bark域均值 L3阶范数求 Bark域均值 Dn DAn 坏区间重对齐坏区间重对齐时域平均时域平均 dASYM 计算客观得分 dSYM
亟待解决的问题华为现阶段的PESQ算法主要问题是不能够检测出某些人耳能够感受到的杂音样本，即注入此杂音异常前后MOS评分变化甚微，但接听者能够听到这些杂音。
由于尚未了解杂音样本的特征及华为采用的PESQ具体算法，针对各种可能的情况提出了几个对PESQ算法的改进方案： 1.样本为响度较小的杂音——加入响度较大的杂音，测试结果。如果MOS值明显降低，则说明掩蔽阈值过大，将掩蔽阈值调小。 2.算法是结果平均化——将算法中时域平均部分计算平均值改为计算协方差；或者把语音帧划分得更小。
谢谢！谢谢！
Talker echo：讲话者的回声延时在30ms内是不易被察觉的，因为回声几乎与自己的声音重合，但PESQ算法只能进行单向评分，无法将接收端发出的信号与收到的信号进行关联，故评分有误。 Sidetone: PESQ算法在预处理阶段需要将参考信号与退化信号两者的电平均方根进行电平对齐，如果在传输语音过程中发生单通，则退化信号在进行电平转换后正常语音段的电平会明显高于参考信号的值，这将导致 PESQ最终的评分有较大的偏颇。

pesq参数

pesq参数
PESQ（Perceptual Evaluation of Speech Quality）是一种用于评估语音质量的客观度量标准。

它是一种感知评估方法，基于人类听觉系统的特性来评估语音信号的质量。

PESQ的参数包括以下几项：
1.输入信号：这是用于评估的原始语音信号。

2.输出信号：这是经过处理或传输后的语音信号。

3.噪音水平：这是在输入信号中存在的噪音水平。

4.压缩率：这是对语音信号进行压缩的程度。

5.延迟：这是处理或传输过程中的延迟时间。

6.评估者：这是对语音质量进行评估的人。

7.测试环境：这是进行评估时的环境条件，如噪音水平、麦克风类
型等。

8.参考信号：这是用于比较的参考语音信号，通常是在理想条件下
录制的。

PESQ的评估结果是一个分数，范围从-0.5到4.5，其中-0.5表示非常差的语音质量，4.5表示非常好的语音质量。

PESQ评估结果受到多种因素的影响，包括输入信号的质量、输出信号的质量、噪音水平、压缩率、延迟等。

MOS 语音高质量评测指标地介绍

实用文档- 目录 -1前言 ...................................................................................................... 错误！未定义书签。

2语音质量测量和量化标准的发展史......................................................... 错误！未定义书签。

3MOS语音质量量化的定义..................................................................... 错误！未定义书签。

For personal use only in study and research; not for commercial use4PESQ评估方法的介绍 ............................................................................ 错误！未定义书签。

4.1PESQ的基本原理........................................................................... 错误！未定义书签。

4.2PESQ的应用.................................................................................. 错误！未定义书签。

For personal use only in study and research; not for commercial use5MOS的测试方法..................................................................................... 错误！未定义书签。

语音质量评估

语⾳质量评估语⾳质量评估，就是通过⼈类或⾃动化的⽅法评价语⾳质量。

在实践中，有很多主观和客观的⽅法评价语⾳质量。

主观⽅法就是通过⼈类对语⾳进⾏打分，⽐如MOS、CMOS和ABX Test。

客观⽅法即是通过算法评测语⾳质量，在实时语⾳通话领域，这⼀问题研究较多，出现了诸如如PESQ和P.563这样的有参考和⽆参考的语⾳质量评价标准。

在语⾳合成领域，研究的⽐较少，论⽂中常常通过展⽰频谱细节，计算MCD(mel cepstral distortion)等⽅法作为客观评价。

所谓有参考和⽆参考质量评估，取决于该⽅法是否需要标准信号。

有参考除了待评测信号，还需要⼀个⾳质优异的，没有损伤的参考信号；⽽⽆参考则不需要，直接根据待评估信号，给出质量评分。

近些年也出现了MOSNet等基于深度⽹络的⾃动语⾳质量评估⽅法。

语⾳质量评测⽅法以下简单总结常⽤的语⾳质量评测⽅法。

主观评价：MOS[1], CMOS, ABX Test客观评价有参考质量评估(intrusive method)：ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5]⽆参考质量评估(non-intrusive method)传统⽅法基于信号：ITU-T P.563[6], ANIQUE+[7]基于参数：ITU-T G.107(E-Model)[8]基于深度学习的⽅法：AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]此外，有部分的⽅法，其代码已开源：：该仓库包括MOSNet, SRMR, BSSEval, PESQ, STOI的开源实现和对应的源仓库地址。

ITU组织已公布⾃⼰实现的P.563: 。

GitHub上⾯的微⼩修改版使其能够在Mac上编译。

在语⾳合成中会⽤到的计算MCD：此外，有⼀本书⽤来具体叙述评价语⾳质量：Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。

语音质量评估及其优化策略

网规网优责任编辑：左永君*******************玉荣娟中国联通有限公司广东分公司收稿日期：2009年9月25日语音质量评估及其优化策略1 引言语音质量评估可以分为主观评估和客观评估两种。

主观语音评估是以人为主体根据某种预先约定的规则来对失真语音（或参考原始语音）划分质量等级，它反映了评听者对语音质量好坏程度的一种主观印象。

目前，国内外使用较多的语音质量主观评估方法为MOS（Mean Opinion Scores）方法[1]，它不仅广泛用于语音编码、通信设备性能测试上，也是衡量语音质量客观评估方法好坏的重要依据之一。

但它把不同种类的失真混为一谈，没有指出失真的原因，不利于算法的改进。

而且，这种方法费时费力，常常受到各种测试条件和测试人员主观因素的影响，使其评估结果的可靠性受到影响。

客观评估采用机器自动判别语音质量，它使用某个特定的参数去表征语音通过编码或传输系统后的失真程度，并以此来评估处理系统的性能优劣。

PESQ（Perceptual Evaluation of Speech Quality，语音质量感知评估）[2]是目前为止，ITU公布的语音质量客观评估算法中与主观评估相关度最高的一个。

其它流行算法还有PSQM（Perceptural Speech Quality Measure）、PAMS（Perceptural AnalysisMeasurement System）和MNB（Measuring Normalizing Blocks）等。

与这些算法相比，PESQ算法既考虑了端到端时延，可以评估不同类型的网络；又采用了改进的听觉模型和认知模型技术，对通信延时、环境噪声等有较好的滤波性，其语音库由在不同的真实或仿真网络中采集而来的九种语言语音构成。

2 PESQ算法模型PESQ的思路是：首先将参考语音信号和失真语音信号的电平调整到标准听觉电平，再用输入滤波器模拟标准电话听筒进行滤波，然后将两个信号做时间对齐，将对齐好的信号做听觉转换。

VOLTE语音质量评估测试

MOS：Mean Opinion Score，平均意见分PAMS：Perceptual Analysis Measurement System，知觉分析测量系统PSQM：Perceptual Speech Quality Measure，知觉通话质量测试PESQ：Perceptual Evaluation of Speech Quality，知觉通话质量评估•ITU-T P.800 – 知觉分析测量系统–Perceptual Analysis Measurement System (PAMS)由英国电信最早提出，在大量主观测试的基础上，通过波形对比建立波形差与主观评分的客观算法，因此提供一个预测主观评分的手段。

•ITU-T P.861 – 知觉通话质量测试- Perceptual Speech Quality Measure (PSQM)由荷兰KPN最早提出，在大量主观测试的基础上，分析现代通信系统中的设备性能等基础上（如信噪比，误码率，编码压缩损伤，传输损伤）建立语音质量与主观评分的算法。

•ITU-T P.862 – 知觉通话质量评估– Perceptual Evaluation of Speech Quality (PESQ)当今通信领域通用的标准，是前两者的结合产物。

截至2014年1月，全球已经有超过40家运营商开始部署VoLTE服务。

中国移动也宣布将在2014年底之前全网部署VoLTE服务。

VoLTE和高清语音服务预期可以给客户提供更佳的语音用户体验，帮助运营商应对OTT语音冲击和ARPU值下降的不利趋势。

对运营商而言，部署VoLTE将带来两方面的价值，一是提升无线频谱利用率、降低网络成本。

二是提升用户体验。

VoLTE的体验明显优于传统电路域语音。

首先，高清语音和视频编解码的引入显著提高了通信质量；其次，VoLTE的呼叫接续时长大幅缩短，测试表明VoLTE比CS呼叫缩短一半以上。

VoLTE通过全IP的4G网络和IMS服务器提供语音服务，服务的部署需要网络侧和终端侧都作出大量投资和研发。

PESQ算法介绍与分析

PESQ算法学习汇报
QoE小组庞惠方
语音质量评价方法
语音质量评价分为主观评价及客观评价。主观评价优点：是人对语音质量的真实反映缺点：费时费力，受测试条件的限制和测试人员主观因素的影响，且不满足实时性的要求。因而考虑用客观评价算法来模拟主观评价。 MOS PESQ
MOS方法
MOS方法在ITU-T的P.800建议和P.830建议有详细描述。
亟待解决的问题华为现阶段的PESQ算法主要问题是不能够检测出某些人耳能够感受到的杂音样本，即注入此杂音异常前后MOS评分变化甚微，但接听者能够听到这些杂音。
由于尚未了解杂音样本的特征及华为采用的PESQ具体算法，针对各种可能的情况提出了几个对PESQ算法的改进方案： 1.样本为响度较小的杂音——加入响度较大的杂音，测试结果。如果MOS值明显降低，则说明掩蔽阈值过大，将掩蔽阈值调小。 2.算法是结果平均化——将算法中时域平均部分计算平均值改为计算协方差；或者把语音帧划分得更小。
Talker echo：讲话者的回声延时在30ms内是不易被察觉的，因为回声几乎与自己的声音重合，但PESQ算法只能进行单向评分，无法将接收端发出的信号与收到的信号进行关联，故评分有误。 Sidetone: PESQ算法在预处理阶段需要将参考信号与退化信号两者的电平均方根进行电平对齐，如果在传输语音过程中发生单通，则退化信号在进行电平转换后正常语音段的电平会明显高于参考信号的值，这将导致 PESQ最终的评分有较大的偏颇。
原因推测及分析
根据PESQ的算法及各种异常发生的原因，对评分不准原因进行了如下推测及分析： Listening levels， Loudness loss ：由于PESQ算法在预处理时需要把参考信号及退化信号进行电平对齐，都调到79dB SPL，故语音样本整体的听力水平和响度损耗对人耳感知的影响在算法中被忽略。 Effect of delay in conversational tests：由于算法中需要对参考信号和退化信号进行时间对齐处理，相当于对退化信号作了延迟补偿，所以对带延迟效应的语音评分不准。

PESQ算法在军事语音评估中的性能分析

ｅｘｐｅｉｒｍｅｎｔａｌｍｅｔｈｏｄ．ＴｈｅｃａｌｃｕｌａｔｉｏｎｐｅｆｒｏｒｍａｎｃｅｏｆＰＥＳＱａｌｇｏｉｒｔｈｍｆｏｒｄｉｆｆｅｒｅｎｔｃｏｄｉｎｇｍｏｄｅｓ，
１引言
ＰＥＳＱ算法是目前国际比较流行的算法之一，在军事通信语音评估中的应用越来越广泛。为了论
证ＰＥＳＱ算法在军事通信的特殊环境下，是否对不
类型的处理得到。第一类是对标准样本使用不同的编解码，验证ＰＥＳＱ算法对不同信源编解码的评测
性能是否良好；第二类是在标准样本中加人白噪声，在加入过程中设定不同的信噪比，验证不同信噪比对ＰＥＱＳ算法的影响；第三类是在信噪比固定的基
础上，在标准样本中加入不同的背景噪声，验证不同
ｄｉｆｆｅｒｅｎｔｓｉｇｎａｌｎｏｉｓｅｒａｔｉｏａｎｄｄｉｆｆｅｒｅｎｔｂａｃｋｇｒｏｕｎｄｎｏｉｓｅｓａｍｐｌｅｓｉｓｅｍｐｈａｓｉｚｅｄ．Ｔｈｅｒｅｓｕｈｓｈｏｗｓｔｈａｔ
２．Ｃｏｍｍａｎｄｏ，。ＧｕａｎｇｘｉＣｏｒｐｓ，ＴｈｅＣｈｉｎｅｓｅＡｒｍｅｄＰｏｌｉｃｅＦｏｒｃｅｓ，Ｎａｎｎｉｎｇ５３００３１，Ｃｈｉｎａ）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Filtering in analogue elements (such as handset or 2-wire access loop)
Variable delay (common in VoIP)
鼎利通信鼎力支持
Dingli Communications Inc.
PESQ介绍

PESQ: Perceptual Evaluation of Speech Quality; 国际电联（ITU）P.862推荐的语音评估最新算法，同时也是UMTS评估语音的最新标准；
FIXED NETWORK
1 0.9 0.8 0.7 0.6 0.5 average worst-case
鼎利通信鼎力支持
PESQ PAMS PSQM PSQM+ MNB
Dingli Communications Inc.
不同语音评估算法性能比较-与MOS的相关性对比(3)
Type:Mobile

Disturbance processing The difference between the sensation surfaces
for the reference and degraded files is known as the error surface; this shows any audible differences introduced by the system under test.
鼎利通信鼎力支持
Dingli Communications Inc.
不同语音评估算法性能比较-与MOS的相关性对比(1)
Type:Mobile
Network (移动网)
PESQ 0.962 0.905 PAMS 0.954 0.895 PSQM 0.924 0.843 PSQM+ 0.935 0.859 MNB 0.884 0.731
结论

PESQ是目前最为先进和准确的语音评估算法；原来的语音评估算法不适合于测试网络，特别是VoIP网络；
原来的语音评估算法在如下条件方面不能有很好的效果：
– – –
Speech clipping Background noise Packet loss in VoIP network
–
–
鼎利通信鼎力支持
Dingli Communications Inc.
PESQ处理过程1
鼎利通信鼎力支持
Dingli Communications Inc.
PESQ处理过程2

Level alignment In order to compare the signals, the reference speech signal
VoIP Multi-type
1 0.8 0.6 0.4 0.2 0 average worst-case
PESQ PAMS PSQM PSQM+ MNB
鼎利通信鼎力支持
Dingli Communications Inc.
不同语音评估算法性能比较-误差统计(4)
鼎利通信鼎力支持
Dingli Communications Inc.
Network (VoIP网)
PESQ 0.918 0.81 PAMS 0.916 0.758 PSQM 0.674 0.26 PSQM+ 0.726 0.469 MNB 0.69 0.363
TYPE Corr. Coeff. VoIP multi-type average VoIP multi-type worst-case
不同的样本条件下语音评估结果1
鼎利通信鼎力支持
Dingli Communications Inc.
不同的样本条件下语音评估结果2

通过上面的情况可以得出如下结论：样本声音(不同语言、不同声音频率）的不同，会影响语音评估结果，最大相差可以到达0.5；原因：因为不同的编码方式对于不同频率声音的过滤或处理效果是不同的，如男女声混合的声音对CDMA影响就很大（由于CDMA有抑噪功能，在频率变化很大时，造成声音的明显变异）
不同编码方式下语音评估结果2
鼎利通信鼎力支持
Dingli Communications Inc.
不同编码方式下语音评估结果3

下表为我们对国内某城市联通网络的不同编码方式下的语音评估结果情况。分三种不同网络参数设置(全速率TLDTH=0%、现网 TLDTH=40%、半速率TLDTH=100%) 根据我们大量的测试结果汇总：半速率（HR)的MOS峰值为3.5，全速率(FR)的MOS峰值为3.9，增强型全速率的MOS峰值为4.3左右
鼎利通信鼎力支持
Dingli Communications Inc.
PESQ处理过程3

Auditory transform In order to compare the reference and degraded signals,
taking account of how a listener would have heard them, each is passed through an auditory transform that mimics certain key properties of human hearing. This gives a representation in time and frequency of the perceived loudness of the signal, known as the sensation surface.
语音评估得分上行得分下行得分 TLDTH=0% 3.588 3.418 TLDTH=40% 3.428 3.325 TLDTH=100% 3.331 3.259
鼎利通信鼎力支持
Dingli Communications Inc.
不同速率对语音评估的影响4
鼎利通信鼎力支持
Dingli Communications Inc.

Time alignment
The system under test may include a delay, which may be variable. In order to compare the reference and degraded signals, they need to be lined up with each other.
TYPE Corr. Coeff. Mobile Network average Mobile Network worst-case
MOBILE NETWORK
1 0.9 0.8 0.7 average worst-case
鼎利通信鼎力支持
PESQ PAMS PSQM PSQM+ MNB
Dingli Communications Inc.

不同的编码方式对数据的压缩是不同的，从而造成的语音失真也是不同的；因此在相同的无线环境下，如果编码方式的不同会造成语音评估结果的不同；

一般情况下，对于GSM系统来说，如果无线环境相同，语音评估MOS平均得分一般满足如下关系：EFR>FR>HR；
鼎利通信鼎力支持
Dingli Communications Inc.
–
PESQ-LQ和PESQ-Ie是根据PESQ Score通过公式计算出来的。其中 PESQ-LQ与PESQ Score的映射关系是由Psytechnics提出的；PESQIe与PESQ Score的映射关系是由ITU P.834定义的。
鼎利通信鼎力支持
Dingli Communications Inc.
Dingli Communications Inc.
PESQ介绍
鼎利通信鼎力支持
Dingli Communications Inc.
MOS介绍

MOS: Mean Opinion Score，早期用于评估语音通讯系统的质量，后广泛用于鉴定语音通讯系统中关键技术/器件，如：Vocoder MOS测试中常用的参考系统（Vocoder）：PCM，ADPCM PCM：Pulse Code Modulation， 64Kbps，广泛用于ATM，E1/T1 光纤传输系统，语音质量非常高，通常称为：有线电话质量（Toll Quality ）。 ADPCM：Adaptive Differential Pulse Code Modulation，32Kbps，普遍用于电信，卫星通信，MP3等系统，语音质量高，通常称为：长途电话质量 MOS评分值的范围为『1，5』 PCM系统的MOS值的范围为『4.2，4.4』 ADPCM系统的MOS值的范围为『4.1，4.3』 PCM/ADPCM 常被用来做为衡量其他Vocoder/通讯系统的参照物。
鼎利通信鼎力支持
Dingli Communications Inc.
Quality Scores

PESQ语音评估结果有三种版本
– –
PESQ Score：根据ITU P.862计算得出（评分值的范围为『-0.5，4.5』） PESQ-LQ（Listening Quality）：按照MOS分值范围给出的结果（评分值的范围为『1，5』） PESQ-LE（Listening Effort）：是损耗因子，Ie是E-Model的输入参数
鼎利通信鼎力支持
Dingli Communications Inc.
MOS以及语音评估算法

MOS: Mean Opinion Score MOS评分值的范围为『1，5』 ITU语音评估算法标准有：PAMS、PSQM、PSQM+、MNB、PESQ PESQ是电信/通讯领域中应用最广的技术