MOS 语音质量评测指标的介绍

合集下载

MOSPESQ测试介绍解读

access loop) • Variable delay (common in VoIP)
第6页/共28页
PESQ介绍
PESQ: Perceptual Evaluation of Speech Quality;
国际电联（ITU）P.862推荐的语音评估最新算法；
第7页/共28页
PESQ处理过程1
• the absolute (symmetric) disturbance: a measure of absolute audible
error
第10页/共28页
Quality Scores
PESQ语音评估结果有三种版本
• PESQ Score：根据ITU P.862计算得出 • PESQ-LQ：按照MOS比例给出的结果 • PESQ-Ie：是损耗因子，Ie是E-Model的输入参数
0.6
0.5 average
worst-case
PESQ PAMS PSQM PSQM+ MNB
第3页/共28页
不同语音评估算法性能比较-与MOS的相关性对比(3)
Type:Mobile Network (VoIP网)
TYPE
Corr. Coeff. PESQ
VoIP multi-type average 0.918
VoIP multi-type worst-case 0.81
PAMS 0.916 0.758
PSQM 0.674 0.26
PSQM+ 0.726 0.469
MNB 0.69 0.363
VoIP Multi-type
1
0.8
0.6
0.4
0.2
0 average
worst-case

语音质量(MOS)专题分析报告

语音质量（MOS）专题分析PESQ MOS专题分析：目前话音质量分析主要采用语音感知MOS指标、下行误码率指标（rxqual）。

其中语音感知MOS指标包含了下行误码率、切换、时延等多种因素。

本专题主要针对第一阶段的数据对MOS指标进行专题分析。

表：GSM第一阶段人工和自动路测MOS指标对比表备注：2G中，人工测试均为华星的MOS盒；3G和自动路测均采用鼎利的MOS盒。

一鼎利MOS盒分析，五网质量对比情况）；华星仪表为直接PESQ值（2.2），三者之间有一定的关系，但并不一致。

从上图分析可以看出，指标排名如下：1)以2.5为标准，质量高低分别为联通W网、电信C网、联通GSM网络、移动GSM网络、移动TD-SCDMA网络；2)以3.3分为标准，质量高低分别为联通W网络、电信C网络、移动GSM网络、联通GSM网络、移动TD-SCDMA网络；3)以大于3.5为标准，质量高低分别为联通W网络、移动GSM网咯、联通GSM网络、移动TD-SCDMA网络、电信CDMA网络；结论：从自动路测（鼎利）的PESQ计算方法上看，电信CDMA网络话音质量高于3.5分的比例较低，但是高于3.3和3.1分的比例很高。

按照大于3.3（或者3.3以下）的比例，CDMA的MOS质量要好于联通和移动的GSM网络。

二华星MOS和分析，三网对比测试情况；结论：从flywire（华星）的PESQ计算方法上看，电信CDMA网络话音质量一直很低，在各个分数段均明显低于联通和移动的GSM网络。

三PESQ MOS指标测试研究从1..5.1和1.5.2可以看出，华星PESQ MOS的分值和鼎利PESQ MOS分值相差较大。

特别是CDMA 的MOS分值，在对比中的排名完全相反。

因此我们对PESQ的MOS算法进行了专题测试和研究分析。

1.研究结论如下：1．不同测试厂家的MOS盒使用不同标准，如自动路测采用P862.1标准，分数为PESQ-LQ；华星flywire MOS算法采用P862.2标准，所选值为PESQ score；3G测试MOS盒采用P862.2标准，选值为PESQ-MOS分值；2．语音样本格式不同，华星采用PCM格式，鼎利使用WAV格式，规范定义采用WAV格式（两者相差微小）；3．MOS盒硬件实现方式不同：MOS盒测试CDMA差别大，其中华星MOS盒原因为MOS到手机两端均为耳塞插孔，失真较大；而鼎利MOS盒在CDMAMOS评估的时候采用模块化的设计，失真较少。

MOS 语音高质量评测指标地介绍

实用文档- 目录 -1前言 ...................................................................................................... 错误！未定义书签。

2语音质量测量和量化标准的发展史......................................................... 错误！未定义书签。

3MOS语音质量量化的定义..................................................................... 错误！未定义书签。

For personal use only in study and research; not for commercial use4PESQ评估方法的介绍 ............................................................................ 错误！未定义书签。

4.1PESQ的基本原理........................................................................... 错误！未定义书签。

4.2PESQ的应用.................................................................................. 错误！未定义书签。

For personal use only in study and research; not for commercial use5MOS的测试方法..................................................................................... 错误！未定义书签。

MOS 语音质量评测指标的介绍

- 目录 -1前言 (3)2语音质量测量和量化标准的发展史 (3)3MOS语音质量量化的定义 (4)4PESQ评估方法的介绍 (4)4.1PESQ的基本原理 (4)4.2PESQ的应用 (5)5MOS的测试方法 (5)5.1NEMO Outdoor (5)5.1.1测试系统的要求 (6)5.1.2测试系统的解决方案 (6)5.2NetQual (7)5.2.1测试系统的组成 (8)5.2.2语音质量的测试 (9)5.3TEMS INVESTIGATION (10)6MOS测量的优化建议............................................................................... 错误!未定义书签。

1前言直到现在，GSM网络的最主要基本业务仍然是语音业务，语音质量的好坏直接影响用户对于运营商的选择；另外，随着移动网络发展的日趋成熟，客户对网络的性能质量要求逐渐提高。

因此，根据电信网络服务质量(QoS) 的要求，建立一套客观评估标准，如何更好地对网络的语音服务质量进行定量分析和测量就逐步摆在了网络运营商的面前。

语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。

在GSM网络中,对无线质量的评价是通过RxQual 来实现的。

但是语音在GSM网络中是经过信道及信源编码的，而RxQual 只能描述空中接口的传输质量，并不能给出终端用户对无线网络的实际感受，语音服务质量的测量将更好地反映用户对网络的真实感受情况。

本文将就语音QoS的测量方法进行较深入地讨论。

2 语音质量测量和量化标准的发展史目前语音QOS测试方法主要有主观测试方法和客观测试方法两种，ITU－TP.800定义了MOS的主观测试方法，客观测试方法主要有：PSQM、PSQM＋、PESQ等。

其中ITU-TP.862（PESQ）是目前ITU推荐用于端对端网络语音质量测试的方法。

早期语音质量的评测主要采用主观评分的方式：调查用户被要求按照1-5分对接收到的电话语音质量进行评分（5表示最好，1表示最差）。

语音MOS的概念是什么

语音MOS的概念是什么
MOS的概念是什么
MOS (Mean Opinion Score )
指标定义：GSM语音质量=【RxQuality0-5级样本点数/总样本点数】*【在RxQuality0-5级占比范围内的MOS大于等于2.8样本点数/总样本点数】
MOS(Mean Opinion Score),是目前使用得最广泛的一种主观评定方法,评分范围是1到5分：
（1） 5（优）,不察觉失真；
（2） 4（良）,刚察觉失真,但不讨厌；
（3） 3（中）,察觉失真,稍微讨厌；
（4） 2（差）,讨厌,但不令人反感；
（5） 1（劣）,极其讨厌,令人反感.
GSM网络优化中MOS值怎么定义?GSM网络测试时的参数分析!
语音的还原程度,单通就是1.0,一般是3-4之间,3以下较差,和无线信道编码方式有很大关系.。

语音质量评估

通常，人既是语音的发送主体,也是语音的接收主体。

语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义。

一般说来，语音质量至少包括三个方面内容：清晰度、可懂度和自然度.清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等）单元的清晰程度；可懂度是指语音中有意义的语言单元(如单词、单句等）内容的可识别程度；自然度则与语音的保真性密切相关.目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则.语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响。

用于评价输出语音质量的方法分为主观评价和客观评价两种1 主观评价法主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果，它反映听评者对语音质量好坏的主观印象.不同的主观评价方法对语音质量考察的侧重点不同，常见的主观评价方法有平均意见分（Mean Opinion Score，MOS)方法、判断韵字测试(Diagnostic Rhyme Test，DRT）方法、失真平均意见分（Degradation Mean Opinion Score,DMOS)、判断满意度测试（Dignostic Acceptability Measure，DAM)方法和汉语清晰度测试。

ITU—T推荐用于传输性能的主观评价有以下几种[14］:1。

绝对等级评价(Absolute Category Rating，ACR)ACR主要通过平均意见分（MOS）对音质进行主观评价.这种情况下没有参考语音，听音人只听失真语音,然后对该语音作出1—5分的评价。

ACR评价方法不需要参考音，比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性.2。

失真等级评价(Degradation Category Rating，DCR)DCR主要通过失真平均意见分(DMOS）来实现音质的主观评价。

mos评分标准

mos评分标准
MOS是一种对计算机软件、硬件及其他技术产品进行评测的方法。

其含义是Measure of Software Quality（软件质量度量标准），是一种数量化了的软件评测系统，包括五个评测指标：可靠性、效率、可用性、可维护性和可移植性。

1. 可靠性（Reliability）：该指标表示软件运行时间期间的失效率，软件的可靠性越高，失效率就越低。

这个指标包括了软件能够正确执行的准确性和软件在出现错误时的响应能力。

2. 效率（Efficiency）：该指标表示软件执行某个操作所需要的计算时间和资源消耗，即软件性能的表现。

这个指标说明了软件在完成某项任务时所需要的时间和资源占用情况。

3. 可用性（Usability）：该指标衡量的是软件操作的友好程度和易用性，包括了软件交互的方式和用户使用时的效率。

这个指标可以用用户对软件使用的满意度来表示。

4. 可维护性（Maintainability）：该指标衡量的是软件在发生错误或需要更改时的便捷性，包括软件代码的清晰性、结构性、可测试性及可读性，易于维护的软件能够更快的进行修复和更新。

5. 可移植性（Portability）：该指标衡量的是软件在不同的环境中，包括不同操作系统、不同硬件平台、不同编译器等等情况下运行的能力。

软件的可移植性越高，软件可以适用于更多的环境，具有更高的适应性和灵活性。

综上所述，MOS评分标准各指标的相互作用，同时可以综合考虑软件的全面性和多方面性，更客观全面的评价软件的质量。

mos值的依据 -回复

mos值的依据-回复题目：mos值的依据及其应用导言：MOs（Mean Opinion Score）是一种用于评估音频和视频质量的客观标准。

它被广泛应用于科学研究、技术发展和产品质量控制等领域。

本文将详细介绍mos值的依据，并探讨其在实际应用中的重要性和潜在挑战。

第一部分：mos值的概念和背景（300字）1.1 mos值的定义mos值是指对音频或视频质量进行主观评价所得的一个分数。

它是通过一定数量的被试者在特定环境下对音频或视频质量进行打分，并取所有分数的平均值得出的。

通常的mos值范围是1到5，其中1表示极差的质量，5表示极佳的质量。

1.2 mos值的背景mos值最初用于电话通信领域，目的是评估音频质量，特别是在语音传输中的效果。

随着技术的发展和广泛应用，mos值逐渐被应用于视频领域，对视频质量进行评估。

mos值是一种重要的标准，可以帮助提高音频和视频质量，满足用户的需求。

第二部分：mos值的计算方法（600字）2.1 实验设计mos值的计算需要一系列有代表性的评价实验。

通常，选择一定数量的被试者和一组真实媒体内容，让被试者在实验室环境下观看或听取媒体内容。

实验中，需要控制实验条件，例如视听环境、显示设备和音响设备等。

确保所有被试者都在相同的条件下进行评价。

2.2 数据收集在实验中，每个被试者会对每个媒体内容进行打分。

通常使用五分制，其中5表示最佳音频或视频质量，1表示最差质量。

被试者将分数记录在表格中。

2.3 数据分析在收集到足够的评分后，可以计算mos值。

将所有被试者对相同媒体内容的评分取平均值即为此内容的mos值。

针对多个媒体内容可分别计算mos值，并对它们进行加权平均得到综合mos值。

第三部分：mos值的应用（400字）3.1 在通信领域的应用mos值在通信领域的应用非常广泛。

通过评估通信设备的音频质量，可以为用户提供更好的通信体验，并帮助设备制造商改进产品性能。

mos值也可以用于评估网络传输质量，发现并解决网络中的瓶颈问题，提高网络的稳定性和可靠性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音服务质量的测量与通常移动网络的信号质量测量有很大的区别。

在GSM网络中,对无线质量的评价是通过RxQual 来实现的。

本文将就语音QoS的测量方法进行较深入地讨论。

其中ITU-TP.862（PESQ）是目前ITU推荐用于端对端网络语音质量测试的方法。

早期语音质量的评测主要采用主观评分的方式：调查用户被要求按照1-5分对接收到的电话语音质量进行评分（5表示最好，1表示最差）。

这种主观判断评测法由ITU组织在1996年8月制定为标准，其P.800标准详细定义了这种MOS评测法（Mean Opinion Score）。

但是，这个主观方法存在的最大问题就是，在现实中，让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的，因此人们在不断的探索能进行客观测量的方法。

MOS方法是一种模糊的评估方法，因此ITU-T在建议P．861中又提出了PSQM （Perceptual Speech Quality Measurement）方法。

根据P．861提出的PSQM方法，语音质量的测试开始摆脱原始的人类主观评估，而开始使用计算机产生的波型文件（Wave File），通过比较其通过通信网络传输前后的变化计算出PSQM中相对应的级别及好坏程度。

ITU组织在2001年2月发布了新的语音传输质量测量标准：P.862 — PESQ （Perceptual Evaluation of Speech Quality）。

PESQ是评价各类端对端网络条件和语音编码与解码的最新标准。

PESQ可以根据一些感知标准来客观地评价语音信号的质量，从而提供可以完全量化的语音质量衡量方法，而这些衡量标准又是与人类对语音质量的感受完全吻合的。

PESQ由荷兰的KPN公司和英国电信公司协作开发的，比其前身PSQM （Perceptual Speech Quality Measurement, ITU-T P.861）有了长足的进展。

下面的介绍将主要针对PESQ测量方法进行更多详细的阐述。

3 MOS语音质量量化的定义发明电话开始，语音质量的测量方式是凭主观的，人们摘起一个电话，然后由人耳来感知语音的好坏，这个方法是被广泛认同的。

基于该主观评测，人类接听和感知语音质量的行为被调研和量化，接听何种级别质量的语音，得到多少平均主观值MOS，人类将起主要的反映作用。

采用MOS（平均主观评分）方法评价语音质量，评测方法在ITU－TP.800中定义。

MOS值的定义如下表所示：级别MOS值MOS值用户满意度优 4.0～5.0 很好，听得清楚，延迟很小，交流流畅。

良 3.5～4.0 稍差，听得清楚，延迟小，交流欠缺顺畅，有点杂音。

中 3.0～3.5 还可以，听不太清，有一定延迟，可以交流。

差 1.5～3.0 勉强，听不太清，延迟较大，交流重复多次。

劣0～1.5劣0～1.5 极差，听不懂，延迟大，交流不通畅。

一个平均主观值MOS是4或更高，被认为是比较好的语音质量，而若平均主观值MOS低于3.6，则大部分接听者不能满意这个语音质量。

平均主观值MOS是广泛认同的语音质量量化标准；因此，无论采用何种方法所有测量方法都必须将它们的结果最终对应到平均主观值MOS，如实际中采用到的PESQ（语音质量的知觉评估）客观测试方法。

4 PESQ评估方法的介绍PSEQ工具是用来计算语音样本的MOS-LQO （Mean Opinion Score – Listening Quality Objective）值，PESQ把在信号传输通过设备时提取的输出信号与参照信号进行比较计算出差异值。

一般情况下，输出信号和参照信号的差异性越大，计算出的MOS参数值就越低。

实验证明其计算结果和主观评分结果是基本一致的。

4.1 PESQ的基本原理下图是PESQ模型的结构图：如图所示，开始时两个信号都通过电平调整，再用输入滤波器模拟标准电话听筒进行滤波(FFT)。

然后对这两个信号进行时间上的校准，并通过听觉变换，这个变换包括对系统中线性滤波和增益变化的补偿和均衡。

为了获得主观和客观之间的较高关联性，再输入到认知模型，最后得到质量评分。

电平调整：各个待测系统的增益一般差别比较大，而且对参考信号没有确定的校准电平，所以有必要将二者调整到统一、恒定的电平上来。

输入滤波：感知模型必须考虑人听到的实际声音，在PESQ中使用了滤波器，起到一个模拟电话手柄的作用。

时间调整和校准：假设系统的时延是分段恒定的，在静默期间和说话期间时延可以改变，对每一段话语都给出延时估计，然后得出听觉变换要用的一帧一帧的延时。

PESQ中的听觉变换是一个生理声学模型，它对信号进行时间-频率映射，以及频率和强度偏差处理，变化成时－频可感知的响度表达。

扰动处理：计算参考信号与失真信号间的绝对差值。

计算PESQ的得分：处理的结果经认知模型，最终给出了客观语音质量的评估得分。

PESQ的值一般落在1.0和4.5之间，在失真情况严重时，得分可能会低于1.0，但这种情况很少见。

4.2 PESQ的应用PSQM只用在窄带编解码测量中，并且对某些类型的编解码、背景噪声和端到端的影响，比如滤波和时延变化不能给出精确的预测值。

而PESQ关注到端对端的行为影响，并包括滤波和变化时延造成的影响。

PESQ能提供比PSQM与主观意见更好的相关性，它能在很广范的条件下对主观质量给出了很精确的预测，包括背景噪声、模拟滤波、和时延变化等。

ITU-T相关的资料已证明PESQ是能够给出精确的预测值的。

PESQ适用于目前所知的所有移动通信技术，如GSM、CDMA、3G等，以及编码器语音质量的测量，如AMR。

5 MOS的测试方法现阶段，许多主流测试仪器厂商先后推出了支持PESQ测量算法的测试系统，下面将主要介绍几个厂家的MOS测量相关解决方案。

5.1 NEMO OutdoorNEMO Outdoor测试系统通过增加简单的语音模块，可以支持最新的PESQ语音质量测量。

NEMO的语音模块实现发送和接收测试样本，并完成测试终端间相互同步的需求。

5.1.1 测试系统的要求测试终端方面，要求测试手机应该有一个模拟音频接口，刚开始时仅NOKIA6650手机支持，但如果其他DKU-2类型手机的测试软件能将音频信号连接到手机底部的连接端，那么这些手机也将支持语音质量的测试。

另外，接下来Sagem OT290和Nokia DKU-5类型手机也将支持语音质量的分析。

手提电脑方面，对内存、电源的要求跟其他Nemo Outdoor系统一样；多任务操作要求便携的性能要好；除非安装了MMAC2设备，否则每个Nemo Audio Module（语音模块）要求一个RS232接口，以及额外的一个USB端口。

其他如Nemo Audio Module、适配的音频/信令跟踪数据线等。

5.1.2 测试系统的解决方案手机－手机的测量语音质量测试中，终端可以单独连接到电脑，也可以通过MMAC2设备连接。

当有多个测试终端需要同时连接时，就要用到MMAC2设备。

语音模块单元需要安装在MMAC2设备最上面的槽位，这样它们才能取得电源供应。

当然语音模块也可以单独使用，这时需要其他外部电源给它供电，或使用最近的USB端口给它供电。

这种情况下的测试流程如下：1.将一个参考样本更新到每个语音模块中。

2.A测试手机呼叫B测试机，连接建立好后，A手机开始发送参考样本，而B手机开始接收。

3.一旦接收端接收到所有的样本，立即计算出PESQ的得分。

4.然后，根据测试模式，A手机继续发送样本（单一TX发送模式），或者A手机随后变成接收方（双向模式）。

就这样不断重复发送和接收直到测试结束。

♦手机－固网的测量这种情况下的测试流程如下：1.语音模块的参考样本更新2.测试手机呼叫Nemo Audio Test Server（音频测试服务器）其中一个固定号码。

连接建立后，服务器开始发送测试样本，手机端则开始接收。

3.当一个完整的样本接收好后，Nemo Outdoor将计算PESQ的得分。

4.以上测试步骤将不但重复，直到测试结束。

♦手机－固话的测量手机－固话的测试方法跟固话－手机的测试方法类似，不同的是音频测试服务器将作为接收端，并评估PESQ的得分。

这些结果是手机上行质量的得分，所以应该在后台处理时插入无线端的终端测量文档，或者在测试时实时使用一个同步数据将测试文件传送上来。

♦其他方面的测量Nemo语音测试系统还提供支持POC和VoIP语音质量测试的解决方案。

5.2 NetQualNetQual是 SwissQual的Qos测量套件，合成了分组数据和语音质量测量以及分析工具，适用于测量和分析无线或有线的电路交换和分组交换网络。

NetQual提供了IP、PSTN和ISDN接口，可以连接2G、2.5G和3G多种终端。

5.2.1 测试系统的组成NetQual测试系统是由几个子系统组成的：•NQMP-NetQual Measurement Probe测量终端•NQMS-NetQual Media Server媒体服务器•NQTM-NetQual Test Manager测试管理服务器•NQDI-NetQual Post-processing System后台处理服务器下图是一个NetQual系统组成的示意图：下图是该系统测试终端的图例：5.2.2 语音质量的测试Squad是SwissQual测试家族中可选模块，它的测量考虑所有可能降低语音质量的主要因素，并能分析出那个因素将导致质量的下降。