浅谈计量检定中异常值的判别与剔除
试论计量测试中异常数据剔除的措施

试论计量测试中异常数据剔除的措施发表时间:2018-09-18T16:18:06.730Z 来源:《基层建设》2018年第25期作者:陈佩茹[导读] 摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
深圳供电局有限公司广东省深圳市 518133摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
本文首先对计量测试中异常数据的产生原因进行简单分析,进而研究其剔除方法,包括拉依达准则法、格拉布斯准则法、狄克逊准则法、肖维勒准则法等,并结合具体实例进行应用分析。
关键词:计量测试;异常数据;剔除方法前言:计量测试工作对数据准确性有较高要求,完成一项计量测试工作后,会得到大量数据,需要对其进行整理和分析,准确筛选出其中存在的异常数据,否则将会对最终的测量结果产生较大影响。
同时,对数据进行评判也是检验仪器状态的主要方法,在实际应用过程中具有重要意义。
由于计量测试在实际生产中应用广泛,相关研究也受到了高度重视,并形成多种异常数据判断准则,可以有效剔除异常数据。
一、计量测试中异常数据的产生原因计量测试仪器均属于高精密仪器,受外部环境影响较大,可能在外部环境发生变化时,导致测量结果出现较大偏差。
另一方面,如果仪器自身存在故障,也会导致测量结果不准确。
因此,在实际的计量测试工作中,异常数据普遍存在,需要在完成测量后,剔除异常数据,确保结果的准确性。
计量测试中的异常数据产生原因主要包括:(1)测试过程中仪器受到震动影响,比如机械振动或人力作用等;(2)仪器供电电压不稳定,或在测试中受到电磁干扰,导致仪器出现故障问题,产生较大的结果偏差;(3)测试操作人员缺乏操作经验,在测试过程中未按规定流程进行测试;(4)仪器自身存在零件松动、元件损坏等缺陷问题,操作人员无法正常测量,即使能够测出结果也会存在较大偏差[1]。
计量测试中异常数据剔除方法的探讨

计量测试中异常数据剔除方法的探讨1 计量测试工作的意义对日常各类生产实践而言,基于使用各种数据的需要,应评估检测仪器,可借助评估结果来对检测仪器的状态能否满足正常使用要求进行判定,检测数据非常重要,只有参照数据,才能判定生产工艺稳定与否,各环节产成品与成品参数符合使用需要与否。
通过计量测试工作,可对生产工艺的改进与变革进行指导,促进产品质量的不断提高,若计量测试不准确、不科学,得到的数据就很难令人信服,那么想借助数据控制工艺过程、评定产品质量,持续改善产品质量就很难实现。
2 计量仪器产生误差的原因从统计学的角度来看,我们通常会把一组重复测量数据中,明显与其它数据有差异的数据称为可疑数据,与组内其它数据差异非常明显是这种数据的主要特点,这一特点也就是我们通常所说的数据发生了变异,那么实际这种变异究竟合理与否,要想得出结论,必须得借助进一步判断。
计量仪器具有一定的高精密性,有严格的外界环境要求。
若外界环境变化剧烈,实际计量仪器的测试很可能会有严重偏差出现,造成检测仪器的结果误差较大。
一般情况下,下列原因通常会造成计量仪器产生误差:1)有机械或外界震动冲击检测仪器。
2)电网供电电压发生变化或存在电磁干扰使检测仪器的正常工作受到影响。
3)检测人员工作素质不高,工作技能不达标。
工作疏忽、缺乏足够的工作经验,不正当操作。
4)测量仪器自身存在故障,如部分零件存在松动,内部有损坏的电子元件等。
异常值通常偏差正常合理值较大,若在计算中或判定过程中应用了异常值,通常会严重干扰计算结果,对人们正确决策的做出造成影响。
因此我们必须尽力把异常值剔除,若在剔除过程中应用的剔除方法不正确,异常值造成的影响不但会很难消除,有时还会误以为测量重复性较好,影响到数据判断的真实性,只有正确剔除异常数据,最终的测量才能与人们的使用需求相符。
3 异常值判断准则在计量实践中,下列几种准则是我们常用来判断异常值的准则:1)3∑准则;2)格拉布斯准则;3)肖维勒准则;4)t检验法。
试验数据异常值的检验及剔除方法

试验数据异常值的检验及剔除方法
摘要
异常值(outliers)指的是可能存在的测试数据点,其值大大偏离了
它们的数据集的中位数或平均值,如果未及时发现和处理这些异常值,将
会严重影响实验数据的准确性和有效性,因此,检验和剔除测试数据中的
异常值是必不可少的任务。
本文将介绍测试数据异常值检验和剔除的方法,旨在有效改善测试数据的准确性和有效性。
一、异常值的定义
异常值简单来说,指的是数据集中与其他所有值有明显差异的数据点。
它可能是由于实验环境的变化,实验设备的变化,数据获取的失误而产生的,或者错误的测量结果导致的。
二、异常值的检验
在检验数据中是否存在异常值之前,首先要明确测试数据的分布类型。
根据数据的分布,可采用不同的检验方法,通常按照如下步骤检验异常值:(1)可先将测试数据按照箱线图或四分位图等形式画出,看看数据
是否符合正态分布;
(2)可以计算数据的中位数、平均数、标准偏差等,来查看异常值
的程度;
(3)可以根据数据的中位数、平均数等,计算出数据的上下限,这
样便可以将数据划分为”正常“和”异常“;
(4)可以使用基于概率的检验方法,此方法可以给出异常值的检验
结果。
浅析如何剔除计量检测中的异常数据

2020.08科学技术创新不确定度U rel (k=2)应满足比允许误差小1/3的要求。
2.2时间间隔测量结果的扩展不确定度通过进行时标测量计算,得出以下一组数据:记录速度为25mm/s ,标准值为3.84s ,测量值为95.8mm ,相对误差为-0.2%,扩展不确定度(k=2)为0.22%;记录速度为25mm/s ,标准值为1.92s ,测量值为47.8mm ,相对误差为-0.4%,扩展不确定度(k=2)为0.46%;记录速度为25mm/s ,标准值为0.96s ,测量值为23.9mm ,相对误差为-0.4%,扩展不确定度(k=2)为0.92%;记录速度为25mm/s ,标准值为0.48s ,测量值为11.9mm ,相对误差为-0.8%,扩展不确定度(k=2)为1.85%。
被测波开长度最大允许误差为±10%。
测量结果的扩展不确定度Urel (k=2)应满足比允许误差小1/3的要求。
2.3幅频特性测量结果的扩展不确定度通过计算得出以下一组幅度测量值:记录速度为25mm/s ,频率为5HZ ,幅度测量值为10mm ,此时相对偏差为0%,不存在扩展不确定度(k=2);记录速度为25mm/s ,频率为5HZ ,幅度测量值为9.8mm ,此时相对偏差为-2%,扩展不确定度(k=2)为1.9%;记录速度为25mm/s ,频率为2HZ ,幅度测量值为9.6mm ,此时相对偏差为-4%,扩展不确定度(k=2)为2.0%;记录速度为25mm/s ,频率为1HZ ,幅度测量值为9.5mm ,此时相对偏差为-5%,扩展不确定度(k=2)为2.0%;记录速度为25mm/s ,频率为0.5HZ ,幅度测量值为5.0mm ,此时相对偏差为-50%,扩展不确定度(k=2)为38%;记录速度为50mm/s ,频率为20HZ ,幅度测量值为9.6mm ,此时相对偏差为-4%,扩展不确定度(k=2)为2.0%;记录速度为50mm/s ,频率为40HZ ,幅度测量值为9.5mm ,此时相对偏差为-5%,扩展不确定度(k=2)为2.0%;记录速度为50mm/s ,频率为60HZ ,幅度测量值为9.2mm ,此时相对偏差为-8%,扩展不确定度(k=2)为2.1%;记录速度为50mm/s ,频率为75HZ ,幅度测量值为9.2mm ,此时相对偏差为-8%,扩展不确定度(k=2)为2.1%。
浅谈计量检定中异常值的判别与剔除

浅谈计量检定中异常值的判别与剔除摘要:本文解释了异常值的定义及造成异常值的原因,说明了计量检定中剔除异常值的意义,列举了剔除异常值常用的三个统计判别方法,包括拉依达准则、格拉布斯准则和狄克逊准则。
同时,举例比较了统计判别方法的差异,及在计量检定中,怎样选择合适的统计判别法剔除异常值。
关键词:计量检定;异常值;判别;剔除;准则一、异常值的定义及计量检定中造成异常值的原因异常值又称离群值,指在对一个被测量重复观测所获的若干观测结果中,出现了与其他值偏离较远且不符合统计规律的个别值,他们可能属于来自不同的总体,或属于意外的、偶然的测量错误。
也称为存在着“粗大误差”。
造成异常值的原因:震动、冲击、电源变化、电磁干扰等意外的条件变化,人为的读数、记录或计算错误,仪器内部的偶发故障、操作不当等。
二、计量检定中剔除异常值的意义通过计量检定获得的数据中混有异常值,必然会歪曲测量结果,能将该值剔除不用,可使结果更符合客观情况,但若剔除了一些偏离较远但不属于异常值的数据,却适得其反,则不能真实地反映测得值的分散性,所以必须正确地判别和剔除异常值。
三、计量检定中异常值的判别与剔除(一)物理判别法在测量过程中,记错、读错、仪器突然跳动、突然震动等异常情况引起的已知原因的异常值,应该随时发现,随时剔除,即必须是已知原因的明显错误或突发事件造成的数据异常可以随时剔除。
(二)统计判别法有时仅仅是怀疑某个值,对于不能确定哪个是异常值时,必须采用统计判别法进行判别,判定为异常值的才能剔除。
判别异常值常用的统计方法有拉依达准则(或称3σ准则)、格拉布斯准则、狄克逊准则。
1.拉依达准则拉依达准则又称为3σ准则。
当重复观测次数充分大的前提下(n>>10),设按贝塞尔公式计算出的实验标准差为s,若某个可疑值与n个测得值的平均值之差的绝对值大于或等于3s时,判定为异常值,即应满足下式:2.格拉布斯准则设在一组重复观测值中,其残差的绝对值最大者为可疑值,在给定的包含概率为或,也就是显著水平为或时,判定为异常值时应满足下式:——与显著水平和重复观测次数有关的格拉布斯临界值,该临界值需要查格拉布斯准则的临界值表。
计量测试中异常数据剔除的措施

计量测试中异常数据剔除的措施计量测量,其本身便是一项对数据精准性有着极高要求的工作。
而要确保数据获取的精准性,除了需科学处理计量测量所得出的数据外,尚需找出其中的异常数据并将之剔除,如此方能作为相关科学的参考依据。
当前,国内已然根据计量测量中异常数据的出现原因提出了4种有针对性的异常数据剔除方法,这些方法可独立使用,亦可综合利用,其目的均在于判定异常值并将之剔除,以确保计量测量数据的准确性。
1 计量仪器出现误差的原因由于计量仪器对外部环境有着极高的要求,加之其本身也是一种高精密的仪器,因而任何外部环境的变化都可能导致仪器测试结果产生偏差,并最终影响到检测结果的准确性。
就当前的外部环境而言,可能導致计量仪器产生误差的原因主要包括以下几个方面:(1)仪器受到了外界诸如震动、机械动荡一类的自然或人为因素影响;(2)受电磁干扰或因供电电压不稳而导致的检测仪器出现故障;(3)操作人员本身经验不足,加之操作事物所因其的检测不准确;(4)仪器本身存在如元件损坏、零件松动一类的质量问题,这类问题一旦发生,将直接导致检测结果不准确,从而影响到工作人员的正常测量。
对于以上影响因素,操作人员在实际的操作过程中,务必全面排除,如此方能确保测量结果的准确性。
当然,在此过程中,针对异常值的剔除尚需注意采取合适的剔除方法,若剔除方法选择不当则可能收获适得其反的效果。
简言之,即针对异常值不同的产生原因需采取有针对性的剔除方法,方能确保仪器测量结果达到规定的使用标准。
在实际的判断异常值过程中,以下几种是当前人们最常用的异常值判断准则,即3∑准则、肖维勒准则、t检验法以及格拉布斯准则。
2 计量测试中异常数据剔除的措施以上所提准则,虽其实际内容各不相同,但却均是置信概率的运用基础,而所谓的置信概率,即随机变量于置信区间内的落入概率。
若实际的运用过程中,将置信区间内的测量数据实际范围用X来表示,那么以上所提之准则则能用以下方式来表达:2.1 3∑准则该式子所表达的含义为可疑数据与整租数据的算术平均差,其目的是要找出该差与3倍哒的绝对值之间的差异,若偏差较大则将此数值舍弃。
浅析如何剔除计量检测中的异常数据
浅析如何剔除计量检测中的异常数据摘要:计量检测是对被测对象的各种参数进行有效测试,获取大量的测试数据,对这些数据进行有效的统计,获取正确的数据,并剔除错误的数据,从而保证被测对象能正常使用。
计量检测是由于计量检测得到的初始数据存在差异性,需对这些数据进行有效处理和分析,经处理后便于分析异常情况。
为了尽可能准确有效地消除异常数据,保证测量数据的有效性,根据测量的重要性分析了测量误差产生的原因,并探讨了计量检测中异常数据的剔除方式。
关键词:计量检测;异常数据;剔除方式计量测量工作对数据的精度要求很高,在获取大量计量测量数据后,需对这些数据进行科学的处理,发现并剔除其中的数据异常值,从而不断提高数据的准确性,进而使相关活动获得科学合理的参考信息。
基于此,本文详细分析了计量检测中异常数据出现的原因及其剔除方式。
一、计量检测的重要性在日常生活生产中,通过有效的测试可确定工具的正确使用,不同的工具和行业需不同类型的数据,这些工具的检查结果正确与否需标准仪器进行检测,并通过相应的评估结果评估仪器,以确定设备是否能满足实际使用要求。
因此检测数据至关重要,通过正确的检查数据可确保生产设备是否正确,这是确保安全生产的前提。
同时,计量检测也是指导生产过程、产品改革和质量提升的有效途径和工具。
若无计量检测,就无法说明工具得出的生产数据和产品是否正确,同时也无法保证产品质量,因此会影响企业的正常运行和发展。
在出现异常数据时,必须进行处理,最主要的方法是将异常数据剔除,但剔除也需有一定的准则,因不准确的异常数据剔除方法并不能给生产带来好处,甚至会掩盖一些生产问题,问题一旦爆发就可能带来严重的后果。
因此在计量检测时需选择异常数据处理准则,通常使用的准则为狄克逊(Dixor)准则、肖维勒准则等。
真正计量检测时,使用合适的测试准则可提升数据异常剔除的准确性。
二、计量检测中异常数据出现的原因1、外部环境因素。
常见的外部环境因素有温度、湿度等,当外部环境因素出现较大变动或外部环境较为恶劣,计量检测工作很可能出现异常数据。
计量检定中3种判别和剔除异常值的统计方法
计量检定中3种判别和剔除异常值的统计方法
王小凯;朱小文
【期刊名称】《中国测试》
【年(卷),期】2018(0)A01
【摘要】检定人员在日常计量检定的数据处理中,为使预处理的检定数据能准确地反映实际测量结果,需要熟练掌握一些判别和剔除异常值的统计方法。
该文结合对
标称值为5g的砝码进行测量次数为20次的计量检定实例,分别采用3种数学统计学中的判别和剔除异常值的方法(拉依达准则、格拉布斯准则和狄克逊准则),对比分析后发现:拉依达准则一般适用于n>50的情况;当统计单个异常值并且n处于[3,50]区间情况下,格拉布斯准则法剔除效果较好;狄克逊准则适用于对多个异常值的剔除。
当对统计数值有较高要求时,可以3种统计方法同时进行,但是当出现既可能是异常值又可能不是异常值的情况时,该可疑值应该保留,不予以剔除。
【总页数】4页(P41-44)
【关键词】科学计量学;异常值剔除;实例比对;统计方法
【作者】王小凯;朱小文
【作者单位】大同市质量技术监督检验测试所
【正文语种】中文
【中图分类】TB932
【相关文献】
1.正确选择统计判别法剔除异常值 [J], 孙培强
2.智能电能表测量结果异常值的判别和剔除方法研究 [J], 崔岩;李彦群
3.计量学中异常值剔除技术应用于修正公务员考评数据的尝试 [J], 贺双林
4.计量检定中的异常值及其剔除方法 [J], 石磊;徐明伟
5.试论计量检定中的异常值及其剔除方法 [J], 翟志强
因版权原因,仅展示原文概要,查看原文内容请购买。
试验数据异常值的检验及剔除方法
目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS 软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实用性强.如图一下为DPS 数据处理系统对话框.图一 数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二 用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
对异常值的判别和剔除方法
对异常值的判别和剔除方法
异常值的判别和剔除是数据处理中的重要步骤,以下是一些常用的方法:
1. 箱线图检测:箱线图是一种常用的异常值检测方法,它以数据的分位数为基础,通过上下四分位距来判断数据是否异常。
根据箱线图,可以判断出数据中的异常值,并将其剔除。
2. 3σ原则:3σ原则是一种基于数据的均值和标准差的统计方法,用于判断数据是否异常。
在正态分布下,大约68%的数据位于均值的±1σ范围内,95%的数据位于均值的±2σ范围内,%的数据位于均值的±3σ范围内。
因此,可以基于3σ原则来剔除异常值。
3. 物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。
4. 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。
在实际应用中,可以根据数据类型、分布情况和需求选择合适的方法。
同时,也要注意不同方法的适用范围和局限性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈计量检定中异常值的判别与剔除
摘要:本文解释了异常值的定义及造成异常值的原因,说明了计量检定中剔
除异常值的意义,列举了剔除异常值常用的三个统计判别方法,包括拉依达准则、格拉布斯准则和狄克逊准则。
同时,举例比较了统计判别方法的差异,及在计量
检定中,怎样选择合适的统计判别法剔除异常值。
关键词:计量检定;异常值;判别;剔除;准则
一、异常值的定义及计量检定中造成异常值的原因
异常值又称离群值,指在对一个被测量重复观测所获的若干观测结果中,出现了与其他值偏离较远且不符合统计规律的个别值,他们可能属于来自不同的总体,或属于意外的、偶然的测量错误。
也称为存在着“粗大误差”。
造成异常值的原因:震动、冲击、电源变化、电磁干扰等意外的条件变化,人为的读数、记录或计算错误,仪器内部的偶发故障、操作不当等。
二、计量检定中剔除异常值的意义
通过计量检定获得的数据中混有异常值,必然会歪曲测量结果,能将该值剔除不用,可使结果更符合客观情况,但若剔除了一些偏离较远但不属于异常值的数据,却适得其反,则不能真实地反映测得值的分散性,所以必须正确地判别和剔除异常值。
1.
计量检定中异常值的判别与剔除
(一)物理判别法
在测量过程中,记错、读错、仪器突然跳动、突然震动等异常情况引起的已知原因的异常值,应该随时发现,随时剔除,即必须是已知原因的明显错误或突发事件造成的数据异常可以随时剔除。
(二)统计判别法
有时仅仅是怀疑某个值,对于不能确定哪个是异常值时,必须采用统计判别法进行判别,判定为异常值的才能剔除。
判别异常值常用的统计方法有拉依达准则(或称3σ准则)、格拉布斯准则、狄克逊准则。
1.拉依达准则
拉依达准则又称为3σ准则。
当重复观测次数充分大的前提下(n>>10),设按贝塞尔公式计算出的实验标准差为s,若某个可疑值与n个测得值的平均值之差的绝对值大于或等于3s时,判定为异常值,即应满足下式:
2.格拉布斯准则
设在一组重复观测值中,其残差的绝对值最大者为可疑值,在给定的包含概率为或,也就是显著水平为或时,判定为异常值时应满足下式:
——与显著水平和重复观测次数有关的格拉布斯临界值,该临界值需要查格拉布斯准则的临界值表。
3.狄克逊准则
设所得的重复观测值按由小到大的规律排列为:,,…,。
其中的最大值为 ,最小值为。
按以下几种情况计算统计值:
(1)在n=3~7情况下; ,
(2)在n=8~10情况下: ,
(3)在n=11~13情况下: ,
(4)在n≥14情况下: ,
设为狄克逊检验的临界值,判定异常值的狄克逊准则为:
当,,则为异常值;
当,,则为异常值;
否则没有异常值。
使用这一准则,可以多次剔除异常值,但每次只能剔除一个,并重新排序计算统计量或,然后再进行下一个异常值的判断。
1.
三种判别准则的应用与比较
(一)三种判别准则的应用
例子:在计量检定过程中,重复观测某标称值为5kg的砝码共10次,测量过程中得到10个值,从小到大排列为:4.98kg,4.99kg,
4.99kg,
5.01kg,5.01kg,5.02kg,5.02kg,5.02kg,5.03kg,5.12kg。
①用狄克逊准则判别
测量次数n=10,选显著性水平=0.01,则查狄克逊检验的临界值表得临界值
D(0.01,10)=0.635
由于是属于n=8~10的情况,所以统计量计算如下:
=5.12kg属于异常值。
, D(0.01,10)=0.635,因而x
10
②采用格拉布斯准则判别
计算实验标准偏差:s=0.039kg
查格拉布斯准则临界值:G(0.01,10)=2.410
最大残差绝对值:|v
10
|=0.101kg
G(0.01,10)·s=2.410×0.039=0.094kg
可见:|v
10|>G(0.01,10)·s,因而x
10
属于异常值。
③采用拉依达准则判别
计算算术平均值:=5.019kg
计算实验标准偏差:s=0.039kg
可疑值x
d
=5.12与10个测量结果的算术平均值之差的绝对值最大,
=0.101kg,3s=0.117kg。
因<3s,故可疑值x
d
=5.12不属于异常值。
(二)三种判别准则的比较
通过上述例子可见,拉依达准则与格拉布斯准则、狄克逊准则得出的结果完全不同。
1.当3<n<50的情况下,使用格拉布斯准则剔除异常值效果较好,适用于单个异常值。
格拉布斯准则有唯一的公式,方法简便,易于掌握。
2.有多于一个异常值时使用狄克逊准剔除异常值较好,但是使用这一准则,每次只能剔除一个,需要重新排序计算统计量和,然后进行下一个异常值的判断。
狄克逊准则公式多,不宜记忆。
3.当n>50的情况下,使用拉依达准则(3σ准则)剔除异常值较简便,但在GB/T4883-2008《数据的统计处理和解释正态样本离群值的判断和处理》中已不采用此方法。
4.实际应用中,有较高要求的情况下,可选用多种准则同时进行,若结论相同,可以放心。
当结论出现矛盾,则应慎重,此时通常选α=0.01。
当出现既可能是异常值,又可能不是异常值的情况时,一般以不是异常值处理较好。
1.
结束语
我们在计量检定工作中,为了避免异常值的出现,一方面要严格执行计量检定规程,另一方面要求计量检定人员在数据处理过程中对发现的异常值要采取合理的措施进行处理,要充分应用拉依达准则、格拉布斯准则、狄克逊准则等三种判别方法进行合理选择性使用,以保障计量检定数据的准确、客观。
参考文献
[1]《数据的统计处理和解释正态样本离群值的判断和处理》GB/T4883-2008。
[2]于陆军,侯松梁.气体涡街流量计校准结果的异常值剔除和符合性判定[J].计量与测试技术,2014,41(05):29-30.
作者简介:刘东平,(1983—),女,侗族,本科,工程师,修文县市场监督管理检验检测中心。