☆☆【】异常值的剔除--肖维勒法则

合集下载

无线电测向系统开场测试测向精度的测试数据异常值判别方法

监测检测无线电测向系统幵场测试测向精度的测试数据异常值判别方法文丨国家无线电监测中心检测中心李新利摘獎：通过分析叫种常;im常m判別准则，找到适合川于剔除尤线电测叼系统』丨:场测试测卯精度的测试数椐异常值的判別方法，从而保iiE测试数摒的有效忡。

通过计兑结采可知，样本数小于100时，il!议4采用n维勒准则；样本数人t i o o时，us议采)u莱依达准则；m“i剁除w•常俏比例超过1〇%时，述议采/U格拉布斯准则（置信概率刃95%)。

关键测问粘度的测试数椐W-常W判別莱依込准则ft维勒准则格拉布斯准则狄兑逊准则0引言异常值是指样本中数值明显偏离它们所属样本其余观测值的值。

计量测试工作的一个重要部分就是通过数据来判断待检仪器或系统合格与否，但在实际测试中由于人员操作、设备、环境等因素的干扰，会导致个别数据产生偏离，从而使测试结果产生较大的误差m。

因此，需要选择合适的判别规则进行异常值的剔除，从而保证测试数据的有效性。

无线电监测测向系统是指由无线电监测系统、无线电测向系统组成的用于无线电频谱监测与测向工作的系统。

本文是对无线电监测测向系统在幵场测试中的测向精度的测试数据异常值判别方法的研究。

1国内外相关研究在国内，G B/T34089-2017《V H F A I H F无线电监测测向系统开场测试参数和测试方法》m标准中，给出了测向系统测向精度的幵场测试和数据的计算方法，但是没有给出是否应该剔除及如何剔除异常值的方法和建议。

根据经验，一般将超过6度的测向精度的测试数据作为异常值予以剔除，但剔除的异常值不可超过总测试数据的 10%,否则增加剔除门限值。

国际上，国际电信联盟在频谱管理（S M系列）方面的报告和建议书中给出了一定的指导意见。

其中，IT U- R S M.2097-0建议书《固定测向系统测向精度的现场测试程序》|31、IT U-R S M.2060-0建议书《测量测向系统测向精度的测试程序》|41、TTU-R SM.2125-1报告《H F/ V H F/U H F监测接收机和电台的参数和测量程序》丨51给出了在真实环境（现场）下“如果为放弃此类数据制定了合适的流程或程序，则可因实际操作问题，最多放弃测向系统覆盖区（方位角）内10%的测试数据”的规定。

如何检测异常值并且剔除它们

如何检测异常值并且剔除它们异常值（Outliers）是指与大多数数据样本显著不同或者离群的数据点。

异常值可能是由数据采集错误、数据录入错误、异常事件或者其他非统计因素引起的。

检测和剔除异常值在数据分析和模型建立中非常重要，因为异常值的存在可能会明显干扰分析结果和模型性能。

以下是一些常见的方法和技巧可以用来检测和剔除异常值：1. 箱线图（Box plot）：箱线图是一种可视化工具，可以显示数据的五数概括（最小值、第一四分位数、中位数、第三四分位数、最大值），同时也可以检测潜在的异常值。

箱线图会将数据点超出上下限的点标记为异常值，并且可以根据不同的判断标准来确定。

2. 3σ原则（3-sigma rule）：根据正态分布的性质，在正态分布中，约有99.7%的观测值落在距离均值±3倍标准差的范围内，因此可以将超出这个范围的观测值视为异常值。

可以通过计算数据的均值和标准差，然后筛选出超出均值±3倍标准差的数据点。

3. 置信区间（Confidence interval）：可以使用置信区间来检查数据点是否在预期的范围内。

根据样本的大小和置信水平，可以计算置信区间的上限和下限，并将超出这个范围的数据视为异常值。

一般来说，95%的置信区间可以覆盖绝大多数正态分布数据。

4. Z-score：Z-score可以帮助我们判断一个数据点与均值之间的差异程度。

Z-score表示一个数据点距离均值的标准差数目。

一般来说，超过±3的Z-score值可以视为异常值。

5. Tukey方法：Tukey方法是一种基于四分位数的判断异常值的方法。

该方法通过计算第一四分位数（Q1）和第三四分位数（Q3），然后计算Q3 + 1.5 * IQR和Q1 - 1.5 * IQR，其中IQR表示四分位差（Q3 - Q1），超出这个范围的数据点可以被视为异常值。

6.检查数据的物理规律：在一些情况下，可以根据数据的物理规律来判断异常值。

试验数据异常值的检验及剔除方法

目录摘要...................................................... 错误!未定义书签。

关键词................................................... 错误!未定义书签。

1 引言...................................................... 错误!未定义书签。

2 异常值的判别方法..................................... 错误!未定义书签。

检验（3S）准则........................................ 错误!未定义书签。

狄克松（Dixon）准则.................................. 错误!未定义书签。

格拉布斯（Grubbs）准则.............................. 错误!未定义书签。

指数分布时异常值检验................................. 错误!未定义书签。

莱茵达准则（PanTa）.................................. 错误!未定义书签。

肖维勒准则（Chauvenet）............................. 错误!未定义书签。

3 实验异常数据的处理 .................................. 错误!未定义书签。

4 结束语................................................... 错误!未定义书签。

参考文献.................................................... 错误!未定义书签。

试验数据异常值的检验及剔除方法摘要：在实验中不可避免会存在一些异常数据，而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响，异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法，并利用DPS软件检验及剔除实验数据中异常值，此方法简单、直观、快捷，适合实验者用于实验的数据处理和分析.关键词：异常值检验；异常值剔除；DPS；测量数据1 引言在实验中，由于测量产生误差，从而导致个别数据出现异常，往往导致结果产生较大的误差，即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律，以致使研究对象变化规律异常，得出错误结论.因此，正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程，找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫，吴先球，用Origin 剔除线形拟合中实验数据的异常值；严昌顺．用计算机快速剔除含粗大误差的“环值”；运用了统计学中各种判别异常值的准则，各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多，常用的有t 检验（3S ）准则、狄克松（Dixon ）准则、格拉布斯（Grubbs ）准则等准则.下面将一一简要介绍. 2.1 检验（3S ）准则t 检验准则又称罗曼诺夫斯基准则，它是按t 分布的实际误差分布范围来判别异常值，对重复测量次数较少的情况比较合理.基本思想：首先剔除一个可疑值，然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ，若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -，即2111,1,1n n i n i i j x x s n --=≠=-∑.然后，按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->，则j x 为异常值，应予剔除，否则为正常值，应予以保留.其中：a 为显著水平；n 数据个数；(,)k n a 为检验系数，可通过查表得到.2.2 狄克松（Dixon ）准则设有一组测量数据123nx x x x ≤≤≤，且为正态分布，则可能为异常值的测量数据必然出现在两端，即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式（见表1）.当显著水平a 为1%或5%时，狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->，则1x 为异常值，如果测量数据的检验统计量'1()a n D D ->，则n x 为异常值.2.3 格拉布斯（Grubbs ）准则设有一组测量数据为正态分布，为了检验数据中是否存在异常值，将其按大小顺序排列，即123n x x x x ≤≤≤，可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的，则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差，即211,n i i x xs n ==∑. 对于检验统计量G ，格拉布斯导出了其统计分布，并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数，可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时，则认为与之对应的1x 或n x 为可疑异常值，应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布，为了检验数据中是否存在异常值，将其按大小顺序排列，即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下：当样本量100n ≤时，计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a （通常取）和样本数量n ，通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时，认为n x 为异常值；若(1)(1)()n n T T a <时，认为1x 为异常值. 当样本容量100n >时，计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ，若11()2,2~2,1(1)(1)n n n n aE F n a --->=--，则判断n x 为异常值；若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---，则判断1x 为异常值. 2.5 莱茵达准则（PanTa ）对于实验数据测出值123,,,,nx x x x ，求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-，然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据（假设v 服从正态分布）：3i x x σ->，则i x 相对而言误差较大，应舍去； 3i x x σ-≤，i x 为正常数据，应该保留.有概率论统计可知，如果误差服从正要分布，误差大于3σ的观测数据出现的概率小于，相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除，取舍的概率较小，可能将不合理的异常值保留.2.6 肖维勒准则（Chauvenet ）次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中，数据的参与误差i c v Z σ>，则剔除该数据.其中21/2(/1)i v n σ=-∑，样品容量为n 时的判别系数3c Z <，弥补了莱茵达准则的不足，故此准则优胜于莱茵达准则，但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理，必须慎重考虑，不能凭预感任意删除或添加.应该从所学知识上考虑，异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识，如果随意删除它，可能深入了解和发现新事物的一次机会，那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因，如果在技术上发现原因，理应舍去.如在技术上无法作出判断，却可在上述准则中发现其高度异常，也因舍弃.其中，运用DPS 软件进行异常数据的检验与剔除特别方便，而且不许编写程序，它融合了SPSS 表格和EXCELL 表格，操作简单，实用性强.如图一下为DPS 数据处理系统对话框.图一数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口，然后进行选择检验分析方法及显著水平，点击确定即可.图二用户对话框在测定中，有时发现个别数据离群严重，上述检验原则为异常值，但它与其他测定值的差异在仪器的精度范围内，这种数据不应舍去，应予保留.而对于一些分析而言，需要估计总体参数，异常数据一般都要舍去.对于不同的之心度应作相应的处理，则要据实际情况而定.4结束语由上述可知，用DPS软件进行异常值检验和剔除的过程简单、直观、快捷，适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学，可以使学生快速准确判断实验结果，也可以提高教学质量.参考文献[1] 王鑫，吴先球．用Origin剔除线形拟合中实验数据的异常值[J]．山西师范大学学报，2003，17(1)，56—57.[2] 严昌顺．用计算机快速剔除含粗大误差的“环值”[J]．计量技术，1994（5），45—47.[3] 苏金明，傅荣华，周建斌．统计软件SPSS系列应用实战篇[M]．电子工业出版社，2002[4] 唐起义．DPS数据处理系统——实验设计、统计分析及数据挖掘[M]．科学出版社，2006[5] 何国伟等编著.误差分析方法．北京：国防工业出版社，1978。

数据预处理之剔除异常值及平滑处理

数据预处理——剔除异常值及平滑处理测量数据在其采集与传输过程中，由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失，这种数据称为异常值。

为了恢复数据的客观真实性以便将来得到更好的分析结果，有必要先对原始数据剔除异常值。

另外，无论是人工观测的数据还是由数据采集系统获取的数据，都不可避免叠加上“噪声”干扰（反映在曲线图形上就是一些“毛刺和尖峰”）。

为了提高数据的质量，必须对数据进行平滑处理（去噪声干扰）。

（一）剔除异常值。

注：若是有空缺值，或导入Matlab 数据显示为“NaN ”（非数），需要忽略整条空缺值数据，或者填上空缺值。

填空缺值的方法，通常有两种：A. 使用样本平均值填充；B. 使用判定树或贝叶斯分类等方法推导最可能的值填充（略）。

一、基本思想：规定一个置信水平，确定一个置信限度，凡是超过该限度的误差，就认为它是异常值，从而予以剔除。

二、常用方法：拉依达方法、肖维勒方法、一阶差分法。

注意：这些方法都是假设数据依正态分布为前提的。

1. 拉依达方法（非等置信概率）如果某测量值与平均值之差大于标准偏差的三倍，则予以剔除。

3x i x x S ->其中，11n i i x x n ==∑为样本均值，12211()1nx i i S x x n =⎛⎫ ⎪⎝⎭=--∑为样本的标准偏差。

注：适合大样本数据，建议测量次数≥50次。

代码实例（略）。

2. 肖维勒方法（等置信概率）在 n 次测量结果中，如果某误差可能出现的次数小于半次时，就予以剔除。

这实质上是规定了置信概率为1-1/2n ，根据这一置信概率，可计算出肖维勒系数，也可从表中查出，当要求不很严格时，还可按下列近似公式计算：10.4ln()n n ω=+Tab1. 肖维勒系数表如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系数之积，则该测量值被剔除。

n x i x x S ω->例1. 利用肖维勒方法对下列数据的异常值（2.5000）进行剔除： 1.5034 1.5062 1.5034 1.5024 1.4985 2.5000 1.50071.5067 1.4993 1.4969上述数据保存于文件erro.dat代码：x=load('error.dat');n=length(x);subplot(2,1,1);plot(x,'o');title('原始数据')axis([0,n+1,min(x)-1,max(x)+1]);w=1+0.4*log(n);yichang = abs(x-mean(x)) > w*std(x);% 若用拉依达方法，把w改成3即可，但本组数据将不能成功剔除异常值。

计量测试中异常数据剔除方法比较

Ｊｊ｝：
当某个可疑数据符合上式时，则认为该数据是异常值，予剔除。即是说当可疑数据与测量数据的应算术平均值的偏差的绝对值大于３倍（两倍）或的标准偏差时应将此可疑值舍去，于３至ｓ或２显著性ｓ与
ｒ：２ ’ ２ ’
孚ｒ：二ｎ１３， ÷３，：４０
如果：＞ｒｒ＞，）则判断为异常值。，ｉＤ（ｎｆ如果：＜ｒｒ＞，）则判断为异常值。，Ｄ（ｎ肖维勒准则：ｘ一＞・ＩｄｆＷ对相同精度相互独立测量所得数值，测量值若满足：一＞・时，ｌｌＷ即ｄ即为异常值，剔除，应式中Ｗ与测量值的测试次数ｎ有关。
了检测仪器的等级，未加剔除，势必会造成测量若又重复性偏低的后果从而人为降低了检测仪器的等级。异常值判断的准则：常用的处理粗大误差的方最法有：０准则（３－三西格码准则又名拉依达准则）格拉，
ｒｉｏ
ｎ
ｎ一】
，
２一
】＾一 ‘来自加一ｒｌ：ｌ
ｒ，
１＝１
÷ ■
÷ ■
ｎ８ｌ＝～ｏ川
ｎ１３＝１１
ｒ１：，
ｒ２】＝
恰当地剔除含有粗大误差的数据，会造成测量重复性偏好的假象，还会影响数据的真实结果从而人为提高
舍弃；对剩余数值进行检验，到没有异常值为止。再直狄克逊通过模拟实验认为： ≤７使用ｒ； ≤ｎ≤１，ｎ，８。０用ｒ；１ ≤１，ｒ； ≥１用ｒ２效果好。１１ ≤ｎ３用２ｎ４，２１１

剔除异常值的方法

剔除异常值的方法剔除异常值是指在数据分析中，对于偏离正常范围的极端数据进行处理或排除的方法。

异常值可能是由于测量或记录错误、无效数据、异常事件等原因导致的，如果将异常值包括在分析中，可能会对结果产生显著的偏差。

因此，剔除异常值是很重要的数据预处理步骤，下面是常用的剔除异常值的方法：1.标准差法：标准差是描述数据集合离散程度的统计量，如果一些数据点与平均值的偏离程度超过了一定的标准差范围，可以判定为异常值。

根据经验，在正态分布的情况下，采用平均值加减3倍标准差的范围内的数据是比较典型的数据集合。

2.箱线图法：箱线图是一种常用的异常值检测方法，它能够直观地显示数据的分组情况及异常值。

箱线图通过绘制数据集的上四分位数(Q3), 下四分位数(Q1)和中位数(Median)以及上下边界，可以看出数据中是否存在异常值。

根据箱线图，异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的数据点，其中IQR指的是四分位距。

3.3σ原则：3σ原则是指在正态分布的情况下，大约99.73%的数据位于平均值加减3倍标准差的范围之内。

因此，可以根据3σ原则剔除超出平均值加减3倍标准差范围之外的数据点。

4.多元异常值检测：多元异常值检测是指通过多个变量之间的关系检测异常值。

常用的方法有杠杆性和学生化残差。

杠杆性指的是一个数据点对回归结果的影响程度，可以使用杠杆值来判定异常值。

学生化残差是指将残差标准化后的值，可以通过学生化残差的阈值来检测异常值。

5.离群点分数法：离群点分数法是一种基于分位数的异常值检测方法，通过计算数据点相对于其他数据点的离散程度来评估异常值。

常用的离群点分数包括Z-Score、箱线图的方法以及帕累托法则。

6.局部离群点因子法：局部离群点因子(Local Outlier Factor, LOF)是一种基于密度的异常值检测方法。

LOF通过计算每个数据点相对于其邻居数据点的离散程度来评估异常值。

LOF值越大，表示越可能是异常值。

异常试验数据的剔除方法

异常试验数据的剔除方法1.观察剔除法：观察剔除法是最简单直接的异常数据剔除方法，它基于对实验数据进行观察和分析的方法。

通过观察数据的分布情况和实验是否出现了明显的异常情况，可以剔除异常的试验数据。

2.3σ原则：3σ原则是一种常用的统计学剔除异常数据的方法。

这种方法假设试验数据服从正态分布，基于标准差进行判断。

根据3σ原则，平均值加减3倍标准差之外的数据可以被判定为异常数据，并进行剔除。

3.箱线图剔除法：箱线图剔除法是一种基于统计学的方法。

通过绘制箱线图，可以直观地观察数据的分布情况和是否存在异常值。

箱线图将数据的中位数、上下四分位数和离群值可视化，根据经验判断是否有离群值，从而进行剔除。

4. Grubbs检验：Grubbs检验是一种常用的单变量异常值检验方法。

它基于假设检验的思想，通过计算试验数据的离群程度，判断是否应该剔除该数据。

Grubbs检验根据试验数据的最大/最小值与均值的差异，计算统计量，并与临界值进行比较，从而判断数据是否异常。

5. Hampel校正：Hampel校正是一种鲁棒性更强的异常值处理方法。

它通过对数据的多次迭代，识别具有较大偏差的异常值，并对其进行剔除或修正。

这种方法不仅可以剔除异常值，还可以对异常值进行修正，提高数据的稳定性和可靠性。

需要注意的是，异常数据的剔除应该谨慎进行。

在进行剔除操作之前，需要对试验数据进行充分的分析和检验，确保剔除的准确性和合理性。

此外，剔除异常数据可能会导致原始数据的丢失，因此需要根据实际情况进行权衡和决策。

总结起来，异常试验数据的剔除是科学研究和数据分析中不可或缺的一项工作。

合理有效地剔除异常数据可以提高数据的准确性和可靠性，从而得出更加科学和可靠的结论。

以上介绍的方法只是其中的一部分，根据实际情况可以选择合适的方法进行异常数据的剔除。

异常数据4种剔除方法

异常数据4种剔除方法异常数据是指与其他数据不一致或不符合预期的数据。

在数据分析和建模过程中，异常数据可能会影响统计结果和模型的准确性。

因此，为了保证分析结果的可靠性，通常需要对异常数据进行剔除或修正。

以下是常见的四种剔除异常数据的方法。

1.箱线图检测异常值箱线图是一种常用的异常值检测方法，它以数据的分位数为基础，通过上下四分位距来判断数据是否异常。

根据箱线图，我们可以判断出数据中的异常值，并将其剔除。

首先，绘制箱线图以可视化数据的分布情况。

箱线图由一个箱体和两条触须组成。

箱体表示数据的四分位数范围，上触须和下触须分别表示上四分位数和下四分位数与最大非异常值和最小非异常值之间的距离。

根据箱线图，我们可以识别出在上下触须之外的数据点，这些点通常是异常值。

然后，我们可以将这些异常值从数据集中剔除，以保证后续分析的准确性。

2.3σ原则剔除异常值3σ原则是一种基于数据的均值和标准差的统计方法，用于判断数据是否异常。

在正态分布下，大约68%的数据位于均值的±1σ范围内，95%的数据位于均值的±2σ范围内，99.7%的数据位于均值的±3σ范围内。

因此，我们可以基于3σ原则来识别并剔除数据中的异常值。

首先，计算数据的均值和标准差。

然后，根据3σ原则，识别出超出3倍标准差范围之外的数据点，并将其从数据集中剔除。

3.离群点检测算法剔除异常值离群点检测算法是一种自动化的异常值识别方法。

常用的离群点检测算法包括聚类算法（如K-means算法）、孤立森林算法、LOF（局部异常因子）算法等。

这些算法可以根据数据的特征属性来识别出异常值，并将其从数据集中剔除。

4.领域知识和业务规则剔除异常值除了基于统计和算法的方法，领域知识和业务规则同样可以用于剔除异常值。

领域专家通常对数据的特点和业务规则有深入的了解，可以根据经验判断数据是否异常。

比如，在一些业务场景下，根据实际情况设定阈值，超出阈值的数据可以被视为异常并剔除。

数据预处理之剔除异常值及平滑处理

yi'
n 1 yi 1 2n 1 k n
优点：方法简单，计算方便。缺点：方法产生误差会造成信号失真；前后各 n 个数据无法平滑。适用性：适用于变化缓慢的数据。注：n 越大平滑效果越好，但失真也越大。例2. “9 点单纯移动平均”平滑滤波代码：
% 建立“n 点单纯移动平均”的滤波函数 % 注意函数要单独保存为与函数名同名的.m 文件 function Y=smooth_data(y,n) m=length(y); j=1; for i=(n-1)/2+1:(m-(n-1)/2) p=i-(n-1)/2;
xi x 3S x
2 1 n 1 n 2 其中，x xi 为样本均值，S x 为样本的标准偏 ( x x ) i n i 1 n 1 i 1
1
差。注：适合大样本数据，建议测量次数≥50 次。代码实例（略）。 2. 肖维勒方法（等置信概率）在 n 次测量结果中，如果某误差可能出现的次数小于半次时，就予以剔除。这实质上是规定了置信概率为 1-1/2n，根据这一置信概率，可计算出肖维勒系数，也可从表中查出，当要求不很严格时，还可按下列近似公式计算：
3. 用“smooth 函数”平滑滤波调用格式： Z = smooth(Y, span, method) 说明： Z：平滑后的数据向量 Y：被平滑的数据向量 span：平滑点数，缺省为 5 点 method ：平滑方法，缺省为移动平滑，其它还有 ‘moving’ —— Moving average (default)单纯移动平均 ‘lowess’ —— Lowess (linear fit)线性加权平滑 ‘loess’ ——Loess (quadratic fit)二次加权平滑 'sgolay' —— Savitzky-Golay 'rlowess' ——Robust Lowess (linear fit) 'rloess' ——Robust Loess (quadratic fit) 例3. 用 matlab 自带的平滑函数作平滑滤波实例。代码：

试论计量检定中的异常值及其剔除方法

试论计量检定中的异常值及其剔除方法作者：翟志强来源：《中国科技博览》2015年第33期[摘要]随着计量检定在各专业领域应用的普遍，人们对计量检定结果的准确度和精度也提出了更高的要求。

当前，带来检定结果的准确度降低的原因主要是混入了“异常值”，而当检定人员在计量检定中由于人为或者客观因素造成的过失，或者外界条件的突然改变，都会造成异常数据的产生，属于比较普遍的现象。

因此，相关检定人员要掌握异常值剔除的有效方法。

本文结合笔者实践工作经验，首先对计量检定中异常值形成的原因及判断方法进行了分析，在此基础上分析了拉依达准则、肖维勒准则、狄克逊准则等三种应用较为广泛的异常值剔除方法，希望可以为相关的理论和实践提供借鉴。

[关键词]计量检定；异常值；剔除方法；拉依达；肖维勒准则中图分类号：P413 文献标识码：A 文章编号：1009-914X（2015）33-0390-01一、计量检定中异常值的形成通过计量检定获取的数据中如果混入了“异常值”，势必会对检定的结果带来一定的影响。

这时如果可以有效地将异常值进行剔除，那么获得的结果必定是更加客观和符合事实情况。

而在实际中还存在着这么一种情况，某组通过正确和客观测得的具有分散性的数值，本来是可以正确地对事实本身进行反映，是仪器在特定条件下进行测量的随机波动特性。

相关人员为了获得更加精密的结果，而人为地对其中误差比较大的数值进行剔除，殊不知这些误差较大的值并不属于异常值，实质上是虚假的。

以后在相同条件下对该组数据进行重新检定时候，和该误差值类似的误差值就会可能再次出现，甚至出现多次的情况。

那么异常值是如何产生的呢？笔者认为，当检定人员在计量检定中由于人为或者客观因素造成的过失，或者外界条件的突然改变，都会造成不正常数据的产生，是含有粗差的数据。

粗误差产生的原因是多方面的，比如读错数据、记错记录、计算错误、调错标志、仪器故障和操作不当等都会造成粗误差产生。

以下情况下确认的数据都可以确定为粗误差，可以将其予以剔除：1）标准器或检定设备不正常或者操作不当时的读数；2）模拟环境条件超过规定值或稳定性不符合要求的读数；3）经过校准或者补测确认的粗误差。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、线性方程的异常值剔除——肖维勒准则，适用于小样本和线性分析
1、用spss方法计算出残差和标准值，具体步骤如下：
步骤1：选择菜单“【分析】—>【回归】—>【线性】”，打开Linear Regression 对话框。

将变量住房支出y移入Dependent列表框中，将年收入x移入Independents 列表框中。

在Method 框中选择Enter 选项，表示所选自变量全部进入回归模型。

步骤2：单击Statistics 按钮，如图在Statistics 子对话框。

该对话框中设置要输出的统计量。

这里选中估计、模型拟合度复选框。

♦估计：输出有关回归系数的统计量，包括回归系数、回归系数的标准差、标准化的回归系数、t 统计量及其对应的p值等。

♦置信区间：输出每个回归系数的95％的置信度估计区间。

♦协方差矩阵：输出解释变量的相关系数矩阵和协差阵。

♦模型拟合度：输出可决系数、调整的可决系数、回归方程的标准误差
回归方程F检验的方差分析
步骤3：单击绘制按钮，在Plots子对话框中的标准化残差图选项栏中选中正态概率图复选框，以便对残差的正态性进行分析。

步骤4：单击保存按钮，在Save 子对话框中残差选项栏中选中未标准化复选框，这样可以在数据文件中生成一个变量名尾res_1 的残差变量，以便对残差进行进一步分析。

其余保持Spss 默认选项。

在主对话框中单击ok按钮，执行线性回归命令。

结果输出与分析
散点图（判断随机扰动项是否存在异方差，根据散点图，若随着解释变量x的增大，被解释变量的波动幅度明显增大，说明随机扰动项可能存在比较严重的异方差问题，应该利用加权最小二乘法等方法对模型进行修正）、相关系数表Correlations（皮尔逊相关系数，双尾检验概率p值尾<0.05，则变量之间显著相关，在此前提下进一步进行回归分析，建立一元线性
回归方程）、回归模型拟和优度评价及Durbin－Watson检验结果Model Summary(b)（回归模型的拟和优度（R Square ）、调整的拟和优度（Adjusted R Square）、估计标准差（Std. Error of the Estimate）以及Durbin-Watson统计量）、方差分析表ANOVA(b)（F统计量及对应的p 值）、回归系数估计及其显著性检验Coefficients(a)（回归系数、回归系数的标准差、标准化的回归系数值以及各个回归系数的显著性t 检验）、Normal P-P Plot of Regression Standardized Residual标准化残差的P-P 图（判断随机扰动项是否服从正态分布，若各观测的散点基本上都分布在对角线上，据此可以初步判断残差服从正态分布）
2、根据肖维勒准则，即实测值和理论值（平均值）之差的绝对值
应不大于Gn·s。

s为标准差，Gn为一个数据个数n相联系的系数。

当已知数据个数n，算术平均值和测量列标准偏差S，则可以保留的测量值x。