粗大误差四种判别准则的比较

合集下载

粗大误差的判断方法

粗大误差的判断方法

粗大误差的判断方法
粗大误差啊,这可是个很关键的东西呢!它就像是混入珍珠中的一粒沙子,会让整个结果都变得不准确。

那怎么来判断它呢?这可得好好说道说道。

咱先来说说直观判断法,就好像你一眼就能看出一个人是不是生病了一样。

如果某个测量值明显偏离了其他数据,那它很可能就是粗大误差呀!这不是很明显嘛!比如一群人都在说正常的话,突然有个人大喊大叫一些不着边际的,那他不就很突出嘛!
再来讲讲统计判别法,这就好比是给数据做个“体检”。

通过计算一些统计指标,来看看有没有异常的数据。

如果某个值超出了正常范围,那它可能就是那个“捣乱分子”。

就好像在一个班级里,大家的成绩都在一个范围内波动,突然有个人考了个超级高或者超级低的分数,那是不是就很显眼呀!
还有什么呢?对了,还有格拉布斯准则!这就像是个严格的法官,对数据进行严格的审查。

如果某个值被它判定为异常,那几乎就可以确定是粗大误差了。

想象一下,数据们排着队接受审查,那个不符合标准的一下子就被揪出来了,是不是很形象!
莱以特准则也不能落下呀!它就像是个敏锐的侦探,能从众多数据中发现那个“不寻常”。

一旦它锁定了目标,那这个粗大误差可就无处遁形啦!
你说判断粗大误差重要不重要?要是不把它找出来,那得出的结论能靠谱吗?能放心使用吗?肯定不行呀!所以我们一定要掌握这些判断方法,就像战士要有锋利的武器一样。

只有这样,我们才能在数据的海洋中准确地航行,不会被粗大误差这股“暗流”给带偏了呀!总之,粗大误差的判断方法可太重要啦,我们可不能马虎对待呀!。

对粗大误差和随机误差处理

对粗大误差和随机误差处理

用matlab 对一组随机数据的随机误差的处理当今社会,人们对测量和仪器的精确性要求越来越高,传统的测量精确度远远不能满足当今科技以及人们生活方面的要求,所以需要一种能够快速分析误差的方法出现。

matlab 可以大大减少人工运算的成本,成本低,可行性高,而且具有普遍性,故采用matlab 来进行误差处理。

等精度测量粗大误差处理粗大误差的判别准则(1)莱以特准则(3σ准则)具体方法:求出平均值和σ,将残差的绝对值与3σ进行比较,大于3σ的测量值都是坏值。

这种方法称为 3σ法则(正态分布)。

适合测量点数较大的情况,计算所有的点。

逐一剔除异常值(2)罗曼诺夫斯基准则具体方法:首先剔除一个可疑的测得值,然后按照t 分布检验被剔除的测量值是否含有粗大误差。

如果是,剔除后,再判断其它的测试结果点。

适合条件:测量次数较少的情况,是逐一剔除的。

等精度测量随机误差处理(1) 算数平均值11==∑n i n i x x大多数情况下,真值未知,用=-i i v x x 来代替误差:σ==σ=sδ=-i i x x n :测量次数(2)测量列算数平均值标准差/σσ=x (3)算数平均值的极限误差:,δδσ==t tlim δσ=±x t t 为置信系数,通过查表可得。

|()d x x |K n -2,a σ-≥1,1=-1n i i i d x x n =≠∑结果表示: lim δ=±X x t x(4(5软件流程设计等精度测量计算流程开始 读取数据文件matlab程序clc;clear;data=load('test.txt'); %v_2=0; %定义残差的平方average_data=0; %定义数据的平均值average_data=mean(data);%计算平均值if(length(data)<10) %判断数据的长度,用罗曼诺夫斯基准则剔除粗大误差while(1)for i=1:length(data) %计算残差和残差的平方和v(i)=data(i)-average_data;v_2=v_2+v(i)^2;end[max_v,I]=max(abs(v));`sum=0;for i=1:length(data)sum=sum+v(i);endaverage_data=sum/(length(data)-1); %计算数据的平均值bzc=(v_2/(length(data)-2))^0.5; %计算数据的标准差alpha=0.05;t=tinv(1-alpha/2,length(data)-2);if(v(I)>=(t*bzc)) %判断数据是否为粗大误差data(I)=[];else break;endv=[];endendif(length(data)>=10)while(1)for i=1:length(data) %计算残差和残差的平方和v(i)=data(i)-average_data;v_2=v_2+v(i)^2;endbzc=(v_2/(k-1))^0.5; %计算标准差bzc_3=3*bzc;[max_v,I]=max(abs(v));if max_v>bzc_3 %根据莱以特准则剔除粗大误差data(I)=[];endv=[];l=length(data);if(k==l)n=0;endendp=0.95/2;t=2.60;enddelta=t*bzc; %极限误差X_max=average_data+delta;X_min=average_data-delta;fid = fopen('result.txt', 'wt');fprintf(fid,'delta=%12.8f\nX_max=%12.8f\nX_min=%12.8f\ndata(I)=%12.8f\ n',delta,X_max,X_min,data(I)); %把数据写入文本文档fclose(fid);用matlab处理数据可以做到效率高,成功率高,节约人力物力,通过此程序进行数据处理,方便快捷,并且可以重复使用在进行研究过程中,由于我们对matlab软件没有深入了解,所以很多函数以及操作没有特别了解,对基本的操作流程也不是很熟悉。

笔记五、粗大误差的处理方法

笔记五、粗大误差的处理方法

1 n xi n 1 i 1
i j
v
标准差
i 1 i j
n
2
i
n 1 根据测量次数 n,选取显著度 ,查表得到检验系数
K (n, ) ,若被剔除测量值 x j 满足如下:
x j x K ,则认为含有粗大误差,剔除 x j 是正确的
例子 2:试用此法判断上述例子 1 中的测量值中有无粗大误差?
查表,显著度 =0.05 ,统计临界值 r0 (n, ) r0 (14,0.05) 0.546 判断最大值 x (14) : r22
'
x( n ) x( n2) x( n ) x(3)

x '(14) x '(12) x (14) x (3)
' '

20.43 20.43 0 20.43 20.39
'
x(n) x
'

'

20.43 20.411 1.18 0.016
查表得 g(0) (15-1,0.05) 2.37 g(15) 1.18 则 x(15) 不含有粗大误差,应保留。 ➢ 狄克松准则 适用范围:测量次数少,但可靠性要求高。 优点:判断测量列中的粗大误差的速度较快 判别方法: 测量值: x1 , x2 ,...xn ;次数为 n 将测量值按照从小到大排列: x(1) , x(2) ,...x( n) 选定显著度 (一般为 0.01 或 0.05) ,查表得到临界统计量
判别 r22 0 r0 (15,0.05) 0.525 ,故 x '(14) 不含粗大误差,应保留 判断最小值 x '(1) : r22

1.2.3 粗大误差判别

1.2.3 粗大误差判别
2
1.2.3 粗大误差判别
肖维勒准则:假设多次重复测量所得n个测量 值中, 某个测量值的残余误差|vi|>Zcσ,则剔 除此数据。实用中Zc<3, 所以在一定程度上弥 补了3σ准则的不足。
3
1.2.3 粗大误差判别
格拉布斯准则:某个测量值的残余误差的绝对值|vi| >Gσ, 则判断此值中含有粗大误差,据中某个测量值的残余误差的绝对值v则该测量值为可疑值坏值应剔除
1.2.3 粗大误差判别
1. 3σ准则 2. 肖维勒准则 3. 格拉布斯准则
1
1.2.3 粗大误差判别
3σ准则(莱以达准则):如果一组测量数据中某个 测量值的残余误差的绝对值|vi|>3σ时, 则该测量值 为可疑值(坏值), 应剔除。最常用,应用于测量次 数充分多的情况。
4

粗大误差的剔除的四种准则

粗大误差的剔除的四种准则

粗大误差的剔除的四种准则粗大误差的剔除,哎呀,这可是个大话题,咱们平常做实验、搞研究的时候,常常会碰上那些“调皮捣蛋”的数据,它们就像小孩子一样,总爱跑偏。

今天咱们就聊聊,这四种准则,帮助我们把这些“捣乱分子”踢出局。

先说说第一种准则,大家都知道的——极端值法。

这一招就像是大排档里那些大菜,一眼就能看出来,放眼望去,如果某个数据跟其他的完全不搭调,就该打上“叉”了。

想象一下,大家都在吃水饺,结果你一上来就给大家端了个榴莲,这不就是极端值嘛,果断剔除,谁爱吃谁吃去。

再说说第二种准则,标准差法,听上去挺高大上的,其实也没啥,简单来说,就是把数据的波动性考虑进去。

数据之间要有个“家族感”,如果有某个数据孤零零的站在一边,距离其他数据太远,那可就得考虑是不是有问题了。

就像打麻将,四个人围着,突然你有个五个的牌,那肯定不对劲,哎哟,赶紧检查一下。

接着是第三种准则,啥?比值法,这个可以算是个“盲盒”玩法。

你得看看数据之间的比例关系,假如比例失衡,那就得好好瞅瞅了。

就像你跟朋友一起去喝酒,他喝了十瓶,你才喝了一口,那明显不对嘛,赶紧问问怎么回事。

最后一个,离群值法,名字听起来就很神秘,其实就是识别那些不合群的数据。

生活中总有些人,哪怕人群再热闹,他们的存在感也弱得可怜,像个隐形人。

数据也是一样,如果有某个数据跟大多数差得离谱,就得认真思考,究竟是数据出问题,还是测量的过程出了纰漏。

这四个准则,就像咱们生活中的小规则一样,大家都得遵守。

想想看,如果不把这些“糟心”的数据剔除掉,咱们的结论岂不是跟瞎子摸象一样,摸来摸去,根本不知道对不对。

这就好比大家一起去春游,结果你背了个五十斤的包,别的同学轻装上阵,结果到了目的地,你累得跟条狗似的,整场活动都没法好好玩儿了。

所以啊,剔除粗大误差,绝对是研究工作中的一门艺术,也是科学精神的体现,务必不能马虎。

说到底,数据就像一颗颗珍珠,得把那些不合适的剔除,才能串成一条闪闪发光的项链。

四种判别粗大误差准则的比较与讨论

四种判别粗大误差准则的比较与讨论

除ꎬ后者更为严格 [5] ꎮ 笔者通过阅读文献发现ꎬ
收稿日期: 2017 ̄04 ̄23 基金项目: 广东省教育科研 十二五 规划 2012 年度研究项目(2012JK241) ∗通讯联系人
106
四种判别粗大误差准则的比较与讨论
除ꎮ 莱依达准则一般适用于测量次数较多的情况 1.3㊀ 肖维勒准则 ( n ⩾ 50) ꎮ 对于可疑数据 x m ꎬ若其残差满足 xm - x > ωn S
2㊀ 四种判断粗大误差准则的比较
2.1㊀ 四种判别粗大误差准则的归纳 准则 的 思 维 方 法 可 以 概 括 为: 首 先 求 出 测 量 值 x 1 ꎬx 2 ꎬ������ꎬx n 的样本均值 x 和样本标准差 S ꎬ 对于 第 i 次测量值ꎬ如果满足: x m - x > KS (9) 观察(3) ㊁(4) ㊁(5) 和 (8) 式ꎬ 不难发现ꎬ 四种
ꎻ另一种方式是比较统计临界值ꎬ
1 ð ( xi - x ) n ̄1 1.1㊀ 格拉布斯准则 xm - x

(2)
根据格拉布斯准则 [6ꎬ7] :若统计量 > G ( n ꎬa ) (3) S 则 x m 为异常值ꎬ须剔除ꎮ 式中 G ( nꎬa) 为统 Gm =
计量的临界值ꎬ根据测量次数和取定的显著水平 1.2㊀ 莱依达准则 足下式 a ( 一般为 0.05 或 0.01) ꎬ通过查表 [8] 可知临界值 G ( n ꎬa ) ꎮ 根据莱依达准则 [9] ꎬ测量值 x m 的残余误差满 x m - x > 3S (4) 则认为 x m 是含有粗大误差的异常值ꎬ 须剔
99.7%) ㊁格拉布斯准则( 显著水平为 0.01㊁0.05) ㊁t
㊀ ㊀ 利用 EXCEL 画出莱依达准则 ( 置信概率为 检验法准则( 显著水平为 0.01㊁0.05) 和肖维勒准 则在测量次数落在区间 3 ~ 100 中的 K ̄n 曲线如 图 1 所示

判别粗大误差的准则

判别粗大误差的准则

判别粗大误差的准则引言在测量和统计领域,精确度和准确度是非常重要的概念。

准确度是指测量结果与真实值之间的接近程度,而精确度是指多次测量结果之间的一致性。

然而,在实际应用中,由于各种原因,可能会出现误差,其中包括粗大误差。

粗大误差是指显著偏离真实值的异常观测值或数据点。

它可能由仪器故障、操作失误、环境变化等多种因素引起。

为了保证数据的可靠性和准确性,判别并排除这些粗大误差是必要的。

本文将介绍判别粗大误差的准则,并提供一些常用的方法和技术来检测和处理这些异常观测值。

判别粗大误差的准则1. 样本点与平均值之间的偏离程度判断一个样本点是否为粗大误差可以通过计算其与平均值之间的偏离程度来进行。

常用的方法有使用标准差或者残差来衡量。

•标准差:计算所有样本点与平均值之间的差异,并根据标准差的大小来判断是否为粗大误差。

一般来说,如果一个样本点与平均值之间的差异超过平均差异的两倍或三倍,就可以被视为粗大误差。

•残差:对于回归分析等情况,可以计算每个样本点的残差(观测值与拟合值之间的偏差),并根据残差的大小来判别是否为粗大误差。

通常情况下,如果一个样本点的残差超过平均残差的两倍或三倍,就可以被视为粗大误差。

2. 离群点检测离群点是指在数据集中与其他数据点明显不同的观测值。

离群点可能是由于异常情况、错误测量、记录错误等原因导致。

判别离群点可以使用以下方法:•离群因子(Outlier Factor):通过计算每个观测值周围其他观测值的密度来判断其是否为离群点。

如果一个观测值周围其他观测值的密度较低,则可以被认为是离群点。

•基于距离的方法:通过计算观测值与其他观测值之间的距离来判断其是否为离群点。

如果一个观测值与其他观测值之间的距离明显大于平均距离,则可以被认为是离群点。

•箱线图(Box Plot):通过绘制数据的箱线图来判断是否存在离群点。

箱线图展示了数据的四分位数和异常值,如果一个观测值超过上下四分位数的1.5倍或3倍,可以被视为离群点。

误差理论第二章-3粗大误差处理

误差理论第二章-3粗大误差处理
例题见书P49。
5
§2-4 测量结果的数据处理实例
一、等精度直接测量列测量结果的数据处理实例 例1、对某一轴径等精度测量10次,测得值如下(单位 mm), 26.2025;26.2022;26.2028;26.2025;26.2026;
26.2028;26.2023;26.2025;26.2026;26.2022.
即x 1 x 2 r10 r21
设对一组等精度测量列x1 , x2 , x n x n 1 , x n x 1 x n x n 2 , x n x 2
x n ,当xi 服从正态分布时,得最大值x n 的统计量: r11 r22 x n x n 1 x n x 2 x n x n 2 x n x 3
求最后测量结果。
见备课笔记P25
6
二、不等精度直接测量列测量结果的数据处理 例2、对某一角度进行六组不等精度测量,各组测量结 果如下:
测6次得: 1 751806; 测30次得: 2 751810 测26次得:3 751808; 测12次得: 4 751816 测12次得:5 751813; 44 上的例题
(二)罗曼诺夫斯基准则(t检验准则)测量次数很小时用 当测量次数较少时,按t分布较为合理。先剔除一个可疑的测得 值,按t分布检验被剔除的测量值是否含有粗大误差。
对一等精度测量列,x1 , x2 , 除后计算平均值:
, xn , 若认为xj为可疑数据,将其剔
2
n 1 x xi n 1 i 1,i j
r21
x 1 x 3 x 1 x 3 , r22 x 1 x n 1 x 1 x n 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

粗大误差四种判别准则的比较
粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。

含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。

若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。

因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。

排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。

每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。

目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据。

1.四种判别粗大误差准则的特点
1.1拉伊达准则
拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99.73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。

Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值X、残差vi和标准偏差σ。

若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;
若|Xi- X|≤3σ,则可疑值Xi为正常值,应保留。

把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推。

1.2格拉布斯准则
格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。

其判别方法如下:
先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0, 然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)
若G1≥Gn且G1>G0,则X1应予以剔除;
若Gn≥G1且Gn>G0,则Xn应予以剔除;
若G1<G0且Gn<G0,则不存在“坏值”。

然后用剩下的测量值重新计算平均值和标准偏差,还有G1、Gn和G0,重复上述步骤继续进行判断,依此类推。

1.3肖维勒准则
肖维勒准则是建立在频率p=m/n趋近于概率P{|Xi- X|>Zcσ}的前提下的(其中m是绝对值大于Ecσ的误差出现次数,P是置信概率)。

设等精度且呈正态分布的测量值为Xi,若其残差vi ≥Zcσ则Xi可视为含有粗大误差,此时把读数Xi应舍弃。

把可疑值舍弃后再重新计算和继续使用判别依据判断,依此类推。

1.4狄克逊准则
狄克逊准则是一种用极差比双侧检验来判别粗大误差的准则。

它从测量数据的最值入手,一般取显著性水平a为0.01.此准则的特点是把测量数据划分为四个组,每个组都有相应的极端异常值统计量R1、R2的计算方法,再根据测量次数n和所对应的统计临界系数D(a,n)按照以下方法来判别:
若R1>R2,R1>D(a,n),则判别X1为异常值,应舍弃;
若R2>R1,R2>D(a,n),则应舍弃Xn;
若R1<D(a,n)且R2<D(a,n),则没有异常值。

2.四种判别粗大误差准则的比较
2.1四种判别粗大误差准则的归纳
实际上教学实验中的测量样本大多比较小,四种准则所要求的正态分布前提不容易满足,标准偏差会由于偏离正态分布而不准确。

若不考虑具体的临界系数与置信水平,这四种准则的思维方法都可归纳为:首先计算某组测量值X1,X2,X3……Xn的平均值x、残差vi和标准偏差σ。

对于第i次测量值,如果vi>kσ (2)则可判别为含有粗大误差,其中k为统计临界系数。

狄克逊准则是用极差比来检测异常值的,它的统计临界系数与其他准则不具有可比性。

除狄克逊准则外,作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3≤n≤250的曲线关系,见图1。

2.2四种判别粗大误差准则的比较讨论
拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数,各判别准则的统计临界系数各不相同,以拉伊达准则的统计临界系数3为线索,当n=25时,格拉布斯准则(a=0.01)的统计临界系数刚好到达3以上,而当n=185时,肖维勒准则的统计临界系数刚好也到达3。

因此可把总范围分为以下三个小范围。

(1)在3≤n<25这个范围内,建议用狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据。

在少量样品时,拉伊达准则的统计临界系数相对比较大,不易及时发现异常数据,使用它会比较苛刻。

而肖维勒准则的统计临界系数太小,容易剔除仅含有较大正常误差的测量值。

因此用可一次性剔除多个异常值且无需求出样本平均值X、残差vi和标准偏差σ的狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据是合适的。

(2)在25≤n≤185的范围内,建议用格拉布斯准则(a=0.05)或肖维勒准则来判别可疑数据。

统计临界系数最大的是格拉布斯准则(a=0.01),虽然肖维勒准则的统计临界系数偏小,但在这一范围内肖维勒准则可以补充拉伊达准则的不足,因此判别数据时采用格拉布斯准则(a=0.05)或肖维勒准则比较合适。

(3)在测量次数n>185时,建议采用拉伊达准则。

因为此时肖维勒准则的统计临界系数偏大,在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。

因此,为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息,可以采用以下方法:
判别前最好先按照从小到大排列测量数据。

首先怀疑最值,如果最值不是异常值则其他值也就不会含有粗大误差了。

对此四种准则的综合判别方法,见表1。

表1综合判别方法
结论
综上所述,由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的,它们的检
验范围和判别效果不同,在不同的情况下应用不同的准则的严格程度不同,但不加比较随便使用某一种准则来判别测量值是否含有粗大误差,这样有时会得到相对不准确的结论,可能把仅包含正常误差的可疑值剔除了,或者保留了含有粗大误差的异常值。

本文中的图1直观明了、使用方便,因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依,并使剔除异常数据的效率有所提高,得出相对准确的测量计算结果。

在目前还没有一个适用于所有情况的判别粗大误差的准则,因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。

本文的建议和尝试,仍需理论研究分析和进一步完善。

相关文档
最新文档