四种判别粗大误差准则的比较与讨论

合集下载

粗大误差判别准则在H—ADCP流速关系率定中的应用比较

粗大误差判别准则在H—ADCP流速关系率定中的应用比较

粗大误差判别准则在H—ADCP流速关系率定中的应用比较【摘要】在现代流量测验过程中,声学多普勒流速剖面仪(Acoustic Doppler Current Profiler)简称为ADCP,因具有高效、经济、快速、精确的特点,得到广泛应用。

其中水平式ADCP(H-ADCP)则是通过测量代表流层的流速,进而推算得到断面流量。

因H-ADCP本身测验方法的限制,在代表流速关系率定时,存在粗大误差的可能,使得关系线偏离,最终导致流量测验准确度降低。

本文将以粗大误差判别的几种准则为切入点,分析和比较其在H-ADCP流速关系率定中的应用。

【关键词】流量测验;粗大误差;水平式ADCPA Comparative Investigation on Application of Gross Error Criterion in H-ADCP Calibration of Velocity RelationsAbstracts:In the process of contemporary discharge measurement,Acoustic Doppler Current Profiler (ADCP)has been widely applied,as it owns such features as high efficiency,low cost,rapid speed,and precise accuracy. Among which,Horizontal Acoustic Doppler Current Profiler (H-ADCP)can calculate the section flows by means of testing the velocity of representative flow layer. However,due to the limitation of the H-ADCP,the calibration of representative velocity relations shows the possibility of gross error,which leads to the departure of relations curve. In this case,the accuracy of discharge measurement will be diminished. This investigation will be carried out from the standards of gross error evaluation,and its application in H-ADCP calibration of velocity relations will be analyzed and compared.Keyword:Discharge Measurement;Gross Error;H-ADCP1、引言声学多普勒流速剖面仪(Acoustic Doppler Current Profiler)简称为ADCP,它利用多普勒效应原理进行流速测量。

粗大误差

粗大误差

计算标准差及算 术平均值标准差
ˆ x
测量结果
x limx x t x
二、不等精度测量数据处理一般步骤: 假定不存在系差和粗差 1 确定各组(测量值)权值
1 1 p1 : p 2 : : p m 2 : 2 : : 2 1 2 m
加权算术平均值
x
p x
i 1 m i
m
i
p
i 1
测量结果
i
加权算术平均值标准差
pi
pi v 2 x i
i 1 m
x limx x t x
x ) pi
i 1
m
| vd || xd x | 3
则可认为该数据含有粗大误差,应予以剔除。 (二)罗曼诺夫斯基准则
原理简单
特点
适合测量次数较少的情况
当测量次数较少时,按 t 分布确定臵信系数,判别 粗差较为合理。 若
x j x t
则认为测量值该值含有粗大误差,应予剔除。
n
4 5 6 0.05 0.01 n 0.05 0.01 n 0.05 0.01
4.97 3.56 3.04
11.46 6.53 5.04
13 14 15
2.29 2.26 2.24
3.23 3.17 3.12
22 23 24
2.14 2.13 2.12
2.91 2.90 2.88
7
8 9 10 11 12
2.78
2.62 2.51 2.43 2.37 2.33
4.36
3.96 3.71 3.54 3.41 3.31
r0 (n, a)
0.641 0.616 0.595 0.577 0.561 0.547 0.535 0.524 0.514 0.505 0.497 0.489 0.546 0.525 0.507 0.490 0.475 0.462 0.450 0.440 0.430 0.421 0.413 0.406

粗大误差四种判别准则的比较

粗大误差四种判别准则的比较

粗大误差四种判别准则的比较粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。

含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。

若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。

因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。

排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。

每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。

目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据。

1.四种判别粗大误差准则的特点1.1拉伊达准则拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99.73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。

Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值 X、残差vi和标准偏差σ。

若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;若|Xi- X|≤3σ,则可疑值Xi为正常值,应保留。

把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推。

1.2格拉布斯准则格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。

其判别方法如下:先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0, 然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)若G1≥Gn且G1>G0,则X1应予以剔除;若Gn≥G1且Gn>G0,则Xn应予以剔除;若G1<G0且Gn<G0,则不存在“坏值”。

笔记五、粗大误差的处理方法

笔记五、粗大误差的处理方法

1 n xi n 1 i 1
i j
v
标准差
i 1 i j
n
2
i
n 1 根据测量次数 n,选取显著度 ,查表得到检验系数
K (n, ) ,若被剔除测量值 x j 满足如下:
x j x K ,则认为含有粗大误差,剔除 x j 是正确的
例子 2:试用此法判断上述例子 1 中的测量值中有无粗大误差?
查表,显著度 =0.05 ,统计临界值 r0 (n, ) r0 (14,0.05) 0.546 判断最大值 x (14) : r22
'
x( n ) x( n2) x( n ) x(3)

x '(14) x '(12) x (14) x (3)
' '

20.43 20.43 0 20.43 20.39
'
x(n) x
'

'

20.43 20.411 1.18 0.016
查表得 g(0) (15-1,0.05) 2.37 g(15) 1.18 则 x(15) 不含有粗大误差,应保留。 ➢ 狄克松准则 适用范围:测量次数少,但可靠性要求高。 优点:判断测量列中的粗大误差的速度较快 判别方法: 测量值: x1 , x2 ,...xn ;次数为 n 将测量值按照从小到大排列: x(1) , x(2) ,...x( n) 选定显著度 (一般为 0.01 或 0.05) ,查表得到临界统计量
判别 r22 0 r0 (15,0.05) 0.525 ,故 x '(14) 不含粗大误差,应保留 判断最小值 x '(1) : r22

1.2.3 粗大误差判别

1.2.3 粗大误差判别
2
1.2.3 粗大误差判别
肖维勒准则:假设多次重复测量所得n个测量 值中, 某个测量值的残余误差|vi|>Zcσ,则剔 除此数据。实用中Zc<3, 所以在一定程度上弥 补了3σ准则的不足。
3
1.2.3 粗大误差判别
格拉布斯准则:某个测量值的残余误差的绝对值|vi| >Gσ, 则判断此值中含有粗大误差,据中某个测量值的残余误差的绝对值v则该测量值为可疑值坏值应剔除
1.2.3 粗大误差判别
1. 3σ准则 2. 肖维勒准则 3. 格拉布斯准则
1
1.2.3 粗大误差判别
3σ准则(莱以达准则):如果一组测量数据中某个 测量值的残余误差的绝对值|vi|>3σ时, 则该测量值 为可疑值(坏值), 应剔除。最常用,应用于测量次 数充分多的情况。
4

粗大误差的检验与坏值的剔除

粗大误差的检验与坏值的剔除

变值系统误差存在与否的检验(续)
3用阿贝准则检验 按测量先后顺序排列测量值, 按测量先后顺序排列测量值,求出测量 列标准残差估计值S 列标准残差估计值S,计算统计量
C = ∑ vi vi +1
i =1 =1
n −1

C > n −1 × S
2
则可以认为该测量列中含有周期性系统 误差。 误差。
例题
格拉布斯准则临界值T(n,a)表 , 表 格拉布斯准则临界值
0.05 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1.153 1.463 1.672 1.822 1.938 2.032 2.110 2.176 2.234 2.285 2.331 2.371 2.409 2.443 0.01 1.155 1.492 1.749 1.944 2.097 2.221 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747 17 18 19 20 21 22 23 24 25 30 35 40 45 50 0.05 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.745 2.811 2.866 2.914 2.956 0.01 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336
vi = xi − Байду номын сангаас > 3σ
_
故又称为3Ơ准则,实际使用时标准误差 可用其估计值 代替。 可用其估计值S代替 故又称为 准则,实际使用时标准误差Ơ可用其估计值 代替。 准则 按上述准则剔除坏值后, 按上述准则剔除坏值后,应重新计算提出坏值后测量列的算术平均 值和标准误差估计值S,再行判断,直至余下测量值中无坏值存在。 值和标准误差估计值 ,再行判断,直至余下测量值中无坏值存在。 准则判断粗大误差的存在, 用3Ơ准则判断粗大误差的存在,虽然方法简单,但它是依据正 准则判断粗大误差的存在 虽然方法简单, 态分布得出的。当子样容量不很大时,由于所取界限太宽, 态分布得出的。当子样容量不很大时,由于所取界限太宽,坏值不 能剔除的可能性较大。特别是当子样容量n<10时,尤其严重,所以 能剔除的可能性较大。特别是当子样容量 时 尤其严重, 目前都推荐使用以t分布为基础的格拉布斯准则。 目前都推荐使用以 分布为基础的格拉布斯准则。 分布为基础的格拉布斯准则 二、格拉布斯准则 将重复测量值按大小顺序重新排列, 将重复测量值按大小顺序重新排列,

粗大误差的剔除的四种准则

粗大误差的剔除的四种准则

粗大误差的剔除的四种准则粗大误差的剔除,哎呀,这可是个大话题,咱们平常做实验、搞研究的时候,常常会碰上那些“调皮捣蛋”的数据,它们就像小孩子一样,总爱跑偏。

今天咱们就聊聊,这四种准则,帮助我们把这些“捣乱分子”踢出局。

先说说第一种准则,大家都知道的——极端值法。

这一招就像是大排档里那些大菜,一眼就能看出来,放眼望去,如果某个数据跟其他的完全不搭调,就该打上“叉”了。

想象一下,大家都在吃水饺,结果你一上来就给大家端了个榴莲,这不就是极端值嘛,果断剔除,谁爱吃谁吃去。

再说说第二种准则,标准差法,听上去挺高大上的,其实也没啥,简单来说,就是把数据的波动性考虑进去。

数据之间要有个“家族感”,如果有某个数据孤零零的站在一边,距离其他数据太远,那可就得考虑是不是有问题了。

就像打麻将,四个人围着,突然你有个五个的牌,那肯定不对劲,哎哟,赶紧检查一下。

接着是第三种准则,啥?比值法,这个可以算是个“盲盒”玩法。

你得看看数据之间的比例关系,假如比例失衡,那就得好好瞅瞅了。

就像你跟朋友一起去喝酒,他喝了十瓶,你才喝了一口,那明显不对嘛,赶紧问问怎么回事。

最后一个,离群值法,名字听起来就很神秘,其实就是识别那些不合群的数据。

生活中总有些人,哪怕人群再热闹,他们的存在感也弱得可怜,像个隐形人。

数据也是一样,如果有某个数据跟大多数差得离谱,就得认真思考,究竟是数据出问题,还是测量的过程出了纰漏。

这四个准则,就像咱们生活中的小规则一样,大家都得遵守。

想想看,如果不把这些“糟心”的数据剔除掉,咱们的结论岂不是跟瞎子摸象一样,摸来摸去,根本不知道对不对。

这就好比大家一起去春游,结果你背了个五十斤的包,别的同学轻装上阵,结果到了目的地,你累得跟条狗似的,整场活动都没法好好玩儿了。

所以啊,剔除粗大误差,绝对是研究工作中的一门艺术,也是科学精神的体现,务必不能马虎。

说到底,数据就像一颗颗珍珠,得把那些不合适的剔除,才能串成一条闪闪发光的项链。

粗大误差理论

粗大误差理论

n
v
2 i
i1
n 2
根据测量次数n和选取的显著度 ,即可由表查得t分布的
检误验差系,数剔K除(n,x。是j)若正确xj的 x,,则否K认则为认测为量不值x j含含有有粗粗x大j 大误差,
应予保留。
3、格罗布斯准则
设对某量作多次等精度独立测量,得 x1,x2,...x,n
当x 服j 从正态分布时,计算
随机误差在一定的置信概率下的确定置信限
2、防止与消除粗差的办法 对粗差,除了设法从测量结果中发现和鉴别
而加以剔除外,更重要的是要加强测量者的工 作责任心和以严格的科学态度对待测量工作; 此外,还要保证测量条件的稳定,或者应避免 在外界条件发生激烈变化时进行测量。如能达 到以上要求,一般情况下是可以防止粗差产生 的。
◆罗曼诺夫斯基准则又称t检验准则,其特点是首先剔除一 个可疑的测得值,然后按t分布检验被剔除的测得值是否 含有粗大误差。
设对某量作多次等精度独立测量,得
x1,x2,...x,n
若认为测量值
x
为可疑数据,将其剔除后计算平均值(计
j
x 算时不包括 j)
x
1 n 1
n i 1
xi
i j
并求得测量列的标准差(计算时不包括vj x)j x
x
1 n
x
vi xi x
v2
n 1
为了检验 xi(i1,2中,..是.n,)否存在粗大误差,将 按大x小i 顺
序排列成顺序统计量 x i, 而 x1x2.. .xn
格罗布斯导出了gn xn及 x
g的1 分x布x,1 取定显著
度 (一般为或),可以得到格罗布斯系数
g0(n,)

P(xnxg0(n,))
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

除ꎬ后者更为严格 [5] ꎮ 笔者通过阅读文献发现ꎬ
收稿日期: 2017 ̄04 ̄23 基金项目: 广东省教育科研 十二五 规划 2012 年度研究项目(2012JK241) ∗通讯联系人
106
四种判别粗大误差准则的比较与讨论
除ꎮ 莱依达准则一般适用于测量次数较多的情况 1.3㊀ 肖维勒准则 ( n ⩾ 50) ꎮ 对于可疑数据 x m ꎬ若其残差满足 xm - x > ωn S
2㊀ 四种判断粗大误差准则的比较
2.1㊀ 四种判别粗大误差准则的归纳 准则 的 思 维 方 法 可 以 概 括 为: 首 先 求 出 测 量 值 x 1 ꎬx 2 ꎬ������ꎬx n 的样本均值 x 和样本标准差 S ꎬ 对于 第 i 次测量值ꎬ如果满足: x m - x > KS (9) 观察(3) ㊁(4) ㊁(5) 和 (8) 式ꎬ 不难发现ꎬ 四种
ꎻ另一种方式是比较统计临界值ꎬ
1 ð ( xi - x ) n ̄1 1.1㊀ 格拉布斯准则 xm - x

(2)
根据格拉布斯准则 [6ꎬ7] :若统计量 > G ( n ꎬa ) (3) S 则 x m 为异常值ꎬ须剔除ꎮ 式中 G ( nꎬa) 为统 Gm =
计量的临界值ꎬ根据测量次数和取定的显著水平 1.2㊀ 莱依达准则 足下式 a ( 一般为 0.05 或 0.01) ꎬ通过查表 [8] 可知临界值 G ( n ꎬa ) ꎮ 根据莱依达准则 [9] ꎬ测量值 x m 的残余误差满 x m - x > 3S (4) 则认为 x m 是含有粗大误差的异常值ꎬ 须剔
99.7%) ㊁格拉布斯准则( 显著水平为 0.01㊁0.05) ㊁t
㊀ ㊀ 利用 EXCEL 画出莱依达准则 ( 置信概率为 检验法准则( 显著水平为 0.01㊁0.05) 和肖维勒准 则在测量次数落在区间 3 ~ 100 中的 K ̄n 曲线如 图 1 所示
[8ꎬ10 ̄12]
犯这类错误的概率为 β ꎬ 并把 (1 ̄β) 称为功效函 数ꎬ功效函 数 的 值 大 就 说 检 验 功 效 高 [13] ꎮ 根 据 (9) 式ꎬ 可以得出临界系数 K 越小ꎬ 概率 β 就越 小ꎬ (1 ̄β) 就越大ꎬ对应准则的检验功效越高ꎮ 如 图 1 所示ꎬ四种数据剔除准则的显著水平都满足 5%ꎬ比较法则的优劣只需比较功效函数ꎻ 临界系 数 K 越小ꎬ数据剔除准则越优ꎮ 根据图 1ꎬ以莱依 达准则系数和其他准则系数的大小关系为依据把 a £0. 05ꎬ 即 把 正 常 值 判 为 异 常 值 的 概 率 都 低 于
0.05或 0.01) ꎬ即可查表 [10ꎬ12] 得 t 检验准则的检验 系数 K ( nꎬa) ꎮ 若 x m - xᶄ > K ( nꎬa) Sᶄ (8)

[10]
则认为 x m 是含有粗大误差的异常值ꎬ 应剔 ꎮ 式 中 ω n 为 肖 维 勒 系 数ꎬ 通 过 查 表
[11]
(5)
剔除 [10] ꎮ
(1)

前人以莱依达准则的统计临界值为线索ꎬ 指出测 量次数落在 3 ~ 25 这个范围内用狄克逊准则或 格拉布斯准则( a = 0. 01) ꎬ在 25 ~ 185 的范围内 用格拉布斯准则( a = 0. 05) 或肖维勒准则ꎬ 当测 量次数 n ⩾ 185 时用莱依达准则 [3] ꎮ 另有文献指 出格拉布斯准则适用于 n £20 的情况ꎬ t 检验准则 适用于测量次数较少的情况 [4] ꎮ t 检验准则是对 格拉布斯准则的改进ꎬ 已有文献证明了能被格拉 布斯准则剔除的异常值肯定能被 t 检验准则剔 目前对判别粗大误差的讨论和选择还没有形成定 论ꎬ仍有进行相关研究的价值ꎮ 由于实验测量数据一般落在区间 3 ~ 100ꎬ本
把异常值当作正常值留下都不能得到可靠的实验 结果ꎬ剔除数据过程必须十分谨慎ꎮ 含有粗大误 差的实验数据称为异常值ꎬ 需要选择合适的判别 粗大误差的准则剔除异常值ꎮ 相同ꎬ主要有两种方式:从准则的定义出发进行讨 论ꎬ已有文献从定义出发指出莱依达准则适用于 测量于 n £20 20 ~ 100㊁格拉布斯准则适用于 n £25㊁t 检验准则
要: 目前用于判别含有粗大误差的异常值的准则有多种ꎬ 本文将对格拉布斯准则㊁ 莱依达准
㊀ ㊀ 在实验过程中ꎬ由于实验者读错数据㊁记错数 据和操作不当等因素造成实验数据含有粗大误 差ꎬ从而使实验结果精度受到影响ꎬ无法得出科学 的结论
[1]
文将在该区间对格拉布斯准则㊁莱依达法准则㊁肖 维勒准则和 t 检验准则四种数据剔除方法进行 讨论ꎮ
则认 为 x m 是 含 有 粗 大 误 差 的 异 常 值ꎬ 应 选择上述任一种法则把异常值剔除后ꎬ 重复
1.4㊀ t 检验准则
可知ꎮ
上述步骤进行判断ꎮ
算余下数据的平均值( 不含 x m ) xᶄ = 1 ð x n - 1i = 1ꎬiʂm i
n ㊀
对于 t 检验准则ꎬ 若认为 x m 是可疑数据ꎬ 计 (6)

则㊁肖维勒准则和 t 检验准则四种粗大误差剔除准则在实验测量次数落在 3 ~ 100 的情况下的选择讨 论ꎬ给出测量次数落在区间 3 ~ 100 判断准则的选择意见ꎮ 关 键 中图分类号: O 241.1 词: 粗大误差ꎻ数据剔除ꎻ异常值ꎻ判别准则 文献标志码: A DOI:10.14139 / j.cnki.cn22 ̄1228.2017.005.028
并求得测量值的标准差( 不含 v m = x m  ̄ xᶄ ) Sᶄ = vi ð i=1 n ̄2
n 2
根据测量 次 数 和 选 取 的 显 著 度 a ( 一 般 为
(7)
系数 [3] ꎮ
则可以 判 断 x m 为 异 常 值ꎬ 其 中 K 为 临 界
图 1㊀ 莱依达准则㊁格拉布斯准则㊁t 检验准则和肖维勒准则在 3 £n £100 的临界系数对比
[2]
ꎮ 如果把正常值当做异常值剔除或者
1㊀ 判断粗大误差的四种准则
中 x m ( 是 x min 或 x max 之一) 为可疑值ꎬ先求出样本 均值 x 和标准偏差 S : 1 x = ð xi n S=

已知正态样本的一组测量值 x 1 ꎬx 2 ꎬ������ꎬx n ꎬ其
目前对于判别粗大误差准则的讨论依据各不
第 30 卷 第 5 期 2017 年 10 月
PHYSICAL EXPERIMENT OF COLLEGE






Vol.30 No.5 Oct.2017
文章编号:1007 ̄2934(2017)05 ̄0105 ̄03
四种判别粗大误差准则的比较与讨论
赵海霞ꎬ周少娜ꎬ肖㊀ 化 ∗
( 华南师范大学ꎬ广东 广州㊀ 510006)
相关文档
最新文档