可疑值取舍
可疑数据的取舍

可疑数据的取舍同一样品同一组分的多个数据中,在相同条件下进行多次重复分析测试得到的数据,或在不完全相同条件下进行再现分析测试得到的数据,或在标准物质进行分析定值中得到的多个实验室多个分析方法的数据,也有在分析方法精密度试验中得到的多个实验室的数据。
在这些不同类型的各组数据中都表现出数据的集中性,也表现出数据的离散性,但有时也出现极少数数据有偏离得较大的现象。
一般对这些偏离较大的数据称为可疑数据或可疑值,对可疑数据的取舍的方法有技术性的和统计性的。
(一)技术性的取舍从采用的分析方法、分析人员在操作过程中发现异常现象、分析仪器运转是否正常、计算差错、记录差错,环境影响等查找原因,如果确实证明该可疑数据确系上述原因引起的,则认为可疑值为离群数值,并可以作技术性剔除,否则应保留。
(二) 统计检验的取舍在无确切的技术性的原因将可疑数据剔除时,则需进一步用统计性的法则进行检验和取舍。
对测定值或测量值进行统计检验的目的是为了判断所测数据是否来自同一总体,是否存在应剔除的离群值。
统计性检验可疑数据的法则有“4d”检验法、拉依达检验法、“Q”检验法、格拉布斯(Grubbs)检验法、狄克逊(Dixon)检验法和科克伦( Cochran)检验法等,其中最常用的是后三种。
在GB6379-86《测试方法的精密度通过检验室间试验确定标准测试方法的重复性和再现性》中指出,格拉布斯检验和狄克逊检验,都必须分别独立进行。
格拉布斯检验只进行一次。
两种检验结果分别记录在册。
如只发现一个异常值,则取格拉布斯所得的结果;如发现多个异常值,则取狄克逊检验所得的结果。
在中华人民共和国国家计量技术规范(试行)JJG1006-86《一级标准物质》中,在数据服从正态分布的情况下,将每一个实验室的每种测量方法所测数据的平均值视为单次测量值,构成一组新的测量数据,从技术上判断可疑值并予剔除后,用格拉布斯或狄克逊等法则从统计检验剔除可疑值。
在ISO发布的几个文本(IS0-5725-1981、4259-1979、5168-1978)均推荐用狄克逊法则剔除异常值。
可疑数据的取舍

可疑数据的取舍21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。
正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。
因此对可疑数据的取舍必须遵循一定原则。
1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。
(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。
2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ³ Xi -3S。
若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。
该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。
先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2+ … +Xn/ n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z= (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。
如 n a<0.1,则舍弃,>0.1,则不舍弃。
例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。
其中1.85为可疑值,需判断取舍。
计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。
查正态分布表a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。
3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。
数据3-可疑值的取舍

作业: 习题:1、4、9、20
ቤተ መጻሕፍቲ ባይዱ
可疑数据的舍弃
在一组测定值中,常出现个别与其它数据相差很 大的可疑值。如果确定知道此数据由实验差错引起, 可以舍去,否则,应根据一定的统计学方法决定其 取舍。 方法: Q检验法 格鲁布斯法 4 d法
1. Q检验法
步骤如下(3≤ n≤ 10) (1) 将测定值按递增顺序排列:x1,x2,…,xn; (2) 求最大与最小值之差xn-x1; (3)由可疑值与其相邻值之差的绝对值除以极差,求得 Q值:
2. 4 d 检验法
步骤 (1)求可疑值除外的其余数据的平均值和平均偏差 d ; (2)若(可疑值-平均值)的绝对值大于4 d ,则舍去,否 则保留。 例2.用EDTA标准溶液滴定某试液的Zn,平行测定4次,消耗 EDTA标液的体积(mL)分别为:26.37,26.41,26.44, 26.42,试问26.37这个数据是否保留? • 该法不必查表,比较简单,故仍为人们采用。
Q
X疑 X邻
?可疑值是哪个
X 最大 X 最小
Q值愈大,表明可疑值离群愈远,当Q值超过一定界限 时应舍去。 (4)依据n和要求的置信度,查表1-4得Q值,比较Q表与 Q计判断,当Q计≥Q表,该可疑值应舍去,否则应保留.
例1,平行测定盐酸浓度(mol/l),结果为0.1014, 0.1021,0.1016,0.1013。试问0.1021在置信度为 90%时是否应舍去。 解: (1)排序:0.1013, 0.1014, 0.1016, 0.1021 (2)Q=(0.1021-0.1016)/(0.1021-0.1013)=0.63 (3)查表1-4,当n=4, Q0.90=0.76 因Q计=0.63< Q0.90=0.76, 故0.1021不应舍去。
可疑数据的取舍方法

离群数据的筛选可以使用下列方法一、拉依达法又称3倍标准偏差法,简称3S法。
当某一测量数据与其测量结果的算术平均值之差大于3倍标准偏差时,用公式表示为:则该测量数据应舍弃。
二、肖维纳特法以概率1/2n设定一判定范围(-KnS,KnS),当偏差超出该范围时,就应该舍去。
判别范围由下式确定:Kn:肖维纳特系数与试验次数n有关。
如下表:肖维特系数表2-0-1n Kn n Kn n Kn n Kn n Kn n Kn3 1.388 1.8613 2.0718 2.2023 2.3050 2.584 1.539 1.9214 2.1219 2.2224 2.3175 2.715 1.6510 1.9615 2.1320 2.2425 2.33100 2.816 1.7311 2.0016 2.1521 2.2630 2.39200 3.027 1.8012 2.0317 2.1722 2.2840 2.49500 3.20因此肖维特法可疑数据舍弃的标准为:三、格拉布斯法将Xi 按值从小到大排列如下:给出标准化顺序统计量g :最小值X1可疑,最大值Xn 可疑,为:格拉布斯法的判别标准为:g > g[n][p]格拉布斯表——临界值GP (n )Pn0.95 0.99 Pn0.95 0.99 3 1.135 1.155 17 2.475 2.785 4 1.463 1.492 18 2.504 2.821 5 1.672 1.749 19 2.532 2.854 61.8221.944202.5572.8847 1.938 2.097 21 2.580 2.9128 2.032 2.231 22 2.603 2.9399 2.110 2.323 23 2.624 2.96310 2.176 2.410 24 2.644 2.98711 2.234 2.485 25 2.663 3.00912 2.285 2.550 30 2.745 3.10313 2.331 2.607 35 2.811 3.17814 2.371 2.659 40 2.866 3.24015 2.409 2.705 45 2.914 3.29216 2.443 2.747 50 2.956 3.336。
工业分析技术专业《知识点8 分析结果可疑值的取舍》

分析结果可疑值的取舍在常量分析实验中,一般对单个试样试液平行测定2~3次,此时测定结果可作如下简单处理:计算出相对平均偏差,假设其相对平均偏差≤%,可认为符合要求,取其平均值报出测定结果,否那么需重做。
对要求非常准确的分析,如标准试样成分的测定,考核新拟定的分析方法,对同一试样,往往由于实验室不同或操作者不同,做出的一系列测定数据会有差异,因此需要用统计的方法进行结果处理。
首先把数据加以整理,剔除由于明显原因而与其它测定结果相差甚远的错误数据,对于一些精密度似乎不甚高的可疑数据,那么按本节所述的Q 检验或根据实验要求,按照其它有关规那么决定取舍,然后计算n 次测定数据的平均值x 与标准偏差S ,有了x 、s 、n 这三个数据,即可表示出测定数据的集中趋势和分散情况,就可进一步对总体平均值可能存在的区间作出估计。
一、数据集中趋势的表示方法根据有限次测定数据来估计真值,通常采用算术平均值或中位数来表示数据分布的集中趋势。
1.算术平均值x对某试样进行规次平行测定,测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性,绝对值相等的正、负误差出现的概率相等,所以算术平均值至是真值的最正确估计值。
当测定次数无限增多时,所得的平均值即为总体平均值μ。
μ=∑=∞→ni i n n x 11)(lim 2.中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。
当测定次数规为奇数时,位于序列正中间的那个数值,就是中位数;当测定次数规为偶数时,中位数为正中间相邻的两个测定值的平均值。
中位数不受离群值大小的影响,但用以表示集中趋势不如平均值好,通常只有当平行测定次数较少而又有离群较远的可疑值时,才用中位数来代表分析结果。
二、数据分散程度的表示方法随机误差的存在影响测量的精密度,通常采用平均偏差或标准偏差来表示数据的分散程度。
1.平均偏差d计算平均偏差d 时,先计算各次测定对于平均值的偏差:d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值:d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是:%100⨯xd2.标准偏差标准偏差又称均方根偏差。
第三节可疑数据的取舍方法

第三节可疑数据的取舍方法在一组条件完全相同的重复试验中,个别的测量值可能会出现异常。
如测量值过大或过小,这些过大或过小的测量数据是不正常的,或称为可疑的。
对于这些可疑数据应该用数理统计的方法判别其真伪,并决定取舍。
常用的方法有拉依达法、肖维纳特(Chavenet)法。
格拉布斯(Grubbs)法等。
一、拉依达法当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑数据取舍的标准。
当某一测量数据(x i)与其测量结果的算术平均值(x-‘)之差大于3倍标准偏差时,用公式表示为:︳x i-x-‘︳>3S则该测量数据应舍弃。
这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。
取3S的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在 x-‘一3S 与x-‘十3S之间的概率为%,出现在此范围之外的概率仅为%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。
因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即︳x i-x-‘︳> 2S)时,则该测量值应保留,但需存疑。
如发现生产(施工)、试验过程屯有可疑的变异时,该测量值则应予舍弃。
拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。
二、肖维纳特法进行n次试验,其测量值服从正态分布,以概率1/(2n)设定一判别范围(一k n S,k n S),当偏差(测量值x i与其算术平均值x-‘之差)超出该范围时,就意味着该测量值x i是可疑的,应予舍弃。
判别范围由下式确定:肖维纳特法可疑数据舍弃的标准为:︳x i一x-‘︳/S≥k n三、格拉布斯法格拉布斯法假定测量结果服从正态分布,根据顺序统计量来确定可疑数据的取舍。
可疑数据的取舍方法区别

格拉布斯法假定测量结果服从正态分布,根据顺序统计
量来确定可疑数据的取舍。
进行n次重复试验,试验结果为x1、x2、…、xi、…、
xn ,而且xi服从正态分布。
为了检验 (i=1,2,…,n)中是否有可疑值,可将 按
其值由小到大顺序重新排列,
根据顺序统计原则,给出标准化顺序统计量g:
当最小值x(1)可疑时,则:
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 (x-‘)之差大于3倍标准偏差时,用公式表示为:
︳xi -x-‘︳>3S 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 差作为判别标准,所以亦称3倍标准偏差法,简称3S法。 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为99.73%,出现在此范围 之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差(即 ︳xi -x-‘︳> 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 组测量值中即使混有异常值,也无法舍弃。
g=( x-‘一x(1) )/S
当最大值x(n)可疑时,则:
g=( x(n) 一 x-‘ )/S
根据格拉布斯统计量的分布,在指定的显著性水平β
可疑数据的取舍

三、格拉布斯法
如果
xk x g0,nS
则将xk剔除 go(α、n)是一个与样本容量n与给的那个的检验
水平有关的系数。
在指定的显著性水平α(一般α=0.05)下,可根
据正态分布表,查表求得。
三、格拉布斯法
例:1.3-4试用格拉布斯法判别例1.3-2测量数据的真伪。
利用上述三种方法每次只能舍弃一个可疑值,
若有两个以上的可疑数据,应该一个一个数据地舍弃, 舍弃第一个数据后,试验次数由n变为n-1,以此为基础 再判别第二个可疑数据。
工 程 检 测 实 务
∣xmin– x ∣=∣23.0-25.8∣= 2.8MPa <3S = 6.3MPa 故上述测量数据均不能舍弃。
二、肖维纳特法
进行n次试验,其测量值服从正态ห้องสมุดไป่ตู้布,以概率,
1/(2n)设定一判别范围( -kxS,kx S ),当偏差
(测量值xi与其算术平均值之差)超出该范围时,就意 味着该测量值xi是可疑的,应予舍弃。即
如果 xk x kxS
则将xk剔除 式中:kx——肖维纳特系数,与试验次数n有关,可由 正态分布系数表查得
二、肖维纳特法
二、肖维纳特法
例1.3-3 试验结果同上例,试用肖维纳特法进行判别。 解:查表,当n=10时,kx=1.96。对于测量值31.0,则 有:
xi x 31.0 25.8 5.2 kxS 4.1
一、拉依达法
4.另外,当测量值与平均值之差大于2倍标准偏差
(即│ xI— x │>2S)时,则该测量值应保留,但需
存疑。如发现生产(施工)、试验过程中,有可疑的变 异时,该测量值则应予舍弃。
5.拉依达法简单方便,不需查表,但要求较宽,当 试验检测次数较多或要求不高时可以应用,当试检测次 数较少时(如n<10),在一组测量值中即使混有异常值, 也无法舍弃。