可疑数据的取舍

合集下载

数据3-可疑值的取舍

数据3-可疑值的取舍

作业: 习题:1、4、9、20
ቤተ መጻሕፍቲ ባይዱ
可疑数据的舍弃
在一组测定值中,常出现个别与其它数据相差很 大的可疑值。如果确定知道此数据由实验差错引起, 可以舍去,否则,应根据一定的统计学方法决定其 取舍。 方法: Q检验法 格鲁布斯法 4 d法
1. Q检验法
步骤如下(3≤ n≤ 10) (1) 将测定值按递增顺序排列:x1,x2,…,xn; (2) 求最大与最小值之差xn-x1; (3)由可疑值与其相邻值之差的绝对值除以极差,求得 Q值:
2. 4 d 检验法
步骤 (1)求可疑值除外的其余数据的平均值和平均偏差 d ; (2)若(可疑值-平均值)的绝对值大于4 d ,则舍去,否 则保留。 例2.用EDTA标准溶液滴定某试液的Zn,平行测定4次,消耗 EDTA标液的体积(mL)分别为:26.37,26.41,26.44, 26.42,试问26.37这个数据是否保留? • 该法不必查表,比较简单,故仍为人们采用。
Q
X疑 X邻
?可疑值是哪个
X 最大 X 最小
Q值愈大,表明可疑值离群愈远,当Q值超过一定界限 时应舍去。 (4)依据n和要求的置信度,查表1-4得Q值,比较Q表与 Q计判断,当Q计≥Q表,该可疑值应舍去,否则应保留.
例1,平行测定盐酸浓度(mol/l),结果为0.1014, 0.1021,0.1016,0.1013。试问0.1021在置信度为 90%时是否应舍去。 解: (1)排序:0.1013, 0.1014, 0.1016, 0.1021 (2)Q=(0.1021-0.1016)/(0.1021-0.1013)=0.63 (3)查表1-4,当n=4, Q0.90=0.76 因Q计=0.63< Q0.90=0.76, 故0.1021不应舍去。

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择[摘要]在实际工作中,常常会遇到一组平行测定中有个别数据的精密度不甚高的情况,该数据与平均值之差是否属于偶然误差是可疑的。

实验结果对可疑数据的取合很重要。

而且对可检验疑数据取合过程中方法的选择也很重要。

[关键词]可疑数据、取合、方法选择中图分类号:u415.1 文献标识码:a 文章编号:1009-914x(2013)05-0310-01前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。

如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。

实验结果可疑数据的取合方法很多:包括q值检验法、格鲁布斯检验法、t值检验法、f检验法等等,下面借一组数据只对q检验法、格鲁布斯检验法进行对比。

看哪种方法更适合实验室应用。

1.数据整理首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。

2.置信度与平均值的置信区间有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。

通常化学分析中要求置信度95%。

测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。

3.实验结果可疑数据的取舍方法对比可疑数据的取合是对过失误差的判断,常用方法有q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。

工业分析技术专业《知识点8 分析结果可疑值的取舍》

工业分析技术专业《知识点8 分析结果可疑值的取舍》

分析结果可疑值的取舍在常量分析实验中,一般对单个试样试液平行测定2~3次,此时测定结果可作如下简单处理:计算出相对平均偏差,假设其相对平均偏差≤%,可认为符合要求,取其平均值报出测定结果,否那么需重做。

对要求非常准确的分析,如标准试样成分的测定,考核新拟定的分析方法,对同一试样,往往由于实验室不同或操作者不同,做出的一系列测定数据会有差异,因此需要用统计的方法进行结果处理。

首先把数据加以整理,剔除由于明显原因而与其它测定结果相差甚远的错误数据,对于一些精密度似乎不甚高的可疑数据,那么按本节所述的Q 检验或根据实验要求,按照其它有关规那么决定取舍,然后计算n 次测定数据的平均值x 与标准偏差S ,有了x 、s 、n 这三个数据,即可表示出测定数据的集中趋势和分散情况,就可进一步对总体平均值可能存在的区间作出估计。

一、数据集中趋势的表示方法根据有限次测定数据来估计真值,通常采用算术平均值或中位数来表示数据分布的集中趋势。

1.算术平均值x对某试样进行规次平行测定,测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性,绝对值相等的正、负误差出现的概率相等,所以算术平均值至是真值的最正确估计值。

当测定次数无限增多时,所得的平均值即为总体平均值μ。

μ=∑=∞→ni i n n x 11)(lim 2.中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。

当测定次数规为奇数时,位于序列正中间的那个数值,就是中位数;当测定次数规为偶数时,中位数为正中间相邻的两个测定值的平均值。

中位数不受离群值大小的影响,但用以表示集中趋势不如平均值好,通常只有当平行测定次数较少而又有离群较远的可疑值时,才用中位数来代表分析结果。

二、数据分散程度的表示方法随机误差的存在影响测量的精密度,通常采用平均偏差或标准偏差来表示数据的分散程度。

1.平均偏差d计算平均偏差d 时,先计算各次测定对于平均值的偏差:d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值:d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是:%100⨯xd2.标准偏差标准偏差又称均方根偏差。

可疑数据的取舍

可疑数据的取舍

三、格拉布斯法
如果
xk x g0,nS
则将xk剔除 go(α、n)是一个与样本容量n与给的那个的检验
水平有关的系数。
在指定的显著性水平α(一般α=0.05)下,可根
据正态分布表,查表求得。
三、格拉布斯法
例:1.3-4试用格拉布斯法判别例1.3-2测量数据的真伪。
利用上述三种方法每次只能舍弃一个可疑值,
若有两个以上的可疑数据,应该一个一个数据地舍弃, 舍弃第一个数据后,试验次数由n变为n-1,以此为基础 再判别第二个可疑数据。
工 程 检 测 实 务
∣xmin– x ∣=∣23.0-25.8∣= 2.8MPa <3S = 6.3MPa 故上述测量数据均不能舍弃。
二、肖维纳特法
进行n次试验,其测量值服从正态ห้องสมุดไป่ตู้布,以概率,
1/(2n)设定一判别范围( -kxS,kx S ),当偏差
(测量值xi与其算术平均值之差)超出该范围时,就意 味着该测量值xi是可疑的,应予舍弃。即
如果 xk x kxS
则将xk剔除 式中:kx——肖维纳特系数,与试验次数n有关,可由 正态分布系数表查得
二、肖维纳特法
二、肖维纳特法
例1.3-3 试验结果同上例,试用肖维纳特法进行判别。 解:查表,当n=10时,kx=1.96。对于测量值31.0,则 有:
xi x 31.0 25.8 5.2 kxS 4.1
一、拉依达法
4.另外,当测量值与平均值之差大于2倍标准偏差
(即│ xI— x │>2S)时,则该测量值应保留,但需
存疑。如发现生产(施工)、试验过程中,有可疑的变 异时,该测量值则应予舍弃。
5.拉依达法简单方便,不需查表,但要求较宽,当 试验检测次数较多或要求不高时可以应用,当试检测次 数较少时(如n<10),在一组测量值中即使混有异常值, 也无法舍弃。

可疑数据的取舍方法

可疑数据的取舍方法

可疑数据的取舍方法当我们进行数据分析或研究时,经常会遇到一些可疑数据,这些数据可能是错误的、异常的或者无意义的。

在分析中使用这些可疑数据可能会导致错误的结论或误导。

因此,正确地挑选和处理可疑数据是非常重要的。

以下是一些可疑数据的取舍方法:1. 数据质量检查:首先,我们应该对数据进行质量检查,以确定哪些数据属于可疑数据。

这些检查可以包括查找缺失值、非数字字符、极端值、不合理值等。

通过这些检查,我们可以较快地识别出问题数据。

2. 数据可信度评估:对于可疑数据,我们需要对其可信度进行评估。

在评估可信度时,可以考虑数据来源的可靠性、收集数据的方法和过程、数据记录的一致性等因素。

如果数据来自于一个不可信的来源或者存在一些不一致性,那么这些数据应该被视为可疑数据,并且应该考虑排除它们。

3. 数据分布分析:数据分布的分析可以帮助我们理解数据的特征和模式。

如果可疑数据与其他数据存在显著的差异,那么这些数据可能是异常数据。

通过绘制直方图、箱线图等图表可以更直观地观察数据的分布情况。

4. 上下文分析:在分析可疑数据时,我们应考虑到数据所处的背景和环境。

如果这些数据在特定的背景下无法被解释,那么它们可能是错误的或异常的。

我们可以通过与其他相关数据或可信的指标进行比较来验证数据的合理性。

5. 数据修复:如果可疑数据的原因是显而易见的错误或者缺失值,我们可以尝试进行数据修复。

修复数据的方法包括插值、平均值替代、回归模型等。

但是,在进行数据修复时,我们应该注意修复方法的适用性和局限性。

6. 数据剔除:对于那些无法修复或无法解释的可疑数据,我们应该考虑将其从分析中剔除。

剔除数据的原则是数据的可靠性和代表性。

这种方法适用于可疑数据对分析结果产生较大影响的情况。

7. 敏感性分析:对于那些无法确定是否剔除的可疑数据,我们可以进行敏感性分析。

敏感性分析是在不同情景和假设下对数据进行分析,以了解可疑数据对结果的影响。

通过敏感性分析,我们可以评估可疑数据的影响程度,从而决定该是否保留或剔除。

3.3.130可疑数据的取舍

3.3.130可疑数据的取舍
个可疑值的取舍,是检 测可疑值最可靠的检验方法。
格鲁布斯检验法的步骤如下:
排序
数据按由小到 大顺序排列: X1 X2 …… Xn。
计算平均值 和标准偏差
计算统计量G计
查表
根据测定次数n, 显著性水平α,查
得临界值G表
判断取舍
使用格鲁布斯检验法应该注意以下几点:
目 录
PART
01
可疑值的定义
PART
02
可疑值判断
PART
03
Q检验法
PART
04
格鲁布斯检验法
01 可疑值的定义
在一组平行测定的数据中,有时个别数据与其它数据相差较大(远 离其它值),这样的数据称为可疑值,也叫极端值或离群值。
02 可疑值判断
由操作过失造成的,必须 剔除可疑值; 由随机误差造成的,须进 行统计检验,再决定可疑 值的取舍。
格鲁布斯检验法由于引入了 平均值和标准偏差,故准确 性比Q检验法高,但计算较
为繁琐。
Q检验法具有直观性和计算渐变 的优点,是比较常用的方法, 但准确性较差。
同学们,对于可疑值
的取舍,我们一定要本 着严谨、认真的科学态 度,千万不能想当然, 以免影响检测数据的真 实可靠性!
03 Q检验法
适用于测定次数在3~10次之间
排序
数据按由小到大顺序排列:
X1 X2 …… Xn
1
求极差
求最大与最小数据之差——
2
极差 :Xn -X1
求邻差
3
求可疑数据与相邻数据之差: Xn -Xn-1或X2 -X1
比较判定
6
查表
5
根据测定次数和要求的置
信度,查得临界值Q表
4

可疑数据的取舍

可疑数据的取舍

可疑数据的取舍21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。

正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。

因此对可疑数据的取舍必须遵循一定原则。

1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。

(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。

2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ³ Xi -3S。

若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。

该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。

先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2+ … +Xn/ n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z= (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。

如 n a<0.1,则舍弃,>0.1,则不舍弃。

例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。

其中1.85为可疑值,需判断取舍。

计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。

查正态分布表a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。

3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。

可疑数据的取舍,格勒布斯(Grubbs)方法

可疑数据的取舍,格勒布斯(Grubbs)方法

可疑数据的取舍,格勒布斯(Grubbs)方法
郑金安
【期刊名称】《上海国土资源》
【年(卷),期】1980(000)002
【摘要】一、引言由试验室提供的土的物理力学性质指标或野外原位测试所提供的测定数据中,有时在同一土层中的一个样本数据中,往往可能有一个或数个过大或过小的数据。

过去地质人员根据主观的判断加以取舍。

结果,数据的取舍因人而异,缺乏统一的准则。

一般讲取自于同一土层的一个样本数据应该都来自同一土层,但是由于试验或测试上的原因,混入了另一个土层的数据;另一种可能是土样取自“过渡层”或二层交界面的情况确实是存在的,对于这种数据的取舍问题过去也往往采用人为的舍弃,这样的数据往往在值上的反映是过小或过大,我们
【总页数】4页(P27-30)
【作者】郑金安
【作者单位】上海勘察院
【正文语种】中文
【中图分类】F27
【相关文献】
1.浅谈可疑数据的取舍方法——格拉布斯法 [J], 雷晓平
2.统计分析中可疑数据的取舍 [J], 闵传新
3.运用数理统计取舍分析中的可疑数据 [J], 高增臣
4.论《隆福寺格斯尔》与木刻本《格斯尔》的双重关系:《隆福寺格斯尔》第十、十二章文本对比分析 [J], 玉兰;
5.PC-1500袖珍计算机在实验数据可疑值取舍中的应用 [J], 李昌世;邹帮仁
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可疑数据的取舍
同一样品同一组分的多个数据中,在相同条件下进行多次重复分析测试得到的数据,或在不完全相同条件下进行再现分析测试得到的数据,或在标准物质进行分析定值中得到的多个实验室多个分析方法的数据,也有在分析方法精密度试验中得到的多个实验室的数据。

在这些不同类型的各组数据中都表现出数据的集中性,也表现出数据的离散性,但有时也出现极少数数据有偏离得较大的现象。

一般对这些偏离较大的数据称为可疑数据或可疑值,对可疑数据的取舍的方法有技术性的和统计性的。

(一)技术性的取舍
从采用的分析方法、分析人员在操作过程中发现异常现象、分析仪器运转是否正常、计算差错、记录差错,环境影响等查找原因,如果确实证明该可疑数据确系上述原因引起的,则认为可疑值为离群数值,并可以作技术性剔除,否则应保留。

(二) 统计检验的取舍
在无确切的技术性的原因将可疑数据剔除时,则需进一步用统计性的法则进行检验和取舍。

对测定值或测量值进行统计检验的目的是为了判断所测数据是否来自同一总体,是否存在应剔除的离群值。

统计性检验可疑数据的法则有“4d”检验法、拉依达检验法、“Q”检验法、格拉布斯(Grubbs)检验法、狄克逊(Dixon)检验法和科克伦( Cochran)检验法等,其中最常用的是后三种。

在GB6379-86《测试方法的精密度通过检验室间试验确定标准测试方法的重复性和再现性》中指出,格拉布斯检验和狄克逊检验,都必须分别独立进行。

格拉布斯检验只进行一次。

两种检验结果分别记录在册。

如只发现一个异常值,则取格拉布斯所得的结果;如发现多个异常值,则取狄克逊检验所得的结果。

在中华人民共和国国家计量技术规范(试行)JJG1006-86《一级标准物质》中,在数据服从正态分布的情况下,将每一个实验室的每种测量方法所测数据的平均值视为单次测量值,构成一组新的测量数据,从技术上判断可疑值并予剔除后,用格拉布斯或狄克逊等法则从统计检验剔除可疑值。

在ISO发布的几个文本(IS0-5725-1981、4259-1979、5168-1978)均推荐用狄克逊法则剔除异常值。

在标准物质数据处理工作中,已经多次发现几种异常值剔除法则对同一组数据的
异常值的取舍不完全一致的现象。

还发现离散度极小的一组数据,有时剔除过多;离散度大的一组数据,有时不被剔除。

在一般情况下,将可剔除可不剔除的数据剔除,对定值数据(μ或X 0)无明显变化,仅会提高精密度,即S 变小。

因此,有一部分人的意见是尽可能地多保留一些信息,也就是尽量少地剔除分析数据。

对小样本的异常值检验,有人认为只需要用格拉布斯检验就可以了。

由于格拉布斯函数的计算使用方法简便,本实验室采用格拉布斯法进行异常值的剔除。

格拉布斯( Grubbs)检验法
对一组数据中偏高或偏低的可疑值进行检验,程序如下:
(1)将一组分析测试数据由小到大顺序排列,x 1,x 2,…x n-1
(2)计算此组数据的平均值
X=∑X i /n (3-14)
(3)计算标准偏差
S=
12)(--∑n x xi ( 3-15) (4)计算统计量G 1或G n
G 1 =S
X X +-min ( 3-16) G n =
S X X -max ( 3-17) (5)给定显著性水平a
(6)将计算值G 1或G n 与表列临界值G(a ,n)比较,若G
或Gn )>G(a ,n),则判断该可疑值应作为离群值剔除,否则保留。

例如。

测定某铁矿石中Fe20。

(%)得到六个分析数据,按其大小排列为30.02、30.12、30.16、30.18、30.18和30.20,第一个数据可疑,试判断是否应合去?
按上列各计算式分别为:
计算得平均值为30.14(%)I 标准偏差为0.066(%);统计量为1.8,给定显著性水平为a= 0.05。

查附表2,在n=6、a =0.05时,临界值G(a ,n)为1.89。

计算值1.80小于临界值1.89,判断30.02(%)的可疑值不是离群值,可以保留。

相关文档
最新文档