1-2可疑数据的取舍.

合集下载

可疑数据的取舍

可疑数据的取舍

可疑数据的取舍同一样品同一组分的多个数据中,在相同条件下进行多次重复分析测试得到的数据,或在不完全相同条件下进行再现分析测试得到的数据,或在标准物质进行分析定值中得到的多个实验室多个分析方法的数据,也有在分析方法精密度试验中得到的多个实验室的数据。

在这些不同类型的各组数据中都表现出数据的集中性,也表现出数据的离散性,但有时也出现极少数数据有偏离得较大的现象。

一般对这些偏离较大的数据称为可疑数据或可疑值,对可疑数据的取舍的方法有技术性的和统计性的。

(一)技术性的取舍从采用的分析方法、分析人员在操作过程中发现异常现象、分析仪器运转是否正常、计算差错、记录差错,环境影响等查找原因,如果确实证明该可疑数据确系上述原因引起的,则认为可疑值为离群数值,并可以作技术性剔除,否则应保留。

(二) 统计检验的取舍在无确切的技术性的原因将可疑数据剔除时,则需进一步用统计性的法则进行检验和取舍。

对测定值或测量值进行统计检验的目的是为了判断所测数据是否来自同一总体,是否存在应剔除的离群值。

统计性检验可疑数据的法则有“4d”检验法、拉依达检验法、“Q”检验法、格拉布斯(Grubbs)检验法、狄克逊(Dixon)检验法和科克伦( Cochran)检验法等,其中最常用的是后三种。

在GB6379-86《测试方法的精密度通过检验室间试验确定标准测试方法的重复性和再现性》中指出,格拉布斯检验和狄克逊检验,都必须分别独立进行。

格拉布斯检验只进行一次。

两种检验结果分别记录在册。

如只发现一个异常值,则取格拉布斯所得的结果;如发现多个异常值,则取狄克逊检验所得的结果。

在中华人民共和国国家计量技术规范(试行)JJG1006-86《一级标准物质》中,在数据服从正态分布的情况下,将每一个实验室的每种测量方法所测数据的平均值视为单次测量值,构成一组新的测量数据,从技术上判断可疑值并予剔除后,用格拉布斯或狄克逊等法则从统计检验剔除可疑值。

在ISO发布的几个文本(IS0-5725-1981、4259-1979、5168-1978)均推荐用狄克逊法则剔除异常值。

卫生化学笔记:绪论 数据处理和质量保证

卫生化学笔记:绪论 数据处理和质量保证

绪论预防医学:预防疾病,增进人群健康卫生化学:将分析化学的理论和技术应用于预防医学领域,探索化学物质(与人群健康相关)检测的新原理、新方法和新技术。

研究对象:与人群健康相关的化学物质。

样品特点:种类繁多,组成复杂,机体干扰大分析范围广:无机、有机分析;形态分析被测物质含量差别大:常量痕量卫生化学的作用:环境质量评价;环境因素与健康;微量元素与健康;食品安全与健康;制定卫生标准和执行卫生监督常用仪器分析方法(1)光谱分析法(紫外-可见吸收光谱法、分子荧光分析法、原子吸收光谱法)(2)色谱法(气相色谱法、高效液相色谱法)(3)电化学分析法(极谱法、微分电位溶出法)数据处理和质量保证误差——分析工作中,由于受到各种主客观因素的影响,所得到的分析结果与其真值之间存在一定的差值,即存在误差(error)一、分析误差1.分析误差的主要来源分析误差存在于分析的全过程:样品的采集和预处理;分析方法的选择;试剂的配制和使用;仪器的使用;样品的测定;数据的记录和处理;分析结果的表达了解误差来源的目的:(1)分析前制定措施以减少误差(2)分析中严格操作使误差最小(3)分析后合理估计误差大小2.误差的分类(一)随机误差1. 产生原因: 分析过程中偶然的、非确定性因素。

2. 特点: 单次测量时,正负和大小无规律。

无限多次重复测量时,呈正态分布。

对称性;抵偿性;单峰性。

3. 减小误差的方法: 多次重复测量取平均值(二)系统误差1. 产生原因:某些确定性的因素。

(1)方法(2)试剂、仪器(3)主观2. 特点:系统误差:正负、大小具有一定规律,重复测量时会重复出现。

系统误差可分为定值系统误差和变值系统误差。

化学测量中多为定值系统误差。

3. 消除方法:查明原因并改正,或确定大小予以校正。

(三)过失误差1. 产生原因:分析过程中的错误或过失。

2. 特点:正负或大小皆无规律。

3. 消除方法:加强责任心,认真记录实验中的异常现象,以便对实验数据进行正确的取舍。

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择[摘要]在实际工作中,常常会遇到一组平行测定中有个别数据的精密度不甚高的情况,该数据与平均值之差是否属于偶然误差是可疑的。

实验结果对可疑数据的取合很重要。

而且对可检验疑数据取合过程中方法的选择也很重要。

[关键词]可疑数据、取合、方法选择中图分类号:u415.1 文献标识码:a 文章编号:1009-914x(2013)05-0310-01前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。

如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。

实验结果可疑数据的取合方法很多:包括q值检验法、格鲁布斯检验法、t值检验法、f检验法等等,下面借一组数据只对q检验法、格鲁布斯检验法进行对比。

看哪种方法更适合实验室应用。

1.数据整理首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。

2.置信度与平均值的置信区间有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。

通常化学分析中要求置信度95%。

测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。

3.实验结果可疑数据的取舍方法对比可疑数据的取合是对过失误差的判断,常用方法有q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。

工业分析技术专业《知识点8 分析结果可疑值的取舍》

工业分析技术专业《知识点8 分析结果可疑值的取舍》

分析结果可疑值的取舍在常量分析实验中,一般对单个试样试液平行测定2~3次,此时测定结果可作如下简单处理:计算出相对平均偏差,假设其相对平均偏差≤%,可认为符合要求,取其平均值报出测定结果,否那么需重做。

对要求非常准确的分析,如标准试样成分的测定,考核新拟定的分析方法,对同一试样,往往由于实验室不同或操作者不同,做出的一系列测定数据会有差异,因此需要用统计的方法进行结果处理。

首先把数据加以整理,剔除由于明显原因而与其它测定结果相差甚远的错误数据,对于一些精密度似乎不甚高的可疑数据,那么按本节所述的Q 检验或根据实验要求,按照其它有关规那么决定取舍,然后计算n 次测定数据的平均值x 与标准偏差S ,有了x 、s 、n 这三个数据,即可表示出测定数据的集中趋势和分散情况,就可进一步对总体平均值可能存在的区间作出估计。

一、数据集中趋势的表示方法根据有限次测定数据来估计真值,通常采用算术平均值或中位数来表示数据分布的集中趋势。

1.算术平均值x对某试样进行规次平行测定,测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性,绝对值相等的正、负误差出现的概率相等,所以算术平均值至是真值的最正确估计值。

当测定次数无限增多时,所得的平均值即为总体平均值μ。

μ=∑=∞→ni i n n x 11)(lim 2.中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。

当测定次数规为奇数时,位于序列正中间的那个数值,就是中位数;当测定次数规为偶数时,中位数为正中间相邻的两个测定值的平均值。

中位数不受离群值大小的影响,但用以表示集中趋势不如平均值好,通常只有当平行测定次数较少而又有离群较远的可疑值时,才用中位数来代表分析结果。

二、数据分散程度的表示方法随机误差的存在影响测量的精密度,通常采用平均偏差或标准偏差来表示数据的分散程度。

1.平均偏差d计算平均偏差d 时,先计算各次测定对于平均值的偏差:d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值:d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是:%100⨯xd2.标准偏差标准偏差又称均方根偏差。

第三节可疑数据的取舍方法

第三节可疑数据的取舍方法

第三节可疑数据的取舍方法在一组条件完全相同的重复试验中,个别的测量值可能会出现异常。

如测量值过大或过小,这些过大或过小的测量数据是不正常的,或称为可疑的。

对于这些可疑数据应该用数理统计的方法判别其真伪,并决定取舍。

常用的方法有拉依达法、肖维纳特(Chavenet)法。

格拉布斯(Grubbs)法等。

一、拉依达法当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑数据取舍的标准。

当某一测量数据(x i)与其测量结果的算术平均值(x-‘)之差大于3倍标准偏差时,用公式表示为:︳x i-x-‘︳>3S则该测量数据应舍弃。

这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。

取3S的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在 x-‘一3S 与x-‘十3S之间的概率为%,出现在此范围之外的概率仅为%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。

因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。

另外,当测量值与平均值之差大于2倍标准偏差(即︳x i-x-‘︳> 2S)时,则该测量值应保留,但需存疑。

如发现生产(施工)、试验过程屯有可疑的变异时,该测量值则应予舍弃。

拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。

二、肖维纳特法进行n次试验,其测量值服从正态分布,以概率1/(2n)设定一判别范围(一k n S,k n S),当偏差(测量值x i与其算术平均值x-‘之差)超出该范围时,就意味着该测量值x i是可疑的,应予舍弃。

判别范围由下式确定:肖维纳特法可疑数据舍弃的标准为:︳x i一x-‘︳/S≥k n三、格拉布斯法格拉布斯法假定测量结果服从正态分布,根据顺序统计量来确定可疑数据的取舍。

可疑数据的取舍方

可疑数据的取舍方
拉依达法 肖维纳特法 格拉布斯法
一、拉依达法
当试验次数较多时,可简单地用 倍标准偏差 倍标准偏差( ) 当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据( ) 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 倍标准偏差时, (x-‘)之差大于 倍标准偏差时,用公式表示为: )之差大于3倍标准偏差时 用公式表示为: ︳xi -x-‘︳>3S ︳ 则该测量数据应舍弃。 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 这是美国混凝土标准中所采用的方法,由于该方法是以 倍标准偏 差作为判别标准,所以亦称3倍标准偏差法 简称3S法 倍标准偏差法, 差作为判别标准,所以亦称 倍标准偏差法,简称 法。 的理由是: 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 的理由是 根据随机变量的正态分布规律,在多次试验中, 之间的概率为99.73%,出现在此范围 %,出现在此范围 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为 一 与 之间的概率为 %, 之外的概率仅为0.27%,也就是在近 次试验中才能遇到一次, 之外的概率仅为 ,也就是在近400次试验中才能遇到一次,这 次试验中才能遇到一次 种事件为小概率事件,出现的可能性很小,几乎是不可能。 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差 倍标准偏差( 另外,当测量值与平均值之差大于 倍标准偏差(即 ︳xi -x-‘︳> ︳ 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 则该测量值应保留,但需存疑。如发现生产(施工)、 )、试 ) 验过程屯有可疑的变异时,该测量值则应予舍弃。 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽, 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时( 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 ) 组测量值中即使混有异常值,也无法舍弃。 组测量值中即使混有异常值,也无法舍弃。

统计数据取舍原则

统计数据取舍原则

21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。

正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。

因此对可疑数据的取舍必须遵循一定原则。

1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。

(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。

2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ≥μ≥Xi -3S。

若Xi在Xi±3S范围内,此数据可用;若在Xi±3S 范围外,此数据不可用,须舍弃(亦称莱特准则)。

该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。

先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2 + …+X n / n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z = (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。

如n a<0.1,则舍弃,>0.1,则不舍弃。

例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。

其中1.85为可疑值,需判断取舍。

计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。

查正态分布表a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。

3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。

可疑数据的取舍

可疑数据的取舍

三、格拉布斯法
如果
xk x g0,nS
则将xk剔除 go(α、n)是一个与样本容量n与给的那个的检验
水平有关的系数。
在指定的显著性水平α(一般α=0.05)下,可根
据正态分布表,查表求得。
三、格拉布斯法
例:1.3-4试用格拉布斯法判别例1.3-2测量数据的真伪。
利用上述三种方法每次只能舍弃一个可疑值,
若有两个以上的可疑数据,应该一个一个数据地舍弃, 舍弃第一个数据后,试验次数由n变为n-1,以此为基础 再判别第二个可疑数据。
工 程 检 测 实 务
∣xmin– x ∣=∣23.0-25.8∣= 2.8MPa <3S = 6.3MPa 故上述测量数据均不能舍弃。
二、肖维纳特法
进行n次试验,其测量值服从正态ห้องสมุดไป่ตู้布,以概率,
1/(2n)设定一判别范围( -kxS,kx S ),当偏差
(测量值xi与其算术平均值之差)超出该范围时,就意 味着该测量值xi是可疑的,应予舍弃。即
如果 xk x kxS
则将xk剔除 式中:kx——肖维纳特系数,与试验次数n有关,可由 正态分布系数表查得
二、肖维纳特法
二、肖维纳特法
例1.3-3 试验结果同上例,试用肖维纳特法进行判别。 解:查表,当n=10时,kx=1.96。对于测量值31.0,则 有:
xi x 31.0 25.8 5.2 kxS 4.1
一、拉依达法
4.另外,当测量值与平均值之差大于2倍标准偏差
(即│ xI— x │>2S)时,则该测量值应保留,但需
存疑。如发现生产(施工)、试验过程中,有可疑的变 异时,该测量值则应予舍弃。
5.拉依达法简单方便,不需查表,但要求较宽,当 试验检测次数较多或要求不高时可以应用,当试检测次 数较少时(如n<10),在一组测量值中即使混有异常值, 也无法舍弃。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档