可疑数据的取舍方法区别

合集下载

数据3-可疑值的取舍

数据3-可疑值的取舍

作业: 习题:1、4、9、20
ቤተ መጻሕፍቲ ባይዱ
可疑数据的舍弃
在一组测定值中,常出现个别与其它数据相差很 大的可疑值。如果确定知道此数据由实验差错引起, 可以舍去,否则,应根据一定的统计学方法决定其 取舍。 方法: Q检验法 格鲁布斯法 4 d法
1. Q检验法
步骤如下(3≤ n≤ 10) (1) 将测定值按递增顺序排列:x1,x2,…,xn; (2) 求最大与最小值之差xn-x1; (3)由可疑值与其相邻值之差的绝对值除以极差,求得 Q值:
2. 4 d 检验法
步骤 (1)求可疑值除外的其余数据的平均值和平均偏差 d ; (2)若(可疑值-平均值)的绝对值大于4 d ,则舍去,否 则保留。 例2.用EDTA标准溶液滴定某试液的Zn,平行测定4次,消耗 EDTA标液的体积(mL)分别为:26.37,26.41,26.44, 26.42,试问26.37这个数据是否保留? • 该法不必查表,比较简单,故仍为人们采用。
Q
X疑 X邻
?可疑值是哪个
X 最大 X 最小
Q值愈大,表明可疑值离群愈远,当Q值超过一定界限 时应舍去。 (4)依据n和要求的置信度,查表1-4得Q值,比较Q表与 Q计判断,当Q计≥Q表,该可疑值应舍去,否则应保留.
例1,平行测定盐酸浓度(mol/l),结果为0.1014, 0.1021,0.1016,0.1013。试问0.1021在置信度为 90%时是否应舍去。 解: (1)排序:0.1013, 0.1014, 0.1016, 0.1021 (2)Q=(0.1021-0.1016)/(0.1021-0.1013)=0.63 (3)查表1-4,当n=4, Q0.90=0.76 因Q计=0.63< Q0.90=0.76, 故0.1021不应舍去。

为什么统计检验的正确顺序是先进行可疑数据的取舍

为什么统计检验的正确顺序是先进行可疑数据的取舍

为什么统计检验的正确顺序是先进行可疑数据的取舍,再进行F检验,在F检验通过后,才能进行t检验
答案:
方法一,把means±SD范围外的数据剔除。

方法二,把数据进行转换后进行多重比较,如转为log10。

选择适当的转换形式,直到齐性检验变为不显著。

你做的是T检验,为什么会有F值呢?
就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。

Levene方差齐性检验也称为Levene检验(Levene's Test).
由H.Levene在1960年提出[1].M.B.Brown和A.B.Forsythe 在1974年对Levene检验进行了扩展[2],使对原始数据的数据转换不但可以使用数据与算术平均数的绝对差,也可以使用数据与中位数和调整均数 (trimmed mean)的绝对差.这就使得Levene检验的用途更加广泛.Levene检验主要用于检验两个或两个以上样本间的方差是否齐性.要求样本为随机样本且相互独立.国内常见的Bartlett多样本方差齐性检验主要用于正态分布的资料,对于非正态分布的数据,检验效果不理想.Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料,其检验效果比较理想.。

误差基础知识

误差基础知识

测量结果: 测量结果: 1)测量结果的完整表述:包括测量误差,必要时 测量结果的完整表述:包括测量误差, 测量误差 还应给出自由度和置信概率。 还应给出自由度和置信概率。 2)测量结果的特征:具有重复性和再现性。 测量结果的特征:具有重复性和再现性。 重复性——指在相同测量条件下 相同的测量程序、 重复性——指在相同测量条件下(相同的测量程序、 ——指在相同测量条件 测量仪器、观测者、地点、测量环境、 测量仪器、观测者、地点、测量环境、短期 内的重复测量) 内的重复测量)对同一被测量进行连续多次 测量所得的结果之间的一致性。 测量所得的结果之间的一致性。 再现性(复现性)——指在改变测量条件, 指在改变测量条件 再现性(复现性)——指在改变测量条件,对被测量 进行多次测量时,每一次测量结果的一致性。 进行多次测量时,每一次测量结果的一致性。 指在一定的误差范围内, (指在一定的误差范围内,每次测量结果的 可靠性是相同的)。 可靠性是相同的)。
3)相对真值:凡高一级标准器(计量器)的误差是 相对真值:凡高一级标准器(计量器) 低一级或普通测量仪器误差的1/3~ 低一级或普通测量仪器误差的1/3~1/20 1/3 时,则可认为前者是后者的相对真值。 则可认为前者是后者的相对真值。 在科学试验中,真值就是指在无系统误差的情况下, 在科学试验中,真值就是指在无系统误差的情况下, 就是指在无系统误差的情况下 观测次数无限时 求得的平均值。 观测次数无限时,求得的平均值。 平均值 但实际采用有限次所取得的平均值作为近似真值 但实际采用有限次所取得的平均值作为近似真值 有限次所取得的平均值作为 (最可信赖值)。 最可信赖值)。
(1)测量的目的 求出被测量的真值,但是一切测量都包含有误差, 求出被测量的真值,但是一切测量都包含有误差, 真值 测量值只能接近于真值。与测量手段是否先进无关。 测量值只能接近于真值。与测量手段是否先进无关。 只能接近于真值 手段越先进,越接近于真值。 手段越先进,越接近于真值。 (2)测量:以确定量值(数据)为目的的一组操作。 测量:以确定量值(数据)为目的的一组操作。 (3)测量结果:根据已有的信息和条件对被测量的 测量结果: 最佳估计,及对真值的最佳估计。 最佳估计 最佳估计,及对真值的最佳估计。

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择[摘要]在实际工作中,常常会遇到一组平行测定中有个别数据的精密度不甚高的情况,该数据与平均值之差是否属于偶然误差是可疑的。

实验结果对可疑数据的取合很重要。

而且对可检验疑数据取合过程中方法的选择也很重要。

[关键词]可疑数据、取合、方法选择中图分类号:u415.1 文献标识码:a 文章编号:1009-914x(2013)05-0310-01前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。

如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。

实验结果可疑数据的取合方法很多:包括q值检验法、格鲁布斯检验法、t值检验法、f检验法等等,下面借一组数据只对q检验法、格鲁布斯检验法进行对比。

看哪种方法更适合实验室应用。

1.数据整理首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。

2.置信度与平均值的置信区间有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。

通常化学分析中要求置信度95%。

测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。

3.实验结果可疑数据的取舍方法对比可疑数据的取合是对过失误差的判断,常用方法有q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。

工业分析技术专业《知识点8 分析结果可疑值的取舍》

工业分析技术专业《知识点8 分析结果可疑值的取舍》

分析结果可疑值的取舍在常量分析实验中,一般对单个试样试液平行测定2~3次,此时测定结果可作如下简单处理:计算出相对平均偏差,假设其相对平均偏差≤%,可认为符合要求,取其平均值报出测定结果,否那么需重做。

对要求非常准确的分析,如标准试样成分的测定,考核新拟定的分析方法,对同一试样,往往由于实验室不同或操作者不同,做出的一系列测定数据会有差异,因此需要用统计的方法进行结果处理。

首先把数据加以整理,剔除由于明显原因而与其它测定结果相差甚远的错误数据,对于一些精密度似乎不甚高的可疑数据,那么按本节所述的Q 检验或根据实验要求,按照其它有关规那么决定取舍,然后计算n 次测定数据的平均值x 与标准偏差S ,有了x 、s 、n 这三个数据,即可表示出测定数据的集中趋势和分散情况,就可进一步对总体平均值可能存在的区间作出估计。

一、数据集中趋势的表示方法根据有限次测定数据来估计真值,通常采用算术平均值或中位数来表示数据分布的集中趋势。

1.算术平均值x对某试样进行规次平行测定,测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性,绝对值相等的正、负误差出现的概率相等,所以算术平均值至是真值的最正确估计值。

当测定次数无限增多时,所得的平均值即为总体平均值μ。

μ=∑=∞→ni i n n x 11)(lim 2.中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。

当测定次数规为奇数时,位于序列正中间的那个数值,就是中位数;当测定次数规为偶数时,中位数为正中间相邻的两个测定值的平均值。

中位数不受离群值大小的影响,但用以表示集中趋势不如平均值好,通常只有当平行测定次数较少而又有离群较远的可疑值时,才用中位数来代表分析结果。

二、数据分散程度的表示方法随机误差的存在影响测量的精密度,通常采用平均偏差或标准偏差来表示数据的分散程度。

1.平均偏差d计算平均偏差d 时,先计算各次测定对于平均值的偏差:d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值:d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是:%100⨯xd2.标准偏差标准偏差又称均方根偏差。

可疑数据的取舍方法区别

可疑数据的取舍方法区别

格拉布斯法假定测量结果服从正态分布,根据顺序统计
量来确定可疑数据的取舍。
进行n次重复试验,试验结果为x1、x2、…、xi、…、
xn ,而且xi服从正态分布。
为了检验 (i=1,2,…,n)中是否有可疑值,可将 按
其值由小到大顺序重新排列,
根据顺序统计原则,给出标准化顺序统计量g:
当最小值x(1)可疑时,则:
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 (x-‘)之差大于3倍标准偏差时,用公式表示为:
︳xi -x-‘︳>3S 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 差作为判别标准,所以亦称3倍标准偏差法,简称3S法。 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为99.73%,出现在此范围 之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差(即 ︳xi -x-‘︳> 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 组测量值中即使混有异常值,也无法舍弃。
g=( x-‘一x(1) )/S
当最大值x(n)可疑时,则:
g=( x(n) 一 x-‘ )/S
根据格拉布斯统计量的分布,在指定的显著性水平β

分析结果的数据处理实务

分析结果的数据处理实务

真值被包括的区间可表示为: μ= x±ξσ
叫单次测量结果的置信区间,p叫置信度。
若用平均值 x估计真值
x x x 2 x
p=68.3% p=95.5%
x 3 x
其中
x
n
p=99.7%
由 x 可见,平均值的置信区间比单次测量结果
的置信区间要小,亦即用平均值估计真值的准确度比
单次测量值更高,即平均值更接近于真值。
s ( xi x)2 0.022 n1
查表2 - 2,得t95% 2.78(n 5) %Cr 1.13 2.78 0.022 1.13 0.03
5
通过给出的这两条例题 ,可得到如下结论:
①测定次数一定时,置信度越高,则t 越大,置信区间越宽。
②置信度和精密度一定时,测定次数越多,
0.5180g=518.0mg=518000 μg =5.180×105μg
只起定位作用

2.500×10-2L 25.00mL
25mL
0.02500L
例:下列数据各包含几位有效数字
0.0376 3位
1.8×10 -5
2位
1.2067 5位
0.005 1位
0.2180 4位
2.0×103
2位
10.98%
为什么?
参看p19二~四段
n值变小, t 值增大
三、平均值与标准值的比较(系统误差的检验)
通过 t 检验能够判断分析方法是否有系统误差。
1. 用某种方法测量标准值为μ的基准物质或标准
试样n次,求平均值 x。
2. 计算 t 值
x
t计算 s n
3. 将 t计算 值与表2-2中的 t 值比较 若t 计算 > t 表,则该测量方法有系统误差; 若t 计算 ≤ t 表,则该方法的测量差异主要是随机误 差所致。

可疑数据的取舍

可疑数据的取舍

可疑数据的取舍21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。

正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。

因此对可疑数据的取舍必须遵循一定原则。

1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。

(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。

2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ³ Xi -3S。

若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。

该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。

先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2+ … +Xn/ n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z= (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。

如 n a<0.1,则舍弃,>0.1,则不舍弃。

例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。

其中1.85为可疑值,需判断取舍。

计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。

查正态分布表a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。

3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可疑数据的取舍方法
在一组条件完全相同的重复试验中,个别的测量值 可能会出现异常。如测量值过大或过 小,这些过大或过小的测量数据是不正常的,或称 为可疑的。对于这些可疑数据应该用数理统计的方 法判别其真伪,并决定取舍。常用的方法有拉依达 法、肖维纳特(Chavenet)法。 格拉布斯(Grubbs)法等。
格拉布斯法假定测量结果服从正态分布,根据顺序统计 量来确定可疑数据的取舍。 进行n次重复试验,试验结果为x1、x2、…、xi、…、 xn ,而且xi服从正态分布。 为了检验 (i=1,2,…,n)中是否有可疑值,可将 按 其值由小到大顺序重新排列, 根据顺序统计原则,给出标准化顺序统计量g: 当最小值x(1)可疑时,则: g=( x-‘一x(1) )/S 当最大值x(n)可疑时,则: g=( x(n) 一 x-‘ )/S 根据格拉布斯统计量的分布,在指定的显著性水平β (一般β=0.05)下,求得判别可疑值的临界值g0 ( β,n) ,格拉布斯法的判别标准为: g≥g0( β,n) 利用格拉布斯法每次只能舍弃一个可疑值,若有两个以 上的可疑数据,应该一个一个数据的舍弃,舍弃第一个 数据后,试验次数由n变为n一1,以此为基础再判别第二 个可疑数据。
Xmin-X‫=׀‬2.3MPa
拉依达法 肖维纳特法 格拉布斯法
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 (x-‘)之差大于3倍标准偏差时,用公式表示为: ︳xi -x-‘︳>3S 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 差作为判别标准,所以亦称3倍标准偏差法,简称3S法。 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为99.73%,出现在此范围 之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差(即 ︳xi -x-‘︳> 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 组测量值中即使混有异常值,也无法舍弃。
二、肖维纳特法
进行n次试验,其测量值服从正态分布, 以概率1/(2n)设定一判别范围(一knS, knS),当偏差(测量值xi与其算术平均值 x-‘之差)超出该范围时,就意味着该测量 值xi是可疑的,应予舍弃。判别范围由下 式确定: 肖维纳特法可疑数据舍弃的标准为: ︳xi一 x-‘︳/S≥kn源自三、格拉布斯法例题;
实验室进行通配比的混凝土抗压强度试验,其实验结果为: 23.6,24.0,26.5,24.6,25.2,26.7,26.1,30.5,26.0,25.6(MPa), 使用拉依达法判别其取舍。 解;分析得Xmin=23.6MPa和Xmax=30.5MPa最可疑,首先 判别Xmin和Xmax。 根据式(2-1)(2-4)得; X=25.9MPa S=1.9MPa ‫׀‬Xmax-X‫=׀‬4.6MPa
相关文档
最新文档