Grubbs检验法和Dixon检验法
判别金属材料疲劳试验中异常试验数据的一般方法

判别金属材料疲劳试验中异常试验数据的一般方法唐兆田【摘要】在金属疲劳试验中,有时会出现一个或多个明显小于或大于其它数据的异常数据.查找导致这些异常数据的原因是很困难的,难以直接剔除.通常,相关文献只简要地提供基于统计学的识别异常数据的判据.为了帮助数据分析人员更好地理解这些统计判别方法,在处理金属疲劳试验数据时更好地运用统计判别方法,对分布于各文献中的统计判别法进行了归纳整理,并给出必要的推导过程和公式,最后对所列统计判别法进行总结,介绍各方法的优势和不足,并给出建议.【期刊名称】《民用飞机设计与研究》【年(卷),期】2017(000)001【总页数】6页(P77-82)【关键词】疲劳试验;异常数据;粗大误差;统计方法【作者】唐兆田【作者单位】上海飞机设计研究院,上海201210【正文语种】中文【中图分类】V252目前,民用飞机结构中仍然广泛采用金属材料,通常不低于50%,甚至在将来很长时间内金属材料都将在民用飞机结构中发挥举足轻重的作用。
随着新材料、新设计、新工艺等应用在民用飞机结构上,基于对飞机安全性、经济性、耐久性的考虑,需要进行大量疲劳试验以获得金属材料的相关疲劳性能数据。
相对于静力试验,疲劳试验数据具有较大的分散性,通常要求一组试验中有较多的试验件,通过对一组试验数据的统计分析获得所需疲劳性能数据。
根据观察,偶尔出现一组疲劳试验数据中存在一个甚至多个与其它数据有明显差异的数据,即异常数据。
异常数据会对试验结果产生明显的歪曲,甚至会导致错误的结论[1-2]。
正常情况下,每个试验数据中包含三个部分:真值、偶然误差、系统误差[1]。
通常将误差分为三类,即系统误差、偶然误差和粗大误差[2-3]。
系统误差的特点是,在相同的条件下,系统误差对测量数据的影响具有规律性,有很多文献讨论了系统误差的识别和消除[4-7]。
偶然误差(随机误差)由未知或不可控的微小因素综合作用造成的,具有随机性和抵偿性[8]。
实验室检测数据的记录与数据处理

实验室检测数据的记录与数据处理1.目的规范检验数据的记录和结果的表示方法,并正确进行分析数据的取舍与处理。
2.适用范围本作业指导书适用于本中心检测室所有分析检测数据的记录和结果的表示、取舍与处理。
3.职责3.1检测人员:严格按照标准检验方法进行操作,做好检测数据的记录及数据的表示、取舍与处理。
3.2复核人员:负责校核检测人员的数据记录、数据表示方法和取舍与处理。
3.3检测室负责人:负责监督管理,若遇到较大数据问题,及时报告检验科负责人处理。
4.检测数据的记录规则4.1记录测量数据时,只保留一位可疑(不确定)数字。
当用合格的计量器具称量物质或量取溶液时,有效数字可以记录到最小分度值,最多保留一位不确定数字。
4.1.1若最小分度值为0.1mg的(1/万)分析天平称量物质可以记录到小数点后第4位小数。
若最小分度值为1mg的(1/千)分析天平可以记录到小数点后第3位小数。
若在台秤上称量时,则只能记录到小数点后第1位小数。
4.1.2若用分度标记的刻度吸管和滴定用的吸管读数的取值时,有效位数可以记录到最小分度后一位,保留一位不确定数字,及小数点后第2位小数。
4.2表示精密度通常只取一位有效数字。
测定多次时,方可取两位有效数字,且最多取两位。
4.3在数值计算中,当有效数字位数确定后,其余数字应按修约规则一律舍弃。
4.4在数值计算中,倍数、分数、不连续物理量的数目,以及不经测量而完全理论计算或定义得到的数值,其有效数字的位数可视为无限,这类数值在计算中需要几位就可以写几位。
如(1/6)K2Cr2O7摩尔质量中的1/6等。
4.5测量结果的有效数字所能够达到的数位不能低于方法检出限的有效数字所能达到的数位。
4.6检测用的计量仪器设备响应值的记录,可以根据计量仪器设备的响应值分辨率、准确度的位数进行记录。
4.6.1若记录PH/mV/离子计的响应值,则分别记录到小数点后,第2(3)位小数。
4.6.2若记录分光光度计的响应值,则记录到小数点后,第3位小数。
试验数据异常值的检验及剔除方法

目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS 软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实用性强.如图一下为DPS 数据处理系统对话框.图一 数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
试验设计和数据分析第一次作业习题答案解析

习题答案1.设用三种方法测定某溶液时,得到三组数据,其平均值如下:x1̅=(1.54±0.01)mol/Lx2̅=(1.7±0.2)mol/Lx3̅=(1.537±0.005)mol/L试求它们的加权平均值。
解:根据数据的绝对误差计算权重:w1=10.012,w2=10.22,w3=10.0052因为w1:w2:w3=400:1:1600所以w̅̅̅=1.54×400+1.7×1+1.537×1600400+1+1600=1.5376812.试解释为什么不宜用量程较大的仪表来测量数值较小的物理量。
答:因为用量程较大的仪表来测量数值较小的物理量时,所产生的相对误差较大。
如3.测得某种奶制品中蛋白质的含量为(25.3±0.2)g/L,试求其相对误差。
解:E w=∆ww =0.225.3=0.79%4.在测定菠萝中维生素C含量的测试中,测得每100g菠萝中含有18.2mg维生素C,已知测量的相对误差为0.1%,试求每100g菠萝中含有维生素C的质量范围。
解:E w=∆ww=0.1%,所以∆m=m×E w=18.2×0.1%=0.0182ww所以m的范围为18.1818mg<m<18.2182ww或依据公式w w=w×(1±|w w|)=18.2×(1±0.1%)mg5.今欲测量大约8kPa(表压)的空气压力,试验仪表用1)1.5级,量程0.2MPa 的弹簧管式压力表;2)标尺分度为1mm的U型管水银柱压差计;3)标尺分度为1mm的U形管水柱压差计。
求最大绝对误差和相对误差。
解:1)压力表的精度为1.5级,量程为0.2MPa,则|∆w|www=0.2×1.5%=0.003www=3wwww w=∆ww×100%=38×100%=3.75×10−1=37.5%2)1mm汞柱代表的大气压为0.133KPa,所以|∆w|www=0.133wwww w=∆ww×100%=0.1338×100%=1.6625×10−2=1.6625%3)1mm水柱代表的大气压:ρgh,其中g=9.80665m/s2,通常取g=9.8m/s2则|∆w|www=9.8×10−3wwww w=∆ww×100%=9.8×10−38×100%=1.225×10−36.在用发酵法生产赖氨酸的过程中,对产酸率(%)作6次评定。
实验结果的异常值处理

实验结果的异常值处理在科学实验中,我们常常会遇到一些异常值,这些异常值可能会对结果的准确性和可靠性造成影响。
因此,在处理实验结果时,我们需要针对异常值采取相应的处理方法,以确保结果的准确性。
本文将介绍一些常用的异常值处理方法。
一、异常值的定义与检测异常值(outlier)指的是与大多数观测值相差较大的一些观测值。
在处理实验结果时,我们需要首先对异常值进行检测,以便后续的处理。
常用的异常值检测方法包括:箱线图法、Grubbs检验法、Dixon检验法等。
通过这些方法可以很好地检测出异常值,为后续的处理提供依据。
二、异常值处理方法1. 删除异常值最直接的处理方法是直接删除异常值。
当异常值对结果的影响较大且无法解释时,可以选择将其删除。
但需要注意,删除异常值可能会造成结果的偏差,因此需要谨慎使用。
2. 替换异常值另一种处理方法是将异常值进行替换。
常见的替换方法包括:用平均值、中位数或者众数进行替换。
选择合适的替换值需要根据具体实验场景进行判断,以保证结果的准确性。
3. 缩放异常值有时,异常值较大或较小可能是由于测量误差或实验条件造成的。
在这种情况下,可以考虑对异常值进行缩放。
例如,可以将异常值除以一个常数,使其与其他观测值的量级保持一致。
4. 分组处理当实验数据分为不同的组时,可以对每个组分别处理异常值。
对于每个组,可以使用前述的方法进行异常值检测和处理,以保证组内结果的准确性。
5. 基于模型的处理方法在某些情况下,异常值可能是由于实验设计或者模型假设的不合理性导致的。
此时,可以通过重新设计实验或者调整模型来处理异常值。
这种方法需要具备一定的专业知识和实践经验。
三、注意事项处理实验结果的异常值时,需要注意以下几个问题:1. 异常值的来源:异常值可能是由于实验操作失误、设备故障、个体差异等原因导致的。
在处理异常值时,需要分析异常值的来源,以便采取相应的处理方法。
2. 处理方法的选择:根据异常值的特点和实验要求,选择合适的处理方法。
浅谈离子色谱法测定水中四种阴离子

浅谈离⼦⾊谱法测定⽔中四种阴离⼦2019-09-01摘要:离⼦⾊谱是⾊谱法的⼀个分⽀, 与电化学分析⽅法和原⼦吸收法等相⽐较,具有快速、简单、选择性好、灵敏度⾼、准确度好以及同时测定多组分等优点。
本⽂通过实验,对离⼦⾊谱法测定⽔中四种阴离⼦的含量进⾏了探讨。
关键词: 离⼦⾊谱;阴离⼦;测定Abstract: ion chromatography is a branch of chromatography, and electrochemical analysis method and the atomic absorption method, etc, in comparison with rapid, simple, and selective, high sensitivity and accuracy in measuring and good and components, etc. This article through the experiments, the ion chromatography method to determine the content of four kinds of anion in water are discussed.Keywords: ion chromatography; Anionic; determination中图分类号: O462 ⽂献标识码: A ⽂章编号:1 实验部分1.1 仪器离⼦⾊谱仪(瑞⼠万通861),MetrosepASUPP4(4.0mm×250mm)阴离⼦⾊谱柱,METROSEPASUPP4/5Guard阴离⼦保护柱,MSCMⅡ抑制器,抑制型电导检测器,0.45µm滤膜,ICNet2.3⾊谱⼯作站。
1.2 试剂淋洗液:碳酸氢钠-碳酸钠溶液:称取0.5712g碳酸氢钠(NaHCO3)和0.7632g碳酸钠(Na2CO3)溶于4L纯⽔中,配制成1.7和1.8mmol/L的流动相,经过0.45µm滤膜真空抽滤;抑制器所需再⽣液为0.5mol/L硫酸;标准溶液:使⽤有证标准物质(江苏省疾病预防控制中⼼F-、Cl-、NO3-、SO42-分别为1.0、5.0、1.0、1.0mg/ml)配制,Cl-单标溶液:配制5.0、10.0、15.0、20.0、30.0、50.0mg/L氯化物标准系列;混合阴离⼦标准溶液成分分别含F-、Cl-、NO3-、SO42-,所有试剂均⽤电阻率为18.2MΩ的超纯⽔配制。
(优选)正态样本离群值的判断和处理

判定x (1)为离群值;去掉x (1)去后进入下一轮的 检验。
③当Gn>G’n且G’n大于临界值,判定x (1) 与x (n)两个均 为离群值;去掉x (1) 和x (n)后进入下一轮的检验。
第三章 偏度一峰度检验法
第一节 上侧离群值的判断
1、将样本数据排列成次序统计量
2、计算偏度统计量bs 3、用 统计量bs与临界值相比较 当bs大于临界值,判定x (n)为离群值,否则未发现离群值;若
发现了离群值,剔除一个离群值后,进入下一轮的检验,直 到未发现离群值为止。
n
n (xi x )3
1、将样本数据排列成次序统计量
2、计算样本均值
3、计算样本标准差
4、计算Grubbs下统计量G’n 当G’n大于临界值,判定x (1)为离群值;否则判未发
现离群值。若发现了离群值,去掉一个离群值后, 进入下一轮的检验,直到未发现离群值为止。
第三节 双侧离群值的判断
1、将样本数据排列成次序统计量 2、计算样本均值 3、计算样本标准差 4、同时计算Grubbs上下统计量Gn、G’n ; 5、判断 ①当Gn>G’n且Gn大于临界值,G’n不大于临界值,判定
④当G’n>Gn且Gn大于临界值,判定x (1) 与x (n)两个 均为离群值;去掉x (1) 和x (n)后进入下一轮的检验。
⑤当Gn=G’n,且Gn大于临界值时,判定x (1) 与x (n)两 个均为离群值;去掉x (1) 和x (n)后进入下一轮的检 验。
否则判未发现离群值。
第二章 狄克逊(Dixon)检验法(2<n<31)
试验设计及数据分析第一次作业习题答案

习题答案1.设用三种方法测定某溶液时,得到三组数据,其平均值如下:x1̅̅̅=(1.54±0.01)mol/Lx2̅̅̅=(1.7±0.2)mol/Lx3̅̅̅=(1.537±0.005)mol/L试求它们的加权平均值。
解:根据数据的绝对误差计算权重:w1=10.012,w2=10.22,w3=10.0052因为w1:w2:w3=400:1:1600所以w̅=1.54×400+1.7×1+1.537×1600400+1+1600=1.5376812.试解释为什么不宜用量程较大的仪表来测量数值较小的物理量。
答:因为用量程较大的仪表来测量数值较小的物理量时,所产生的相对误差较大。
如3.测得某种奶制品中蛋白质的含量为(25.3±0.2)g/L,试求其相对误差。
解:E w=∆ww =0.225.3=0.79%4.在测定菠萝中维生素C含量的测试中,测得每100g菠萝中含有18.2mg维生素C,已知测量的相对误差为0.1%,试求每100g菠萝中含有维生素C的质量范围。
解:E w=∆ww=0.1%,所以∆m=m×E w=18.2×0.1%=0.0182ww所以m的范围为18.1818mg<m<18.2182ww或依据公式w w=w×(1±|w w|)=18.2×(1±0.1%)mg5.今欲测量大约8kPa(表压)的空气压力,试验仪表用1)1.5级,量程0.2MPa 的弹簧管式压力表;2)标尺分度为1mm的U型管水银柱压差计;3)标尺分度为1mm的U形管水柱压差计。
求最大绝对误差和相对误差。
解:1)压力表的精度为1.5级,量程为0.2MPa,则|∆w|www=0.2×1.5%=0.003www=3wwww w=∆w w×100%=38×100%=3.75×10−1=37.5%2)1mm汞柱代表的大气压为0.133KPa,所以|∆w|www=0.133wwww w=∆w w×100%=0.1338×100%=1.6625×10−2=1.6625%3)1mm水柱代表的大气压:ρgh,其中g=9.80665m/s2,通常取g=9.8m/s2则|∆w|www=9.8×10−3wwww w=∆w w×100%=9.8×10−38×100%=1.225×10−36.在用发酵法生产赖氨酸的过程中,对产酸率(%)作6次评定。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本中的一个或几个观测值,他们离开其它观测值较远,暗示他们可能来自不同的总体
检出水平 detection level
为检出离群值而指定的统计检验的显著性水平,用α表示。除非约定,α 值应为0.05
注1:用统计的方法检验测定值之间是否存在显著性差异,从而判定结果或分析方法的可靠性,这一 过程称为显著 性检验。
数据的统计处理和解释
2.离群值的三种情形
a.上侧情形:根据实际情况或以往经验,离群值都为高端值;
b.下侧情形:根据实际情况或以往经验,离群值都为低端值;
c.双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端 值。
3.检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样品量相比较应较小)当检出离 群值个数超出了这个上限时,对此样本应作慎重的研究和处理。
数据的统计处理和解释
• Grubbs检验法 1、计算统计量Gn和Gn’的值:
Gn=(xi- x )/s
( xi x ) 2
i 1 n
Gn’=( x -x1)/s
S
n 1
数据的统计处理和解释
2、确定检出水平α,在附表1中查出临界值G1- α(n)
3、a:上侧判断
当Gn>G1- α(n)时,判定xi为离群值,否则判未发现xi是离群值。
☆在允许检出离群值的个数大
于1的情况下,重复使用单个离 群值的检验规则,若没有检出 离群值,则整个检验停止;若 检出离群值,当检出的个数超 出规定样本中检出离群值的上 限时,检验停止,对此样本应 慎重处理;否则,采用相同的 检出水平和规则,对除去已检 出离群值后的余下观测值继续 检验。
数据的统计处理和解释
数据的统计处理和解释
Dixon检验法:统计离群值的判断(单侧)
A、当检出Xn或X1为离群值时,确定剔除水平α* B、查附表3,D1-α*(n) Dixon检验法:统计离群值的判断(双侧)略
数据的统计处理和解释
低端
当D’n>D1-α*(n)时 •判断X1为统计离群值
否则
•X1为歧离值
高端
•当Dn>D1-α*(n)时
二:符号和缩略语
n 样本量
x 样本平均值
α检验离群值所使用的显著水平,简称检出水平
α*检验统计离群值所使用的显著水平,简称剔除水平(α* < α )
x(i)观测值从小到大排序后的第i个值
δ总体标准差 s 样本标准差 Gn Gruห้องสมุดไป่ตู้bs 上统计量 Gn’ Grubbs 下统计量 Dn Dixon 上统计量 Dn’Dixon 下统计量
数据的统计处理和解释
三:离群值的判断
1.来源与判断
来源
a.第一类离群值是总体固有变异性的极端表现,他与样本中其余观测值 属于同一总体。
b.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果, 或产生于观测、记录、计算中的失误,他与样本中其余观测值不属于同 一总体。 判断 对于离群值的判定通常可根据技术或物理上的理由直接进行,当上述理 由不明确时,可用本判定方法。
1.155 1.481 1.715 1.887 2.02 2.126
1.155 1.492 1.749 1.944 2.097 2.221
1.155 1.496 1.764 1.973 2.139 2.274
9
10 11 12 13 14 15 16 17 18 19 20
1.977
2.036 2.088 2.134 2.175 2.213 2.247 2.279 2.309 2.335 2.361 2.385
数据的统计处理和解释
a.依据实际情况和以往经验,选定 适宜的离群值检验规则。
b.确定适当的显著水平
单个离群值情 形的判断
c.根据显著水平及样品量, 确定检验的临界值 d.由观测值计算相应统计量 的值,根据所得值与临界值 的比较结果作出判断。
数据的统计处理和解释
判定多个离群值的检验规则
这个是重要的哦!
25
26 27 28 29 30
2.486
2.502 2.519 2.534 2.549 2.563
2.663
2.681 2.698 2.714 2.73 2.745
2.822
2.841 2.859 2.876 2.893 2.908
3.009
3.029 3.049 3.068 3.085 3.103
说明:这两个方法及引用术语均来自国家标准 1. 主要内容出自GB/T 4883-2008 《数据的统计处理 和分析 正态样本离群值的判断和处理》
2. 一部分文件引用自GB/T 4882-2001 《数据的统计 处理和解释 正态性检验》
范围:适用于来自正态分布的样本
数据的统计处理和解释
一:术语和定义
2.11
2.176 2.234 2.285 2.331 2.371 2.409 2.443 2.475 2.504 2.532 2.557
2.215
2.29 2.355 2.412 2.462 2.507 2.549 2.585 2.62 2.651 2.681 2.709
2.323
2.41 2.485 2.55 2.607 2.659 2.705 2.747 2.785 2.821 2.854 2.884
数据的统计处理和解释
Dixon检验法:
样本量(n) 检验高端离群值
Dn=r10=
x(n)-x(n-1) x(n)-x(1) x(n)-x(n-1) x(n)-x(2) x(n)-x(n-2) x(n)-x(2) x(n)-x(n-2) x(n)-x(3)
检验低端离群值
D’n=r’10=
x(2)-x(1) x(n)- x(1) x(2)-x(1) x(n-1)-x(1) x(3)-x(1) x(n-1)-x(1) x(3)-x(1) x(n-2)-x(1)
b:下侧判断 当Gn’>G1-α(n)时,判定x1为离群值,否则判未发现x1是离群值。
c:双侧判断
当Gn>Gn’且Gn>G1-α/2(n)时,判定xi为离群值; 当Gn’>Gn且Gn’>G1-α/2(n)时,判定x1为离群值;
否则判断未发现离群值。
数据的统计处理和解释
4、统计离群值的判断(单侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*(n)
注2:在显著性检验中,将具有显著性差异的测定值在随机误差分布中出现的概率(小概率)称为 显著性水平(水准)用α 表示,即这些测定值位于一定置信度所对应的随机误差界限之外。
注3:在置信区间内包含真值的概率称为置信度(置信水平)用P表示。 注4:置信度和显著性水平的关系:P=1-α
数据的统计处理和解释
四:离群值的处理
• • • • a.保留离群值并用于后续数据处理 b.在找到实际原因时修正离群值,否则予以保留 c.剔除离群值,不追加观测值 d.剔除离群值,并追加新的观测值或用适宜的插补值代替
处理方式
a.在技术或物理上找到产生离群值的原因,则应剔除或修正;未找到则不得剔除或进行 修正。
处理规则
b.找到产生离群值的原因,则应剔除或修正;否则保留歧离值,剔除或修正统计离群值; 在重复使用同一检验规则检出多个离群值时,每次检出后,都要再检验它是否为统 计离群值。若是,则其前检出的离群值(含歧离值)都应剔除或修正。 c.检出的离群值(含歧离值)都被剔除或进行修正。
3~7 8~10
Dn=r11=
D’n=r’11=
11~13
14~30
Dn=r21=
D’n=r’21=
Dn=r22=
D’n=r’22=
数据的统计处理和解释
Dixon检验法
确认检出水平α ,在附表2中查出临界值D1-α (n)。 当Dn> D1-α(n)时,判定Xn为离群值 当D’n> D1-α(n)时,判定X1为离群值 否则二者都判未发现离群值。 附表2相见GB/T4883-2008 里将不再列举。 单侧Dixon检验的临界值表,这
数据的统计处理和解释
双侧1
当Gn’>G1-α/2*(n)时 •判断X1为统计离群值
否则
•X1为歧离值
双侧2
•当Gn>G1-α/2*(n)时
否则 •否则Xi为歧离值
•判断Xi为统计离群值
数据的统计处理和解释
• 使用Grubbs法检验的实例..\临时文件 \soybean meal - November 2007.xls
否则
•否则Xn为歧离值
•判断Xn为统计离群值
数据的统计处理和解释
附表1 Grubbs检验的临界值表
•
n
0.90
0.95
0.975
0.99
0.995
3 4 5 6 7 8
1.148 1.425 1.602 1.729 1.828 1.909
1.153 1.463 1.672 1.822 1.938 2.032
数据的统计处理和解释
上侧
当Gn>G1-α*(n)时 •判断Xi为统计离群值
否则
•Xi为歧离值
下侧
•当Gn’>G1-α*(n)时
否则
•否则X1为歧离值
•判断X1为统计离群值
数据的统计处理和解释
5、统计离群值的判断(双侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*/2(n)
2.387
2.482 2.564 2.636 2.699 2.755 2.806 2.852 2.894 2.932 2.968 3.001
数据的统计处理和解释
附表1 Grubbs检验的临界值表