数据3-可疑值的取舍

合集下载

实验结果可疑数据的取舍方法选择

实验结果可疑数据的取舍方法选择[摘要]在实际工作中，常常会遇到一组平行测定中有个别数据的精密度不甚高的情况，该数据与平均值之差是否属于偶然误差是可疑的。

实验结果对可疑数据的取合很重要。

而且对可检验疑数据取合过程中方法的选择也很重要。

[关键词]可疑数据、取合、方法选择中图分类号：u415.1 文献标识码：a 文章编号：1009-914x（2013）05-0310-01前言：在定量分析工作中，通常要对同一试样做几份平行测定，然后求出平均值。

如果数据中出现显著性差异，即有的数据特大或特小（称为可疑值或离群值），是否都能参加平均值的计算呢？这就需要用统计学方法进行检验，不得随意弃去或保留可疑值。

实验结果可疑数据的取合方法很多：包括q值检验法、格鲁布斯检验法、t值检验法、f检验法等等，下面借一组数据只对q检验法、格鲁布斯检验法进行对比。

看哪种方法更适合实验室应用。

1.数据整理首先要把实验数据加以整理，剔除由于明显的原因而与其它测定结果相差甚远的那些数据，对于一些精密度似乎不甚高的可疑数据，则要通过一定的方法决定取合，然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差，最后按照要求的置信度求出平均值的置信区间。

2.置信度与平均值的置信区间有了平均值和平均值的标准偏差，就能以±s（表示平均值s表示平均值的标准偏差）的形式表示分析结果，从而推算出所要测定的真值所处的范围，这个范围就称为平均值的置信区间，真值落在这个范围内的几率称为置信度。

通常化学分析中要求置信度95%。

测定次数越多，置信区间的范围越窄，即测定平均值与总体平均值（真值）越接近，但是测定结果超过20次以上置信度的几率系数变化不大，再增加测定次数对提高测定结果的准确度已经没有什么意义了，所以只有在一定的测试次数范围内，分析数据的可靠性才随平行测定次数的增加而增加。

3.实验结果可疑数据的取舍方法对比可疑数据的取合是对过失误差的判断，常用方法有q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。

工业分析技术专业《知识点8 分析结果可疑值的取舍》

分析结果可疑值的取舍在常量分析实验中，一般对单个试样试液平行测定2～3次，此时测定结果可作如下简单处理：计算出相对平均偏差，假设其相对平均偏差≤％，可认为符合要求，取其平均值报出测定结果，否那么需重做。

对要求非常准确的分析，如标准试样成分的测定，考核新拟定的分析方法，对同一试样，往往由于实验室不同或操作者不同，做出的一系列测定数据会有差异，因此需要用统计的方法进行结果处理。

首先把数据加以整理，剔除由于明显原因而与其它测定结果相差甚远的错误数据，对于一些精密度似乎不甚高的可疑数据，那么按本节所述的Q 检验或根据实验要求，按照其它有关规那么决定取舍，然后计算n 次测定数据的平均值x 与标准偏差S ，有了x 、s 、n 这三个数据，即可表示出测定数据的集中趋势和分散情况，就可进一步对总体平均值可能存在的区间作出估计。

一、数据集中趋势的表示方法根据有限次测定数据来估计真值，通常采用算术平均值或中位数来表示数据分布的集中趋势。

1．算术平均值x对某试样进行规次平行测定，测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性，绝对值相等的正、负误差出现的概率相等，所以算术平均值至是真值的最正确估计值。

当测定次数无限增多时，所得的平均值即为总体平均值μ。

μ=∑=∞→ni i n n x 11)(lim 2．中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。

当测定次数规为奇数时，位于序列正中间的那个数值，就是中位数；当测定次数规为偶数时，中位数为正中间相邻的两个测定值的平均值。

中位数不受离群值大小的影响，但用以表示集中趋势不如平均值好，通常只有当平行测定次数较少而又有离群较远的可疑值时，才用中位数来代表分析结果。

二、数据分散程度的表示方法随机误差的存在影响测量的精密度，通常采用平均偏差或标准偏差来表示数据的分散程度。

1．平均偏差d计算平均偏差d 时，先计算各次测定对于平均值的偏差：d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值：d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是：%100⨯xd2．标准偏差标准偏差又称均方根偏差。

《分析化学》第2章》误差及分析数据的处理复习题及答案

一、判断题1、测定的精密度高，则准确度一定高。

(×)2、用标准偏差表示测定结果的精密度比算术平均偏差更合理。

(√)3、测得某溶液pH=6.21，其有效数字是三位。

(×)4、测得某溶液体积为1.0L，也可记为1000mL。

(×)5、所有的误差都能校正。

(×)6、为提高包含区间的包含概率，可适当提高包含区间的宽度。

(√)7、误差为正值表示测得值比真值低。

(×)8、若测量只进行一次，则无法考察测得值的精密度。

(√)9、评价进行多次平行测量结果时，正确度和准确度含义相同。

(×)10、定量检测中，精密度和精确度含义相同。

(×)11、可通过回收试验回收率的高低判断有无系统误差存在。

(√)12、某测得值的总误差是系统误差与随机误差之和。

(√)13、随着测量次数增加，随机误差变小。

(×)14、定量检测报告中仅需给出平行测定值的平均值即可。

(×)15、分析结果的准确度由系统误差决定，而与随机误差无关。

(×)16、测定结果的准确度仅取决于测量过程中的系统误差的大小。

(×)17、准确度反映的是分析方法或测定系统的系统误差的大小。

(×)18、精密度反映的是分析方法或测定系统随机误差的大小。

(√)19、两组数据的平均偏差相同，它们的标准偏差不一定相同。

(√)20、在定量分析中精密度高，准确度不一定高。

(√)21、进行无限多次测量，总体均值就是真值。

(×)22、系统误差分布符合正态分布规律。

(×)23、有效数字中不应该包含可疑数字。

(×)24、离群值的取舍可采用F检验。

(×)25、置信度越高，则相应的置信区间越宽。

(√)26、t检验可用于判断测定值与标准值之间有无显著性差异。

(√)27、采用F检验可以判断两组测定结果的均值有无显著性差异。

(×)28、采用F检验可以判断两组测定结果的精密度有无显著性差异。

第三节可疑数据的取舍方法

第三节可疑数据的取舍方法在一组条件完全相同的重复试验中，个别的测量值可能会出现异常。

如测量值过大或过小，这些过大或过小的测量数据是不正常的，或称为可疑的。

对于这些可疑数据应该用数理统计的方法判别其真伪，并决定取舍。

常用的方法有拉依达法、肖维纳特（Chavenet）法。

格拉布斯（Grubbs）法等。

一、拉依达法当试验次数较多时，可简单地用3倍标准偏差（3S）作为确定可疑数据取舍的标准。

当某一测量数据（x i）与其测量结果的算术平均值（x-‘）之差大于3倍标准偏差时，用公式表示为：︳x i－x-‘︳＞3S则该测量数据应舍弃。

这是美国混凝土标准中所采用的方法，由于该方法是以3倍标准偏差作为判别标准，所以亦称3倍标准偏差法，简称3S法。

取3S的理由是：根据随机变量的正态分布规律，在多次试验中，测量值落在 x-‘一3S 与x-‘十3S之间的概率为％，出现在此范围之外的概率仅为%，也就是在近400次试验中才能遇到一次，这种事件为小概率事件，出现的可能性很小，几乎是不可能。

因而在实际试验中，一旦出现，就认为该测量数据是不可靠的，应将其舍弃。

另外，当测量值与平均值之差大于2倍标准偏差（即︳x i－x-‘︳＞ 2S）时，则该测量值应保留，但需存疑。

如发现生产（施工）、试验过程屯有可疑的变异时，该测量值则应予舍弃。

拉依达法简单方便，不需查表，但要求较宽，当试验检测次数较多或要求不高时可以应用，当试验检测次数较少时（如n<10）在一组测量值中即使混有异常值，也无法舍弃。

二、肖维纳特法进行n次试验，其测量值服从正态分布，以概率1／（2n）设定一判别范围（一k n S，k n S），当偏差（测量值x i与其算术平均值x-‘之差）超出该范围时，就意味着该测量值x i是可疑的，应予舍弃。

判别范围由下式确定：肖维纳特法可疑数据舍弃的标准为：︳x i一x-‘︳/S≥k n三、格拉布斯法格拉布斯法假定测量结果服从正态分布，根据顺序统计量来确定可疑数据的取舍。

可疑数据的取舍方法

可疑数据的取舍方法当我们进行数据分析或研究时，经常会遇到一些可疑数据，这些数据可能是错误的、异常的或者无意义的。

在分析中使用这些可疑数据可能会导致错误的结论或误导。

因此，正确地挑选和处理可疑数据是非常重要的。

以下是一些可疑数据的取舍方法：1. 数据质量检查：首先，我们应该对数据进行质量检查，以确定哪些数据属于可疑数据。

这些检查可以包括查找缺失值、非数字字符、极端值、不合理值等。

通过这些检查，我们可以较快地识别出问题数据。

2. 数据可信度评估：对于可疑数据，我们需要对其可信度进行评估。

在评估可信度时，可以考虑数据来源的可靠性、收集数据的方法和过程、数据记录的一致性等因素。

如果数据来自于一个不可信的来源或者存在一些不一致性，那么这些数据应该被视为可疑数据，并且应该考虑排除它们。

3. 数据分布分析：数据分布的分析可以帮助我们理解数据的特征和模式。

如果可疑数据与其他数据存在显著的差异，那么这些数据可能是异常数据。

通过绘制直方图、箱线图等图表可以更直观地观察数据的分布情况。

4. 上下文分析：在分析可疑数据时，我们应考虑到数据所处的背景和环境。

如果这些数据在特定的背景下无法被解释，那么它们可能是错误的或异常的。

我们可以通过与其他相关数据或可信的指标进行比较来验证数据的合理性。

5. 数据修复：如果可疑数据的原因是显而易见的错误或者缺失值，我们可以尝试进行数据修复。

修复数据的方法包括插值、平均值替代、回归模型等。

但是，在进行数据修复时，我们应该注意修复方法的适用性和局限性。

6. 数据剔除：对于那些无法修复或无法解释的可疑数据，我们应该考虑将其从分析中剔除。

剔除数据的原则是数据的可靠性和代表性。

这种方法适用于可疑数据对分析结果产生较大影响的情况。

7. 敏感性分析：对于那些无法确定是否剔除的可疑数据，我们可以进行敏感性分析。

敏感性分析是在不同情景和假设下对数据进行分析，以了解可疑数据对结果的影响。

通过敏感性分析，我们可以评估可疑数据的影响程度，从而决定该是否保留或剔除。

试验检测中数据的修约与取舍

试验检测中数据的修约与取舍[摘要] 工程质量的评价是以试验检测数据位依据的，试验检测采集得到的原始数据类多量大，有时杂乱无章，甚至还有错误，因此对试验检测得到的原始数据进行合理的修约后才能得到可靠的试验检测结果。

本文通过介绍试验数据的修约规则和取舍方法，说明了数据处理在工程中的实际意义。

[关键词] 试验数据修约取舍1.前言工程质量的评价是以试验检测数据位依据的，试验检测采集得到的原始数据类多量大，有时杂乱无章，甚至还有错误，因此对试验检测得到的原始数据进行合理的修约后才能得到可靠的试验检测结果。

2.数据的修约规则2.1数据分类质量数据就其本身的特性来说，可以分为计量值数据和计数值数据。

（1）计量值数据。

计量值数据是可以连续取值的数据，表现形式是连续型的。

如长度、厚度、直径、强度等质量特征，一般都是可以用检测工具或仪器等测量（或试验）的，类似这些质量特征的测量数据，一般都带有小数，如长度为1.15m、1.18m等。

在工程质量检验中得出的原始检验数据大部分是计量值数据。

（2）计数值数据。

有些反映质量状况的数据是不能用测量器具来度量的。

为了反映或描述属于这种类型内容的质量状况，而又必须用数据来表示时，便采用计数的办法，即用1、2、3、…连续地数出个数或次数，凡属于这样性质的数据即为计数值数据。

2.2数据的修约条件数据获得后，还涉及数据的定位问题，也就是对规定精确程度范围之外的数字如何取舍的问题。

（1）修约间隔系确定修约保留位数的一种方式。

修约间隔的数值一经确定，修约值即应为该数值的整数倍。

主要有0.1单位修约、0.2单位修约、0.5单位修约、1单位修约等。

例如指定修约间隔为0.1，修约值即应在0.1的整数倍中选取，相当于将数值修约到一位小数。

（2）有效位数对没有小数位且以若干个零结尾的数值，从非零数字最左一位向右数得到的位数减去无效零(即仅为定位用的零)的个数；对其他十进位数，从非零数字最左一位向右数而得到的位数，就是有效位数。

可疑数据的取舍.

该数据坚决弃舍，否则就不能随便将它弃舍，而必须用统计方法
来判断是否取舍。取舍的方法很多，其中Q检验法比较严格而且使用比较方便。在此介绍Q检验法和4 d 法。
2
例题
测定碱灰总碱量（%Na2O)得到6个数据，按其大小顺序
排列为40.02，40.12，40.16，40.18，40.18，40.20。第一
x
0.1033 0.1060 0.1035 0.1031 0.1022 0.1037 6
0.1036
3. 求出标准偏差s：
2 2 0.00032 0.00242 0.0001 0.00052 0.0001 0.00142 s 0.0013 6 1
可疑数据的取舍
Q 值检验法
可疑数据的取舍
4 d 检验法
可疑值的取舍
分析工作者获得一系列数据后，需要对这些数据进行处理。在一组平行测定的数据中，有时会出现较为离群的数据（一个甚至多个），这些数据称为可疑值(doubtful value)或离群值（ divergent value）。如这些数据是由实验过失造成的，则应该将
Q 计算
x n x n 1 1.40 1.31 0.60 x n x1 1.40 1.25
查表 2-4， n = 4 ，
Q0.90 = 0.76
Q计算 < Q0.90
故 1.40 应保留。
8
例4-3 某矿石中钒的含量(%)，4次分析测定结果为
20.39、20.41、20.40和20.16，Q检验法判断20.16是否弃
若 Q > Qx 舍弃该数据, （过失误差造成）
若 Q ≤ Qx 保留该数据, （随机误差所致）
表1-9 不同置信度下舍弃可疑数据的Q值

可疑值取舍的方法

可疑值取舍的方法
在面对可疑值时，可以采用以下方法进行取舍：
1. 反复测量：如果存在可疑值，可以进行多次测量，比较各次结果，找出重复性较好的数据。

2. 查看可疑值的来源：检查实验或观察过程中是否存在可能导致异常结果的误操作或异常情况，如仪器故障、操作失误等。

3. 使用统计方法：将可疑值与其他测量值进行比较，如果可疑值与其他数据差异显著，可以考虑将其排除。

4. 验证测量结果与预期结果之间的一致性：根据实验或观察的目的，对结果进行合理性判断，例如与已有理论或经验知识进行对比。

5. 参考相关文献或领域专家的建议：查阅相关文献或咨询领域专家，以获得更多关于可疑值的解释和建议。

6. 其他辅助方法：如使用误差棒图、回归分析、再测量等方法来评估可疑值的影响和重要性。

最终，取舍可疑值时需要全面考虑以上因素，并结合具体情况进行综合判断，以
确保得到尽可能准确和可靠的结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作业：习题：1、4、9、20
ቤተ መጻሕፍቲ ባይዱ
可疑数据的舍弃
在一组测定值中，常出现个别与其它数据相差很大的可疑值。如果确定知道此数据由实验差错引起，可以舍去，否则，应根据一定的统计学方法决定其取舍。方法： Q检验法格鲁布斯法 4 d法
1. Q检验法
步骤如下(3≤ n≤ 10) (1) 将测定值按递增顺序排列：x1,x2,…,xn; (2) 求最大与最小值之差xn-x1; (3)由可疑值与其相邻值之差的绝对值除以极差，求得 Q值：
2. 4 d 检验法
步骤（1）求可疑值除外的其余数据的平均值和平均偏差 d ；（2）若（可疑值-平均值)的绝对值大于4 d ，则舍去，否则保留。例2.用EDTA标准溶液滴定某试液的Zn，平行测定4次，消耗 EDTA标液的体积(mL)分别为：26.37，26.41，26.44， 26.42，试问26.37这个数据是否保留？ • 该法不必查表，比较简单，故仍为人们采用。
Q
X疑 X邻
？可疑值是哪个
X 最大 X 最小
Q值愈大，表明可疑值离群愈远，当Q值超过一定界限时应舍去。 (4)依据n和要求的置信度，查表1-4得Q值，比较Q表与 Q计判断，当Q计≥Q表，该可疑值应舍去，否则应保留.
例1，平行测定盐酸浓度(mol/l)，结果为0.1014， 0.1021，0.1016，0.1013。试问0.1021在置信度为 90%时是否应舍去。解: (1)排序：0.1013, 0.1014, 0.1016, 0.1021 (2)Q=(0.1021-0.1016)/(0.1021-0.1013)=0.63 (3)查表1-4,当n=4, Q0.90=0.76 因Q计＝0.63< Q0.90＝0.76, 故0.1021不应舍去。