异常数据处理方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上海海洋大学食品学院
食品试验设计与统计分析
第五节
异常数据的剔除
若满足 足
rn r0n,
则认为 x n 含有粗大误差,应剔除。 注意:当剔除一个数据后 注意:当剔除 个数据后,应按所余顺序量计算 统计量,再检验另一可疑数据。 3 优点 无须计算标准差 计算简便。具有较好的使用 无须计算标准差,计算简便。具有较好的使用 效果。
vi xi x 3s (i 1,2, , n)
食品试验设计与统计分析 上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
此时该准则无效。 当测量次数n不同时,vk超出±3s 的概率是不同 的。此准则没有考虑这 差别,也没有区别对可 的。此准则没有考虑这一差别,也没有区别对可 靠性的不同要求,因而比较粗糙。 例1 对某一尺寸进行15次等精度重复测量, 对某一尺寸进行15次等精度重复测量 得到数据如下(单位mm):10.262, 10.268, 10 265 10 263 10 278 10 267 10 263 10.265,10.263,10.278,10.267,10.263, 10.260,10.258,10.262,10.264, 10.261, 10.264,10.263,10.265,试判别该列测量数据 中有无异常数据。 中有无异 数 。
食品试验设计与统计分析 上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
方法是作出相应于某一数据的统计量,当该统计 量超出一定范围,则认为相应的测量数据不服从 正常分布而属异常数据。 一、莱以特(Paйma)准则 1 定义 对某量进行n 次等精度的重复测量,得 x1 , x2 ,, xn ,若某一数据 若某 数据xk相应的残差vk满足下式 条件,则认为xk含粗大误差,属异常数据,应剔除。
上海海洋大学食品学院
第五节
异常数据的剔除
Leabharlann Baidu
rn
xn xn 1 x x n 7 1 n xn xn 1 8 n 10 x n x 2 (4 - 52) xn xn 2 11 n 13 x n x 2 x n x n 2 x x n 14 3 n
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
二、格罗布斯(Grubbs)准则 1 定义 对某量进行n次重复测量,得 x1 , x2 ,, xn ,设测 量误差服从正常分布 若某数据xk满足下式,则认 量误差服从正常分布,若某数据 满足下式 则认 为xk含有粗大误差,应剔除。
g k
vk s

xk x s
g 0 n ,
(4 - 50)
上海海洋大学食品学院
食品试验设计与统计分析
第五节 第 节
异常数据的剔除 异 数据的剔
式中: g k ——数据xk的统计量,
g 0n , ——统计量g k 的临界值,它依测量次
g k vk / s, k 1,2,, n;
表2
2.66,因而剩余14
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
食品试验设计与统计分析
上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
三、狄克逊(Dixon)准则 、狄克逊(Dixon)准则 1 定义 对某量进行n次重复测量,得 x1 , x2 ,, xn ,设测 量误差服从正常分布,按数值大小进行排列为 x1 ≤ x 2 ≤…≤ x n ,若某数据 xi 含有粗大误差,应 剔除。 2 方法 为检验 x1 ,作统计量
小概率事件实际不可能性原理
随机事件的概率表示了随机事件在 次试 随机事件的概率表示了随机事件在一次试 验中出现的可能性大小。若随机事件的概率很 小,例如小于0.05、0.01、0.001,称之为小 概率事件。 概率事件
食品试验设计与统计分析
上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
10.278 10.267 0.647 10.278 10.261
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
选定显著度 =0.01,由表3可得临界值为: r015,0.01 0.616 。 显然, r15 r015, 0.01 0.616 ,故x15(即 ( x5 ) 含粗大误差,应剔除。 , 。 对剩余的14个数据重新判断,对 x1作统计量为
第五节 第 节
n 1 i 1
异常数据的剔除 异 数据的剔
2
s
v
i
n2
μm=2.6μm 2 6
3s =7.8μm
判断:显然 断 x2及x9最为可疑,但其残差 其 差
v9 3s ,可见 可见x2及x9属正常数据。因此,剩下 属正常数据。因此 剩下 v2
的14个数据均为正常数据。
v k x k x 3s
食品试验设计与统计分析
(4 - 49)
上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
式中:
x
——为 x1 , x2 ,, xn 的算术平均值;
s ——测量标准差的估计量。 这就是莱以特准则,亦称为 3 准则。
2 局限性 此准则在测量数据较少时可靠性差。特别是, 当采用贝塞尔公式计算测量标准差s时,若 时 若n≤10, ≤10 则对任一数据 xi 恒有
取 =0.01,查表得临界值 r0 14, 0.01 0.641 , 显然 r1 r0 14, 0.01,r14 r0 14, 0.01,因此剩余数 据均属正常。
食品试验设计与统计分析 上海海洋大学食品学院
10.268 10.265 0.429 10.268 10.261
s
选定 =0 0.01,查表4 01 查表4-8得临界值为: 8得临界值为:
5 g 2 g 9 1.92 2.6
g 014,0.01 2.66
食品试验设计与统计分析
上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
显然, g 2 g 9 g 014, 0.01 个数据均为正常数据。
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
x2 x1 x x n 7 n 1 x2 x1 8 n 10 xn 1 x1 r1 (4 - 51) x3 x1 11 n 13 xn 1 x1 x3 x1 n 14 x n 2 x1
应剔除。
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
5 对于其余数据,应重复以上各步,重新计算算术 平均值及标准差,结果如下:
1 x x0 xi =10.263mm; n 1 i 1
n 1
vi xi x
食品试验设计与统计分析 上海海洋大学食品学院
食品试验设计与统计分析 上海海洋大学食品学院
1 x x0 xi n i 1
n
第五节
异常数据的剔除
2
s0
v
i 1
n
295 μm=4.6μm 4 6 n 1 15 1
i
3s 3 4.6μm=13.8μm 4 数据剔除:由于 数 除 x5残差绝对值最大,最为可疑,应 差绝 应 先检验。显然有 v5 3s ,因此 因此x5含有粗大误差, 含有粗大误差

数n及显著度而定,其值列于表4 及显著度而定 其值列于表4-8; 8; ——显著度,为判断出现错误的概率,
值依具体问题选择。即当xk满
足式(4-50),但不含粗大误差的概 足式(4 50) 但不含粗大误差的概 率为:
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
这就是格罗布斯准则。 2 优点 该准则克服了莱以特准则的缺陷 在概率意义 该准则克服了莱以特准则的缺陷,在概率意义 上给出较为严谨的结果,被认为是较好的判断准 则。
食品试验设计与统计分析
x3 x1 x12 x9 r1 x12 x1 x15 x9 10.261 10.258 0.429 10.265 10.258
上海海洋大学食品学院
第五节 第 节
异常数据的剔除 异 数据的剔
对 x14 作统计量为 x14 x12 r14 x14 x3
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
选定显著度 ,由表4-9查得该统计量的临界值 ,由表4 9查得该统计量的临界值 r0n, ,若满足 r1 r0n, ,则认为 x1含有粗 大误差,应舍弃。 同样,为检验 x n ,作统计量

食品试验设计与统计分析
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除

将数据列表1 表1
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
1 计算算术平均值,取 x0 =10.265mm,则
1 =10.265mm+ ×(-3+3-2+13+2-2-5-7-3 15 -3 -1-4-1-2)×10 1 4 1 2)×10 mm=10.264mm; 10 264 2 计算各测量数据残差并填入表中。 3 计算标准差,按贝塞尔公式有:
食品试验设计与统计分析 上海海洋大学食品学院
xk x p g 0n , s
第五节
异常数据的剔除
例2 试用格罗布斯准则判断例1中的异 常数据。 解 1 最可疑的数据为残差绝对值最大的数据x5。 对x5作统计量 v5 14 选定 =0.01,查表2得临界值为:
x2 x15 x2 x12
莱以特准则适用于测量次数较多且要求 不高时,测量次数较少时不能使用; 格罗布斯(Grubbs)准则和狄克逊(Dixon) 准则都能适用于试验数据较少时的检验 ,在一些国际标准中,推荐使用这两种 准则来检验可疑数据; 准则来检验可疑数据 较为精确的试验中,可以选用两种、三 种方法对试验数据进行判断。
测量数据包含:随机误差和系统误差,只要误差 值不超出允许范围,所得结果就应接受。粗大误 差 差超出了正常的误差分布范围,对测量结果造成 的 差 成 歪曲。因此应剔除包含有粗大误差的数据。 仅凭直观判断常常难于对粗大误差和正常分布 的较大的误差作出区分。若主观地将误差值较 大但属正常分布的数据判定为异常数据而剔除, 大但属正常分布的数据判定为异常数据而剔除 也同样会歪曲测量结果。 实践中常采用统计的方法判别系列测量数据中 的异常数据。以下列出几个判别准则,其基本
g 5
s

4. 6
3.04
g 015,0.01 2.70
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
显 ,g 5 g 0 15, 0.01 ,因此 显然, ,因 x5含有粗大误差,应剔 有粗大 , 剔 除。 vi及 之后,进行判 2 对剩余数据在重新计算 x 、 断。对x2或x9作统计量
食品试验设计与统计分析 上海海洋大学食品学院
第五节
异常数据的剔除
表3
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
食品试验设计与统计分析
上海海洋大学食品学院
第五节
异常数据的剔除
例3 用狄克逊准则检验例1测量数据中是否有 异常数据。 解 按大小顺序排序为:x9 ≤x8 ≤ x12 ≤ x1≤x10 ≤x13 ≤ x3 ≤ x15 ≤ x6≤ x ≤ x5 。 x4≤ x7≤ x14 ≤ x11 2 由直观判断,先对 x15(即 x5 )检验,作统计量 x15 x13 x5 x6 r15 x15 x3 x5 x12
相关文档
最新文档