固井质量数据中的异常值剔除方法研究
试论计量测试中异常数据剔除的措施

试论计量测试中异常数据剔除的措施发表时间:2018-09-18T16:18:06.730Z 来源:《基层建设》2018年第25期作者:陈佩茹[导读] 摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
深圳供电局有限公司广东省深圳市 518133摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
本文首先对计量测试中异常数据的产生原因进行简单分析,进而研究其剔除方法,包括拉依达准则法、格拉布斯准则法、狄克逊准则法、肖维勒准则法等,并结合具体实例进行应用分析。
关键词:计量测试;异常数据;剔除方法前言:计量测试工作对数据准确性有较高要求,完成一项计量测试工作后,会得到大量数据,需要对其进行整理和分析,准确筛选出其中存在的异常数据,否则将会对最终的测量结果产生较大影响。
同时,对数据进行评判也是检验仪器状态的主要方法,在实际应用过程中具有重要意义。
由于计量测试在实际生产中应用广泛,相关研究也受到了高度重视,并形成多种异常数据判断准则,可以有效剔除异常数据。
一、计量测试中异常数据的产生原因计量测试仪器均属于高精密仪器,受外部环境影响较大,可能在外部环境发生变化时,导致测量结果出现较大偏差。
另一方面,如果仪器自身存在故障,也会导致测量结果不准确。
因此,在实际的计量测试工作中,异常数据普遍存在,需要在完成测量后,剔除异常数据,确保结果的准确性。
计量测试中的异常数据产生原因主要包括:(1)测试过程中仪器受到震动影响,比如机械振动或人力作用等;(2)仪器供电电压不稳定,或在测试中受到电磁干扰,导致仪器出现故障问题,产生较大的结果偏差;(3)测试操作人员缺乏操作经验,在测试过程中未按规定流程进行测试;(4)仪器自身存在零件松动、元件损坏等缺陷问题,操作人员无法正常测量,即使能够测出结果也会存在较大偏差[1]。
试验数据异常值的检验及剔除方法

试验数据异常值的检验及剔除方法
摘要
异常值(outliers)指的是可能存在的测试数据点,其值大大偏离了
它们的数据集的中位数或平均值,如果未及时发现和处理这些异常值,将
会严重影响实验数据的准确性和有效性,因此,检验和剔除测试数据中的
异常值是必不可少的任务。
本文将介绍测试数据异常值检验和剔除的方法,旨在有效改善测试数据的准确性和有效性。
一、异常值的定义
异常值简单来说,指的是数据集中与其他所有值有明显差异的数据点。
它可能是由于实验环境的变化,实验设备的变化,数据获取的失误而产生的,或者错误的测量结果导致的。
二、异常值的检验
在检验数据中是否存在异常值之前,首先要明确测试数据的分布类型。
根据数据的分布,可采用不同的检验方法,通常按照如下步骤检验异常值:(1)可先将测试数据按照箱线图或四分位图等形式画出,看看数据
是否符合正态分布;
(2)可以计算数据的中位数、平均数、标准偏差等,来查看异常值
的程度;
(3)可以根据数据的中位数、平均数等,计算出数据的上下限,这
样便可以将数据划分为”正常“和”异常“;
(4)可以使用基于概率的检验方法,此方法可以给出异常值的检验
结果。
如何处理数据中的异常值

处理数据异常值的方法:考虑数据分布、样本量及原
因背景
处理数据中的异常值可以采用多种方法,具体取决于异常值的定义和数据类型。
以下是一些常用的处理异常值的方法:
1.删除含有异常值的记录:这是一种简单直接的方法,但可能会导致数据量
减少或改变数据的分布。
2.将异常值视为缺失值,用相应的插值或填充方法处理:例如,可以用前一
个或后一个观测值的平均值来填充异常值,也可以使用多项式插值或样条插值等方法。
3.用平均值来修正异常值:可以使用前后两个观测值的均值来修正异常值,
也可以用整个数据集的平均值来修正。
4.不处理异常值:如果异常值对数据分析和模型预测的影响不大,也可以选
择不处理。
在实践中,处理异常值时需要考虑数据的分布和样本量,以及异常值产生的原因和背景。
对于不同的数据集和不同的情况,可能需要采用不同的方法来处理异常值。
固井质量数据中的异常值剔除方法研究

固井质量数据中的异常值剔除方法研究摘要:固井质量历史数据中可能存在一些异常值,这些异常值对于建立影响因素与固井质量之间的模型有很大的影响。
本文对如何识别判断异常值进行了论述,通过文中介绍的方法,可以在模型计算前将固井历史数据中存在的异常值除去,以保证数据的真实性和可靠性,最大限度减小对模型建立的影响。
关键词:固井质量异常值剔除1 概述固井作业是石油钻井作业中非常重要的一个环节。
固井作业效果的好坏,会对整个钻井项目最终的成败产生关键性影响。
在实际作业中,有很多因素都会对固井质量产生影响。
为了确保钻井工作的万无一失,应该努力寻找到分析固井质量与影响因素之间关系的方法,即一种预测模型。
这样在固井施工之前,我们可以通过预测模型进行事前模拟,并根据得出的数值对相关影响因素进行干预和控制,保证固井的质量。
因此,数据的真实性与可靠性对建立模型至关重要。
但是,数据中可能会出现一些异常值,这些异常值对于建立模型会有很大的影响。
因此,判断并剔除数据中的异常值就显得至关重要。
2 异常值的判别方法在对异常值进行判别时,可以将其分成两类,即预先已知标准偏差的场合和未知标准偏差的场合。
在判断方法上,通常只能通过待检验分析数据的自身检验来辨别其中是否有异常值。
本文专门讨论如何对同一组分析数据中的异常值进行辨别,而忽略对同一总体中不同样本间存在的异常值的研究。
2.1 标准偏差已知检验时使用统计量上述方法有着各自的特点和适用范围。
狄克逊检验法、格拉布斯法、t检验法等则同时兼顾了置信度,明确界定了概率意义,提高了计算结果的精确度和科学性。
其中,格拉布斯法设定了一定的置信度,同时将平均值、标准偏差引入计算过程,大大提高了计算的精确度,因而得到了国内外一些实验机构的引荐应用;t检验法进行数据处理前,预先将被检验的离群值“剔除”,确保了计算标准偏差的独立性及正确性,取得了预期的理论性的结果,不论是检验的灵敏度,还是测定精度都显著提升。
至于检验方法,则要根据实际条件和实验要求而定。
异常数据4种剔除方法

异常数据4种剔除方法异常数据是指与其他数据不一致或不符合预期的数据。
在数据分析和建模过程中,异常数据可能会影响统计结果和模型的准确性。
因此,为了保证分析结果的可靠性,通常需要对异常数据进行剔除或修正。
以下是常见的四种剔除异常数据的方法。
1.箱线图检测异常值箱线图是一种常用的异常值检测方法,它以数据的分位数为基础,通过上下四分位距来判断数据是否异常。
根据箱线图,我们可以判断出数据中的异常值,并将其剔除。
首先,绘制箱线图以可视化数据的分布情况。
箱线图由一个箱体和两条触须组成。
箱体表示数据的四分位数范围,上触须和下触须分别表示上四分位数和下四分位数与最大非异常值和最小非异常值之间的距离。
根据箱线图,我们可以识别出在上下触须之外的数据点,这些点通常是异常值。
然后,我们可以将这些异常值从数据集中剔除,以保证后续分析的准确性。
2.3σ原则剔除异常值3σ原则是一种基于数据的均值和标准差的统计方法,用于判断数据是否异常。
在正态分布下,大约68%的数据位于均值的±1σ范围内,95%的数据位于均值的±2σ范围内,99.7%的数据位于均值的±3σ范围内。
因此,我们可以基于3σ原则来识别并剔除数据中的异常值。
首先,计算数据的均值和标准差。
然后,根据3σ原则,识别出超出3倍标准差范围之外的数据点,并将其从数据集中剔除。
3.离群点检测算法剔除异常值离群点检测算法是一种自动化的异常值识别方法。
常用的离群点检测算法包括聚类算法(如K-means算法)、孤立森林算法、LOF(局部异常因子)算法等。
这些算法可以根据数据的特征属性来识别出异常值,并将其从数据集中剔除。
4.领域知识和业务规则剔除异常值除了基于统计和算法的方法,领域知识和业务规则同样可以用于剔除异常值。
领域专家通常对数据的特点和业务规则有深入的了解,可以根据经验判断数据是否异常。
比如,在一些业务场景下,根据实际情况设定阈值,超出阈值的数据可以被视为异常并剔除。
计量测试中异常数据剔除方法的探讨

2 o 1 4 年 第2 8 期I 科技创新与应用
计 量测试 中异常 数据剔 除 方法 的探 讨
赵 妮 孙 明 珠 王 中 禹
( 吉 林 市 计 量 测试 技 术 研 究 院 , 吉林 吉 林 1 3 2 0 1 3 )
摘 要: 文章基于计量测试 中异常数据 的产生和剔除方法, 进行 了分析和研 究, 从 而尽 可能准确、 高效地剔除异常数据 , 结合 实例 分析 了剔 除方 法在 应 用 中应该 注 意 的 事项 。
关键词: 计 量测 试 ; 异 常数 据 剔 除 ; 精确 性 计 量 测量 工 作是 一 项 对 数 据精 确 性 要求 很 高 的工 作 , 而 在通 过 的假 定 , 究 竟 是 不是 正 态 分 布 , 尚需要 进 一 步 的判 断 , 但彳 F 实 际应 用 计量测量得到大量数据后 , 还应 对 数 据 进 行 科 学 的 整 理 , 对 其 中可 中 , 人们 往 往 倾 向于 不 考 虑 样 本是 否 符 合 正 态分 布 , 而 将 其 近 似 假 能出现的异常进行有效 的剔除 , 从而保 证测得数据的有效性 , 供相 定 为样 本 符 合正 态 分 布 ) ,同时将 可 疑 数 值 X . 当作 一 个 样本 容 量 为 关 实 践使 用 。 1 的特殊总体 , 在进行两个总体 比较 时, 如果两者 同属一个 总体 , 那 1计 量 测试 T 作 的作 用 么 他们 之 间 不应 该存在 显 著 的差 异 , 由此 即可计 算 出 统计 量 k : 计量 测 试 工作 主 要 是在 日常 的 各类 生 产 实 践 中 , 出于对 各 种 数 k :I X ̄ - X [ 据 的 使用 需 要 而对 检 测 仪器 的测 量 结 果进 行 评 估 , 通 过 评估 结 果 来 S 判 定
试论计量检定中的异常值及其剔除方法

试论计量检定中的异常值及其剔除方法作者:翟志强来源:《中国科技博览》2015年第33期[摘要]随着计量检定在各专业领域应用的普遍,人们对计量检定结果的准确度和精度也提出了更高的要求。
当前,带来检定结果的准确度降低的原因主要是混入了“异常值”,而当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成异常数据的产生,属于比较普遍的现象。
因此,相关检定人员要掌握异常值剔除的有效方法。
本文结合笔者实践工作经验,首先对计量检定中异常值形成的原因及判断方法进行了分析,在此基础上分析了拉依达准则、肖维勒准则、狄克逊准则等三种应用较为广泛的异常值剔除方法,希望可以为相关的理论和实践提供借鉴。
[关键词]计量检定;异常值;剔除方法;拉依达;肖维勒准则中图分类号:P413 文献标识码:A 文章编号:1009-914X(2015)33-0390-01一、计量检定中异常值的形成通过计量检定获取的数据中如果混入了“异常值”,势必会对检定的结果带来一定的影响。
这时如果可以有效地将异常值进行剔除,那么获得的结果必定是更加客观和符合事实情况。
而在实际中还存在着这么一种情况,某组通过正确和客观测得的具有分散性的数值,本来是可以正确地对事实本身进行反映,是仪器在特定条件下进行测量的随机波动特性。
相关人员为了获得更加精密的结果,而人为地对其中误差比较大的数值进行剔除,殊不知这些误差较大的值并不属于异常值,实质上是虚假的。
以后在相同条件下对该组数据进行重新检定时候,和该误差值类似的误差值就会可能再次出现,甚至出现多次的情况。
那么异常值是如何产生的呢?笔者认为,当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成不正常数据的产生,是含有粗差的数据。
粗误差产生的原因是多方面的,比如读错数据、记错记录、计算错误、调错标志、仪器故障和操作不当等都会造成粗误差产生。
以下情况下确认的数据都可以确定为粗误差,可以将其予以剔除:1)标准器或检定设备不正常或者操作不当时的读数;2)模拟环境条件超过规定值或稳定性不符合要求的读数;3)经过校准或者补测确认的粗误差。
实验数据的质量控制与排除异常值

实验数据的质量控制与排除异常值在科学研究中,实验数据的质量控制与排除异常值是至关重要的步骤。
合理、准确的数据质量控制能够保证研究结果的可信度和可重复性,而排除异常值则可以有效消除数据中的误差或其他干扰因素,确保数据的真实性和准确性。
本文将介绍实验数据质量控制的方法和排除异常值的策略。
一、实验数据质量控制实验数据质量控制是指对数据采集过程中的各个环节进行监控和调整,以保证数据的准确性和可靠性。
以下是几种常用的实验数据质量控制方法:1. 样本处理过程的严格控制在实验前,应该对待测样品进行充分的样品准备和处理,确保样品的代表性和一致性。
在样品处理过程中,应严格控制各个步骤的操作条件和时间,避免因为不恰当的处理而引入误差。
2. 仪器设备的校准和维护在实验中使用的仪器设备需要定期进行校准和维护,以保证其准确性和稳定性。
应该按照仪器制造商的要求进行校准,并定期检查设备的运行状态和性能。
3. 重复实验和平行实验为了评估实验方法的可靠性,可以进行重复实验和平行实验。
重复实验是指在相同的条件下,重复进行一系列实验,以评估实验数据的重现性和稳定性;而平行实验是指在相同的条件下,同时进行多次实验,以评估实验数据的一致性和可信度。
4. 控制组和对照组的设置在实验设计中,应设置适当的控制组和对照组。
控制组是指没有接受处理或干预的样本组,用于评估实验处理对目标效应的影响;而对照组是指接受一定处理或干预的样本组,用于与实验组进行对比和效应评估。
二、排除异常值在实验数据中,由于各种原因可能存在异常值,即与其他观测值相比明显偏离的数据点。
排除异常值是为了消除这些异常点对数据分析和模型建立的干扰,以获得更准确和可靠的结果。
以下是几种常用的排除异常值的策略:1. 通过数据可视化进行初步筛查通过绘制散点图、箱线图等可视化图形,可以直观地观察数据分布情况,并初步发现是否存在异常值。
在图形中,异常值通常表现为明显偏离其他数据点的离群点。
2. 使用统计方法进行异常值检测统计方法可以帮助我们检测异常值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∑x .
x =上L
n
( 1 . 2 )
1 概述 固井作 业是 石油钻 井作 业 中非 常重要 的一个 环节 。固 井作业 效 果 的好坏 , 会 对整 个钻 井项 目最 终 的成 败产 生 关 键 性 影 响。在 实 际作 业 中 , 有 很 多因素 都会 对 固井质 量 产
T :— X d - X
—
( 1
.
2 . 2 . 2 狄 克逊 ( Di x o n ) 检验 法 将X . ( i = 1 , 2, …, n ) 根 据 其 大 小 顺 序 依 次排 列 , 设 为
1 )
X1 ≤× 2 ≤ … ≤ Xn 。
c T
该 方法 省去 了× 、 S的计 算过 程 , 而 是将 n的数 目作 为 公式 中 X 代表 被检 验 的离 群值 , X 表 示 测定 值 的算 术 依 据 , 对 与之相 对应 的 r 值进 行计 算。表 1 . 2给 出 了 D i x o n 平均值 , a 是 除去 异 常值 后 , 由其他 实验 测 定值 得 出。 对 ( 0 . 0 5 , n ) 。 于公式( 1 . 1 ) 计 算 出的 T值 , 从表 中查 得 相 应 的 临界 值 , 并 检验 法 的临界值 r
固井质量数据 中的异常值剔 除方法研究
初 力剑 程 尧 陈真 洋 周少华 ( 东 北 石 油 大 学 数 学 科学 与 技 术 学 院 )
摘要 : 固 井 质 量 历 史数 据 中可 能 存在 一 些 异常 值 , 这 些 异常 值 对 行 比较和 判 断 , 具体 公式 为 :
于 建 立 影 响 因 素与 固井 质 量 之 间 的模 型 有很 大 的影 响 。 本 文 对如 何
表 1 . 2 Di x o n检验法的临界值 进行 比较 。 如 果在相 应 置信 度下 , T 值 比舍 弃界 限 中临界值 要大, 则X 可 以被视 为异 常值舍 弃 。 R 09 4 1 0 7 6 5 06 4 2 0 5 6 0 5 0 7 0 5 5 4 0 51 2 04 7 7 0 5 7 6 0 5 4 6 2 . 2 标 准偏 差 未知
表 1 . 1 Gr u b b s检 验 法 的 临界 值
3 4 b 6 7 8 9 1 0 l 1
g 1 . 1 5 1 . 4 6 1 . 6 7 1 . 8 2 2 异 常值 的判 别方 法 n 1 2 1 3 1 4 1 5 在 对 异 常值 进行 判别 时 , 可 以将 其 分成 两 类 , 即预 先 已知标 准偏 差 的场 合和 未知 标准偏 差 的场合 。 在 判 断方法 g : 旦 : 呈 兰 : 呈 Z 至 :
1 . 9 4 2 . 0 3 2 . 1 1 2 . 1 8 2. 2 3 1 6 1 7 1 8 1 9 2 O
:
: Z
: 曼 至 : 呈 : 曼
上, 通 常只 能通 过待 检 验 分析 数 据 的 自身检验 来 辨别 其 中 判定 规 则 : 如果 g < g ( 0 . 0 5 , n ) , 则 可 视 为不 存在 异 常 是 否 有异 常值。本文 专 门讨 论如 何对 同一 组 分析 数据 中 的 值 ; 如果 g > g ( 0 . 0 5 , n) , 就可 以将 异 常值 确定 为 X 。 从 实 异常值 进行 辨 别 , 而忽 略对 同~ 总体 中 不 同样 本 间存在 的 验 数 据 中将 异 常 值 删 除 , 再 通 过 重 复 以上 步骤 , 对 剩 余 的 异常值 的研 究。 n 一 1个数据 进 行再 次 比较 判 断 , 直 到 经过 m 次 判断后 , 数 2 . 1 标准 偏 差 已知 据 无 异常 出现 。 检 验 时使用 统计 量
识 别 判 断 异常 值 进 行 了论 述 , 通 过 文 中介 绍 的 方法 , 可 以在 模 型 计 算 前 将 固 井 历史 数 据 中存 在 的 异 常 值 除 去 , 以保 证 数 据 的 真 实性 和 可 靠性 , 最 大 限度 减 小 对 模 型 建 立 的影 响。 关键 词 : 固井 质 量 异 常值 剔 除
式 ( 1 . 2 ) 、 ( 1 . 3 ) 、 ( 1 . 4 ) 中 : 当 f × 一 x I > l x 一 x l 时 , x = x ; 当
5 %, n为数据 数 目。 G r u b b s检验法 的 临界 制, 保证 固井 的质 量。因此 , 数 据 的真实 性与 可靠 性对建 立 即取 置信 度 为 9 ( O . 0 5 , n) , 如表 1 . 1所 示。 模型 至 关重要 。 但是, 数 据 中可 能会 出现 一 些异常值 , 这些 值 g 异 常值 对于 建 立模 型会 有很 大 的影 响。 因此 , 判 断并剔 除 n 数据 中的异 常值就 显得 至关 重要 。
ห้องสมุดไป่ตู้
S = g n =
( 1 . 3 ) ( 1 . 4 )
生影 响。 为 了确 保钻 井工作 的万无 一失 , 应 该努 力寻 找 到 分析 固井 质量 与影 响因素 之 间关 系的 方法 , 即一 种预 测模 X 1 - X 一 I < l × n 一 I 时 , x = X n 。 型。 这样 在 固井 施工 之前 , 我 们可 以通 过预 测模 型进 行 事 l 临 界值 g ( a, n ) 中 , 为显著 性水平 , 通常取 a= 0 . 0 5 , 前模 拟 , 并根 据得 出的数值 对相 关影 响 因素进行 干预 和控