地球化学勘查数据迭代处理的可视化及结果分析
勘察设计中的数据处理与分析

遥感技术应用
卫星遥感
利用卫星遥感技术获取大范围的地形 、地质信息,为勘察设计提供宏观背 景。
无人机遥感
无人机搭载高分辨率相机,可获取高 精度地形图和地质信息。
地理信息系统(GIS)
数据整合
GIS能够将各种来源的数据整合到一 个统一的地理坐标系中,方便后续分 析。
数据可视化
GIS能够将数据以图形化的方式呈现, 便于理解和分析。
专用道等,以缓解交通拥堵和提高通行效率。
土地利用变化监测
总结词
通过遥感技术等手段,监测土地利用变化情 况,为土地规划和资源管理提供决策依据。
详细描述
利用卫星遥感影像等数据,对比不同时间点 的土地利用情况,监测土地利用变化趋势。 分析土地利用变化的原因和影响,为土地规 划、资源管理和生态环境保护提供科学依据 。
水质监测
采集水体水质数据,评估水体质量及变化情况, 为水环境治理提供依据。
噪声监测
监测城市噪声源分布及强度,分析噪声污染状况 及影响,提出噪声控制措施。
06
案例分析
城市交通流量分析
总结词
通过数据分析,掌握城市交通流量变化规律,优化交通布局,提高城市交通运行效率。
详细描述
利用收集的交通数据,如车流量、车速、道路拥堵情况等,进行统计分析,了解交通流 量的时空分布特征。根据分析结果,提出交通优化建议,如调整信号灯配时、增设公交
神经网络算法
神经网络算法是一种模拟人脑神经元 工作方式的算法。
VS
神经网络算法通过模拟神经元之间的 连接和信号传递过程,能够学习和预 测复杂的非线性关系。在勘察设计中 ,神经网络算法可以用于对复杂的地 质条件和工程数据进行学习和预测, 从而提高勘察的准确性和设计的可靠 性。
地球化学化探数据处理与成图

3、化探中常用的数据处理方法:
化探数据处理过程中面对大量原始数据主要依靠现代 数学一统计方法和信息技术,分析方法多种多样,有单变量 分析:(如趋势面分析,稳健统计等)和多变量分析(如判 别分析,簇群分析,相关分析,因子分析等)之别;就处理 所依据的统计分布律而言,有依赖于正态律的参数统计法和 不依赖于它的非参数统计法,属于后者的模式识别技术已有 很大发展;就处理所针对的数据变化特征而言,有研究线性 关系和非线性关系的两大类方法。近些年来,根据地球化学 数据的变异特点而采用的克里格法等研究非线性变化的方法 迅速发展,混沌、分形和智能神经网络等新型数据处理方法 也得到广泛应用。
6、多元地学空间数据管理与分析系统 (GeoExpl)应用
主要步骤: 建立数据工程、应用工程→建立基础 数据库(数据的导入、备份)→数据分析 检索→离散数据网格化→网格数据二维空 间分析(图件制作、生成)
谢谢大家!
3、化探数据是以多元素或多变量为特征的。如果参加分 析的数据含有已知因素(如矿或非矿的作用)时,数据处 理的结果可给出明确的地质解释,否则所做的地质解释就 含有较大程度的推测性。 4、应该充分注意地球化学数据中少数高含量值对统计计 算结果(如背景和异常的数值)的扰乱,尽量使用以中位数 为基础的稳健统计学代替以平均值为基础的传统统计学处 理数据。 5、保证地球化学数据处理质量的关键,是所用数字模型 的原理和特性,搞清所用参数和处理结果的地质一地球化 学意义,避免朦朦胧胧地做数字游戏
3、异常下限(背景上限):指划分异常与背景的临界值, 大于此值为异常范围.特征元素背景含量不是一个特定值, 一定范围内元素含量变化的一系列数值,其中最大值即为 背景上限值,超过临界限值,为异常范围,异常下限异常 范围内最低值。 4、异常衬度:又称为异常清晰度.异常衬度定义为异常强 度与平均背景或异常下限的比值.有多种表示方法: C=xa/xb C:异常衬度; xa和xb相应为异常平均值和背景 平均值。 在矿区化探工作中,在一个小范围内出露的岩性差异较大, 使得元素的背景值差异增大,此时的岩石测量就不宜使用 统一的异常下限圈定异常.而采用异常衬度圈定异常可以 更为确切地反映不同背景岩石中的地球化学异常.
第二篇 地球化学数据处理 第四章 地球化学数据分析 第一节~第三节

四、变量的均匀化变换
1.均值计量变换 均值计量变换即用绝对量的平均值作为均匀化 因子,去除该变量每个样品的原始观测数据。 2.极差变换(又称正规化或规格化变换) 极差变换就是将原始数据减去该变量的最小值 然后,以极差作为均匀化因子去除 。 3. 标准化变换 标准化变换是将每一变量的原始观测值减去平 均值,并以该变量的标准差作为均匀化因子去 除。
地球化学数据处理方法
常规地球化学数据处理
▲ 数据变换 2.极差化 (正规化变换 )
式中Xij为原始数据;Xjmin为第j变量的最小值;Xjmax为第j变量 的最大值。i=1,2……n为标本数;j=1,2, ……p为变量数。 变换后数据处于统一量纲,其最大值为1,最小值为0,所有数 据变化在0—1之间。变换前后变量间相关程度不变,其几何意义 相当于把坐标轴原点移至变量最小值的位置。适合于量纲和数量 大小不一的连续型原始数据的变换。
(3)仪器误差——仪器本身的缺陷 例:天平两臂不等,砝码未校正;滴定管,容量 瓶未校正 (4)主观误差——操作人员主观因素造成 例:对指示剂颜色辨别偏深或偏浅; 滴定管读 数不准
二、 随机误差(偶然误差)
1.特点: (1)不恒定,无法校正;(2)服从正态分布 规律:大小相近的正误差和 负误差出现的几率机等; 小误差出现的频率较高,而大误差出现的频率较低, 很大误差出现的几率近于零。 2.产生的原因:(1)偶然因素(室温,气压的微小变 化);(2)个人辩别能力(滴定管读数) 注意: 过失误差属于不应有的过失。
c.查表(自由度f= f 1+ f 2=n1+n2-2),比较:
t计> t表 ,表示有显著性差异 t计< t表 ,表示无显著性差异
数据的检验解决两类问题:
化学实验数据的可视化表达与解读

化学实验数据的可视化表达与解读在化学领域,实验数据的获取和分析是推动研究进展的关键环节。
然而,大量复杂的数据往往让人眼花缭乱,难以直观理解和准确把握其中的关键信息。
这时,化学实验数据的可视化表达就显得尤为重要。
它不仅能够将抽象的数据转化为直观的图形,还能帮助我们更快速、更深入地解读数据背后的意义。
一、化学实验数据可视化表达的重要性化学实验产生的数据通常是大量的、多维的,仅仅通过数字表格来呈现,往往难以让人迅速洞察数据的规律和趋势。
例如,在研究化学反应速率时,我们可能会得到不同时间点反应物浓度的一系列数据。
如果只是将这些数据罗列在表格中,很难直观地看出反应速率的变化情况。
但如果将这些数据以折线图的形式展示,就能够清晰地看到浓度随时间的变化趋势,从而快速判断反应是加速、减速还是匀速进行。
可视化表达还能够帮助我们发现数据中的异常值和潜在的模式。
在一组实验数据中,可能存在个别偏离整体趋势的数据点,通过图形展示,这些异常值会更加醒目,促使我们进一步探究其产生的原因。
同时,一些隐藏在数据中的周期性、对称性等模式,也能在可视化的过程中更容易被发现。
此外,良好的可视化表达能够更有效地传达信息,方便科研人员之间的交流与合作。
一张清晰、准确的图表往往比冗长的文字描述更能让人快速理解实验结果,有助于减少误解,提高研究效率。
二、常见的化学实验数据可视化方法1、折线图折线图适用于展示随时间或其他连续变量变化的数据。
例如,在研究温度对化学反应速率的影响时,可以将不同温度下反应速率的变化绘制成折线图,清晰地展示出温度与反应速率之间的关系。
2、柱状图当需要比较不同实验组或条件下的数据时,柱状图是一个很好的选择。
比如,比较不同催化剂对同一反应的催化效果,用柱状图表示不同催化剂作用下的反应产率,能够直观地看出哪种催化剂效果更佳。
3、饼图饼图常用于展示各部分所占比例关系。
在分析化学反应产物的组成比例时,可以用饼图来直观地呈现不同产物所占的份额。
年终学术报告 地球化学数据部分处理方法解析及应用示例

广西有色金属集团资源勘查有限公司
结语
由于化探分析的基础都为样品,所以应该注意野外采样—— 利用多点控样(周围3-4个点采,尽可能减少偶然性事件),在 实际应用中最好还应结合前人遥感物化探信息进行二次开发, 这样效果可能会更好。
广西有色金属集团资源勘查有限公司
新年之际祝各位领导同 事新年快乐,幸福安康!
构造地球化学工作设计不拘泥于传统原生晕中的固定网格,构造地化剖 面大致垂直矿区的主要控矿构造。采样介质为断裂破碎带、劈理带、 构造岩、矿化蚀变带、岩石裂隙充填物和各种脉体, 为防止偶然因素影 响,采用取样点附近多点组合成样。为保证样品均匀和便于成图,在无 构造发育地带按一定距离采集岩性控制样,还可沿主要控矿断裂方向加 密取样,最大限度地不漏失矿化信息。
广西有色金属集团资源勘查有限公司
银山庄南工作区构造地球化学找矿
选区依据:位于金场岩体和铜井岩体之间的等间距 构造部位,地表呈正向地貌,具有不同类 型的岩脉 产出,出现较强的磁法异常。
银山庄南工作区面积4.4Km2,采样剖面为 45 条, 共采集地球化学样品 1029 个。
广西有色金属集团资源勘查有限公司
②利用surfer软件做出元素地球化学图、地球化学异常图
广西有色金属集团资源勘查有限公司
综合异常圈定异常带
对本区成矿元素按各元素异常空间分布的一致性归并为5个异常带,其中Ⅰ号、 Ⅱ号异常带主要出露寒武系九龙群张夏组页岩、泥质灰岩、泥晶灰岩和鲕粒灰 岩,并与燕山期花岗斑岩体重合,Cu、Au、Hg异常中心吻合,且异常带向南东 端未封闭,是五个异常带中成矿条件较好的异常带, 其中Ⅱ号异常带又是金异 常最高的一个异常带,值得进一步验证。Ⅲ号异常带次之。
广西有色金属集团资源勘查有限公司
化探数据处理原理及方法

(二)单元划分基本类型
1.规则单元
网格单元 2.自然单元 (1)地质体单元 定性划分;
矿体往往位于地质体内,接触带和地质体外.
(2)地质异常单元 以网格单元为样品单元,样品单元大小根据预测尺度而定; 综合致矿信息定量标度的样品异常单元集合.
(三)地球化学数据分析
1. 单变量 (1)针对要解决的地学问题,分析多源信息来源、原理、 精度、准确度 、用途及意义。
(四)主要成矿元素的统计意义
(四) 图示分析
(直方图、点阵图、三角图、玫瑰图、曲线图、投影图等) 1、直方图(单元素含量-频数直方图) 2、散点图(只管展示元素间、介质间相互关系)
3、饼图(含量分布百分比)
4、研究统计分布特征 (1)正态分布(分布比较均匀或样本密度大) (2)对数正态分布(元素含量变化大或多因素叠加) (3)二项分布(不确定性大,地质体复杂极不均匀)
i 1
n
n 1
式中:i=1,2,…,n;为样本数;j=1,2,…,m为变量 数; xij 为原始观测值; Sj 为标准偏差; xj 为平均值; 处理后的xij值yij为无量纲数据。
二、多源地学信息分析与变换
4、极差化
y ij
( xij x j min ) ( x j max x j min )
(一)地球化学找矿分类
地球化学找矿——地球化学探矿,化探(Geochemical Prospecting) 1、方法分类
测量方式: 航空化探——放射性、气体
海洋化探——海水、海底沉积物、生植物、放射性、气体 地表化探——岩石、土壤、水系沉积物、水、生植物、气
地下(井中)化探——岩矿石、水、放射性、气体
(二)背景与异常的概念
化学实验数据的可视化表达与分析技巧

化学实验数据的可视化表达与分析技巧在化学研究和实验中,数据的获取和分析是至关重要的环节。
然而,大量复杂的数据往往让人感到困惑和难以理解。
此时,化学实验数据的可视化表达就成为了一种强大的工具,它能够将抽象的数据转化为直观、清晰的图像,帮助我们更快速、更准确地洞察数据背后的信息。
同时,掌握有效的分析技巧能够让我们从这些可视化的结果中提取出有价值的结论,为进一步的研究和决策提供有力支持。
一、化学实验数据可视化表达的重要性化学实验产生的数据通常具有多维度和复杂性的特点。
例如,在一个化学反应中,我们可能需要同时考虑温度、压力、反应物浓度、反应时间等多个变量对反应结果的影响。
如果仅仅以数字表格的形式呈现这些数据,很难直观地看出它们之间的关系和趋势。
可视化表达能够极大地提高数据的可读性和可理解性。
通过将数据转化为图形、图表等形式,我们可以更轻松地发现数据中的模式、异常值和趋势。
例如,用折线图展示温度随时间的变化,用柱状图比较不同反应物浓度下的产物产量,用散点图分析两个变量之间的相关性。
此外,可视化表达还有助于发现数据中的隐藏信息。
有时候,一些细微的关系或趋势可能在数字表格中被忽略,但在可视化的图像中却能够清晰地显现出来。
这对于提出新的假设和进一步深入研究具有重要的启发作用。
1、折线图折线图常用于展示随时间或其他连续变量变化的数据。
比如,在研究物质的热稳定性时,可以用折线图描绘物质的质量随温度升高的变化情况,从而直观地看出物质在何时开始分解。
2、柱状图柱状图适用于比较不同类别或条件下的数据。
例如,在比较不同催化剂对反应速率的影响时,可以用柱状图表示在相同时间内不同催化剂作用下的产物生成量。
3、饼图饼图主要用于展示各部分所占比例关系。
比如,在分析一个混合物中各成分的含量时,可以用饼图来直观地呈现各成分所占的百分比。
4、散点图散点图用于研究两个变量之间的关系。
例如,研究溶液的 pH 值与某种离子浓度之间的关系时,可以通过散点图观察它们之间是否存在线性或非线性的关联。
地质勘查数据的可视化与分析技术研究与发展

地质勘查数据的可视化与分析技术研究与发展地质勘查是一项复杂且关键的工作,其目的是揭示地球内部的结构、组成和演化过程,为资源开发、环境保护、工程建设等提供基础数据和科学依据。
在地质勘查过程中,会产生大量的数据,这些数据的有效处理、分析和可视化对于准确理解地质现象、发现潜在规律以及做出合理决策具有重要意义。
一、地质勘查数据的特点地质勘查数据具有多源性、复杂性、时空性和不确定性等特点。
多源性是指数据的来源广泛,包括野外调查、地球物理勘探、地球化学分析、遥感影像等。
复杂性体现在数据类型多样,涵盖了数值型、文本型、图像型等。
时空性则表示数据与时间和空间位置密切相关,反映了地质过程在不同时间和地点的变化。
不确定性源于地质现象本身的复杂性和测量误差等因素。
二、地质勘查数据的可视化技术1、二维可视化传统的地质剖面图、平面图等是常见的二维可视化形式。
通过将地质数据以线条、符号和颜色等方式绘制在平面上,可以直观地展示地层分布、构造形态等信息。
然而,二维可视化在表达复杂地质结构的三维空间关系上存在局限性。
2、三维可视化随着计算机技术的发展,三维可视化技术在地质勘查中得到了广泛应用。
常见的三维可视化方法包括表面建模、体素建模和混合建模等。
表面建模适用于描述地质界面,如地层表面、断层表面等;体素建模则可以更精细地表示地质体的内部结构;混合建模则结合了两者的优点。
通过三维可视化技术,地质工作者可以从不同角度观察地质体,更直观地理解地质结构的空间关系,发现隐藏的地质特征。
同时,还可以进行虚拟钻探、剖切等操作,进一步深入分析地质数据。
3、虚拟现实(VR)与增强现实(AR)技术VR 技术通过创建沉浸式的虚拟环境,让用户仿佛置身于真实的地质场景中。
AR 技术则将虚拟的地质信息叠加在真实场景上,为野外地质调查提供实时的辅助信息。
这两种技术不仅增强了地质数据的可视化效果,还为地质教学和培训提供了新的手段。
三、地质勘查数据的分析技术1、统计分析统计分析是对地质数据进行基本描述和概括的方法,包括均值、方差、频率分布等统计量的计算。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
已知某元素i在n个采样点上的分析数据为
·1024·
物 探 与 化 探
40 卷
表 2 k 取不同值时的迭代结果比较
k=3
元素
剔除 剔除的 算数平 标准 次数 点数 均值 离差
异常 下限
剔除 次数
Ti
4
39 1923 1246 4414
3
V
3
52 52.7 29.7 112
3
Cr
3
110 45.3 27.1 99.4
1) 计算初始数据集中某元素的算数平均值 ( x���1���) 和标准离差( S1) ;
2) 将>x���1���+kS1 和 <x���1���-kS1 值进行剔除,获得一 个新数据集,再计算此数据集的均值( x���2���) 和标准离 差( S2 ) ;
3) 检查有无>x���2���+kS2 和 <x���2���-kS2 的值存在,若 有,则进行重复剔除( 迭代)。 以此类推,重复过程 2) ,直至无离群值的存在。
摘 要: 地球化学勘查中,为了获得准确、客观的背景值并由其推断异常下限,需要对不服从正态分布的化探数据进 行剔除离群值的迭代处理。 为了深入剖析这个较复杂的过程,引用实测数据,利用“特异值检查” 迭代自动化功能 模块,重点研究了设置不同参数时对结果的影响和取对数迭代结果的可靠性。 结果显示:根据化探数据迭代的目 的和正态分布的 3σ 法则,认为 x���i���±kSi 中 k 取 3 最为合适和合理;利用对数迭代剔除过程获得的异常下限远高于原 始数据迭代剔除的结果,这是由于对数的标准离差真值并不是其对应真值的标准离差;此时,可采用真值的几何平 均值和真值的标准离差计算异常下限。 关键词: 迭代处理; 自动化;可视化;背景值;异常下限;真值;标准离差 中图分类号: P632 文献标识码: A 文章编号: 1000-8918(2016)05-1021-05
1 化探数据的迭代过程
迭代是数学上的一种求解方程的方法,也叫逐 次逼近法,是一种通过求近似根的序列收敛,最终得 到较为精确解的过程[10] 。 迭代过程是不断重复的, 每一次对过程的重复即称为“ 迭代”,每次迭代是为
了逼近所设目标,且每一次迭代的初值不同[11 12] 。 迭代过程的复杂性,使得人们更加依赖于运算速度 快、适合做重复性操作的计算机去实现。 迭代过程 需要确定变量和迭代结束的条件。
5期
高艳芳等:地球化学勘查数据迭代处理的可视化及结果分析
·1023·
图 3 Cu 迭代剔除过程中的正态分布曲线
表 1 Cu 迭代剔除结果
迭代 次数
样点 个数
替换 点数
0
7114
0
1
7087
27
2
6991
96
3
6954
37
4
6949
5
5
6947
2
6
6945
2
注:含量单位为 10-6
最小值
剔除方式可以换作替代,即将离群值用 x���i���+kSi 来迭代替换后进行统计。
由上可见,化探数据的迭代过程是一个有限次 的线性迭代。
2 迭代过程的自动化和可视化实现
在进行中国地质调查局地质矿产调查专项“ 中 大比例尺化探数据一体化处理系统研究” 项目研究 时,为了实现 化 探 数 据 迭 代 过 程 的 自 动 化, 开 发 了 “特异值检查” 模块,用来进行数据的迭代处理、背 景值及异常下限的统计。 利用此功能,可以实现迭 代过程的自动化处理和结果的可视化显示,主要功 能界面如图 1 所示。
几何平 均值
15.5 15.4 15.2 15.1 15.1 15.1 15.1
标准 离差
19.4 9.5 8.4 8.2 8.2 8.1 8.1
变异 系数
1.05 0.53 0.48 0.48 0.48 0.47 0.47
异常 下限
57.1 36.8 34.1 33.5 33.5 33.4 33.4
第 40 卷第 5 期 2016 年 10 月
物 探 与 化 探
GEOPHYSICAL & GEOCHEMICAL EXPLORATION
Vol.40,No.5 Oct.,2016
doi: 10.11720 / wtyht.2016.5.28 高艳芳,李俊英,陈军威,等. 地球化学勘查数据迭代处理的可视化及结果分析[ J] . 物探与化探,2016,40( 5) :1021 - 1025. http: / / doi. org / 10. 11720 / wtyht.2016.5.28 Gao Y F,Li J Y,Chen J W,et al.The visualization of iteration processing of geochemical exploration data and an analysis of the result[ J] .Geophysical and Geochemical Exploration,2016,40(5) :1021-1025.http: / / doi.org / 10.11720 / wtyht.2016.5.28
534 0.128 0.048 0.224 8
As
24
844
5.4
3.2 11.8
20
Au
8
426 0.7 0.3 1.3
9
Hg
6
159
10
3
15
7
注: Au、Ag 含量单位为 10-9 ,其他元素为 10-6 。 表 3 同
k = 2.5
剔除的 算数平 点数 均值
90 115 191 649 119 308 268 139 610 258 981 1631 715 987
元素的背景值和异常下限值是化探数据的重要 参量[1] 。 背景值和异常下限值确定的准确与否直 接影响异常的解释与评价[2 3] ,从而影响最终的调 查结果。 因此,元素背景值的确定和异常下限值的 获得, 是 化 探 数 据 处 理 中 最 基 本、 最 重 要 的 问 题[4 6] 。 多年来,通过化探工作者不断的努力,涌现 出了众多求解背景值和异常下限的方法。 但是目前 应用最广的仍然是算数平均值加标准离差这一传统 方法[7 8] 。 此方法的应用原理是[9] : 只有在元素值 集合的概率分布服从正态或近似正态分布的前提 下,该集合的算数平均值才可以作为元素背景的取 值,此背景值可用来计算异常下限。 为了满足这一 条件,化探数据处理过程中引入了迭代处理。
4
Mn
7
420 739 316 1371
9
Co
Байду номын сангаас
3
65
9.8
5
19.7
3
Ni
6
141 21.7 11.9 45.6
7
Cu
6
169 17.1 8.1 33.4
6
Zn
3
109 51.3 23.3 97.8
3
Mo
5
371 0.69 0.26 1.22
8
Ag
3
159 0.05 0.011 0.072 3
Cd
6
界面主要分为 7 个功能区: ①区为迭代条件的设置,k 值默认为 3,用户可 以自定义。 ②区为异常上下限的计算公式。 ③区为数据类型的选择,默认为对原始数据迭 代,可选择数据取对数后再迭代。 ④区为迭代变量的选择,变量为单个或多个元 素。 ⑤区为迭代结果的可视化显示,可以查看迭代 过程中每次剔除点的情况( 图 2) 。 图 2 表明 Cu 经 过了 4 次迭代处理。 图中不同的颜色显示了每次处 理时所剔除的点个数及其位置。
收稿日期: 2016-02-24 基金项目: 中国地质调查局地质矿产调查专项“ 中大比例尺化探数据一体化处理系统研究” (12120113026700)
·1022·
物 探 与 化 探
40 卷
4) 求出 最 终 数 据 集 的 均 值 ( x���n���) 和 标 准 离 差 ( Sn) ,将均值( x���n���) 作为背景值,x���n���+jSn( j 可取 1.5、2 或 3) 作为异常下限[16] 。
化探数据处理过程中,为了使不服从正态分布 的元素数据集合呈现正态或接近于正态分布,采用 了迭代剔除(替换)。 在此过程中,迭代变量为元素 ( 值) ,迭代规则为:剔除 >x���i���+kSi 和 <x���i���-kSi( k 可取 2、2.5、3) 的离群值,迭代结束条件是:没有离群值的 存在,使得元素的概率分布接近于正态形式。 计算 机实现过程如下[13 15] :
富集 系数
1.08 1.05 1.02 1.01 1.01 1.01 1.01
偏度 峰度
47.2 3230.5
1.2
5.9
0.5
2.7
0.4
2.4
0.4
2.4
0.4
2.4
0.4
2.4
数据称为离群值,所以 k = 3 为首要的选择。 在表 2 中,若选择 k = 3 时,最大剔除量为 844 个数据点;当 k = 2 时,最大剔除点数达到 3 342 个,几乎近一半为 离群点,显然不切合实际。 3.2 原始数据迭代和取对数迭代的结果对比