几种常用的异常数据挖掘方法

合集下载

数据挖掘中的异常检测算法与模式识别技巧

数据挖掘中的异常检测算法与模式识别技巧

数据挖掘中的异常检测算法与模式识别技巧在数据挖掘领域,异常检测算法和模式识别技巧是非常重要的工具。

异常检测算法可以帮助我们识别数据中的异常值,而模式识别技巧可以帮助我们发现数据中的隐藏模式。

本文将介绍常用的数据挖掘中的异常检测算法和模式识别技巧,并讨论它们在实际应用中的作用和挑战。

一、异常检测算法1. 基于统计方法的异常检测算法基于统计方法的异常检测算法是最常见且基础的方法之一。

它基于数据的统计特性,通过计算数据点与整体数据分布之间的差异来判断数据点是否为异常值。

常见的统计方法包括Z得分、箱线图法和概率分布模型等。

2. 基于机器学习的异常检测算法基于机器学习的异常检测算法能够自动学习数据的模式和规律,并通过与已有模型的比较来判断数据点是否为异常。

常用的机器学习算法包括支持向量机、决策树和随机森林等。

3. 基于聚类分析的异常检测算法基于聚类分析的异常检测算法将数据点根据其相似性进行分组,然后通过计算数据点与其所属群集之间的距离来判断数据点是否为异常。

这种方法对于无监督学习的异常检测非常有效。

二、模式识别技巧1. 特征选择和降维在模式识别中,特征选择和降维是重要的技巧。

特征选择可以帮助我们选择最相关的特征,从而减少噪声的干扰和计算的复杂性。

降维可以将高维数据转化为低维表示,减少计算成本并提高模型的泛化能力。

2. 数据清洗和预处理数据清洗和预处理是模式识别中不可或缺的步骤。

数据清洗可以帮助我们去除无效或重复的数据,预处理可以对数据进行标准化、归一化和平滑处理,以便提高模型的性能和稳定性。

3. 特征提取和特征表示特征提取和特征表示是模式识别中的核心任务。

特征提取可以帮助我们从原始数据中提取最具有代表性和区分性的特征,特征表示可以将这些特征表示为机器学习算法所能理解的形式,如向量或矩阵。

三、异常检测算法与模式识别技巧的应用和挑战异常检测算法和模式识别技巧在各个领域都有广泛的应用,如金融欺诈检测、网络入侵检测和医学诊断等。

数据挖掘的常用算法

数据挖掘的常用算法

数据挖掘的常用算法
数据挖掘的常用算法包括:
1. 决策树:通过构建树形的决策规则,对数据进行分类或回归预测。

2. 支持向量机(SVM):通过寻找最优的超平面来进行分类或回归问题。

3. 朴素贝叶斯:基于贝叶斯定理,使用特征之间的独立性假设来进行分类。

4. K均值聚类:将数据根据距离远近进行分组,尽量使得同组内的数据相似,不同组之间的数据不相似。

5. 随机森林:基于多个决策树的集成方法,通过对多个决策树的预测结果进行投票或平均来进行分类或回归。

6. 神经网络:模拟人脑的神经元网络结构,通过多层的连接和权重来进行复杂的分类或回归问题。

7. 关联规则挖掘:用于发现数据集中的频繁项集和关联规则,可用于购物篮分析、交叉销售等。

8. 主成分分析(PCA):通过将数据映射到新的坐标系,以降低数据维度并保留
最重要的信息。

9. 聚类算法:除了K均值聚类外,还有层次聚类、密度聚类等方法,用于将数据根据相似性进行分组。

10. 异常检测算法:用于识别数据中的异常值或离群点,如LOF(局部离群因子)算法、One-Class SVM等。

这些算法各有特点和适用范围,根据具体问题的需求选择合适的算法进行数据挖掘任务。

基于距离的异常数据挖掘算法及其应用

基于距离的异常数据挖掘算法及其应用

基于距离的异常数据挖掘算法及其应用
距离是数据挖掘中常用的度量方法之一,基于距离的异常数据挖掘算法就是通过计算数据点之间的距离,来找出与其他数据点相比较远的“异常数据”。

常用的距离度量方法包括欧式距离、曼哈顿距离、切比雪夫距离等。

基于距离的异常数据挖掘算法主要包括离群点检测和集群检测两种。

其中,离群点检测算法主要是通过计算数据点与其他数据点之间的距离来得出异常程度,如基于密度的离群点检测算法LOF(Local Outlier Factor),它通过计算数据点周围的密度来判断该点是否为离群点。

集群检测算法则可以通过计算数据点与其他数据点之间的距离来将数据点按照相似性分组,如k-means聚类算法就是基于距离进行数据点分类的经典算法之一。

基于距离的异常数据挖掘算法在实际应用中具有广泛的应用价值。

例如,在工业生产的过程中,一些特殊的生产条件或基础设施的故障可能导致某些机器或设备工作异常或变得与预期不符,如果能够及时地检测并排除这些异常,就可以保障生产过程的正常进行,提高生产效率。

此外,在交通运输领域中,异常数据挖掘算法也可以帮助我们发现路段拥堵、交通事故等异常情况。

在金融领域中,异常数据挖掘算法可以帮助银行及时发现存在风险的交易行为,提高风险控制能力。

总之,基于距离的异常数据挖掘算法在现实中有着广泛的应用价值。

通过对数据点之间距离的计算,可以有效地发现异常数据,帮助我们及时发现问题并采取相应的措施。

随着数据挖掘技术的不断发展,基于距离的异常数据挖掘算法将进一步得到完善和优化,并在更多领域中得到应用。

异常数据判断方法

异常数据判断方法

异常数据判断方法
异常数据判断方法是指在数据分析或数据挖掘过程中,通过对数据进行统计分析,找出与其他数据明显不同或异常的数据点。

这些异常数据点可能是由于测量误差、数据录入错误或其他未知原因引起的。

判断异常数据的方法有以下几种:
1. 箱线图法:通过绘制箱线图,找到数据的上下四分位数和异
常值,从而判断数据是否异常。

2. 常用统计指标法:通过计算均值、标准差、偏度和峰度等统
计量,判断数据是否符合正态分布,从而判断异常数据。

3. 局部异常因子法:通过计算每个数据点与其相邻数据点的距离,从而找出异常点。

4. 基于模型的方法:通过构建模型,比较实际数据与模型预测
结果的差异,从而找出异常数据点。

5. 分类器法:通过构建分类器,对数据进行分类,从而找出异
常数据点。

在使用异常数据判断方法时,需要根据数据特点和分析目的选择合适的方法,并对判断结果进行验证和修正,以确保数据分析和挖掘的准确性和可靠性。

- 1 -。

几种常用的异常数据挖掘方法

几种常用的异常数据挖掘方法

几种常用的异常数据挖掘方法数据挖掘是指从大量的数据中提取有用的信息和模式的过程。

然而,在现实世界中,输入的数据常常包含异常值或噪声,并可能对挖掘结果造成不良影响。

因此,异常数据挖掘成为了数据挖掘领域中的重要研究方向之一、下面将介绍几种常用的异常数据挖掘方法。

1.离群点检测:离群点检测是一种常见的异常数据挖掘方法,用于识别那些与其他数据点显著不同的数据点。

常用的离群点检测算法包括LOF(局部离群因子)和Isolation Forest(孤立森林)。

LOF算法通过比较数据点与其邻近点的密度来评估离群程度,将离群点定义为具有较低密度的点。

Isolation Forest算法则通过构建一棵由随机划分组成的二叉树来识别离群点。

2.群体离群点检测:群体离群点检测是一种可以同时检测出单个数据点和数据组的离群点的方法。

常用的群体离群点检测算法包括COF(集体适应度探测)和CBLOF(聚类集体离群点检测)。

COF算法通过测量数据点与其邻近点集合的适应度来进行离群点检测,将适应度低于阈值的点定义为离群点。

CBLOF算法则通过首先使用聚类算法将数据点聚类成不同的组,然后计算每个组的离群点得分,最终将得分高于阈值的点定义为离群点。

3.遗迹异常检测:遗迹异常检测是一种用于检测异常轨迹或序列的方法。

这种方法常用于识别异常行为,例如网络入侵和金融欺诈。

常用的遗迹异常检测方法包括序列聚类和基于规则的异常检测。

序列聚类方法通过将轨迹进行聚类,然后检查每个聚类中的轨迹是否与其他聚类中的轨迹有显著差异来进行异常检测。

基于规则的异常检测方法则通过建立正常行为的规则,并检测与这些规则不符的行为来进行异常检测。

4.时间序列异常检测:时间序列异常检测是一种用于检测时间序列数据中异常值的方法。

常用的时间序列异常检测方法包括季节性分解和ARIMA(自回归移动平均模型)。

季节性分解方法通过将时间序列分解为趋势、季节性和残差三个部分,然后检测残差部分是否包含异常值。

数据挖掘 常用方法

数据挖掘 常用方法

数据挖掘常用方法
常用的数据挖掘方法包括以下几种:
1. 关联规则挖掘:通过发现数据中的频繁项集和关联规则来揭示数据中的关联关系。

2. 分类算法:根据已有的特征和标签,训练分类模型以预测未知数据的标签。

3. 聚类算法:将数据分为不同的群组,使得同一群组内的数据相似度较高,不同群组间的数据差异较大。

4. 预测建模:通过建立数学模型来预测未来事件或未知数据的数值结果。

5. 时间序列分析:通过分析时间序列数据的趋势和周期性,预测未来的数据趋势。

6. 异常检测:通过发现与正常数据差异较大的数据点或数据模式来检测异常行为。

7. 文本挖掘:通过分析和提取文本数据中的信息,如关键词、主题、情感等,来揭示文本数据的隐含信息。

8. 图挖掘:通过分析和挖掘网络结构和节点之间的关系,揭示图数据中的模式和规律。

9. 基于规则的挖掘:通过定义和挖掘一些领域专家制定的规则,揭示数据中的潜在知识。

10. 基于统计的挖掘:利用统计方法和模型,从数据中发现统计规律和相关性。

这些方法可以单独应用于不同的数据挖掘任务,也可以结合使用以获得更好的结
果。

具体选择哪种方法取决于具体的数据集和研究目标。

在数据挖掘中如何识别异常数据

在数据挖掘中如何识别异常数据

在数据挖掘中如何识别异常数据在数据挖掘中,异常数据是一个非常常见的问题。

这些异常数据可能会影响模型的准确性和可靠性,所以在进行数据挖掘之前,需要对数据进行清洗和识别异常数据。

首先,需要定义什么是异常数据。

在数据中,异常数据通常是指数据点与其他数据点存在不同或不寻常的差异的数据点。

这些数据点可能是由于错误的输入、传感器故障或其他原因引起的。

异常数据可能会导致模型出现偏差,从而影响预测结果的准确性。

接下来,介绍一下在数据挖掘中如何识别异常数据的方法。

1. Descriptive statistics(描述统计学)通常,可以使用描述统计学方法来帮助识别异常数据。

描述统计学方法可以在数据上计算各种统计指标,例如,平均数、标准差、最小值、最大值等,这些指标可以帮助我们检测到任何可能存在的异常值。

在这种方法中,需要注意的是,当数据包含异常值时,平均值和标准差可能会受到影响,因此需要使用其他统计指标来辅助判断。

例如,四分位数范围和箱形图等指标可以更好地确定异常数据点。

2. Visualization(可视化)数据可视化也是一种常见的识别异常数据的方法。

通过绘制图表,可以直观地展示数据之间的关系和分布。

对于异常数据来说,通常表现为数据在图表中的偏离,比如散点图中的离群点。

而在数据可视化中,箱形图是一种常用的方法。

箱形图可以显示数据的四分位数和异常值。

箱形图可以有效显示直观特征,对于发现异常数据具有很好的帮助。

3. Machine learning algorithms(机器学习算法)除了传统的方法,机器学习算法也可以用来识别异常数据。

例如,使用离群点检测算法,可以自动识别异常数据。

离群点检测是一种基于统计学和机器学习的方法。

通过对数据进行分析,确定哪些数据点不符合分布特征,可以有效识别异常数据。

4. Domain knowledge(领域知识)领域知识也是一种非常重要的方法。

在特定领域中,可能存在某些异常数据点是正常的,在这种情况下,领域知识可以帮助识别并排除异常数据点。

数据挖掘算法

数据挖掘算法

数据挖掘算法数据挖掘是一门涉及从大量数据中提取信息和知识的学科,而数据挖掘算法则是实现这一目标的核心工具。

本文将介绍常用的数据挖掘算法,包括分类、聚类、关联规则挖掘和异常检测。

一、分类算法分类算法是数据挖掘中最常见的算法之一,主要用于将数据样本分为不同的类别。

以下是几种常用的分类算法:1. 决策树算法:基于树的数据结构,通过划分特征空间来实现分类。

决策树算法的优点是易于理解和实现,但对于数据的变化和噪声敏感。

2. 朴素贝叶斯算法:基于贝叶斯理论,假设特征之间相互独立,通过计算概率来进行分类。

朴素贝叶斯算法的优点是计算速度快,但对于特征之间的相关性要求较低。

3. 逻辑回归算法:基于线性回归模型,通过逻辑函数将线性回归结果转化为分类结果。

逻辑回归算法的优点是模型简单,但对于特征之间的非线性关系较难处理。

二、聚类算法聚类算法是将数据样本划分为若干个组(簇),使同一组内的样本相似度较高,而不同组之间的样本相似度较低。

以下是几种常用的聚类算法:1. K均值算法:将数据样本划分为K个簇,使每个样本与所属簇的中心点距离最小化。

K均值算法的优点是简单、高效,但对于异常点较敏感。

2. 层次聚类算法:通过计算样本之间的相似度或距离来构建层次化的簇结构。

层次聚类算法的优点是不需要预先指定簇的数量,但计算复杂度较高。

3. 密度聚类算法:基于样本点的密度来划分簇,通过定义样本点的领域和密度来进行聚类。

密度聚类算法的优点是可以发现任意形状的簇,但对于参数的选择较为敏感。

三、关联规则挖掘关联规则挖掘是从大规模数据集中发现事物之间的关联关系。

以下是几种常用的关联规则挖掘算法:1. Apriori算法:基于频繁项集的性质,逐层生成候选项集,并通过剪枝策略减少搜索空间。

Apriori算法的优点是简单、易于实现,但对于大规模数据集计算速度较慢。

2. FP-Growth算法:通过构建FP树(频繁模式树)来挖掘频繁项集,通过路径压缩和条件模式基的计数来加速挖掘过程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目前比较成熟的基于距离的异常数
据挖掘的算法有:
• 基于索引的算法( Index - based) : 给定一个数据集合,基于 索引的算法采用多维索引结构R- 树, k - d树等,来查找每个
对象在半径d范围内的邻居. 假设M 为异常点数据的d – 邻
域内的最大对象数目. 如果对象o 的M + 1 个邻居被发现, 则对象o 就不是异常点. 这个算法在最坏情况下的复杂度 为O( kn2) , k 为维数, n 为数据集合中对象的数目. 当k 增 加时,基于索引的算法具有良好的扩展性.
为了更好地理解,先看一个2-D数据集的例子,如图4所示, 该数据集是一个2维数据集,包含502个对象,在聚类C1 中有400个对象,在聚类C2中有100个对象,此外还有2个 特殊的对象O1和O2,该例中,可以看出C2形成的聚类要 比C1稠密.
高维数据的方法
• 以上几种异常数据挖掘算法一般都是在低维数据上进行的, 对于高维数据的效果并不是很好,基于这个原因,Aggarwal 和Yu提出一个高维数据异常检测的方法. 它把高维数据集 映射到低维子空间,根据子空间映射数据的稀疏程度来确 定异常数据是否存在.
(2) 使用有效的方法挖掘异常点数据. 对数据 模式的不同定义,以及数据集的构成不同,会 导致不同类型的异常点数据挖掘, 实际应用 中根据具体情况选择异常数据的挖掘方法.
基于统计的方法
利用统计学方法处理异常数据挖掘的问题 已经有很长的历史了,并有一套完整的理论 和方法.统计学的方法对给定的数据集合假 设了一个分布或者概率模型(例如正态分布) , 然后根据模型采用不一致性检验来确定异 常点数据. 不一致性检验要求事先知道数据 集模型参数(如正态分布) ,分布参数(如均值、 标准差等) 和预期的异常点数目.
• 序列异常技术模仿了人类从一系列推测类似的对象中识别 异常对象的方式. 它利用隐含的数据冗余. 给定n 个对象的 集合S ,它建立一个子集合的序列, { S1 , S2 , ⋯. , S m } , 这里2 ≤m ≤ n , 由此,求出子集间的偏离程度, 即“相异 度”. 该算法从集合中选择一个子集合的序列来分析. 对于 每个子集合,它确定其与序列中前一个子集合的相异度差 异. 光滑因子最大的子集就是异常数据集.
用统计学的方法检测异常点数据 的有效性如何呢?
一个主要的缺点是绝大多数检验是针对单 个属性的,而许多数据挖掘问题要求在多维 空间中发现异常点数据. 而且,统计学方法要 求关于数据集合参数的知识,例如数据分布. 但是在许多情况下,数据分布可能是未知的. 当没有特定的分布检验时,统计学方法不能 确保所有的异常点数据被发现,或者观察到 的分布不能恰当地被任何标准的分布来模 拟.
不一致性检验是如何进行的?
• 工作假设(working hypothesis) 即零假设: H。: O i∈F, i = 1 ,2 , ⋯n;
• 替代假设(alternative hypothesis) 即对立假设: H 1 : O i∈F, i = 1 ,2 , ⋯n;
• 不一致性检验验证Oi ห้องสมุดไป่ตู้分布F 的数据相比是否显著地大 (或者小) .
少发生的事件往往比经常发生的事件更有趣、也 更有研究价值,例外的检测能为我们提供比较重要 的信息,使我们发现一些真实而又出乎预料的知识. 因此,异常数据的检测和分析是一项重要且有意义 的研究工作。
异常数据挖掘的简介
• 异常数据挖掘有着广泛的应用,如欺诈检测,用异常 点检测来探测不寻常的信用卡使用或者电信服务; 预测市场动向;在市场分析中分析客户的极低或极 高消费异常行为;或者在医疗分析中发现对多种治 疗方式的不寻常的反应等等. 通过对这些数据进行 研究,发现不正常的行为和模式,有着非常重要的意 义.
• 高维数据的异常点检测的主要思想是:首先它将数据空间 的每一维分成φ个等深度区间. 所谓等深度区间是指将数据 映射到此一维空间上后,每一区间包含相等的f = 1/φ的数据 点. 然后在数据集的k 维子空间中的每一维上各取一个等 深度区间,组成一个k 维立方体,则立方体中的数据映射点 数为一个随机数ξ. 设n( D) 为k 维立方体D 所包含点数, N 为总的点数.
目前利用统计学研究异常点数据有了一些
新的方法,如通过分析统计数据的散度情况, 即数据变异指标,来对数据的总体特征有更 进一步的了解,对数据的分布情况有所了解, 进而通过数据变异指标来发现数据中的异 常点数据. 常用的数据变异指标有极差、四 分位数间距、均差、标准差、变异系数等 等, 变异指标的值大表示变异大、散布广;值 小表示离差小,较密集.
基于距离的方法
0
d
什么是基于距离的异常点检测?
s
• 如果数据集合S 中独享至少有p 部分与对象o 的距 离大于d ,则对象o是一个带参数的p 和d 的基于距 离的( DB ) 的异常点, 即DB ( p , d) . 换句话说, 不 依赖于统计检验,我们可以将基于距离的异常点看 作是那些没有“足够多”邻居的对象, 这里的对象 是基于距给定对象的距离来定义的. 与基于统计的 方法相比,基于距离的异常点检测拓广了多个标准 分布的不一致性检验的思想. 基于距离的异常点检 测避免了过多的计算.
• 定义稀疏系数s ( D) 如式所示:
• s ( D) 为负数时, 说明立方体D 中数据点低于期望 值, s ( D ) 越小,说明该立方体中数据越稀疏.
• 数据空间的任一模式可以用m1 m2 ⋯ mi 来 表示. mi 指此数据在第i 维子空间映射区间, 可以取值1 到φ,或者3 ( 3 表示可以为任意 映射值) .异常检测问题可以转化成为寻找映 射在k ( k 作为参数输入) 维子空间上的异常 模式以及符合这些异常模式的数据.
• 这里对几个相关概念进行解释:
(1) 异常集:它是偏离或异常点的集合, 被定义为某类 对象的最小子集, 这些对象的去除会产生剩余集合 的相异度的最大减少.
(2) 相异度函数:已知一个数据集, 如果两个对象相似, 相异函数返回值较小, 反之, 相异函数返回值较大; 一个数据子集的计算依赖于前个子集的计算.
基于密度的方法
• 基于密度的异常数据挖掘是在基于密度的 聚类算法基础之上提出来的. 它采用局部异 常因子来确定异常数据的存在与否.
• 它的主要思想是:计算出对象的局部异常因 子,局部异常因子愈大, 就认为它更可能异常; 反之则可能性小.
(1) 对象p的k - 距离( k - distance) :对任意的自然数k ,定义p 的k - 距离( k - distance ( p) ) ,为p 和某个对象o 之间的距 离,这里的o 满足:至少存在k 个对象o′∈ D\ { p} , 使得d ( p , o′) ≤d ( p , o) ,并且至多存在k - 1 个对象o′∈D\ { p} ,使得d ( p , o′) < d ( p , o) .
reach - dist k ( p , o) = max{ k - distance( o) , d( p , o) } . (4) 对象p的局部可达密度(Local Reachable Distance) :对象
p 的局部可达密度为对象p 与它的MinPt s - 邻域的平均可 达距离的倒数. • 对象p 的局部异常因子表示p 的异常程度,局部异常因子愈 大,就认为它更可能异常;反之则可能性小. 簇内靠近核心点 的对象的算局部异常点因素LOF 接近于1 ,那么不应该被 认为是局部异常. 而处于簇的边缘或是簇的外面的对象的 LOF 相对较大 .
• 基于距离的异常数据挖掘方法要求用户设置参数p 和d , 而 寻找这些参数的合适设置可能涉及多次试探和错误.
基于偏差的方法
• 基于偏差的异常数据挖掘方法不采用统计检验或者基于距 离的度量值来确定异常对象, 它是模仿人类的思维方式,通 过观察一个连续序列后,迅速地发现其中某些数据与其它 数据明显的不同来确定异常点对象,即使不清楚数据的规 则. 基于偏差的异常点检测常用两种技术:序列异常技术和 OLAP 数据立方体技术.
(3) 基数函数:数据集、数据子集中数据对象的个数.
(4) 光滑因子:从原始数据集中去除子集, 相异度减小 的程度, 光滑因子最大的子集就是异常点数据集.
特点
基于偏差的异常数据挖掘方法的时间复杂 度通常为O( n) , n为对象个数. 基于偏差的 异常点检测方法计算性能优异, 但由于事先 并不知道数据的特性,对异常存在的假设太 过理想化,因而相异函数的定义较为复杂, 对 现实复杂数据的效果不太理想.
• 高维数据中寻找异常模式是非常困难的. 一 个简单办法是对所有数据维进行组合, 来搜 索可能异常模式,但是效率极其低下.
几种常用的异常数据挖掘方法
在数据挖掘的过程中,数据库中可能包含一些数据 对象,它们与数据的一般行为或模型不一致,这些数 据对象被称为异常点,对异常点的查找过程称为异 常数据挖掘,它是数据挖掘技术中的一种. 异常数
据挖掘又称孤立点分析、异常检测、例外挖掘、 小事件检测、挖掘极小类、偏差检测等.孤立点可 能是“脏数据”,也可能是与实际对应的有意义的 事件. 从知识发现的角度看,在某些应用里,那些很
• 嵌套- 循环算法(Nested - loop) :嵌套- 循环算法和基于索 引的算法有相同的计算复杂度,但是它避免了索引结构的 构建,试图最小化I/ O的次数. 它把内存的缓冲空间分为两 半,把数据集合分为若干个逻辑块. 通过精心选择逻辑块装 入每个缓冲区域的顺序, I/ O 效率能够改善.
• 基于单元的算法(cell - based) :在该方法中,数据空间被划 为边长等于d/ (2k1/2 ) 的单元. 每个单元有两个层围绕着它. 第一层的厚度是一个单元,而第二层的厚度是[2k1/2 - 1 ]. 该 算法逐个单元地对异常点计数, 而不是逐个对象地进行计 数. 对于一个给定的单元, 它累计三个计数———单元中对 象的数目(cell_count) ,单元和第一层中对象的数目(cell_ + _1_cell_count) ,单元和两个层次中的对象的数目(cell_ +_2_cell_count) . 该算法将对数据集的每一个元素进行异 常点数据的检测改为对每一个单元进行异常点数据的检测, 它提高了算法的效率. 它的算法复杂度是O( ck + n) ,这里 的c 是依赖于单元数目的常数, k 是维数. 它是这样进行异 常检测的: 若cell_ + _1_cell_count > M ,单元中的所有对 象都不是异常;若cell_ + _2_cell_count < = M ,单元中的所 有对象都是异常;否则,单元中的数据某一些可能是异常. 为 了检测这些异常点,需要逐个对象加入处理.
相关文档
最新文档