基于分化距离的离群点检测算法

合集下载

基于分化距离的离群点检测算法

基于分化距离的离群点检测算法
刘 欢, 吴介军 ,苏锦旗
( 西北工业 大学 自动化 学 院,西安 70 7 ) 10 2
摘 要 :为 了满足 大规模 数据 集快速 离群 点检测 的需要 , 出了一种基 于分化 距 离的 离群 点检 测算 法 , 提 该算 法 综合考虑 了数 据对 象周 围的 密度 及数据 对象 间的距 离等 因素对 离群 点的影 响 , 通过 比较每 一对 象与其他 对 象的 分化距 离来计 算其 周 围的友 邻点 密度 , 挖掘 出数据 集 中隐含 的 离群 点。 实验表 明 , 该算法 能有效 地识 别 离群 点 ,
L U H a . i e n
( ol efA tm t n N r ws r o t h i l n e i , ia 10 2, hn ) C lg uo ai , ot etnP le nc i rt X ’n7 07 C i e o o h e y c a U v sy a
O 引言
离群点是指明显偏离其他 对象 的数据点 , 以至于引起人们 怀疑这是 由不 同的机制产 生的 。离 群点 检测是数 据挖掘领 域 中的一项重要的挖掘技术。它是用来发 现数据集 中小部 分 异常对象 , 这些对象偏离了大多数数据的行 为或数据模型。离 群点检测能够发现 隐藏在数 据集 中的更为有 价值的知识 。离 群点检测广泛应用 于 网络入侵检 测 J 电信 、 用卡诈 骗 、 、 信
di1 .9 9 ji n 10 — 6 5 2 1 .9 0 0 o:0 36 /. s.0 1 39 .0 0 0 . 3 s
Difr n i to it n e b s d o tir e e t n ag rt m fe e t i n d sa c — a e u le s d t ci l o i a o h

实现离群点检测的机器学习算法

实现离群点检测的机器学习算法

实现离群点检测的机器学习算法离群点检测(Outlier detection)是机器学习中的一项重要任务,旨在识别数据集中与其他数据点不太相似或异常的数据点。

离群点也被称为异常值,它们与正常的数据点存在明显的偏离或异常行为。

离群点检测的目标是从大量的数据中准确地识别这些异常值,以便进一步分析和采取相应的措施。

实现离群点检测的机器学习算法有多种,下面将介绍一些常用的方法:1. 统计学方法:这些方法利用统计学原理来识别离群点。

其中一个常用的方法是基于数据的标准差或均值的阈值判断。

如果数据点的值偏离均值或标准差超过一定的阈值,则将其标记为离群点。

这种方法简单易用,但对于复杂的数据分布可能不够准确。

2. 基于距离的方法:这些方法通过计算数据点与最近邻数据点之间的距离来判断是否为离群点。

其中一种常见的方法是K近邻算法,它通过计算每个数据点与其K个最近邻数据点的距离,并将距离较远的点标记为离群点。

还有一种方法是基于密度的离群点检测算法,如LOF(局部离群因子)算法,它衡量数据点周围的局部密度与其邻近数据点的局部密度之比,从而识别离群点。

3. 基于聚类的方法:这些方法将数据点分为不同的聚类,并将边界上的数据点标记为离群点。

其中一个常用的算法是DBSCAN(基于密度的聚类应用噪声)算法,它通过将数据点组织成高密度区域和低密度区域来判断离群点。

也有一些其他的聚类算法可用于离群点检测,如基于谱聚类、层次聚类等。

4. 基于深度学习的方法:近年来,深度学习在离群点检测中的应用日益增多。

深度学习模型可以自动从数据中学习特征,并且对非线性和高维数据具有较好的处理能力。

一些常用的深度学习模型,如自编码器(Autoencoder)和变分自编码器(Variational Autoencoder),可以用于离群点检测。

这些模型可以通过重构误差或潜在空间的分布来判断数据点的异常性。

总结而言,离群点检测是机器学习中的一项重要任务,可以通过多种算法实现。

基于距离统计的有序纹理点云离群点检测

基于距离统计的有序纹理点云离群点检测
检测
黄旺华 覮,王钦若
(广东工业大学 自动化学院,广东 广州 510006)
摘 要:三维数据的离群点检测是纹理点云数据处理的重要内容之一,为了有效快速地检测离群点,
根据纹理点云的有序结构特征,提出了基于距离统计的检测算法。首先在每个点到其 K 邻域中其他点距离
的基础上计算出 K 邻域距离;然后根据有序点云中该距离符合正态分布的特点和正态分布 3滓 定理,将超
140
计算技术与自动化
2019 年 03 月
由于受到各种因素影响,特别是皮革的光滑表面, 经常出现一些不可预测的离群数据[7]。在对三维数 据进行处理之前需要将这些离群点进行识别和处 理,称为离群点检测。离群点检测是数据处理中的 热点研究内容 [8-12],是数据挖掘技术[13,14]中主要的任 务之一,主要用于从某一数据集中识别出与整体不 相符的小部分异常数据,广泛应用于各种领域的安 全监测,检测出异常的数据。
中图法分类:TP391.72
文献标识码:A
Outlier Detection Based on Distance Statistics for Ordered Texture Point Cloud
HUANG Wang-hua覮,WANG Qin-ruo
(School of Automation,Guangdong University of Technology,Guangzhou,Guangdong 510006,China)
第 38 卷 第 1 期 2 0 1 9年3月
计算技术与自动化 Computing Technology and Automation
Vol.38,No.1 Mar. 2 0 1 9
文章编号:1003—6199(2019)01—0139—06

离群点判断算法

离群点判断算法

离群点判断算法
离群点判断算法主要用于检测数据集中与大多数观测值显著不同的异常值。

简要介绍如下:
1. 四分位数法则:基于箱线图原理,若数据点小于下四分位数(Q1)减去1.5倍四分位距(IQR),或大于上四分位数(Q3)加上1.5倍IQR,则视为离群点。

2. Z-score方法:计算每个数据点与其均值的偏差(即标准分数),若绝对值超过预定阈值(如3),则视为离群点。

3. DBSCAN聚类算法:通过密度连接度识别核心对象和边界对象,不满足邻域密度要求的数据点被视为离群点。

4. LOF(Local Outlier Factor):比较数据点与周围邻居的局部密度,LOF值过高表示该点可能为离群点。

5. Isolation Forest:利用随机森林构建隔离树,孤立于树结构顶层的数据点更可能是离群点。

这些算法可应用于数据分析、故障检测等多个领域,有助于发现潜在问题或异常现象。

基于深度的离群点检测方法

基于深度的离群点检测方法

基于深度的离群点检测方法引言:随着大数据时代的到来,数据的规模和复杂性不断增加。

在这些海量数据中,可能存在一些与其他数据明显不同的离群点,它们可能是异常事件、故障、欺诈行为等。

因此,离群点检测成为了数据挖掘和异常检测领域的一个重要任务。

传统的离群点检测方法往往依赖于统计学或距离度量,但随着深度学习的兴起,基于深度的离群点检测方法也得到了广泛关注。

深度学习在离群点检测中的应用:深度学习是一种强大的机器学习技术,能够从数据中学习到更高层次的抽象特征表示。

在离群点检测中,深度学习可以通过学习数据的分布模式来识别离群点。

它不仅可以捕捉到数据的局部特征,还能够学习到数据的全局特征,从而提高离群点检测的准确性。

基于深度的离群点检测方法:基于深度的离群点检测方法主要包括自编码器、生成对抗网络和变分自编码器等。

1. 自编码器(Autoencoder):自编码器是一种无监督学习方法,通过将输入数据压缩成低维编码再进行解码重建,从而学习到数据的潜在表示。

在离群点检测中,自编码器可以通过对正常数据进行重构来判断新样本是否为离群点。

如果重构误差大于某个阈值,则将其判定为离群点。

2. 生成对抗网络(Generative Adversarial Network,GAN):生成对抗网络由生成器和判别器组成,通过对抗学习的方式来生成和判别样本。

在离群点检测中,生成器可以学习到正常数据的分布,而判别器则可以判断新样本是否为离群点。

如果生成器无法生成与正常数据相似的样本,判别器就会将其判定为离群点。

3. 变分自编码器(Variational Autoencoder,VAE):变分自编码器是一种生成模型,通过学习潜在变量的分布来生成新样本。

在离群点检测中,变分自编码器可以通过计算样本的重构误差和潜在变量的分布来判断其是否为离群点。

如果重构误差大且潜在变量的分布与正常数据不一致,则将其判定为离群点。

优势与挑战:基于深度的离群点检测方法相比传统方法具有以下优势:1. 可以学习到更高层次的抽象特征表示,从而提高离群点检测的准确性;2. 不需要依赖于先验知识或特定的距离度量,适用于多种类型的数据;3. 可以处理高维数据和非线性数据。

大规模数据中的离群点检测方法研究

大规模数据中的离群点检测方法研究

大规模数据中的离群点检测方法研究一、绪论在大规模数据中,信息的数量很大,而且数据的结构比较复杂。

因此,离群点检测是大规模数据挖掘中常见的问题,而且对于很多领域都有着极其重要的实际应用,例如金融风险管理、健康监测、木材病虫害分析等。

离群点检测是数据挖掘中的一项基本任务,其目的是识别出与大多数数据点不同的数据样本。

离群点通常被称为异常值或噪声点,而离群点检测的目标是识别和排除这些点,以便进一步分析数据。

本文将介绍几种大规模数据中的离群点检测方法。

二、离群点检测方法1. 基于统计方法的离群点检测方法统计方法是最早也是最基本的离群点检测方法之一。

这些方法通常涉及到基本的假设检验、最小二乘法以及高斯混合模型等。

其中,基于高斯混合模型的离群点检测方法是常用的统计学方法之一,其思想是将数据集分解为多个高斯分布,使得每个高斯分布含有一个或多个类似的数据集。

采用 EM 算法对高斯分布进行参数估计,最后根据估计的结果确定离群点。

2. 基于距离的离群点检测方法基于距离的离群点检测方法是一种常用的基于相似性的技术。

本质上,该技术通过将点与它们的相邻点进行比较来评估它们是否为离群点。

最常用的基于距离的离群点检测方法是基于 k 邻居算法的检测方法。

该算法基于距离度量,利用查询点周围 k 个邻居的距离计算离群得分。

具体而言,它利用距离计算,将于邻居间存在较大距离的数据点标识为离群点。

3. 基于密度的离群点检测方法基于密度的离群点检测方法是另一种常见的方法。

该方法通过计算一个点周围的点的密度来确定该点是否为离群点。

最常用的基于密度的离群点检测方法是LOF算法。

该算法基于距离和密度的概念,因此它结合了基于距离和基于密度的技术。

具体而言,LOF算法会计算每个点相对于周围邻居的局部密度,并将其用于计算该点的离群得分。

4. 基于子空间的离群点检测方法随着高维数据的产生,传统的距离和密度的离群点检测方法已经不能很好地应对高维数据的需求。

基于聚类和距离的大数据集离群点检测算法

基于聚类和距离的大数据集离群点检测算法
f 互——~
dt ,=f —i; ip)、 s g ( q ( )
Yi1 =
f1 1

基于 距离 的方法 大致分 为嵌套 循环 的算法、 基 于 索 引 的 算 法 和 基 于 单 元 的 算 法 。但 这 些 方 法
在 处 理 大 规 模 数 据 集 时 都 存 在 性 能 上 的 不 足 。嵌
邻 ,复杂度为 O (2 )( 中 N为数 据集 中对 J Xd 其 7 v 象 个数 ,d为数 据 的 维数 ) 】 于 索 引的 算 法通 。基
过 建 立 多 维 索 引 结 构 为 各 样 本 寻 找 近 邻 ,最 坏 情
离之和 。显然 w P 比 D P 更精确地度量了 () k()
P的邻 域 的 稀疏 程 度 。 本 文 在 W P k()的基 础 之 上 定义 了度 量数 据点离 群程 度 的离 群因子 。 定义 1 ( P的 离群 因子 ) 于 数 据 集 D,给 点 对
近 邻对象 的 平均距 离 :

( 中国民航 飞行学 院 计算机学院 ,广汉 6 8 0 ) 13 7 要 : 针 对 已有的 基于距 离 的离群 点检测 算法 在大 数据 集上 扩展性 差的 问题 ,提 出了基于 聚类 和 距 离混 合 的大 数 据集 离群 检测 算 法 。算法 第 一阶 段采 用 层次 聚类 和 k m a s 合 的层 次 — e n混
D i 1 . 9 9 j is . 0 9 1 4 2 1 . ( ) 2 o : 3 6 / . n 1 0 -0 3 . 0 1 4 下 . 9 0 s
0 引言
离 群 点检 测 是数 据 挖 掘 技 术 的 重 要研 究 领 域 之 ~ ,用 来 发 现 数 据 集 中 明显 偏 离 于 其 他 数 据 、 不 满 足 数 据 的 一般 行 为 或 模 式 的 数 据 ¨。这 些 数 】 据 对 象 叫做 离 群 点 ,也 叫 做 孤 立 点 。 离群 点 检 测 算 法 分 为 基 于 统 计 、深 度 、聚 类 、距 离和 密 度 的 方 法 。 其 中 ,基 于 距 离 的 方 法 由于 算 法 思 想 直 观 ,易于 实现 而得 到 了广 泛 的研 究和应 用 。

基于边界和距离的离群点检测

基于边界和距离的离群点检测

基于边界和距离的离群点检测江 峰1,杜军威1,眭跃飞2,曹存根2(1.青岛科技大学信息与科学技术学院,山东青岛266061;2.中国科学院计算技术研究所,北京100080)摘 要: 近年来,离群点检测已经引起人们的广泛关注.离群点检测在网络入侵检测、信用卡欺诈、电子商务犯罪、医疗诊断以及反恐等诸多领域都具有十分重要的作用.离群点检测的目的是为了发现数据集中的一小部分对象,与数据集中其余的大部分对象相比,这一小部分对象有着特殊的行为或者具有反常的属性.针对现有的离群点检测方法不能有效处理不确定与不完整数据的问题,本文将粗糙集中边界的概念与Knorr 等所提出的基于距离的离群点检测方法结合在一起,在粗糙集的框架中提出一种新的离群点定义与检测方法.针对于该方法,我们设计出相应的离群点检测算法BDOD,并且通过在临床诊断数据集上所进行的实验,验证了算法BDOD 的有效性.实验结果表明本文的方法为处理离群点检测中的不确定与不完整数据问题提供了一条新的途径.关键词: 数据挖掘;离群点检测;粗糙集;不确定与不完整数据中图分类号: TP274 文献标识码: A 文章编号: 0372-2112(2010)03-0700-06Outlier Detection Based on Bounda ry and D istanceJI ANG Feng 1,DU Jun -wei 1,SUI Yue -fei 2,CAO Cun -gen 2(1.Colle ge o f Information and Science Technology,Qingdao U niversity o f Sc ienc e and Technology,Qingdao,Shandong 266061,China;2.Institute o f Computing Technology ,Chinese Acade my o f Sciences,Bei jing 100080,China )Abstract: In recent years,outlier detection has gained considerable interest.T he identification of outliers is important for many applications such as intrusion detection,credit card fraud,criminal activities in electronic commerce,medical diagno sis and an -t-i terrorism,etc.The ai m of outlier detection is to find small groups of objects who behave in an unexpected w ay or have abnormal properties when compared with the rest large amo u nt of data.Since the existing methods for outlier detection cannot deal with uncer -tain and incomplete data.In this paper,we propose a new method for outlier definition and detection,which exploits the basic notion )boundary of rough sets and Knorr .s method abou t distance -based o u tliers.We also give an algorithm BDOD to find such outliers w ithin the framework of rough set theory.The effectiveness of our algorithm is demonstrated on publicly clinical diagno sis data sets.O u r method gives a new approach to the treatment of u ncertain and incomplete data in outlier detection.Key words: data mining;outlier detection;rough sets;uncertain and incomplete data1 引言离群数据是数据集中偏离大部分数据的数据,它们的表现与大多数常规对象有着明显的差异,以至于让人怀疑它们可能是由另外一种完全不同的机制所产生的[1].离群数据并不等同于错误数据,离群数据中可能蕴含着极为重要的信息,例如在信用卡欺诈检测、网络入侵检测、疾病诊断、通信欺诈分析、故障检测、灾害预测、恐怖活动防范等诸多领域中,离群点都是数据分析的主要对象[2,3].在所有的科学研究领域中,离群数据都可能给予我们新的视角,从而导致新的理论和新的应用的不断出现.因此,对离群数据进行分析与研究具有十分重要的理论意义和实际应用价值.目前,对离群点的检测和分析已经发展成为数据挖掘中一项重要而又有趣的研究任务[3].离群点检测最早出现在统计学领域[5].后来,Knorr 等将其引入到数据挖掘领域[2,18,19,21].现有的离群点检测方法主要有五类[4]:(1)基于统计的方法[5];(2)基于深度的方法[6];(3)基于聚类的方法[7];(4)基于密度的方法[8];(5)基于距离的方法[2,18,19,21].经过分析,我们发现这些方法基本上都是采用确定性的方式来表示和处理数据的,并没有考虑数据的不确定与不完整性问题.而我们的现实生活中又存在着大量不确定与不完整数据.对于这种类型的数据,现有的离群点检测方法还无法处理.因此,我们迫切需要一种能够处理不确定与不完整数据的离群点检测方法.收稿日期:2008-12-22;修回日期:2009-03-23基金项目:国家自然科学基金(No.60802042,60674004,60641010,60573063,60573064);国家863高技术研究发展计划(No.2007A A01Z325);青岛科技大学引进人才启动基金(No.200702583)第3期2010年3月电 子 学 报ACTA ELECTRONICA SINICA Vol.38 No.3Mar. 2010针对上述问题,在前期研究工作中,本文作者深入研究了如何利用粗糙集来进行离群点检测的问题,并提出了若干基于粗糙集的离群点检测方法[9~11].在文献[9]中,基于粗糙集边界的概念,我们提出了一种基于边界的离群点检测方法.另外,在论文[11]中,我们将基于距离的离群点检测方法引入到粗糙集中,并提出了两种针对分类型属性的距离度量,用于计算对象之间的距离.本文将在前期工作基础上,进一步把基于边界的与基于距离的离群点检测方法结合在一起,在粗糙集的框架中提出一种基于边界和距离的离群点检测方法.自1982年Pawla k提出粗糙集理论以来[16],粗糙集作为处理不确定与不完整数据的重要工具,受到广泛关注.经过二十余年的发展,粗糙集已成为数据挖掘、机器学习等领域的重要方法,其中数据约简是其最主要的贡献之一[22].但是,目前在粗糙集理论中对于离群点检测的研究还没有引起足够的重视,类似的研究还很少见.因此,本文利用粗糙集理论来研究离群点检测,选题具有较强的创新性.由于我们的现实世界中存在着大量不确定与不完整数据,离群点检测不可避免地会遇到不确定与不完整数据的处理问题,因此,本文的研究不仅可以为离群点检测中的不确定与不完整数据的处理提供一种新的解决办法,而且还可以拓宽粗糙集理论在数据挖掘等领域的应用范围,为粗糙集理论开辟一个新的应用空间.2粗糙集理论的基本知识粗糙集理论采用基于信息表的知识表示形式,信息表是粗糙集理论表示和处理知识的基本工具.信息表通常被定义成一个四元组IS=(U,A,V,f),其中U 和A分别代表对象集合与属性集合;V是所有属性论域的并集;f是一个信息函数,使得对任意a I A和x I U, f(x,a)I V[16].给定一个信息表IS=(U,A,V,f),对任意的属性子集B A A,我们都可以确定论域U上的一个不可区分关系IND(B)={(x,y)I U@U:P a I B(f(x,a)=f (y,a))}[16].关系IND(B)将论域U划分成多个等价类,所有这些等价类就构成U的一个划分,记为U/ I ND(B).对任意对象x I U,本文将使用[x]B来表示在关系IND(B)下包含对象x的等价类[16,20].定义1给定一个信息表IS=(U,A,V,f),对于任意B A A和X A U,X的B-上近似和B-下近似分别被定义为:X B=G{[x]B I U/IND(B):[x]B H X Xª};X B=G{[x]B I U/IND(B):[x]B A X}.另外,BNB(X)=X B-X B被称为集合X的B-边界.我们可以将X的边界看成是在现有的知识条件下,无法对其进行确定分类的那些元素所组成的集合.边界是某种意义上论域U中的不确定域.因此,相对于U中的其它对象而言,边界中的元素是一类特殊的对象,这些元素既不能确定地属于X,也不能确定地不属于X[16,20].既然相对于U中其它对象而言,边界中的元素是一类特殊的对象,而我们在进行离群点检测时,正好需要在给定数据集中寻找一小部分行为比较特殊或者具有反常属性的对象.因此,本文在讨论离群点检测时,将考虑使用集合边界所蕴含的信息来进行离群点检测[9].3基于边界和距离的离群点本文将针对信息表来设计基于边界和距离的离群点检测方法,该方法的主要思想可以描述如下:给定一个信息表IS=(U,A,V,f)和任意X A U(X Xª).对于任意B A A,首先,根据关系I ND(B)将集合X分成三个部分:异常边界EB(X)、B-主边界PB B(X)和B-下近似XB.然后,针对任意x I X,分别计算x与EB(X)、PB B(X)以及X B中每个对象之间的距离.最后,根据所求得的距离值,就可以判断x是否是一个离群点.虽然上述方法也是通过计算对象x与X中所有对象的距离来判定x是否为离群点.但是,与基于距离的离群点检测不同的是[2,18,19],我们在寻找X中的离群点时,首先将X分成三个部分,然后对来自这三个不同部分的对象采取不同的方式进行处理.具体来说,对于异常边界中的对象,我们认为这些对象是离群点的可能性最大.因此,如果异常边界中存在越多的对象与x 的距离较近,则x越有可能是离群点.而对于下近似中的对象,我们认为这些对象是离群点的可能性最小.因此,如果下近似中存在越多的对象与x的距离较远,则x越有可能是离群点.另外,对于主边界中的对象,我们认为这些对象是离群点的可能性居中.因此,如果主边界中存在越多的对象与x保持适当的距离,则x越有可能是离群点.总之,在给定的知识条件下,如果对象x 总是与异常边界中的对象靠得很近,而与下近似中的对象离得很远,并且与主边界中的对象保持适当的距离,则我们认为x是X中的一个基于边界和距离的离群点.在传统的基于距离的离群点检测方法中,给定数据集X和x I X,只要X中的大部分(超过一定比例)的对象与x的距离较远(大于给定的阈值),就认为x是一个离群点[2,18,19].虽然这种方法比较简单,但它却忽略了X中对象之间的差异.如果我们在检测离群点时,采用同一种方式来处理X中的所有对象,不加以区分,701第3期江峰:基于边界和距离的离群点检测明显这是不合理的,并且最终将导致检测结果存在着偏差.因此,本文所提出的基于边界和距离的离群点检测方法是对传统的基于距离方法的一种改进.定义2(内边界) 给定一个信息表IS =(U,A ,V,f )和任意的X A U(X X ª).对于任意B A A ,我们将集合X 的B -内边界定义为:IB B (X )=G {x I X:[x ]B ¾X }命题1 给定一个信息表IS =(U,A ,V,f )和任意的X A U(X X ª).对于任意B A A ,令IB B (X )和X B 分别为X 的B -内边界和B -下近似,则IB B (X)=X -X B .证明 由于X B =G {x I X :[x ]B A X},IB B (X )=G {x I X :[x ]B ¾X},并且对于任意x I X,[x ]B A X 或者[x]B ¾X.因此,x I X B 或者x I IB B (X ),即x I IB B (X )G X B ,所以X A IB B (X )G X B .另外,由内边界和下近似的定义可知,X B A X 且IB B (X)A X ,因此IB B (X )G X B A X.这样,我们就有得到IB B (X )G X B =X.另外,不存在一个对象x I X ,使得[x ]B A X 且[x ]B ¾X ,即不存在一个对象x I X 使得x I X B 且x I IB B (X).因此,IB B (X)H X B =ª.由IB B (X )G X B =X 和IB B (X )H X B =ª,我们可以得到IB B (X )=X -X B .根据上述命题,对于任意的X A U 和B A A ,我们都可以把X 分成两个部分:B -内边界和B -下近似.此外,我们还可以进一步把X 的B -内边界分成两个部分:异常边界和主边界.定义3(异常边界) 给定一个信息表IS =(U,A,V,f ),其中A ={a 1,a 2,,,a m }.对于任意X A U(X X ª)和任意a i I A,令IB {a i }(X )为X 的{a i }-内边界,1[i [m.我们将集合X 在信息表IS 中的异常边界定义为:EB(X )=H mi =1IB {a i }(X )定义4(主边界) 给定一个信息表IS =(U,A ,V,f )和任意的X A U(X X ª).对于任意B A A ,令IB B (X)和EB(X)分别为X 的B -内边界和异常边界.我们将集合X 的B -主边界定义为:PB B (X )=IB B (X)-EB(X )定义5(偏离因子) 给定一个信息表IS =(U,A ,V,f )和任意的X A U (X X ª).对于任意B A A 和x I X ,我们将对象x相对于集合X 的B -偏离因子定义为:DF BX (x )={y I EB(X):d(x ,y )[d 1}+{y I PB B (X):d(x ,y )\d 2}+{y I X B :d(x ,y )\d 3}X其中d(x ,y)为在某个给定的距离度量下对象x 与y 间的距离[2,3].另外,d 1、d 2和d 3是三个给定的距离阈值.对象x 的偏离因子DF BX (x )体现了x 在现有知识条件下,是一个离群点的可能性.为了刻画数据集中每个对象的离群程度,本文将在偏离因子的基础上引入一个多重离群因子(Multiple Outlier Factor,MOF )的概念,用来表征信息表中每个对象的离群程度[8,10,11].定义6(多重离群因子) 给定一个信息表IS =(U,A ,V,f ),其中A ={a 1,a 2,,,a m }.对于任意X A U (X X ª)和任意x I X ,我们将对象x 相对于集合X 的多重离群因子MO F X (x)定义为:MOF X (x )=E mj =1DF {a j}X (x )@W {a j }X (x )|A |其中,DF {a j }X (x )为对象x 相对于X 的{a j }-偏离因子;W {a j }X :X y [0,1)是一个权重函数,使得对任意x I X ,W {a j }X (x )=1-[x ]a j H XX为x 的权重,1[j [m.|M |表示集合M 的势.定义7(基于边界和距离的离群点)给定一个信息表IS =(U,A ,V,f )和任意的X A U(X X ª).令L 为一个给定的阈值,对于任意x I X,如果MOF X (x )>L ,则x 被称为X 中的一个基于边界和距离的离群点,其中MOF X (x )为对象x 相对于集合X 的多重离群因子.4 基于边界和距离的离群点检测算法BDOD算法1 BDOD输入 信息表IS =(U,A ,V,f )和X A U,其中|U |=n,A ={a 1,a 2,,,a m },|X |=n X .阈值L 、d 1、d 2和d 3输出 X 中所有离群点的集合O(1)对于A 中的每一个属性a i ,1[i [m,循环执行如下操作:( ) 根据U 中对象在属性a i 上的取值,按照值域上的一个给定次序(例如字典序),对U 中的所有对象进行排序[17];( )求出划分U/I ND({a i });( )计算X 的{a i }-内边界和{a i }-下近似.(2)计算X 的异常边界.(3)对于任意1[i [m,计算X 的{a i }-主边界.(4)对于X 中的每个对象x ,循环执行如下操作:( )对于任意y I X ,计算对象x 与y 之间的距离d(x ,y );( )对于任意1[i [m,计算x 相对于X 的{a i }-偏离因子和{a i }-权重;( )计算对象x 相对于X 的多重离群因子MOF X (x);( )如果MOF X (x )>L ,则令O =O G {x }.(5)算法结束,返回离群点集合O.在算法1中,我们采用了一种预先对U 中对象进702电 子 学 报2010年行排序,然后再计算划分U/IND(B)的方法[17],这样可以有效降低计算划分的复杂度.在最坏的情况下,算法1的时间复杂度为O((m@n2X)+(m@n log n)),空间复杂度为O(m@n),其中m,n和n X分别为集合A, U与X的势.5实验结果为了验证BDOD算法的有效性,我们将通过实验来比较BDOD算法、基于边界的离群点检测方法[9]和基于距离的离群点检测方法[11]各自的性能.在实验中,对于BDOD算法,我们将采用/基于粗糙集的覆盖度量0作为距离度量[11].另外,我们将d1、d2和d3这三个距离阈值分别设置为:d1=|A|/3,d2=|A|/2,d3=0.9@|A|,其中|A|代表属性集A的势.对于基于边界的离群点检测方法和基于距离的离群点检测方法,具体的实验细节请参考文献[10].实验中所采用的数据集有2个:Lymphography(淋巴系统造影术)数据集和Wisc onsin Breast Cancer(威斯康星乳腺癌)数据集[15].在这两个数据集上,我们将采用Ag-garwal等所提出的评价指标体系来评测每类离群点检测方法的性能,该评价体系是目前最常用的一类离群点检测方法评价体系[12,14].给定一个数据集以及数据集中每个对象所属的类,Aggarwal认为要评价一个离群点检测方法的好坏,可以通过在给定的数据集上来运行该方法,并且计算在由该方法所找出的离群点中,真正的离群点所占据的比例.比例越高,则表明该方法的性能越好[12].5.1Lymphography数据集Lymphography数据集中包含148个对象和19个属性[15].所有的对象被分成四个类:/nor mal find0、/me tas-tases0、/malign ly mph0和/fibrosis0.我们将/normal find0和/malign lymph0看作稀有类(注:属于稀有类的对象都是离群点).在实验中,Lymphography数据集中的所有数据都被导入到信息表ISL=(U,A,V,f)中.我们分别在U的两个子集X1和X2中检测离群点,其中:(1)X1={x I U:f (x,dislocation)=1};(2)X2={x I U:f(x,early-up-take)=1D f(x,bl-a ff ere)=1}.具体的实验结果如下面的表1所示.表1信息表ISL 中关于X1和X2的实验结果X1:|X1|=50,|R X1|=4X2:|X2|=90,|R X2|=5离群程度值前k%的对象(对象个数)属于稀有类的对象个数(覆盖率)BDOD DIS BOU离群程度值前k%的对象(对象个数)属于稀有类的对象个数(覆盖率)BDOD D IS BOU2%(1)1(25%)1(25%)1(25%)2%(2)2(40%)2(40%)2(40%) 4%(2)2(50%)2(50%)2(50%)4%(4)4(80%)3(60%)3(60%) 6%(3)3(75%)3(75%)2(50%)5%(5)4(80%)4(80%)3(60%) 8%(4)4(100%)3(75%)2(50%)8%(7)5(100%)4(80%)3(60%) 10%(5)4(100%)3(75%)2(50%)14%(13)5(100%)5(100%)3(60%) 12%(6)4(100%)4(100%)2(50%)66%(59)5(100%)5(100%)4(80%) 32%(16)4(100%)4(100%)3(75%)70%(63)5(100%)5(100%)5(100%) 40%(20)4(100%)4(100%)4(100%)在表1中,/BDOD0、/DIS0和/BOU0分别代表BDOD算法、基于距离的和基于边界的离群点检测方法.|Xj|和|RXj|分别表示集合X j中的元素个数以及X j中的离群点个数,1[j[2.对于Xj中的每个对象x,我们分别利用这三种离群点检测方法来计算x的离群程度值.然后根据每种方法所计算出的Xj中对象的离群程度值,由高到低对Xj中对象进行排序.因此,在表1中/离群程度值前k%的对象(对象个数)0是指在采用某种离群点检测方法来计算X j中对象的离群程度值之后,离群程度值排在前k%的对象以及这些对象的个数.而/属于稀有类的对象个数0则是指在由该方法所检测出的离群程度值排在前k%的对象中,属于稀有类的对象个数./覆盖率0是指这些属于稀有类的对象占Xj中所有离群点的比例,1[j[2[10,11,14].从表1中我们可以看出,对于Lymphography数据集,BDOD算法的性能明显要好于基于距离的方法和基于边界的方法,其中基于边界的方法的性能最差.5.2Breast C ancer数据集Breast Cancer数据集中包含699个对象和9个连续型属性.所有对象被分成两类:/malignant0和/be-nign0[15].为了形成一个极不均匀的分布,我们从该数据集中移去一些属于/malignant0类的对象[13].最终的数据集包括483个对象,其中39个对象属于/malignant0类, 444个属于/benign0类.另外,数据集中的9个连续型属性被分别转换成分类型属性X[13-14].703第3期江峰:基于边界和距离的离群点检测X最终的数据集可以从如下网站获取:http://researc h.c mis.csiro.au/rohanb/outliers/breas-t cancer/在最终所获得的Breast Cancer数据集中,我们将/malignant0类看作稀有类.另外,我们将数据集中的数据都导入到信息表ISW=(U c,A c,V c,f c)中[10,11].我们分别在U c的两个子集X c1和X c2中检测离群点,其中: (1)X c1={x I U c:f c(x,Clump-thickness)=5};(2)X c2={x I U c:f c(x,Mitoses)=1}.具体的实验结果如表2所示.从表2中我们可以看出,对于Breast Cancer数据集中,BDOD算法的性能也明显要好于基于距离的方法和基于边界的方法.因此,这同样证明了我们的方法的有效性.表2信息表IS W中关于X c1和X c2的实验结果X c1:|X c1|=87,|R X c1|=4X c2:|X c2|=454,|R X c2|=23离群程度值前k%的对象(对象个数)属于稀有类的对象个数(覆盖率)BDOD DIS BOU离群程度值前k%的对象(对象个数)属于稀有类的对象个数(覆盖率)BDOD D IS BOU2%(2)2(50%)2(50%)2(50%)1%(5)4(17%)4(17%)4(17%) 3%(3)3(75%)2(50%)3(75%)2%(9)8(35%)6(26%)7(30%) 5%(4)3(75%)3(75%)3(75%)3%(14)11(48%)10(43%)11(48%) 6%(5)4(100%)3(75%)3(75%)4%(18)14(61%)12(52%)13(56%) 7%(6)4(100%)4(100%)3(75%)5%(23)18(78%)15(65%)18(78%) 8%(7)4(100%)4(100%)4(100%)6%(27)20(87%)18(78%)20(87%)7%(32)23(100%)23(100%)21(91%)10%(45)23(100%)23(100%)22(96%)12%(54)23(100%)23(100%)23(100%)6结论针对当前的离群点检测方法无法处理不确定与不完整数据的问题,本文将基于粗糙集边界的离群点检测方法与传统的基于距离的离群点检测方法结合在一起,充分发挥这两类方法各自的特点,提出了一种基于边界和距离的离群点检测方法.该方法利用粗糙集在处理不确定与不完整数据方面的优势,可以从不确定与不完整的数据中高效地检测出离群点.针对该方法,我们在粗糙集的信息表中设计出相应的离群点检测算法BDOD,并且通过实验表明,基于边界和距离的方法比基于边界的方法以及基于距离的方法具有更好的性能.由于利用粗糙集的方法进行离群点检测的研究还很少见,本文的工作不仅使得离群点检测可以处理不确定与不完整的数据,而且还扩展了粗糙集在数据挖掘等领域的应用范围,为粗糙集理论开辟了一个新的应用空间.在下一步的工作中,我们打算将本文所提出的离群点检测方法应用于网络入侵检测,用来解决现有的入侵检测系统中所普遍存在的检测准确率低、误警率高的问题[23].参考文献:[1]D Hawkins,Identifications of Outliers[M].London:Chapmanand Hall,1980.[2]E Knorr,R Ng.Algori thms for mining dis tance-based outliers inlarge datasets[A].In Proc of the24th VLD B Conf[C].New Y ork:Morgan Kaufmann,1998.392-403.[3]J W Han,M D amber.Data M ining:Concepts and Techno logies[M].San Francisco:Morgan Kaufmann,2001.[4]L Kovacs,D Vass,A Vidacs.Improving quality of service pa-rameter prediction with preliminary outlier detection and elim-i nation[A].Proc of the2nd Int Workshop on Inter-Domain Per-formance and Si mulation[C].Budapest,2004.194-199. [5]P J Rouss eeuw,A M L eroy.Robus t Regression and O u tlier De-tection[M].New York:John Wiley&Sons,1987.[6]T Johnson,I Kwok,R T Ng.Fast compu tation of2-dimensionaldepth conto u r s[A].In Proc of the4th Int Conf on Knowledge Discovery and Data M ining[C].New Y ork:AAAI Press, 1998.224-228.[7]A K Jain,M N Murty,P J Flynn.Data clustering:a review[J].ACM Computing Su rveys,1999,31(3):264-323.[8]M M Breunig,H-P Kriegel,R T Ng,J Sander.LOF:identifyingdensity-based local o u tliers[A].In Proc of the2000ACM SIG-MOD Int Conf on M anagement of Data[C].Dallas:ACM Press,2000.93-104.[9]F Jiang,Y F Sui,C G Cao.Outlier detection using rough settheory[A].In Proc of the10th Int Conf on Ro ugh Sets,Fuzzy Sets,Data Mining,and Granular Computing[C].Canada: Springer-V erlag,2005.79-87.[10]F Jiang,Y F Sui,C G Cao.A rough set approach to o u tlierdetection[J].International Jo u rnal of General Sy s tems,2008, 37(5):519-536.[11]F Jiang,Y F Sui,C G Cao.Some issues about outlier detectionin rough set theory[J].Expert Systems with Applications, 2009,36(3):4680-4687.[12]C C A ggarwal,P S Y u.Outlier detection for high dimensionaldata[A].In Proc of the2001ACM SIGMOD Int Conf on M anagement of Data[C].California:ACM Press,2001.37-704电子学报2010年46.[13]S Harkins,HXHe,G J Williams,R A Baxter.Outlier detectionusing replicator neural networks[A].In Proc of the4th Int Conf on Data Warehousing and Knowledge Discovery[C].France:Springer-Verlag,2002.170-180.[14]Z Y He,S C Deng,XF Xu.An optimization model for outlierdetection in categorical data[A].In Int Conf on Intelligent Compu ting[C].China:Springer-V erlag,2005.400-409. [15]S D Bay.The UCI KDD repository[D B].http://kdd.ics.,1999.[16]Z Pawlak,Rough Sets.Theoretical Aspects of Reas oning aboutData[M].Dordrecht:Klu wer,1991.[17]S H Nguyen,H S Nguyen.Some efficient algorithms for roughset methods[A].In Proc of the6th Int Conf on Information Processi ng and Management of U ncertainty[C].Spain: Springer-V erlag,1996.1451-1456.[18]L Z Wang,L K Z ou.Research on algorithms for mining dis-tance-based outliers[J].Chinese Jo u rnal of Electronics,Be-ijing,14(3),2005.485-490.[19]E Knorr,R Ng,V T ucakov.D istance-based outliers:algo-ri thms and applications[J].VL DB Journal,2000,8(3-4):237-253.[20]刘清.Rough集及Rough推理[M].北京:科学出版社,2001.Q Liu.Rough Sets and Rough Reasoning[M].Beijing:Sc-ience Press,2001.(in Chinese)[21]黄毅群,卢正鼎,胡和平,李瑞轩.分布式异常检测中隐私保持问题研究[J].电子学报,2006,34(5):796-799.Y Q Huang,Z D Lu,H P Hu,RXLi.Privacy preserving outl-ier detection[J].Acta Electronica Sinica,2006,34(5):796-799.(i n Chinese)[22]邓大勇,黄厚宽,李向军.不一致决策系统中约简之间的比较[J].电子学报,2007,35(2):252-255.D Y Deng,H K Huang,X J parison of various typesof reductions in i nconsistent systems[J].Acta Electronica Sinica,2007,35(2):252-255.(in Chinese)[23]陶新民,陈万海,郭黎利.一种新的基于模糊聚类和免疫原理的入侵检测模型[J].电子学报,2006,34(7):1329-1332.X M T ao,W H Chen,L L G uo.A novel model of IDS based on fuzzy cluster and immune principle[J].Acta Electronica Sinica2006,34(7):1329-1332.(in Chinese)作者简介:江峰男,1978年生,博士、副教授.2007年毕业于中科院计算所.主要研究方向有粗糙集理论、人工智能.现主持国家自然科学基金项目1项.近年来,发表论文10多篇,其中SCI收录6篇.E-mail:jiangkong@眭跃飞男,1963年生,中科院计算所研究员,博士生导师,中国计算机学会高级会员.主要研究方向为人工智能、数理逻辑、大规模知识处理的理论基础.曹存根男,1964年出生,中科院计算所研究员,博士生导师,入选中科院百人计划.主要研究方向为人工智能、知识工程、大规模知识获取与知识处理、情感计算等.705第3期江峰:基于边界和距离的离群点检测。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于分化距离的离群点检测算法
作者:刘欢, 吴介军, 苏锦旗, LIU Huan, WU Jie-jun, SU Jin-qi
作者单位:西北工业大学,自动化学院,西安,710072
刊名:
计算机应用研究
英文刊名:APPLICATION RESEARCH OF COMPUTERS
年,卷(期):2010,27(9)
1.FAWCETT T;PROVOST F Adaptive fraud detection 1997(03)
2.HAN J;KAMBER M Data mining,concepts and technique 2001
3.ELIO L;EDGAR A Parallel algorithms for distance-based and density-based outliers 2005
4.MALIK A Local sparsity coefficient-based mining of outliers 2002
5.BREUNIG M;KRIEGEL H P;NG R T LOF:identifying density-based local outliers 2000(02)
6.ANGIULLI F;PIZZUTI C Fast outlier detection in high dimensional spaces 2002
7.杨永铭;王喆孤立点挖掘算法研究[期刊论文]-计算机与数字工程 2008(219)
8.RAMASWAMY S;RASTOGI R;SHIM K Efficient algorithms for mining outliers from large data sets
2000(02)
9.KNORR E;NG R Alogrithms for mining distance-based outliers in large datesets 1998
10.徐翔;刘建伟;罗雄麟离群点挖掘研究[期刊论文]-计算机应用研究 2009(01)
11.张云涛;龚玲数据挖掘原理与技术 2004
1.张忠平.梁永欣.ZHANG Zhong-ping.LIANG Yong-xin基于反k近邻的流数据离群点挖掘算法[期刊论文]-计算机工程2009,35(12)
2.胡彩平.秦小麟.任韧.HU Caiping.QIN Xiaolin.REN Ren局部空间离群点算法的改进及其实现[期刊论文]-中国图象图形学报A2010,15(10)
3.苏锦旗.薛惠锋.吴慧欣基于熵度量的空间邻域离群点查找[会议论文]-2009
4.赵玥基于相邻关系的聚类和离群点检测算法的研究[学位论文]2006
5.靳然然基于离群点挖掘的网络入侵检测方法研究[学位论文]2009
6.庞彦伟.刘政凯.Pang Yan-wei.Liu Zheng-kai一种自动抑制离群点的子空间学习方法[期刊论文]-电子与信息学报2008,30(1)
7.薛安荣.鞠时光.XUE An-Rong.JU Shi-Guang基于空间约束的离群点挖掘[期刊论文]-计算机科学2007,34(6)
8.张卫旭.尉宇.Zhang Weixu.Wei Yu基于密度的局部离群点检测算法[期刊论文]-计算机与数字工程2010,38(10)
9.敏玉芳基于单元格的多密度GMDBSCAN聚类算法[学位论文]2008
10.徐雪松.宋东明.张谞.张宏.刘凤玉.XU Xue-song.SONG Dong-ming.ZHANG Xu.ZHANG Hong.LIU Feng-yu基于局部线性加权的离群点检测方法[期刊论文]-计算机科学2008,35(5)
本文链接:/Periodical_jsjyyyj201009030.aspx。

相关文档
最新文档