基于密度敏感最大软间隔SVDD不均衡数据分类算法

合集下载

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型不均衡最大软间隔支持向量数据描述(Unbalanced Maximum Soft Margin Support Vector Data Description,简称UM-SVDD)是一种轴承故障检测模型,主要用于处理不均衡数据集中的异常检测问题。

UM-SVDD模型基于支持向量数据描述(Support Vector Data Description,简称SVDD),通过在高维特征空间中构造一个超球体,来描述正常样本的分布情况。

与传统的SVDD模型不同,UM-SVDD模型考虑了不均衡数据集的情况,采用软间隔机制来容忍一定程度的异常样本。

这样可以更好地适应实际工程中存在的异常样本较少的情况。

UM-SVDD模型的核心思想是找到一个超球体,使得正常样本在该超球体内部,而异常样本在超球体外部。

具体来说,UM-SVDD模型的目标是最小化超球体的半径,并确保正常样本都在超球体内部。

UM-SVDD模型引入了一个松弛变量来容忍一定程度的误分类样本,从而提高模型的鲁棒性。

UM-SVDD模型的优化问题可以通过求解一个二次规划问题实现。

通过引入拉格朗日乘子法,可以将该二次规划问题转化为一系列对偶问题。

通过求解对偶问题,可以得到最优的超球体半径以及对应的支持向量,从而构建出UM-SVDD模型。

UM-SVDD模型在轴承故障检测中具有一定的优势。

UM-SVDD模型能够处理不均衡数据集的问题,更好地适应实际工程中的异常检测任务。

UM-SVDD模型在描述正常样本分布时采用了软间隔机制,能够容忍一定程度的异常样本,提高了模型的鲁棒性。

UM-SVDD模型基于支持向量机的思想,具有较强的泛化能力和较好的分类性能。

不均衡最大软间隔SVDD轴承故障检测模型(UM-SVDD)是一种适用于不均衡数据集的异常检测模型,具有良好的鲁棒性和分类性能。

在实际工程中,可以通过UM-SVDD模型来实现对轴承故障的准确检测和预警。

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型摘要:碾磨机轴承故障检测,可以有效防止机械故障引发的生产停顿和维护费用增加。

本文提出了一种新的基于支持向量数据描述的不均衡最大软间隔SVDD轴承故障检测模型,该模型可以利用机器学习算法,对数据进行分类学习和分类预测,可以有效从自然发生的数据中识别出轴承的故障,提高轴承故障检测的精度和效率。

1、引言轴承是机械设备中最重要的零部件之一,在磨损和老化的情况下,很容易引起设备的故障,导致生产停顿和设备维护费用的增加。

因此,轴承故障检测对于提高机械设备的可靠性和使用寿命具有重要意义。

目前,轴承故障检测主要基于信号处理和机器学习等方法,通过对轴承运行状态的监测和诊断,实现故障的预测和检测。

2、轴承故障检测方法传统的轴承故障检测主要基于信号处理技术,如频谱分析、小波变换和主成分分析等,这些方法可以有效地提取轴承信号中的特征,但是它们都需要人为地选取特征并设置合适的阈值,因此具有较强的主观性和不可靠性。

为了克服这些问题,机器学习技术逐渐被应用于轴承故障检测。

3、支持向量数据描述方法支持向量数据描述(SVDD)是一种基于支持向量机的无监督和半监督学习方法,它可以利用少量的标记数据和大量无标记数据进行分类学习和分类预测。

SVDD模型是基于最大软间隔原理,通过选择一个尽可能小的球形超球面将正类样本包含在内。

SVDD模型可以利用RBF(径向基函数)核函数对输入数据进行非线性映射,从而实现对复杂数据集的分类。

在实际轴承故障检测中,由于正常样本数据远远大于故障样本数据,因此会出现数据不均衡的问题,这会严重影响模型的准确性和鲁棒性。

为了解决这一问题,提高模型的性能,本文提出了一种不均衡最大软间隔SVDD模型。

该模型可以在考虑正常样本数量的不同的情况下,选择合适的损失函数和惩罚系数,针对不同数量的正常样本和故障样本,实现自适应学习和预测。

5、实验结果分析为了验证不均衡最大软间隔SVDD模型的有效性,本文在一个轴承数据集上进行了实验。

svdd算法原理

svdd算法原理

svdd算法原理SVDD(Support Vector Data Description)算法是一种用于异常检测和无监督学习的机器学习算法。

它的原理基于支持向量机(SVM)算法,通过将正常数据映射到高维空间,构建一个边界区域,从而实现对异常数据的识别。

SVDD算法的主要思想是通过找到一个最小的球形区域,将正常数据包围其中,而异常数据则远离这个区域。

这个球形区域的中心被称为支持向量,它是由一些正常数据点决定的。

而在球形区域外部的数据点则被认为是异常点。

为了构建这个球形区域,SVDD算法首先需要将数据映射到高维空间。

这是通过使用核函数来实现的,核函数能够将原始数据从低维空间映射到高维空间,从而使数据更容易分离。

常用的核函数包括线性核函数、多项式核函数和径向基核函数等。

在映射到高维空间后,SVDD算法通过最小化球形区域的半径来确定最优解。

这个优化问题可以通过拉格朗日乘子法转化为一个凸优化问题,然后使用支持向量机的方法来求解。

通过求解这个优化问题,SVDD算法能够找到一个最小的球形区域,使得正常数据点尽可能地靠近球的中心,而异常数据点则远离球的边界。

SVDD算法在异常检测和无监督学习中有广泛的应用。

在异常检测中,它可以用于检测网络入侵、信用卡欺诈等异常行为。

在无监督学习中,它可以用于聚类分析、数据降维等任务。

与传统的聚类算法相比,SVDD算法能够更好地处理非球状的数据分布,具有更强的泛化能力。

然而,SVDD算法也存在一些限制和挑战。

首先,由于SVDD是一种无监督学习算法,它对异常数据的定义是相对的,需要根据具体应用场景进行调整。

其次,SVDD算法对参数的选择比较敏感,需要通过交叉验证等方法来确定最优参数。

最后,由于SVDD算法需要将数据映射到高维空间,计算复杂度较高,对大规模数据集的处理效率较低。

为了克服这些问题,研究者们提出了一些改进的SVDD算法。

例如,基于核函数的耦合SVDD算法(Coupled SVDD)可以处理带有标签信息的数据,进一步提高异常检测的准确性。

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型引言随着工业化的发展,机械设备的使用越来越广泛,轴承作为机械设备中的重要部件,其状态的监测和故障诊断对于设备的正常运行和安全生产至关重要。

传统的轴承故障检测方法主要基于物理参数的监测,如振动信号、温度信号和声音信号等。

这些方法在灵敏度和稳定性方面存在着一定的局限性,特别是在早期故障诊断方面表现不佳。

近年来,基于机器学习和人工智能技术的轴承故障检测方法受到了广泛关注。

支持向量数据描述(SVDD)是一种基于异常检测的机器学习方法,它能够有效地处理非均匀的数据分布,并在轴承故障监测中表现出良好的性能。

本文将介绍不均衡最大软间隔SVDD轴承故障检测模型的原理和应用,并对其在实际工程中的效果进行评估。

一、不均衡最大软间隔SVDD轴承故障检测模型的原理1. SVDD原理支持向量数据描述(SVDD)是一种异常检测方法,其基本原理是通过找出包围正常数据的最小球形区域来描述正常数据的分布情况,从而检测出异常数据。

具体来说,SVDD通过最小化一个目标函数来寻找最优的球形区域,使得该区域内包含尽可能多的正常数据点,并尽量少地包含异常数据点。

该目标函数可以通过拉格朗日乘子法进行求解,得到一个凸优化问题,进而可以通过核函数将数据映射到高维空间,以处理非线性问题。

2. 不均衡最大软间隔SVDD在实际工程中,正常数据和异常数据的分布通常是不均衡的,这就需要对SVDD模型进行不均衡处理。

不均衡最大软间隔SVDD是对SVDD的改进,主要考虑到异常数据的数量较少,并且通常被忽略或容易受到干扰。

该方法通过引入不同的惩罚因子来对正常数据和异常数据进行不同程度的惩罚,使得模型更加关注异常数据,提高了异常检测的性能。

3. 轴承故障检测模型基于不均衡最大软间隔SVDD的轴承故障检测模型主要包括以下几个步骤:数据采集和预处理、特征提取和选择、模型训练和测试。

通过传感器采集轴承的振动信号数据,并对数据进行预处理,包括去噪、降采样等操作。

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型

不均衡最大软间隔SVDD轴承故障检测模型摘要:随着工业生产的不断发展,机械设备的运行状态监测和故障诊断越来越受到人们的重视。

轴承是机械设备中重要的零部件之一,其状态的良好与否直接关系到整个设备的正常运行。

轴承的故障检测引起了广泛的研究兴趣。

本文提出了一种基于不均衡最大软间隔支持向量数据描述(SVDD)的轴承故障检测模型。

通过收集轴承的振动信号数据,并使用SVDD模型对正常状态下的轴承数据进行建模,找出轴承的正常工作状态的边界,并提出了不均衡最大软间隔SVDD模型来检测轴承的故障状态。

实验结果表明,该模型能够有效地检测轴承的故障状态,并具有较高的准确性和可靠性。

关键词:轴承;故障检测;支持向量数据描述;不均衡最大软间隔;振动信号2. 不均衡最大软间隔SVDD模型2.1 SVDD模型SVDD模型是一种基于支持向量机的异常检测方法,它通过在高维空间对正常数据进行描述,找出包围正常数据的最小球或椭球,从而区分出异常数据。

SVDD模型的基本思想是将高维空间中的数据映射到核空间中,找出一个最大软间隔球,使得正常数据能够落在该球的内部,而异常数据则落在球的外部。

SVDD模型的数学表达式如下:Phi(x)表示将数据x映射到核空间中的函数,w是超平面的法向量,b是超平面的偏置量,ξi是松弛变量。

C是惩罚参数,表示权衡间隔大小和误分类量的参数。

2.2 不均衡最大软间隔SVDD模型在实际的工业应用中,通常会出现正常数据和异常数据的不均衡情况,即异常数据的数量远小于正常数据。

为了处理不均衡数据,本文提出了一种不均衡最大软间隔SVDD模型。

该模型基于不均衡支持向量机(SVM)的思想,通过引入不均衡参数ξ,使得模型对正常数据和异常数据的重要性进行了平衡。

不均衡最大软间隔SVDD模型的数学表达式如下:ξi表示第i个数据点的松弛变量,ξi+和ξi-分别表示正常数据和异常数据的松弛变量。

η是不均衡参数,用于调节正常数据和异常数据的重要性。

基于核空间相对密度的SVDD多类分类算法

基于核空间相对密度的SVDD多类分类算法

K y w r s u p r vco d t d sr t n S D ; u i asc s f a o ; ea v e s yi en l p c e o d :sp ot etr a eci i ( V D) m hc s l s c t n rl i d n i k r e sa e a po l ai i i te t n
t n S D )i ntul uetesm l dsiu o fr a o noel pn g n, hsppr rpsda lo tm f i ( V D s o fl s h a pe ir t ni om t ni vr p i r i s T i ae ooe na rh o o y tb i n i a geo p gi r
Ab t a t n o d rt o v h r b e h te it g mu il s ls i c t n ag r h a e n s p o e t rd t e ci — sr c :I r e s l e te p o lm t a xs n h ca sca s ai lo i m b s d o u p r v co aa d s r o i i f o t t p
中 图分 类号 :T 3 14 P 9 . 文献标 志码 :A 文章编号 :10 —6 5 2 1 )5 19 — 3 0 13 9 ( 0 0 0 — 6 4 0
d i1. 9 9 ji n 1 0 —6 5 2 1 .5 0 3 o:0 3 6 /.s .0 13 9 .0 0 0 .2 s
b u d n y e —p ee n lsn a h ca s yu ig S o n i g h p rs h r se co ig e c ls s VDD. h n t eag r h c l u ae eaie d n i i e s me ca s b n T e lo i m ac ltd r lt e st w t t a l s h t v y hh

一种最大分类间隔SVDD的多类文本分类算法

一种最大分类间隔SVDD的多类文本分类算法

一种最大分类间隔SVDD的多类文本分类算法罗琦【期刊名称】《电讯技术》【年(卷),期】2014(000)004【摘要】文本分类是信息检索和文本挖掘的关键技术之一。

提出了一种基于支持向量数据描述( SVDD)的多类文本分类算法,用支持向量描述训练求得包围各类样本的最小超球体,并使得分类间隔最大化,在测试阶段,引入基于核空间k-近邻平均距离的判别准则,判断样本所属类别。

实验结果表明,该方法具有很好的泛化能力和很好的时间性能。

%Text categorization is one of the key technology to retrieve information and mine text. This paper proposes a multi-class text categorization algorithm based on maximal classification margin SVDD( Support Vector Data Description) . This algorithm trains multi-class samples with support vector data description, then computes a minimal super spherical structure which can surround all samples and has maximal margin between each class. In the phase of testing,this algorithm classifies samples with a criterion of average dis-tance based on KNN( K-Nearest Neighbor) . The test result shows this algorithm has good generalization capability and good time efficiency of text categorization.【总页数】4页(P496-499)【作者】罗琦【作者单位】中国西南电子技术研究所,成都610036【正文语种】中文【中图分类】TP391.1【相关文献】1.基于最大分类间隔SVDD算法的辐射源个体确认 [J], 骆振兴;楼才义;陈仕川;李少伟2.多类文本分类算法GS-SVDD [J], 吴德;刘三阳;梁锦锦3.基于最大分类间隔SVDD的电子装备状态监测模型研究 [J], 杨森;孟晨;王成4.故障分离——一种基于FDA-SVDD的模式分类算法 [J], 祝志博;宋执环5.基于密度敏感最大软间隔SVDD不均衡数据分类算法 [J], 陶新民;李晨曦;沈微;常瑞;王若彤;刘艳超因版权原因,仅展示原文概要,查看原文内容请购买。

基于LD-SVDD的数据分类方法研究

基于LD-SVDD的数据分类方法研究

基于LD-SVDD 的数据分类方法研究白 蕾1!2,胡 平1!2,苑易伟3收稿日期:2020 - 10 - 12基金项目:陕西省教育厅科研计划项目(20JK0802);咸阳科技局科研攻关项目(2018k02 -10);陕西工业职业技术学院院级项目“基于数据挖掘技术的制粉系统故障诊断方法研究与设计”(2020YKYB -051) +陕西工业职业技术学院院级项目(ZK19-11)作者简介:白蕾(1988),女,陕西咸阳,工学硕士,讲师,研究方向为电气自动化、工业机器人及电力电子技术等。

(1-陕西工业职业技术学院电气工程学院;2.咸阳市新能源及微电网系统重点实验室,陕西咸阳712000$3-西安理工大学自动化与信息工程学院,陕西西安710048)摘要:针对工业过程中数据维数高,导致SVDD 算法在建立不同类别数据的超球面时会产生混 叠区域的问题,提出了基于近邻密度-支持向量数据描述(LD-SVDD )的数据分类方法。

结合局部密度信息在判别数据相似性和SVDD 在数据分类的优势,使用SVDD 算法对数据进行分类,对分 布在混叠区域中的样本采用密度信息进一步判断其类别,通过随机产生的数据集进行仿真,并与 SVDD 分类结果进行比较,结果表明LD - SVDD 的分类准确率提高到了 93% %关键词:支持向量数据描述;混叠区域;局部密度中图分类号:TP391.41文献标识码:A 文章编号#1000 -0682(2021)03 -0080 -04Research on sata classibcation methos basee on LD - SVDDBAI Let 1'2, HU Ping 1"2, YUAN Yiwei 3(1. ElectrWal Enginee P ng School , Shaanxi Polytechnic 07150**;2. Xian-yang Keg Laborato* of Neg Power and IntelliientSysPm , Shaanxi Xian-yang 712000 , China ;3. Facult* f Au*matioo and iTtformalioo Engice P ng ,Xin UngersPa f TePinolofy , Shaanxi Xin 710048 , China #Abstract : In order to solve the problem that SVDD algorithm will produce aliasing regions when buoedonghspLesphLesotdo t enttspLsotdataduLtohogh datadomLnsoon on ondusteoaepeocL s , adataclassification method based on local density suppoO vector data descaption ( LD 一 SVDD) is poposed.Combining the advvntagvs of local density infonation in discOminOing data similaaty and SVDD in data classification , the SVDD algorithm is used to classify the data, and the density infooiation is used to fur ­ther -udgv the classibcation of samples distributed in the aliasing area. The simulation results of randomly generated data sets are compared with the SVDD classification results. The results show that the classifi-caoon accu eac so tLD - SVDD os omp eoved o93 %.Keyworis : SVDD ; aliasing region ; local density0引言支持向量数据描述(SuppoO Vector Domain Dv- sceoptoon ,SVDD ) 是一种非常有效的分类方法, 该方法通过构造一个最小封闭超球体来包围绝大部分或 者全部样本,此最小超球体为该类样本的特征空间域[1]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于密度敏感最大软间隔SVDD不均衡数据分类算法陶新民;李晨曦;沈微;常瑞;王若彤;刘艳超【摘要】为了提高传统支持向量域描述(C-SV DD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.【期刊名称】《电子学报》【年(卷),期】2018(046)011【总页数】8页(P2725-2732)【关键词】支持向量域数据描述;不均衡数据;相对密度【作者】陶新民;李晨曦;沈微;常瑞;王若彤;刘艳超【作者单位】东北林业大学工程技术学院,黑龙江哈尔滨150040;东北林业大学工程技术学院,黑龙江哈尔滨150040;东北林业大学工程技术学院,黑龙江哈尔滨150040;东北林业大学工程技术学院,黑龙江哈尔滨150040;东北林业大学工程技术学院,黑龙江哈尔滨150040;东北林业大学工程技术学院,黑龙江哈尔滨150040【正文语种】中文【中图分类】TP3911 引言分类问题作为一项重要的任务,在机器学习、模式识别与数据挖掘领域有着广泛的应用[1~3].在分类问题的模型构造方面,通常分为二分类算法和单分类算法.以往基于二分类的算法都是在样本均衡的前提条件下进行的.其中,基于统计学习理论结构风险最小化的支持向量机(Support Vector Machine,SVM)算法[4-5]作为一个经典的二分类算法,因其良好的非线性区分能力近年来引起了广泛关注.然而在实际应用过程中所能得到的训练数据在数量上或质量上并不都是均衡的,因此受不均衡数据的影响,传统SVM分类性能严重下降[6].那么如何提高分类算法在不均衡数据下的分类性能成为了众多学者关注的重点.近些年,学者们相继提出了各种处理不均衡数据分类的改进算法.其中针对二分类算法的研究方向主要分为两大类:第一类是为了改进现有分类器的模型.其中代价敏感学习方法就是通过把各类的不同错分代价应用到分类决策中去,来尽可能地降低误分类的整体代价,然而由于代价敏感值的大小在现实应用中难以确定,使得该方法在实际应用中受到限制[7].第二类方法是数据均衡化处理,即将不均衡数据分类问题转化为均衡的两类分类问题进行研究,最具代表性的就是利用抽样算法[8]实现数据均衡,其中又分为对多数类样本的欠抽样[9]和对少数类样本的过抽样[10].欠抽样算法由于只抽取了多数类的子集来训练分类器,忽略掉了多数类样本的重要结构分布信息,从而引起边界偏移.传统过抽样算法因为复制的少数类样本没有增加任何新知识,从而导致过学习问题.虽然后来提出的基于SMOTE[11]过取样能在一定程度上降低非平衡度且优于传统的过抽样方法,但是由于训练样本的增加会使决策域减小,导致算法过度拟合,同时人为增加样本有可能造成噪声点增加,从而降低分类精度.与传统两分类算法相比,单分类算法在处理不均衡数据的分类问题时,因为能有效地分辨出多数类样本与少数类样本,且具有更高的识别率与精度.因此,近年来受到了学者们广泛关注.其中传统支持向量域描述(C-SVDD)算法因其原理简单、训练速度快,现已被广泛应用于不均衡数据分类领域[12-13].然而由于C-SVDD在训练过程中没有考虑到训练样本在原始空间的分布差异对求解最优分类界面的影响,使得求解后的分类界面受野性噪声点的影响出现偏移,进而降低了分类器的泛化性能.另外,C-SVDD利用的是惩罚因子对两类样本集的错分总和进行调整,当面对线性可分问题时,两类样本集的错分样本总和为零,因此没有起到调整边界的作用.鉴于此,本文为了充分考虑原始空间中样本的分布信息,通过引入相对密度[14]来反映训练样本的重要程度,使处于相对密度高区域的训练样本较相对密度低的训练样本更易落入超球体之内,进而消除噪声影响.同时借鉴传统SVM分类间隔最大化思想,对C-SVDD进行改进[15],通过引入最大软间隔正则项[16]来充分利用少数类样本信息,将分类界面向少数类偏移,进而提高算法处理不均衡数据的分类性能.本文通过将上述两种思想结合后提出一种基于密度敏感最大软间隔SVDD不均衡数据分类算法.实验部分将本文提出的方法同C-SVDD进行比较,结果表明本文的方法在数据不均衡情况下的分类性能较C-SVDD有较大幅度提高.2 理论分析2.1 C-SVDD算法C-SVDD作为直接使用目标训练数据进行分类判别的经典单分类算法,其中心思想是借助非线性映射φ(·)将训练样本映射到高维特征空间中,然后在特征空间中通过求解球心a和半径R来寻找包含大多数映射训练样本的最小超球体.C-SVDD通过引入惩罚因子来控制对不同类别错分样本的惩罚力度,由于该算法不依赖少数类样本的个数,因此非常适合处理不均衡数据分类问题.其简要数学模型如下:(1)约束条件为:∀i=1,2,…,N∀(2)其中,R为超球体半径,a为圆心,表示多数类与少数类训练样本数目,为用于控制多数和少数训练样本损失函数大小的惩罚因子,ξi,ξj分别为不同类别样本实际错误的松弛变量,φ(xi),φ(xj)表示训练样本xi,xj在高维特征空间的映射.这里由拉格朗日最优化理论,可得上述问题的对偶问题:(3)约束条件为:(4)∀i,yi=1,i=1,2,…,N(5)∀(6)其中,为拉格朗日乘子,在描述中所对应的xi,xj称为支持向量,即为位于球体边缘决定分类界面的训练样本.2.2 DSMSM-SVDD算法2.2.1 密度敏感因子C-SVDD作为经典的单分类算法因其原理简单易实现被广泛应用于不均衡数据的分类问题.但是由于C-SVDD没有充分考虑训练样本的自身分布情况,导致在反映目标数据集整体密度分布特性上具有一定的局限性.在C-SVDD模型的训练过程中,尽管惩罚因子C对错分样本点具有一定的约束作用,但是由于C是一个不变的常参量,即表示对所有的训练样本同等处理,导致C-SVDD模型在训练过程中对异常点或者噪声点非常敏感,甚至造成算法过分拟合.另外,C-SVDD在训练过程中与经典的SVM算法一样,最优分类界面仅仅依靠小部分被称为支持向量的数据来确定,忽略了球体内非支持向量对数据域描述的影响.但由于具有较高密度的非支持向量周围区域比较低密度区域更重要,所以对其错分的惩罚力度应该增加,以便于更准确地识别出目标数据集的数据域描述,提高算法的分类性能.因此,仅依靠支持向量来确定最优分类界面而不考虑密度分布可能会错过最优解.针对C-SVDD的上述问题,本文通过对每个目标数据点引入相对密度,并与错分惩罚项相结合,改造C-SVDD优化目标的方式来体现相对密度对算法最优解的影响.即达到使分布在相对密度较大区域的样本点尽可能地包含在描述区域边界内,而相对密度较小的噪声点因惩罚因子的作用不会对最优分类界面的求解产生影响的目的.其中,本文采用Parzen-window算法来计算样本的相对密度,具体方法描述如下:设X=[x1,x2,…,xN]为给出的目标训练样本集,其中N代表目标训练样本的个数.对于任意一个训练样本xi其相对密度ρi的定义如下:∀i=1,2,…,N(7)其中D为输入数据的维度,ω为权重,s是Parzen-window的平滑参数.若训练样本点xi获取的相对密度值ρi越大,则表明xi所处的区域越紧致.2.2.2 最大软间隔项C-SVDD虽然通过对多数类与少数类样本增加不同惩罚因子的方式使其分类界面向少数类样本方向偏移,进而提高算法的分类性能.但是C-SVDD在解决线性可分问题时,由于多数类样本与少数类样本错分总和为零,惩罚因子对算法达不到调整分类界面的效果.因此,针对上述问题,本文在充分借助少数类样本信息的前提下,借鉴传统SVM最大软间隔思想,对C-SVDD算法的优化目标进行改进,通过增加少数类样本与多数类样本的最大软间隔正则项信息,使得算法的最优分类界面向少数类偏移,提升算法分类性能,进而提高C-SVDD处理不均衡数据集的能力.2.2.3 DSMSM-SVDD算法针对C-SVDD存在的上述两方面问题,本文提出一种DSMSM-SVDD算法.令为目标训练样本数据集,其中xi为目标训练样本,ρi为对应目标样本xi的相对密度.针对不均衡数据分类问题,当xi∈多数类时,ρi求法如上节所述.考虑到少数类样本稀少,按上述方法计算后的相对密度无法体现少数类样本真实的密度分布信息,因此当xj∈少数类时,令ρj=1.为了便于描述,这里采用φ(xi)表示训练样本xi在高维特征空间的映射.DSMSM-SVDD算法具体的数学模型表示如下:(8)约束条件为:yi(R2-〈φ(xi)-a,φ(xi)-a〉)≥d2-ξi(9)ξi≥0,∀(10)其中,d表示超球面S距离最近多数、少数类训练样本的距离,M≥1为调节超球面半径和间隔项的参数,为用于控制多数和少数训练样本损失函数大小的惩罚因子,ξi、ξj为实际错误.由上述的优化问题,得广义的拉格朗日函数:L(a,R,d,ξi,ξj,α,β)=(11)其中,利用KKT条件有:(12)(13)(14)∀i,yi=1(15)∀j,yj=-1(16)还有松弛互补条件:αi[d2-ξi-yi(R2-〈φ(xi)-a,φ(xi)-a〉)]=0 (17)αi≥0(18)-βiξi=0(19)βi≥0(20)由于αi,βi均是非负实数,由式(12)得:(21)由式(13)得:(22)由式(15),(18)得:∀i,yi=1(23)由式(16),(18)得:∀j,yj=-1(24)由式(14),(21)得:(25)将式(15),(16),(21),(22),(25)代入L中,得:L(a,R,d,ξi,ξj,α,β)=(26)做下变换kernel(xi,xj)=φ(xi)·φ(xj),本算法引用经典高斯核函数,则得到原问题的对偶问题:(27)约束条件:(28)(29)αi≥0,∀(30)∀i,yi=1,i=1,2,…,N(31)∀(32)通过求解上述问题,得到α.进而求得a与R.令∀则:(33)R2=(34)其中,Nn为属于多数类且是支持向量的样本点个数,Na为属于少数类且是支持向量的样本点个数.xl为多数类支持向量,xm为少数类支持向量,k(xi,xj)为高斯核函数.对于待测样本xnew,构造决策函数对其进行分类:(35)表明待测样本xnew为多数类样本,表明待测样本xnew为少数类样本.根据KKT最优化条件得:位于多数类间隔内的多数类样本满足:αi=0⟹位于少数类间隔内的少数类样本满足:αj=0⟹位于多数类间隔上的多数类样本满足:位于少数类间隔上的少数类样本满足:位于多数类间隔外的多数类样本满足:位于少数类间隔外的少数类样本满足:(36)2.2.4 M值的取值范围由式(36)知,带有间隔错误的多数类样本对应的ξi>0,根据松弛互补条件-βiξi=0,则相对应的拉格朗日乘子βi=0,同时由式(15)可推得同理,对于带有间隔错误的少数类样本结合式(29),(30)可以得到:ρj(37)我们分别通过式(31)、(32)可以得到并且由于只有多数类、少数类支持向量和错分的多数类、少数类样本对应的αi>0,αj>0.可得:ρj(38)综上,(39)其中,Pm+是带有间隔错误的多数类样本的数目,Qm+是多数类支持向量的数目,Pm-是带有间隔错误的少数类样本的数目,Qm-是少数类支持向量的数目.2.2.5 DSMSM-SVDD算法引入相对密度的必要性由于则由式(39)可以推得:(40)假如算法没有考虑每个样本的相对密度,即ρi=1,ρj=1.则式(40)化为:M<c1+c2(41)由式(41)可知,在c1,c2都较小的情况下,不考虑密度的影响,M的取值范围完全取决于惩罚因子C的大小.当实验注重多数类和少数类训练样本的最大软间隔时,由于M受取值上界的限制,可能会导致算法的泛化能力提升不明显.因为ρi≥1,ρj≥1可以使M的取值更灵活,所以密度参数的提出是必要的.3 实验与分析3.1 不均衡数据分类性能度量指标为了能量化地衡量分类算法对不均衡数据分类性能的影响,近些年来研究人员提出了一些适用于不均衡数据分类性能的评测指标,为了方便描述,这里首先介绍混合矩阵的定义:表1 混合矩阵预测正类预测负类真正正类TPFN真正负类FPTN其中,TP(True Positive)指使用分类算法将原本属于正类的样本正确地预测为正类的样本数;FP(False Positive)指使用分类算法将原本属于负类的样本错误地预测为正类的样本数;FN(False Negative)指使用分类算法将原本属于正类的样本错误地预测为负类的样本数;TN(True Negative)指使用分类算法将原本属于负类的样本正确地预测为负类的样本数.因此,可得:正类样本正确率(Sensitivity):负类样本正确率(Specificity):正类样本准确率(Precision):几何平均正确率G-Mean:正类样本F-Measure指标:3.2 实验数据来源为了验证本文提出的DSMSM-SVDD算法在处理不均衡数据分类方面的优势,我们进行了下列实验.其中实验数据均来源于国际机器学习标准数据库UCI中的11组不同的数据集,数据特征信息见表2.其中类别表示选择出来作为少数类和多数类样本的代表类别.实验环境:Windows7操作系统,CPU:Intel i7,3.4G处理器,仿真软件为Matlab2010b.表2 实验数据集描述数据集属性少数类/多数类类别german24300/700B/Gyeast8429/463NUC:CYTwpbc3446/148R:Npima8268/5001:0abalone8634/68910:9sonar6097/11 1-1:1haberman381/2252:1ionosphere33126/225Bad:Goodphome5317/6831:0breast cancer9239/4444:2wine1371/592:13.3 M与取值范围的相互影响为了测试参数M与取值范围之间的关系,令DSMSM-SVDD算法中ρi=1,ρj=1,则式(39)化为:(42)我们设计了如下实验:选定C=(0.01,1),通过将M从1至1000逐步增加,来显式观察算法的分类界面位置和支持向量分布情况,结果如图1所示.其中,DSMSM-SVDD选取核半径参数为σ=1的高斯核函数.通过图1对比可以发现M=1时由于算法中最大间隔项的权重较小,算法等同于C-SVDD.当M从1增加至10时,最大间隔项的权重增大,使得分类界面向两类样本最大间隔处偏移,呈现SVM分类特征,降低多数类样本错分率,泛化能力有所提升.但随着M值的进一步增加,其分类界面位置和支持向量分布情况并不理想.其原因由不等式(42)知:当C取值较小,随着M值的增大,因受不等式(42)中M 上界的约束,导致支持向量个数增多,当M=50时,几乎所有多数类样本成为支持向量,出现过拟合现象.另外,当M=1000时,最优分类界面出现SVM分类特征是因M值过大,所有的多数类样本作为支持向量也不能满足不等式(42)约束,迫使所有少数类样本也充当支持向量,虽分类界面向中间移动,但此时算法要消耗大量的时间与空间,降低算法实现速度,且算法完全过拟合.因此可初步得出如下结论:M值的调节范围是受C值的影响.当C取值较小,M的取值不能过大,否则为了满足M值上界的约束将导致支持向量个数增多,出现过拟合现象.因此当C 较小,应尽可能地选取较小合理的M值.为了能够进一步量化地观察M与C值之间的相互关系,我们选取来自UCI的wine数据集作为本次实验的测试数据,其中多数类与少数类样本数目按30:1的比例来选取.M值从1至1000逐渐增加,观察C在分别为(0.01,1),(0.1,1),(10,100)时的G-Mean,F-Measure性能曲线变化趋势,F-Measure,G-Mean值越大,说明该算法的综合分类性能越好.其他参数同上,测试结果如图2所示.通过图2可知:在M值逐渐增大的过程中,较大C值的G-Mean,F-Measure 性能达到稳定时的M值要大于较小C值的G-Mean,F-Measure性能达到稳定时的M值.即当C值较大时,M的取值范围扩大;同样,当C值较小时,M的取值范围缩小,该实验现象也进一步验证了前期实验得出的M值的上界受C值影响的初步结论.另外,通过实验可知当M取值较大时,C必须取相应较大的值,才能防止因受式(42)右半部分不等式限制导致支持向量个数增大而产生过拟合现象.而当M值较小时,C的取值范围可适当扩大,但C的取值不可以无限制小,仍要满足不等式(42).该实验结论同样与前面实验得到的初步结论相吻合.3.4 DSMSM-SVDD与C-SVDD算法性能比较实验及分析为了比较本文提出的DSMSM-SVDD算法与C-SVDD算法在处理不均衡数据分类问题上的性能,这里做了如下实验:实验数据集如表2所示.我们将表2中的多数类数据和少数类数据按10:1的比例进行选取.对于每类数据集,为了防止数据的随机影响,我们通过10次交叉验证法进行实验测试.DSMSM-SVDD与C-SVDD的分类性能最终以G-Mean性能指标与支持向量个数(Support Vector,SV)的统计平均值作为评价标准.其中,DSMSM-SVDD与C-SVDD均采用核半径参数σ=10的高斯核函数,C=(0.01,1)的惩罚因子,DSMSM-SVDD算法中M=50,ω=2,s=3.实验结果如图3及图4所示.通过图3可知,本文提出的DSMSM-SVDD算法的G-Mean性能指标值均高于C-SVDD,即本文算法在处理不均衡数据分类问题时,较C-SVDD具有更好的泛化能力.这是由于C-SVDD只考虑包含多数类样本的超球面半径项,而没能考虑两者的间隔信息,使得到的分类界面受不均衡数据的影响产生偏移.同时,该算法在处理训练样本整体分布特性上具有一定局限性,很可能将密度大的非支持向量区域误判,导致分类精度不高.而本文提出的算法不仅充分考虑了两类样本的间隔信息,同时通过对多数类样本增加相对密度的方式来保证在目标函数的求解过程中考虑到数据分布差异的影响,使求解的最优分类界面更加合理,进而提升了算法泛化性能.另外,通过图4的条形图可以看到,除了breast cancer ,wine数据集之外,本文算法的支持向量个数远远小于C-SVDD.由于两种算法的复杂度均取决于支持向量的个数,因此可以说本文算法在时间和空间上的消耗都远小于C-SVDD算法.3.5 高斯核函数半径值对算法分类性能的影响为了考察高斯核函数半径参数σ对DSMSM-SVDD算法分类性能的影响,我们从表2的数据集中选取pima,yeast,haberman,german,ionosphere 5类难分数据集作为本次实验数据.每类数据按10∶1的比例进行多数类与少数类样本的选取,通过10次交叉验证方法测试.其中,σ的选定区间为[3,100],其他参数M=50,ω=2,s=3,C=(0.1,1).实验通过改变σ值来观察DSMSM-SVDD算法的G-Mean性能的变化趋势,结果如图5所示.通过图5我们可以得出:DSMSM-SVDD算法随着参数σ值的增大,各数据集的综合分类性能指标G-Mean值的变化趋势缓慢,彼此之间的区分不明显.这是因为本文提出的DSMSM-SVDD算法中采用了最大软间隔正则项,使得优化后得到的分类界面泛化能力的提升很大程度上取决于间隔项的影响,这也在一定程度上抵消了高斯核半径对算法分类性能的影响.4 结论针对不均衡数据的分类问题,提出一种基于密度敏感最大软间隔支持向量域描述算法.通过实验分析得到如下结论:(1) 为了消除噪声影响同时防止算法欠拟合,本文通过引入相对密度来反映训练样本的重要程度,使处于相对密度高的非支持向量区域的训练样本较相对密度低的训练样本更易落入超球体之内,进而消除噪声影响.实验部分通过和C-SVDD进行对比的结果表明,该方法更有利于算法准确地识别出给定目标数据集的数据域描述,进而提高了算法的泛化性能.(2) 为了消除不均衡数据集对C-SVDD算法性能的影响,本文在充分利用少数类样本信息的前提下,借鉴传统SVM最大化间隔思想,将最大软间隔加入C-SVDD 的优化目标函数中.实验结果表明,该方法有效提高算法处理不均衡数据的分类性能,同时使分类结果不随高斯核参数的改变而明显改变,这在一定程度上消除了高斯核参数对算法性能的影响.(3) 实验部分将间隔项参数M、惩罚因子C以及高斯核半径参数σ之间的关系进行分析讨论并给出相应的结论.值得一提的是,如何实现两个参数的联合优化对于提升本文算法处理不均衡数据分类性能而言至关重要,这也将是本课题下一阶段研究的重点.参考文献【相关文献】[1] Gu B,Sun X M,Sheng V S.Structural minimax probability machine[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(7):1646-1656.[2] Luo FF,Guo W Z,Yu Y L,et al.A multi-label classification algorithm based on kernel extreme learning machine[J].Neurocomputing,2017,260:313-320.[3] H B,Ho H C,Z J,et al.An overview and comparison of machine-learning techniques for classification purposes in digital soil mapping[J].Geoderma,2016,265:62-77.[4] Zhang X,Zhang X.Adaptive multiclass support vector machine for multimodal data analysis[J].Pattern Recognition,2017,70:177-184.[5] Zuo W M,Wang F Q,Zhang D,et al.Distance metric learning via iterated support vector machines[J].IEEE Transactions on Image Processing,2017,26(10):4937-4950.[6] 陶新民,李震,刘福荣,等.基于精简集支持向量机的变压器故障检测方法[J].高电压技术,2016,42(10):3199-3206.Tao Xinmin,Li Zhen,Liu Furong,et al.Fault detection method for power transformer based on SVM using reduced vector set[J].High Voltage Engineering,2016,42(10):3199-3206.(in Chinese)[7] Zhou Y H,Zhou Z rge margin distribution learning with cost interval and unlabeled data[J].IEEE Transactions on Knowledge and Data Engineering,2016,28(7):1749-1763. [8] 毕冉,李建中,高宏.无线传感器网络中基于双阈值的分布式检测算法[J].电子学报,2014,42(8):1594-1600.Bi Ran,Li Jianzhong,Gao Hong.Dual threshold based distributed monitoring algorithm in wireless sensor network[J].Acta Electronica Sinica,2014,42(8):1594-1600.(in Chinese) [9] 陶新民,张冬雪,郝思媛,等.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768.Tao Xinmin,Zhang Dongxue,HaoSiyuan,et al.SVM classifier forunbalanced data based on spectrum cluster-based under-sampling approaches[J].Control andDecision,2012,27(12):1761-1768.(in Chinese)[10] Abdi L,Hashemi S.To combat multi-class imbalanced problems by means of over-sampling techniques[J].IEEE Transactionson Knowledgeand DataEngineering,2016,28(1):238-251.[11] Jian C X,Gao J,Ao Y H.A new sampling method for classifying imbalanced data based on support vector machine ensemble[J].Neurocomputing,2016,193:115-122.[12] 杨金鸿,邓廷权.一种基于单簇核PCM的SVDD离群点检测方法[J].电子学报,2017,45(4):813-819.Yang Jinhong,Deng Tingquan.A one-cluster kernel PCM based SVDD method for outlier detection[J].Acta Electronica Sinica,2017,45(4):813-819.(in Chinese)[13] Lazzaretti A E,Tax D M J,Neto H V,et al.Novelty detection and multi-class classification in power distribution voltage waveforms[J].Expert Systems with Applications,2016,45:322-330.[14] 程昊翔,王坚.基于快速聚类分析的支持向量数据描述算法[J].控制与决策,2016,31(3):551-554.Cheng Haoxiang,Wang Jian.Support vector data description based on fast clustering analysis[J].Control and Decision,2016,31(3):551-554.(in Chinese)[15] Huang J,Yan X F.Related and independent variable fault detection based on KPCA and SVDD[J].Journal of Process Control,2016,39:88-99.[16] 文传军,詹永照,陈长军.最大间隔最小体积球形支持向量机[J].控制与决策,2010,25(1):79-83.Wen Chuanjun,Zhan Yongzhao,Chen Changjun.Maximal-margin minimal-volume hypersphere support vector machine [J].Control and Decision,2010,25(1):79-83.(in Chinese)。

相关文档
最新文档