基于最近邻互信息的特征选择算法

Computer Engineering and Applications 计算机工程与应用

2016，52（18）1引言特征选择是根据某种特定的评价准则从原始特征空间中选择一组最优的特征子集，用于代替原始特征进行数据分类或者信息处理，从而降低特征维数的过程[1-2]。它是模式识别、数据挖掘及机器学习等领域中数据预处理的关键步骤[3-4]。通过特征选择，可以有效地删除冗余和无关特征，以提高分类模型的泛化能力，在一定程度上避免了噪声的干扰。目前常用的特征选择方法，可以根据搜索策略和评价准则进行分类。其中，一个好的评价准则往往能够有效地获得一组最优或次优的特征子集。目前常见的评价准则有：距离度量[1，5]、依赖性度量[4，6]、

一致性度量[3]和信息度量[7-12]。由于信息度量不用预先知道数据分布，且可以有效地度量特征之间的非线性关系，从而受到了广泛的关注[10-12]。

信息度量方法通常可以用互信息（MI ）来衡量。基于互信息的特征选择过程在于选择一组特征子集，该子集与类标签相关性最大，而特征之间相关性最小。常见的基于信息度量的特征选择算法有：MIFS [7]、MRMR [8]、FCBF [9]等。这些方法虽然能较好地评价特征的相关性，但是它们仅仅适合于离散型数据。对于连续型数基于最近邻互信息的特征选择算法

王晨曦1，林耀进2，刘景华2，林梦雷2

WANG Chenxi 1,LIN Yaojin 2,LIU Jinghua 2,LIN Menglei 2

1.漳州职业技术学院计算机工程系，福建漳州363000

2.闽南师范大学计算机学院，福建漳州363000

1.Department of Computer Engineering,Zhangzhou Institute of Technology,Zhangzhou,Fujian 363000,China

2.School of Computer Science,Minnan Normal University,Zhangzhou,Fujian 363000,China

WANG Chenxi,LIN Yaojin,LIU Jinghua,et al.Feature selection algorithm based on nearest-neighbor mutual https://www.360docs.net/doc/f514194850.html,puter Engineering and Applications,2016,52（18）：74-78.

Abstract ：Feature selection of neighborhood information system is constrained by the neighborhood size.First,this paper calculates the distance between a given sample and its nearest samples with the same and different labels to define the con-cept of nearest-neighbor,and determines the size of nearest neighbor simultaneously.Second,the notion of nearest-neighbor is extended to Shannon information theory,and the concept of nearest neighbor mutual information is presented.Then,a forward greedy strategy is used to construct feature selection algorithm based on nearest-neighbor mutual information.Finally,experiments are conducted on eight UCI data sets and two different base classifiers.Experimental results show that the proposed algorithm selects a few features and effectively improves classification performance compared with other popular algorithms.

Key words ：feature selection;nearest-neighbor;mutual information;neighborhood mutual information

摘要：针对邻域信息系统的特征选择模型存在人为设定邻域参数值的问题。分别计算样本与最近同类样本和最近异类样本的距离，用于定义样本的最近邻以确定信息粒子的大小。将最近邻的概念扩展到信息理论，提出最近邻互信息。在此基础上，采用前向贪心搜索策略构造了基于最近邻互信息的特征算法。在两个不同基分类器和八个UCI 数据集上进行实验。实验结果表明：相比当前多种流行算法，该模型能够以较少的特征获得较高的分类性能。关键词：特征选择；最近邻；互信息；邻域互信息

文献标志码：A 中图分类号：TP18doi ：10.3778/j.issn.1002-8331.1412-0214

基金项目：国家自然科学基金（No.61303131）；福建省自然科学基金（No.2013J01028）；福建省教育厅科技项目（No.JA14192，No.JAT60866）。作者简介：王晨曦（1981—），女，讲师，主要研究方向为数据挖掘；林耀进（1980—），男，博士，副教授，CCF 会员，主要研究方向为数

据挖掘；刘景华（1989—），女，硕士研究生，CCF 学生会员，主要研究方向为数据挖掘；林梦雷（1963—），男，教授，主要研究方向为计算智能。

收稿日期：2014-12-15修回日期：2015-03-26文章编号：1002-8331（2016）18-0074-05

CNKI 网络优先出版：2015-06-16,https://www.360docs.net/doc/f514194850.html,/kcms/detail/11.2127.TP.20150616.1345.023.html