基于信息熵的不完备数据特征选择算法

*国家自然科学基金项目(No.61005010)二安徽省自然科学基金项目(No.1308085MF84,1408085MF135)二安徽省高校省级自然科学基金项目(No.KJ2012B149,2013SQRL074ZD)二合肥学院重点建设学科项目(No.2014XK08)二合肥学院学科带头人培养对象项目(No.2014dtr08)资助收稿日期:2013-08-26;修回日期:2014-02-10作者简介 陈圣兵(通讯作者),男,1973年生,博士,副教授,主要研究方向为人工智能.E_mail:csb_001@https://www.360docs.net/doc/883861468.html,.王晓峰,男,1977年生,博士,副教授,主要研究方向为模式识别二图像处理.基于信息熵的不完备数据特征选择算法

*陈圣兵1 王晓峰1,2

1(合肥学院计算机科学与技术系网络与智能信息处理重点实验室 合肥230601)2(中国科学院合肥智能机械研究所智能计算实验室 合肥230031)

摘 要 在分析已有不完备信息熵的基础上,提出一种基于相似关系的不完备信息熵,并证明该信息熵的若干性质.给出一个不完备数据特征选择算法,算法以改进的不完备信息熵作为特征选择准则,直接对不完备数据的特征进行熵值分析,并采用顺序前向浮动选择方法解决特征间的相关性问题.最后在UCI 实测数据集上的实验表明,文中算法具有更高的准确率和更快的特征选择速度.

关键词 特征选择,不完备数据,不完备信息熵,不完备决策表,相似关系

中图法分类号 TP 181

Feature Selection Algorithm for Incomplete Data Based on Information Entropy

CHEN Sheng_Bing 1,WANG Xiao_Feng 1,2

1

(Key Laboratory of Network and Intelligent Information Processing ,Department of Computer Science and Technology ,Hefei University ,Hefei 230601)2(Intelligent Computing Laboratory ,Institute of Intelligent Machines ,Chinese Academy of Sciences ,Hefei 230031)ABSTRACT

Grounded on the analysis of the existing incomplete information entropy,the concept of incomplete information entropy based on similarity relations (SIIE)is proposed,and some properties of SIIE are

discussed.A feature selection algorithm for incomplete data is presented.In this algorithm,SIIE of incomplete data is calculated directly,and SIIE is taken as the criteria for feature selection.Then,the sequential forward floating search method is employed to addresses the problem of correlation among features.Experiments on UCI database are carried out,and the results indicate the accuracy and

efficiency of the proposed algorithm.第27卷 第12期 模式识别与人工智能 Vol.27 No.12 2014年12月 PR &AI Dec. 2014

相关文档
最新文档