信息熵-特征选择方案

合集下载

几种常用的特征选择方法

几种常用的特征选择方法

几种常用的特征选择方法特征选择是机器学习中非常重要的一个环节,通过选择合适的特征子集,可以提高模型的准确性、降低过拟合的风险,并减少计算成本。

以下是几种常用的特征选择方法:1. 过滤式特征选择(Filter feature selection):过滤式特征选择方法独立于机器学习算法,将特征子集选择作为单独的预处理步骤。

常见的过滤式方法有基于相关性的选择、方差选择和互信息选择等。

- 基于相关性的选择:计算每个特征与目标变量之间的相关性,选取相关性较高的特征。

例如,皮尔逊相关系数可以用于评估线性相关性,而Spearman相关系数可用于评估非线性相关性。

-方差选择:计算特征的方差,并选择方差较高的特征。

方差较高的特征在总体上具有更多的信息。

-互信息选择:计算每个特征与目标变量之间的互信息,选取互信息较高的特征。

互信息是度量两个变量之间相关性的一种方法。

2. 包裹式特征选择(Wrapper feature selection):包裹式方法将特征选择作为机器学习算法的一部分,通过评估模型的性能来选择特征。

常见的包裹式方法有递归特征消除(RFE)和遗传算法等。

-递归特征消除:通过反复训练模型并消除不重要的特征来选择特征。

该方法从所有特征开始,每次迭代都使用模型评估特征的重要性,并剔除最不重要的特征,直到选择指定数量的特征。

-遗传算法:通过模拟生物进化过程,使用交叉和变异操作来最佳的特征子集。

该方法可以通过评估特征子集的适应度来选择特征,适应度一般通过模型的性能进行度量。

3. 嵌入式特征选择(Embedded feature selection):嵌入式方法将特征选择与机器学习算法的训练过程相结合,通过优化算法自动选择特征。

常见的嵌入式方法有L1正则化(L1 regularization)和决策树算法等。

-L1正则化:L1正则化可以使得训练模型的系数稀疏化,从而实现特征选择。

L1正则化会增加模型的稀疏性,使得部分系数为0,从而对应的特征被选择。

数据挖掘中的特征选择技巧(五)

数据挖掘中的特征选择技巧(五)

数据挖掘中的特征选择技巧在数据挖掘领域,特征选择是一个非常重要的环节。

特征选择是指从数据集中选择最具代表性的特征,以便用于建模和预测分析。

在实际应用中,通常会遇到大量的特征数据,而并非所有的特征都对建模和预测有帮助。

因此,如何有效地进行特征选择,成为了数据挖掘领域的一个重要课题。

本文将介绍数据挖掘中的特征选择技巧,以及其在实际应用中的意义。

1. 特征选择的意义特征选择在数据挖掘中具有重要意义。

首先,特征选择可以提高模型的鲁棒性和泛化能力。

当特征选择得当时,可以有效地减少模型的复杂度,降低过拟合的风险,从而提高模型的预测能力。

其次,特征选择可以降低建模的成本和时间。

在实际应用中,数据集往往包含大量的特征,而特征选择可以帮助我们筛选出最重要的特征,从而降低数据处理和建模的成本和时间。

最后,特征选择可以帮助我们更好地理解数据。

通过特征选择,我们可以发现数据中隐藏的规律和关联,从而更好地理解数据背后的含义。

2. 特征选择的方法在数据挖掘中,有许多方法可以用来进行特征选择。

其中,常用的方法包括过滤式、包裹式和嵌入式特征选择方法。

过滤式特征选择方法是指在建模之前,利用特征之间的关联关系进行筛选,常用的技巧包括方差分析、相关系数分析等。

包裹式特征选择方法是指在建模过程中,通过不断地尝试不同的特征组合,从而选择最优的特征子集。

嵌入式特征选择方法是指在建模过程中,将特征选择融入到模型训练中,通常是通过正则化技术来实现。

除了上述的基本方法外,还有一些其他的特征选择技巧。

例如,基于信息熵的特征选择方法可以通过计算特征对于目标变量的信息增益来进行特征选择。

此外,基于树模型的特征选择方法可以通过计算特征的重要性分数来进行特征选择。

这些方法各有特点,可以根据具体的应用场景来选择合适的方法。

3. 特征选择的实际应用在实际应用中,特征选择技巧被广泛应用于各种领域。

例如,在医疗领域,可以利用特征选择技巧来筛选出对疾病诊断和预测有帮助的生物标志物。

信息熵 标准

信息熵 标准

信息熵是衡量信息不确定性的一个重要指标,由克劳德·香农在1948年提出,是信息论的基础之一。

信息熵不仅在通信理论中有广泛应用,也对统计学、物理学、计算机科学等多个领域产生了深远影响。

一、信息熵的定义信息熵(Entropy),记作H(X),是描述信息量的大小的一个度量。

它是随机变量不确定性的量化表示,其值越大,变量的不确定性就越高;反之,其值越小,变量的不确定性就越低。

对于一个离散随机变量X,其概率分布为P(X),信息熵的数学表达式定义为:\[ H(X) = -\sum_{i=1}^{n} p(x_i) \log_b p(x_i) \]其中,\(p(x_i)\)代表事件\(x_i\)发生的概率,\(n\)是随机变量可能取值的数量,\(\log_b\)是以b为底的对数函数,常见的底数有2(此时单位是比特或bits)、e(纳特或nats)和10。

二、信息熵的直观理解信息熵可以被理解为信息的“不确定性”或“混乱程度”。

当一个系统完全有序时,我们可以准确预测它的状态,此时信息熵最低;反之,如果系统完全无序,我们无法预测其任何状态,此时信息熵最高。

例如,在一个完全公平的硬币投掷实验中,正面和反面出现的概率都是0.5,这时信息熵达到最大值,因为每次投掷的结果最不确定。

三、信息熵的性质1. 非负性:信息熵的值总是非负的,即\(H(X) \geq 0\)。

这是因为概率值在0和1之间,而对数函数在(0,1)区间内是负的,所以信息熵的定义中包含了一个负号。

2. 确定性事件的信息熵为0:如果某个事件发生的概率为1,那么这个事件的信息熵为0,因为这种情况下不存在不确定性。

3. 极值性:对于给定数量的n个可能的事件,当所有事件发生的概率相等时,信息熵达到最大值。

这表示在所有可能性均等时,系统的不确定性最大。

4. 可加性:如果两个随机事件X和Y相互独立,则它们的联合熵等于各自熵的和,即\(H(X,Y) = H(X) + H(Y)\)。

机器学习算法中的特征选择方法简介

机器学习算法中的特征选择方法简介

机器学习算法中的特征选择方法简介随着大数据时代的到来,机器学习算法已经被广泛应用于各个领域。

然而,在应用机器学习算法之前,我们需要对数据进行预处理,其中最重要的一步就是特征选择。

特征选择是指选择对分类或回归任务有重要作用的特征,同时去除那些无关或冗余的特征,从而提高学习算法的性能。

本文将介绍机器学习算法中的几种常用特征选择方法。

1. Filter方法Filter方法是一种直接将特征与目标变量之间的关联性进行计算的方法。

其主要思想是根据特征之间的相关性选择特征。

常用的方法有相关系数、卡方检验、信息增益、方差分析等。

相关系数是衡量两个变量线性相关程度的指标。

在特征选择中,我们通常使用皮尔逊相关系数来衡量特征与目标变量之间的相关性。

如果相关系数越大,则说明特征与目标变量之间的关联性越强。

卡方检验是一种用于检验两个分类变量之间的关联性的方法。

在特征选择中,我们可以根据特征的分类结果与目标变量之间的关系来进行特征选择。

信息增益是在决策树算法中常用的一种特征选择方法。

信息增益是利用信息熵来衡量特征与目标变量之间的关系。

如果信息增益越大,则说明特征对目标变量的影响越大。

方差分析是一种用于比较各组均值之间差异的方法。

在特征选择中,我们可以利用方差分析来比较特征之间的差异,从而选择对分类或回归任务有贡献的特征。

2. Wrapper方法Wrapper方法是一种基于学习算法的特征选择方法。

其主要思想是通过尝试不同的特征组合,并利用学习算法对每个组合进行评估,从而选择最佳的特征组合。

wrapper方法的代表性算法有递归特征消除算法(Recursive Feature Elimination,简称RFE)和遗传算法(Genetic Algorithm,简称GA)等。

RFE算法是一种逐步减少特征数量的方法。

具体地,该算法会从全部特征中选择最佳的特征,然后在剩下的特征中再次选择最佳的特征,以此类推直至最后只剩下一个特征。

GA算法是一种模拟自然选择的特征选择方法。

简述id3算法的3步具体流程

简述id3算法的3步具体流程

简述id3算法的3步具体流程
ID3算法是一种基于信息熵的决策树学习算法,它适用于分类问题。

其流程可以分为三步,分别是特征选择、决策树生成和决策树剪枝。

第一步,特征选择。

在训练数据集中,选择最具分离性的特征作为决策树节点的判定依据。

这需要计算每个特征对数据集分类的影响程度,也就是信息增益。

信息增益是指在得知某一个特征的取值后,对数据集的不确定性减少的程度。

选择信息增益最大的特征作为判定依据,作为当前节点。

第二步,决策树生成。

在根据最优特征生成当前节点后,使用该特征将数据集分成多个子集,并针对每一个子集递归地生成决策树。

直到数据集已经完全分类或无法找到更多特征为止。

第三步,决策树剪枝。

决策树生成过程中可能会出现过拟合问题,即模型在训练集上表现良好,但在测试集上表现不佳。

这时需要对决策树进行剪枝,删除一些不必要的节点和子树。

具体的剪枝方式有预剪枝和后剪枝两种。

总之,ID3算法是一个简单而高效的决策树学习算法,可以在分类问题上取得良好的效果。

信息熵在特征选择中的应用

信息熵在特征选择中的应用

信息熵在特征选择中的应用信息熵是信息论中的一个重要概念,用于衡量随机事件的不确定性。

在机器学习领域中,信息熵被广泛应用于特征选择中。

特征选择是机器学习中一个非常重要的概念,它决定了分类器的性能和效果,因此特征选择的正确性和效率影响着机器学习模型的整体性能。

特征选择是机器学习中的一项关键技术,其目标是从原始数据中选择一些重要的特征,来减少模型的复杂度,提高模型的效率和准确率。

在进行特征选择时,我们需要从原始数据中选择一些具有代表性的特征,一方面可以保证分类器的性能,另一方面也可以避免出现过拟合等问题。

信息熵在特征选择中的使用是建立在以下基本假设之上的:1. 特征与类别之间的关系是比较独立的,在特征选择过程中不考虑特征之间的相关性;2. 特征的熵值与特征的重要性成正比,因此选择熵值较高的特征会更加有利于提高分类器的性能。

在信息熵的应用中,我们首先需要根据原始数据中的特征和类别计算出各个特征的熵值。

熵值的计算基于信息熵的公式:H(P)= -∑P(x)log2P(x)。

其中,P(x)表示事件x发生的概率,log2表示以2为底的对数,H(P)表示随机事件的信息熵值。

对于特征i来说,我们可以利用其对应的分类特征集合C来计算其熵值,即H(Ci)=-∑(pj log2 pj),其中pj表示特征i在分类特征集合C中出现的概率。

利用这个公式,我们就可以计算出所有特征的熵值了。

在特征选择中,我们可以利用信息增益(IG)来度量一个特征对于分类器的重要性。

信息增益是指在特定条件下,不确定性减少的程度,即熵值的减少量。

在特征选择中,我们选择信息增益最大的特征作为当前的选择特征,以此类推。

信息增益的计算公式如下:IG(A)=H(D)-H(D|A),其中,D表示数据集,D|A表示在给定特征A的条件下,数据集D中类别信息的熵值。

通过计算所有特征的信息增益,我们可以选择信息增益最大的特征作为当前的选择特征。

除了信息增益之外,条件熵也是评估特征选择效果的一种重要指标。

文本分类中的特征选择方法评估比较

文本分类中的特征选择方法评估比较

文本分类中的特征选择方法评估比较特征选择是文本分类中的一个重要步骤,它对于改善分类模型的性能和降低计算成本具有关键作用。

在文本分类领域,有许多不同的特征选择方法可供选择。

本文将评估和比较几种常用的特征选择方法,以帮助研究者和从业者选择适合自己任务的方法。

1. 互信息(MI):互信息是一种常用的特征选择方法,它用来度量特征与类别之间的相关性。

互信息越大,表示特征与类别之间的相关性越强。

互信息具有简单直观的计算方式,但它没有考虑特征与其他特征之间的相关性。

2. 卡方检验(CHI):卡方检验也是一种常见的特征选择方法,它用来度量特征与类别之间的独立性。

卡方值越大,表示特征与类别之间的独立性越低,即特征更有用。

卡方检验能够考虑特征与其他特征之间的相关性,但它对特征出现次数较少的情况较为敏感。

3. 信息增益(IG):信息增益是一种基于信息熵的特征选择方法,它用来度量特征对类别的分类能力。

信息增益越大,表示特征对类别的分类能力越强。

信息增益能够有效地考虑特征与类别之间的相关性,但它对特征的取值个数较敏感。

4. 方差选择(VAR):方差选择是一种基于方差的特征选择方法,它用来度量特征在样本集中的变化程度。

方差越大,表示特征的取值在样本集中的变化越大,即特征更有用。

方差选择方法简单易用,但它忽略了特征与类别之间的相关性。

以上是几种常用的特征选择方法,它们各自有着不同的特点和适用场景。

在实际应用中,我们需要根据任务的具体需求和数据的特点选择合适的特征选择方法。

对于互信息、卡方检验和信息增益这三种方法,它们都可以用于评估特征与类别之间的相关性。

在使用这些方法时,我们需要注意特征与类别之间的关联关系。

如果特征与类别之间的关联关系较强,那么这些方法会给出较高的评估分数,反之则会给出较低的评估分数。

因此,在选择特征选择方法时,我们需要综合考虑特征与类别之间的相关性以及任务的具体需求。

方差选择方法适用于对特征的变异程度较为敏感的任务。

一种基于关联信息熵度量的特征选择方法_董红斌

一种基于关联信息熵度量的特征选择方法_董红斌

一种基于关联信息熵度量的特征选择方法
董红斌 滕旭阳 杨 雪
) ( 哈尔滨工程大学计算机科学与技术学院 哈尔滨 1 5 0 0 0 1 ( ) d o n h o n b i n r b e u . e d u . c n @h g g
F e a t u r e S e l e c t i o n B a s e d o n t h e M e a s u r e m e n t o f C o r r e l a t i o n I n f o r m a t i o n E n t r o p y
[ 1 0] 征选择方法在 2 该方法 0 0 5 年由 P e n g 等人 提出 ,
基于互信息计算兼顾特征与类别之间的相关性与特 征之间冗余度 . 以上 3 种 广 为 流 行 的 特 征 选 择 方 法 在考虑特征冗余程 度 时 , 均是比较特征与特征之间 成对的冗余性 , 而没 有 判 断 特 征 加 入 或 删 除 后 特 征 子集整体组合信息程度的变化 . 而特征选择过程中 , 特征的组合 效 应 近 年 来 得 到 了 学 者 们 的 重 视 . S u n
董红斌等 : 一种基于关联信息熵度量的特征选择方法
1 6 8 5
近年来各行业数据量的指数级增长为数据挖掘 与机器学习任务带 来 了 新 的 挑 战 . 在处理数据量庞 大、 数据维度高的任务时 , 首先对数据进行降维是一 个行之有效的手段 . 降维的目的在于用较低维的数 据保持原有数据的 特 性 , 在完成数据任务时能提供 与原数据集近似或 更 优 的 表 现 . 目前主流的降维手
计算机研究与发展 J o u r n a l o f C o m u t e r R e s e a r c h a n d D e v e l o m e n t p p
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于互信息的特征选择1. 模型定义D1 病集S 由有关心脏病病种i X (i =1,2,…,n )组成,令患者的疾病信息熵1-2为: )(1log)()(1i n i i X P X P X H ∑=-= (1)显然疾病信息熵具有Shannon 信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式n m ij x Casebase ⨯=][ (2) 其中,ij x —病例库中第j 个病例的第i 个属性值;m —病例特征数量;n —病例库规模;定义D3:一个信息系统(IS )可以表达为,,,r r f R I U R V f ∈=<> (3) 其中,U 是对象的非空有限集合, R 是属性的非空有限集合,r r R V V ∈=是属性值的集合,V r 表示了属性任意r R ∈时的属性值范围,:r f U R V ⨯→ 是一个信息函数,它指定U 中每一个对象 x 的属性值.当R 中的属性集可进一步分解为条件属性集合C 和决策属性集合D ,且满足,R C D C D =⋃ ⋂=∅时,信息系统(IS)称为决策系统(DS)3. a i 为某一条件属性,则决策属性D 对某一条件属性a i 的依赖程度可以利用下式计算4-5:1马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报:自然科学版, 2002,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报:自然科学版,2004,43(B08):353-356.3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49.4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63.(4) 式中,R C 、R D 分别表示条件属性集合C 和策属性集合D 在论域上的等价关系.()D CR H R 表示R D 相对于R C 的条件熵.(,)i I a D 的值越大,则条件属性a i 对决策属性D 的重要性越大.如果(,)0i I a D ,则说明a i 对于D 不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.1.3 基于互信息的特征选择6:三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法7。

结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。

若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。

每个特征的信息增益的计算是独立的,与其它特征的分布无关。

而互信息最大化将所有的特征看成一个整体,计算随机变量T 所能提供的关于随机变量C 的互信息,并计算出每个特征对该互信息的贡献。

苗夺谦8等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文9提出了一种基于互信息增益率的属性约简算法; 颜艳等10提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。

熵的公式:联合熵:5程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, 2004,28 (17): 72-75.6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, 2009, 36(3, Part 2): 5921-5931.7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用,2008,44(13):130-133 8苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6): 681 - 684.9贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), 2006,40(6):1041 - 1044.10颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版),2007,47(S2):1903-1906.条件熵:联合熵和条件熵的关系:1.3.1 互信息(MI)互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.特征和类之间的互信息:P(w i)是特征w i的概率,表示w i没有发生.P(c i)是类c j的概率,P(c j,w i)是类c j与特征w i的联合概率.是特征之间的互信息.互信息和信息熵之间的联系:互信息和信息熵的关系见图1.图1 互信息和信息熵的关系图连续型时,(p(x),p(y) 和p(x,y)都是连续的)计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法11,并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法.连续变量的互信息计算:第一种,histogram 方法(Moddemeijer,1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势.第二种,using the continuous kernel based density estimator to approximate I(x;y),as proposed by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出.给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准:最大的依赖,最大关联,最小冗余)12其中,是Parzen窗口函数(Parzen window function (Parzen,1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x).通常,可用高斯窗口(Gaussian window):其中,,d是样本x的维度,是z的协方差,以上计算可以利用peng制作的matlab的互信息计算工具包.11SteuerR, Kurths J, DaubC O, eta.l Themutual information: detecting and evaluating dependencies between variables [J]. Bioinformatics, 2002,18( sup2):231-240.12Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy/matlabcentral/fileexchange/14888-mutual-information-com putation1.3.2 基于互信息的特征选择的算法模型建立一个特征选择的模型,可以描述为:设原始特征空间为FR,包含有n个特征,c为分类类别,现要从FR中选择k个最有效的特征,形成一个新的特征空间R ,要求k< n.利用互信息的特征选择的算法模型,包括二阶段1)内部阶段为:经典的MIFS (Battiti,1994)用来选择特征的m个序数,——找到更高级的该种算法1314。

经典的MIFS算法的步骤如下1516:改进的算法:MIFS和MIFS-u算法都是近似算法,随着输入特征的增加,特征选择性能逐渐下降.希望考虑待选输入特征和已选输入特征之间互信息在特征选择过程中的权重是一致的,我们可以用待选输入特征和各个已选输入特征之间互信息J(F F ;C)的均值作为待选输入特征和已选输入特征互信息J(F S;C) 的近似,这样,权重系数可以取常数,在整个特征选择过程中,考虑与已选输入特征互信息权重的系数是一致的17.2)外部阶段为:最小化训练数据集的基于案例推理的错误,以确定序数m 外层阶段解决内层阶段没能解决的问题:确定特征m的最佳序数.假定数据集中有n个特征,MIFS首先用来选择1到n的特征,并形成一连串的特征集:1.3.3 比较这n个连续的特征集,找出子集,使得CBR的训练误差(用MMRE衡量)最小.因此,m是特征的最佳序数,是最佳数据集.13Using Mutual Information for Selecting Features in Supervised Neural Net Learning14Novovičová J, Malík A, Pudil P. Feature Selection Using Improved Mutual Information for Text Classification [M]. 2004: 1010-1017.15杨打生.特征选择的信息论算法研究[D].东南大学硕士学位论文, 2005.16Improved Mutual Information Feature Selector for Neural Networks in Supervised Learning17杨打生,李泰. 信息论特征选择算法的改进[J].商丘职业技术学院学报,2005(4):2.MMRE ,mean magnitude of relative error ,平均相对误差幅度18其中,n 代表了对象的序数,指第i 个对象的真实影响,指第i 个对象的期望影响,小的MMRE 指期望误差处在低水平; 基于案例推理已选择的特征子集特征选择基于案例推理WEKA 软件特征集预测最小化MMRE训练的数据集最大化I (C;f i |s)最小的MMRE?最优的特征集第一阶段“filters ”第二阶段“wrappers ”图1 基于互信息的特征选取(MICBR 方法)的框架图1.3.7最大依赖性、最大相关性和最小冗余性的准则19彭汉川,赵军阳等20基于模糊粗糙集的信息熵模型提出最大互信息最大相关熵标准,并根据该标准设计了一种新的特征选择方法,能同时处理离散数据、连续数据和模糊数据等混合信息。

相关文档
最新文档