监督模型的特征选择_光环大数据培训

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

监督模型的特征选择_光环大数据培训

一般针对监督模型的特征选择有如下五种方法:

利用相关性对变量进行排序

自变量x1,x2,..xn,目标变量y,变量xi和y的相关性越高,则xi所包含的用于预测y的信息量越大,从而其排序越高。可以用Pearson相关系数来衡量两个变量的线性相关性:

利用Pearson相关系数来做变量排序有以下问题:

(1)只考虑单一变量的重要性,很多变量单独存在时没有用,但和其他变量结合在一起后则会起到显著作用;

(2)依赖于自变量和目标变量之间的线性假设。

(3)适用于回归问题,即,目标变量y是连续的,对于分类问题应用起来需要谨慎。

单变量分类器

如1里面提到的,对于分类问题,利用相关性对变量进行排序可能会出现问题。一个简单的将上述思路拓展到分类问题的方法是,构造一个单变量分类器,然后依据单个变量对y的预测能力进行排序。单变量的预测能力可以通过IV或者AUC等各种指标进行评估。除此之外,对于分类变量卡方检验也是常见的筛选特征的方法,基本思想是假设两个变量独立,利用列联表的数据计算实际频数与

理论频数的差异,如有显著差异则拒绝原假设认为变量间是有相关关系,反之接受原假设。

信息增益

信息增益是一种有效的特征选择方法,它的公式:

对于公式的解释为:原本分类的信息熵减去加入特征后分类的条件熵,两者的差值就是这个特征给分类带来的“净化”程度,如果信息增益越大,该特征对于分类来说就越有价值。其中熵表示不确定程度,分布越均匀,越不确定,熵越大。

逐步回归法

上述的三种方法都是对单变量进行排序,不能考虑这个变量在和其他变量结合在一起时的作用。为了解决这个问题,可以用forward selection、backward selection和stepwise selection的方法。

forward selection是从截距项开始依次按显著性水平将自变量一个一个地加入模型,直到没有满足显著性水平的变量可以加入为止。

backward selection一开始所有变量都在模型中,将不符合显著性水平的变量依次剔除,值得一提的是存在于某些情况多个变量各自对目标变量不显著,但组合起来能显著的提高模型的表现,这种情况在采用forward selection的情况下变量是进入不了模型的,而采用backward selection可以解决这个问题。

如图1(a)所示X2变量(纵轴)能区分分类1、0,X1变量(横轴)完全是不显著的,如图1(b)将X2变量替换成X3变量,两个变量组合的区分能力要好于之前一个变量,完全不显著的变量可能与其他变量组合显著提高区分能力。

stepwise selection,依次按显著性水平将变量一个一个加入,同时对已加入的变量做显著性检验,如果原来变量因为新的变量加入而变得不再显著,那就将它剔除模型。stepwise的优势在于能保证方程中的变量全部显著,而方程外无显著性的变量。

Lasso回归

为进一步消除变量间共线性的问题,可以通过Lasso回归,其本质是通过在损失函数中加入惩罚函数项,在增加细微偏差的同时换取更小的预测方差,并使得模型变量更为精炼、解释性更强。

其中,使用惩罚约束来筛选拟合模型中的系数,当t值小到一定程度,估计参数的估值是0,这样就起到了变量筛选的作用。当t不断增大,选入模型的变量会增多,当t增大到某个值时所有变量都会进入,这是就相当于传统方法的参数估计。

如图3,L1正规化的约束条件是图中坐标中心方形区域,而传统方法偏差最小的估计是以第一象限椭圆区域为中心向外扩散,故最优解是在两者的临界点,即对应方形与椭圆形的切点,此时对应的q1 为0,起到了变量筛选的作用。

为什么大家选择光环大数据!

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。

光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”,享2000元助学金!

【报名方式、详情咨询】

光环大数据网站报名:

手机报名链接:http:// /mobile/

相关文档
最新文档