高维数据特征降维研究综述

合集下载

高维数据的低维表示综述

高维数据的低维表示综述

高维数据的低维表示综述一、研究背景在科学研究中,我们经常要对数据进行处理。

而这些数据通常都位于维数较高的空间,例如,当我们处理200个256*256的图片序列时,通常我们将图片拉成一个向量,这样,我们得到了65536*200的数据,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。

所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。

降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。

(8)之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余: · 有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的· 有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系),可以找到一组新的不相关的变量。

(3)从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。

这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。

(12)数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。

所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。

(8)二、降维问题1.定义定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1Nl l X x ==(一般为D R 的一个子集),映射F :F X Y →(),x y F x →=Y 是d 空间集合(一般是d R ,d D <<)的一个子集,我们称F 是数据集X (到Y )的降维。

若F 为X 的线性函数,则称F 为线性降维;否则,称为非线性降维。

高维数据降维技术研究与改进

高维数据降维技术研究与改进

高维数据降维技术研究与改进摘要:随着数据科学和机器学习的迅速发展,我们正面临着大量高维数据的处理问题。

由于高维数据存在维度灾难和计算复杂度等挑战,降维技术成为了解决这一问题的关键。

本文将探讨高维数据降维技术的基本概念、常用方法,并介绍一些改进技术以提高降维的效果和质量。

1. 引言在现代社会,我们产生的数据呈爆炸式增长。

这些数据通常具有大量特征,形成了高维数据集。

然而,高维数据分析和处理具有挑战性,因为维度灾难和计算复杂度会导致数据分析困难、模型复杂度增加、运行时间延长等问题。

因此,高维数据降维技术成为了一项重要的研究领域。

2. 高维数据降维的基本概念与方法高维数据降维是通过对大量特征进行选择、提取或变换来减少数据集的维度。

它的主要目标是在尽量保留数据的有用信息的同时减少冗余信息。

常用的高维数据降维方法包括主成分分析(PCA)、线性判别分析(LDA)和流形学习等。

2.1 主成分分析(PCA)主成分分析是一种常用的线性降维方法,通过寻找与数据方差最大的投影方向来实现降维。

其基本思想是将原始数据投影到新的低维空间上,使得投影后的数据具有最大的方差。

这样,我们可以通过保留最大方差的投影得到较低维度的数据表示。

2.2 线性判别分析(LDA)线性判别分析通过将数据投影到低维空间中,使得不同类别之间的距离最大化,同一类别内部的距离最小化。

LDA是一种有监督的降维方法,它考虑了数据类别信息的影响,因此在某些分类问题中能够获得更好的效果。

2.3 流形学习流形学习是一类非线性降维方法,用于处理非线性结构的数据。

它的核心思想是假设数据分布在低维流形上,并试图通过保持数据之间的关系来保留数据的内在结构。

常用的流形学习方法有等度量映射(Isomap)、局部线性嵌入(LLE)等。

3. 高维数据降维技术的改进尽管主成分分析、线性判别分析和流形学习等方法在处理高维数据降维方面表现出了较好的效果,但仍存在一些限制和挑战。

因此,研究人员不断努力改进降维技术,以提高其效果和应用范围。

高维数据降维的数值方法研究

高维数据降维的数值方法研究

高维数据降维的数值方法研究数据的维度指的是描述数据所需要的特征数量。

在现代科技发展的背景下,许多领域都面临着高维数据的挑战,如生物信息学、金融风险管理和图像处理等。

高维数据的存在给数据分析和处理带来了很大的困难,因此,研究高维数据的降维方法显得尤为重要。

本文将介绍几种常用的数值方法,并讨论其在高维数据降维中的应用。

一、主成分分析(PCA)主成分分析是一种经典的线性降维方法,其主要思想是通过将高维数据映射到一个低维空间中来实现降维。

主成分分析的关键在于找到数据中的主要变化方向,即主成分。

通过计算数据的协方差矩阵,可以得到一组正交的主成分,然后按照其方差大小对主成分进行排序。

选择方差较大的前几个主成分,就可以得到低维表示。

主成分分析广泛应用于数据压缩、特征提取和可视化等领域。

二、多维缩放(MDS)多维缩放是一种非线性降维方法,它将高维数据映射到一个低维空间中,旨在保持数据之间的距离关系。

多维缩放通过计算数据点之间的距离矩阵,并在低维空间中找到最优的表示,使得在高维空间中的距离尽可能地被保留。

多维缩放在数据可视化、相似性分析和模式识别等领域有广泛的应用。

三、局部线性嵌入(LLE)局部线性嵌入是一种非线性降维方法,其基本思想是在保持相邻数据点之间的局部线性关系的同时实现降维。

局部线性嵌入包括三个步骤:首先,构建数据的邻近图;然后,对于每个数据点,计算其与邻居之间的权重;最后,通过最小化重构误差,将数据映射到一个低维空间中。

局部线性嵌入适用于处理非线性数据并保持数据的局部结构。

四、核主成分分析(KPCA)核主成分分析是一种非线性降维方法,它通过使用核技巧将数据映射到一个高维特征空间中,并在该空间中进行主成分分析。

核主成分分析通过使用核函数测量数据之间的相似性,并通过计算核矩阵来替代原始数据的协方差矩阵。

这样可以将非线性关系转化为线性关系,从而实现降维。

核主成分分析在生物信息学、语音识别和图像处理等领域有广泛的应用。

高维数据挖掘中的特征选择与降维算法综述

高维数据挖掘中的特征选择与降维算法综述

高维数据挖掘中的特征选择与降维算法综述随着互联网和大数据技术的快速发展,我们面临着大规模高维数据的挖掘问题。

在这种情况下,特征选择与降维算法成为了解析和利用这些数据的关键步骤。

本文将综述高维数据挖掘中的特征选择与降维算法,分析其原理、优缺点以及适用场景,并对未来的研究方向进行展望。

一、特征选择算法特征选择是从原始数据中选择最相关或最有用的特征子集的过程,以降低数据维度和提高模型性能。

常见的特征选择算法包括过滤式方法、包裹式方法和嵌入式方法。

1. 过滤式方法过滤式方法独立于后续的学习器,通过计算每个特征与目标变量之间的相关度来进行特征选择。

常用的过滤式方法有相关系数法、信息增益法和卡方检验法等。

优点是计算简单,不受学习器的影响;缺点是无法考虑特征之间的相互关系。

2. 包裹式方法包裹式方法通过将特征选择视为一个搜索问题,从所有特征子集中选出最佳子集,以优化某个评估准则来选择最佳特征。

常用的包裹式方法有递归特征消除法、遗传算法和蚁群优化算法等。

优点是能够考虑特征之间的相互关系;缺点是计算复杂度高和搜索空间大。

3. 嵌入式方法嵌入式方法将特征选择融入到学习器的训练过程中,通过学习算法选择最佳特征子集。

常用的嵌入式方法有LASSO回归、决策树和支持向量机等。

优点是能够同时进行特征选择和建模;缺点是可能在不同学习器中表现不佳。

二、降维算法降维是减少特征数量的过程,通过将高维数据映射到低维空间来实现。

常见的降维算法包括主成分分析(PCA)、线性判别分析(LDA)和流形学习等。

1. 主成分分析(PCA)PCA是一种最常用的降维方法,通过线性变换将原始数据映射到新的正交坐标系,使得新的坐标系上数据的方差最大化。

优点是简单易懂、计算高效;缺点是无法保留原始特征的类别判别能力。

2. 线性判别分析(LDA)LDA是一种有监督的降维方法,它通过最大化类间距离和最小化类内距离的方式,将原始数据映射到低维空间。

LDA在模式识别和人脸识别等任务中应用广泛。

高维数据降维方法的研究与比较分析

高维数据降维方法的研究与比较分析

高维数据降维方法的研究与比较分析高维数据降维是一个重要的数据分析问题,多维数据通常包含大量的冗余信息和噪声,而且在高维空间中的计算复杂度较高。

因此,降维方法可以帮助我们减少数据维度,提取数据中的重要信息,从而简化数据分析,加快计算速度,并且可以用可视化的方法更好地理解和分析高维数据。

本文将对一些常用的高维数据降维方法进行研究和比较分析。

首先介绍降维方法的基本原理和常见的评价指标,然后分别介绍主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)、t分布随机邻域嵌入(t-SNE)和自编码器等方法,并分析它们的优缺点。

最后,我们通过实例对这些方法进行比较分析。

降维方法的基本原理是通过将高维数据映射到低维空间,保留数据的重要信息。

常见的评价指标包括保留的信息量、可视化效果和计算效率等。

信息量可以通过方差或者信息增益等指标衡量,可视化效果可以通过样本点在二维或者三维空间的分布来观察,计算效率可以通过时间复杂度和空间复杂度等指标来评估。

主成分分析(PCA)是最常用的降维方法之一,它通过线性变换将高维数据转换为低维数据,使得低维数据的方差最大化。

优点是简单易懂,计算高效,但它只考虑了样本间的协方差,忽略了类别信息。

线性判别分析(LDA)是一种有监督的降维方法,它在PCA的基础上考虑了类别信息,在保持低维空间数据的分离性的同时,最大化同类样本点的方差,最小化不同类样本点的方差。

优点是考虑了类别信息,但缺点是计算复杂度较高,对于非线性数据的分类效果不好。

局部线性嵌入(LLE)是一种非线性降维方法,它考虑了样本间的局部关系,通过保持样本的局部邻域结构来降维。

优点是对非线性数据有较好的降维效果,但缺点是计算复杂度较高,对异常值非常敏感。

t分布随机邻域嵌入(t-SNE)是一种用于可视化的降维方法,它通过最小化高维数据和低维数据间的Kullback-Leibler散度来保持样本间的相似性。

优点是可以从高维数据中提取出局部结构,但缺点是计算复杂度较高,对大规模数据不适用。

高维数据降维方法研究及应用

高维数据降维方法研究及应用

高维数据降维方法研究及应用随着信息技术的发展,数据分析和挖掘在各个领域和行业中被广泛应用,给人们带来了巨大的商业价值和社会效益。

但是面对海量的数据,如何快速准确地发掘其中的规律,成为了一个亟待解决的问题。

高维数据作为一种常见的数据形式,其处理与分析面临着诸多挑战。

为了有效利用高维数据,需使用一些高维数据降维方法,将维度降低,从而简化运算,提高数据分析的效率和准确性。

一、高维数据的特点高维数据是指指标较多,样本数较少,即数据维数超过3维,一般来说其维度超过10维。

高维数据的处理和分析需要充分考虑其特点,主要包括以下几个方面:1. 维数灾难:高维数据由于其维度较高,其样本稀疏性及复杂性是大大增加的,这对于算法的操作和效率提出了更高的要求。

2. 数据稀疏性:在高维数据中,往往只有少量特征对所研究的对象具有重要影响,而大部分特征可能是冗余的。

这就要求我们在降维的时候要注意保留重要的特征。

3. 过拟合:在高维数据中,过多的特征会导致模型过于复杂,容易出现过拟合的情况。

二、高维数据降维方法高维数据的降维方法主要分为线性降维和非线性降维两种,以下是两种降维方法的详细介绍。

1. 线性降维线性降维方法是指将高维数据通过矩阵变换映射到低维空间中,变换后的低维数据尽量能够保留原始数据的特征,来达到简化运算的目的。

常用的线性降维方法有主成分分析(PCA)、广义矩阵分析(GMA)和因子分析等。

(1)主成分分析(PCA)主成分分析(PCA)是一种常用的线性降维方法,通过线性变换将高维数据映射到低维空间中。

PCA的基本思想是将原始数据投影到新的坐标轴上,使得投影后数据的方差最大化。

这个思想可以用矩阵的特征值分解来实现。

(2)广义矩阵分析(GMA)广义矩阵分析(GMA)是一种将PCA扩展到非正交变换的方法,通过正交变换和非正交变换共同完成降维操作。

GMA方法既可以采用正向方法求解,也可以采用反向方法求解。

(3)因子分析因子分析是一种多元统计数据分析方法,主要用于研究变量间的关系。

高维数据降维与特征提取的新方法研究

高维数据降维与特征提取的新方法研究

高维数据降维与特征提取的新方法研究一、引言随着科技的发展和信息时代的到来,大规模和高维数据的产生成为一种普遍现象。

然而,由于高维数据具有维度灾难和冗余性等问题,对这些数据进行处理常常面临挑战。

为了解决这些问题,研究者们提出了许多降维和特征提取的方法。

本文旨在探讨高维数据降维与特征提取的新方法,并分析其应用领域及优势。

二、高维数据降维方法研究1.主成分分析(PCA)主成分分析是一种常用的线性降维方法,通过找到数据的主要方差分布来实现数据压缩。

然而,PCA并不能很好地处理非线性数据。

因此,研究者们提出了许多改进的PCA方法,如核主成分分析(KPCA)和非负矩阵分解(NMF)。

2.局部线性嵌入(LLE)局部线性嵌入是一种非线性降维方法,它基于局部邻域进行数据重建。

通过在低维空间中保持数据之间的局部线性关系,LLE能够更好地捕捉数据的内在结构。

然而,在处理大规模数据时,LLE的计算复杂度较高。

3.自编码器(Autoencoder)自编码器是一种无监督学习的神经网络模型,它通过将输入数据编码为低维表示,然后再进行解码重构。

自编码器能够学习到数据的潜在表示,并通过调整编码器和解码器的权重来优化重构误差。

近年来,研究者们提出了很多变体的自编码器模型,如稀疏自编码器和去噪自编码器。

三、特征提取方法研究1.传统特征提取方法传统特征提取方法主要是通过设计特征提取器来提取数据的有意义、可区分的特征。

这些方法常用的特征包括形状特征、颜色特征和纹理特征等。

然而,传统特征提取方法往往需要人为设计特征提取器,且对于复杂数据的处理效果有限。

2.深度学习特征提取方法深度学习的出现为特征提取带来了新的突破。

深度学习模型,如卷积神经网络(CNN)和递归神经网络(RNN),能够自动学习到数据的抽象特征表示。

通过层层堆叠神经网络模型,深度学习可以处理高维数据,并提取出更加有意义的特征表示。

此外,研究者们还提出了带注意力机制的模型,如注意力机制网络(AMN),用于进一步提高特征提取的性能。

高维数据分类中的特征降维研究

高维数据分类中的特征降维研究

摘要 :以高维分类为 目 标, 从分类的准确率与模型解释性角度探讨了降维的必要性, 分析了特征选择与抽取
2 类方 法特 点 ,并对 常用 的特 征抽 取方 法,包 括 主成 分分析 (C 、偏 最小二 乘( L ) P A) P s和非 负矩 阵分 f ( f NMF t  ̄ ) 进行 了 阐述 . 虑 到约减 后 的数据 缺乏 稀疏 性 与可解 释性 ,提 出 了基于稀 疏 正则 化的特 征抽 取模 型,为高 维 考 特征 降维提 供 了一 种新 思路 .
关键 词:高维数据;降维;特征抽取;稀疏正则化 中图分类 号: P1 1 T 8 文献标 志码 : A
0 引 言
维 数爆 炸 性 增 长 ,成 千上 万 的 变量 ( 征) 目远远 特 数
1 分 类与降维
在分 类方 面 ,人们 更 多地 关 注 的是分 类 准确 率 与模 型 解 释性 [. 类 准 确率 指 的是模 型 的 预测 能 3分 】
基 金项 目:国家 自然 科学 基金( 1 6 0 3 16 0 4 和江西 省教育厅 科学 技术研 究( J 13 8资助项 目. 6 05 0, 50) 61 G J20 )
作者简 介 : 立月 (90) 男 , 徽安 庆人,副教 授,硕士 , 刘 17- , 安 主要 从事 机器 学习 、嵌入式 开发 方面 的研 究
数 据 含 有 更 高 的噪 音 ,干扰 变 量 或 噪 音 变 量 (os ni y
vr be) 能使 得 原 始数 据 结 构更 复 杂 ,隐蔽 性更 ai l 可 a s
强 …. 若 信噪 比太小 ,由于噪音 的积 累,对 总体 均 假
值矢量 评估 、线性判别 规则并 不 比随机 猜测强 [. ③
表现 在3 方面 : 数据 维数 的增 加导 致空 间数据 点 个 ①
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 1 特征抽 取
特征抽 取也 被 称为 特征 重 参数 化 ( feature repa rame teriza
tion) [ 1] 。由于自然语言中存在大量 的多义 词、同 义词现 象, 特
征集无法生成一 个最优的特 征空间 对数据 内容进行 描述。特
征抽取通过将 原始 特征 空间 进行 变换, 重 新生 成一 个维 数更
K ira和 R endell提出的 R elief算法 [8] 是一个比较著名的特 征权重类方法, 主要根据特征值在同类实例中以及相近的不同 类实例中的区分能力 来评价 特征的 相关度。首 先从训 练集中 随机抽取 m 个实例, 再根据被选实例与两个最 近实例 ( 一个同 类最近实例, 一个相反类最近实例 )的差 异来更 新每个 特征的 相关度评价, 依赖相 关度评 价进 行特征 选择。其 对于 含 M 个 实例、N 个特征的数据集 R e lie f的时间复杂度为 O ( mMN )。因 此, 该算法很适合于处理 具有大 量实例 的高维 数据集。但 是, R e lief不 能消除冗余特征, 只要特 征被认 为与类 概念相 关即被 选中, 即使这些特征之间 相互高 度关联。 近几年, 许多 学者纷
Ab stract: F ea ture dmi ension reduction is effective in mi p rov ing m achine learn ing, the po int is how to search the subset and selection cr iter ia. T h is paper defined genera lm ode ls for dmi ension reduction, com pared d ifferent appro aches, and discussed the un reso lv ed topics and deve lopm en t trends. K ey words: dmi ension reduction; m ach ine learning; feature selection; feature abstraction; se lection cr iter ia
小、各维之间更独立的特征空间。可以按照表 1对特征抽取算
法进行分类。
表 1 特征抽取方法分类
有无指导 无 无 无 有
线性
主成分分析 ( PCA ) 独立成分分析 ( ICA)
投影追踪 线性区别分析
非线性
K oh onen 匹配 非线性 PCA 网络
Samm on投影 非线性区别分析
1 2 特征选 择
纷就 R elie f的改进提出了各种建 议, 如 Sun Y i jun最新 提出的 I R elie f算法 [ 9] 通过探索期望最大化算法的框架, 认为迭代 R e lie f算法能够减轻 R e lief的不 足, 并使 用新的 多类 别边缘 定义 将 I R elief扩展至多类别设置, 同时减少计算开销、发展在线学 习算法。
特征权重算法为 每个特征指定一个权值, 并按照它与目标 概念的相关度对其进 行排序, 如果一个特征的相关度权值大于 某个阈值, 则认为该特征 优秀, 并且 选择该特 征。特征 权重算 法的缺点在于: 它们可以捕 获特征 与目标 概念间的 相关性, 却 不能发现特征间的冗 余性。经验 证明除 了无关 特征对 学习任 务的影响, 冗余特征同样影 响学习 算法的 速度和准 确性, 也应 尽可能消除冗余特征 。
摘 要: 特征降维能够有效地提高机器学习的效率, 特征子集的搜索过程以及特征评价标准是特征降维的两个
核心问题。综述国际上关于特征降维的研究成果, 总结并提出了较完备的特征降维模型定义; 通过列举解决特
征降维上重要问题的各种方案来比较各种算法的特点以及优劣, 并讨论了该方向上尚未解决的问题和发展
趋势。
HU J ie ( a. L abora tory of M ach in e P erception, b. D ept. of M ach in e In te llig ence, School of E lectron ics E ng ineering & Compu ter S cience, c. Institu te of D ig ital L ibra ry, P eking Un iversity, Be ijing 100871, Ch ina )
2 特征降维模型
特征降维是一个 从初始高维 特征集 合中选 出低维 特征集 合, 以便根据一定的评估准则最优化缩小特征空间的过程。综 合国际上现有 的特 征降 维模 型, 可以 将特 征降 维模 型作 如下 定义。
定义 1 特征降维模型是一 个四元 组 { F, S, P, R ( si, fj ) }。 其中:
2 1 2 子集搜索算法 子集搜索算 法通过在一定 的度量标 准指导 下遍历 候选特
征子集, 对每个子集进行优 劣评价, 当搜 索停止 时即可 选出最 优 (或近似最优 )的特征子集。现 有子集搜索 算法的时 间复杂 度至少为维度的 平方, 所以在处理高维数据时不具有强可量测 性。 N akariyaku i和 C asasent最新提出的 分支跳 跃算法 [ 10] 通过 避免对解决方案 树中某些节点 不必要的 评价函 数计算 来提高
特征降维 ( feature d im ension reduction) 是一 个从初始 高维 特征集合中选出低维 特征集合, 以便根据一定的评估准则最优 化缩小特征空间的过 程, 通常作为机器学习的预处理步骤。特 征降维自 20世纪 70年代 以来就 获得了 广泛的 研究。近 几年 以来, 在许多应 用 ( 如基 因 染色 体 组 工程、文 本 分 类、图 像检 索、消费者关系管理 )中, 数 据的 实例 数目 和特 征数 目都 急剧 增加, 这种数据的海量性使得大量机器学习算法在可测量性和 学习性能方面产生严 重问题。例如, 高维数据即具有成百上千 特征的数据集, 会包含大量 的无关 信息和 冗余信息, 这 些信息 可能极大地降低学 习算法 的性能。因 此, 当面临高 维数据 时, 特征降维对于机器学 习任务 显得十 分必要。大 量研究 实践证 明, 特征降维能够有效地消 除无关 和冗余 特征, 提高挖 掘任务 的效率, 改善预测精确性等 学习性 能, 增 强学习 结果的 易理解 性。然而, 数据在数量和维度上的剧增趋势也对特征降维算法 提出了更加严峻的挑 战。本文给 出了特 征降维 的相关 概念介 绍, 概括了目前国际上常用 的特征 降维模 型、特 征降维 领域的 重要问题 特征选 取的评价标准, 并且通过列举不同的解决 方案, 比较这些方案的特点。
L i等人 [11]提出 的多层 过滤模 型中 首先使 用 R elie fF[ 12] 通 过为每个特征指 定相关权重来 移除无关 特征。 R e liefF 算法是 针对 R elie f的改进算法, 它具有鲁棒性, 能够 处理不完整 数据、 噪声数据以及多 重类别问题, 然而在移除冗余数据方面效率较 差。因此, L i等人又在 系统 中使 用特 征聚 类算 法 KNNC[ 13] 来 消除冗余特征。假设训练样 本数为 s, 原始 特征数 为 n, 则 R e lie fF 和 KNN C的 时间复 杂度 分别为 O ( s2 n )和 O ( n2 s) 。使用 多层过滤模型对 海量特征进行特征选择时, 应当将时间复杂度 低的 算法 先于 其他 算法 运行。 如果 n > > s, 则 KNNC 应 当在 R e lie fF 之后 运行 (记 为 R + K ) , 以 R elie fF 的 输出 作为 KNNC 的输入; 如果 s > > n, 则 KNN C 应先 于 R e lie fF 运 行 ( 记为 K + R ), 并将 KNN C的输出作为 Re lie fF 的输入。因为 R + K 时 R e lie fF 过滤 得到的 特征 具有权 重, 所以 在 KNNC 进 行特征 选择 后, 应当再对余下的未选中 特征进 行逐个 检查, 以确定 该特征 是否基于局部有 效而非基于 全局判 断。如果某 特征权 重大于
a) F 是特征集合中的一组特征逻辑视图, 称为特征的表示; b) S 是一组目标特征需求的逻辑视图, 称为降维目标; c)P 是一种机制, 用 于构建特 征表 示、降 维目 标及它 们之 间关系的模式; d) R ( si, fj ) 是排 序函数, 该函 数输出 一个与 降维 si ∀ S 和 特征表示 fj∀ F 有关的实数, 这样就在 特征之间 根据降 维目标 si 定义了一个顺序。 可以将现有的特 征降维模型大致分为过滤模型、包裹模型 及其他改进模型。
特征选择就 是从特征集 T = { t1, , ts } 中选择一 个真子集 T!= { t1, , ts! }, 满足 ( s!< < s )。其中: s 为原始特征集的大小; s!为选 择后的特征 集大小。 特征选 择不 改变原 始特 征空 间的 性质, 只是从原始特征空间 中选择 一部分 重要的特 征, 组成一 个新的低维空间 。
2 2 多层过 滤模型
考虑到各种 过滤方法各有优劣, 可以使用多层过滤模型分 别消除无关特征 和冗余特征。 多层过滤 模型不 仅能够 保留各
种过滤算法的优 点, 而且该模型易于理解和执行。对于消除无 关特征和冗余特征的次 序, 模型中 没有明 确限定, 可以 根据数 据集合的特点 以及 应用 特性, 选 择适 合的 过滤 算法 及过 滤步 骤。多层过滤模型的框架 如图 1所示。
关键词: 降维; 机器学习; 特征选择; 特征抽取; 评估准则
中图分类号: TP181
文献标志码: A
文章编号: 1001 3695( 2008) 09 2601 06
Survey on feature dim ens ion reduction for h igh dim ensiona l data
相关文档
最新文档