第7章-数据降维--机器学习与应用第二版

合集下载

大数据数据挖掘与智慧运营第七章增强性数据挖掘算法

大数据数据挖掘与智慧运营第七章增强性数据挖掘算法

7.1.2 构建组合分类器的方法
构建组合分类器的基本思想是,先构建多个分类器,称为基分类器,然后通过 对每个基分类器的预测进行投票来进行分类。下面介绍几种构建组合分类器的方法。 1. 处理训练数据集 这种方法通过对原始数据进行再抽样来得到多个不同的训练集,然后,使用某一 特定的学习算法为每个训练集建议一个分类器。对原始数据再抽样时,遵从一种特定 的抽样原则,这种原则决定了某一样本选为训练集的可能性的大小。后面章节中介绍 的装袋(Bagging)和提升(Boosting)就是两种处理训练数据集的组合方法。 2. 处理输入特征 这种方法通过随机或有标准地选择输入特征的子集,得到每个训练集。这种方法 非常适用于含有大量冗余特征的数据集,随机森林(Random forest)就是一种处理输 入特征的组合方法。
7.2
随机森林
什么是随机森林?顾名思义,是用随机的方式建立一个森林,森林由很多的决策 树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新 的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样 本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本 为那一类。随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务。同 时,它也是一种数据降维手段,用于处理缺失值、异常值以及其他数据探索中的重要 步骤,并取得了不错的成效。另外,它还担任了集成学习中的重要方法,在将几个低 效模型整合为一个高效模型时大显身手。
A A B A B A B 图 7-1 A
B B B A
随机森林数据样本的随机选择过程
2. 随机选择特征 在构建决策树的时候,我们前面已经讲过如何在一个结点上,计算所有特征的 Information Gain(ID3)或者 Gain Ratio(C4.5),然后选择一个最大增益的特征作为 划分下一个子结点的走向。但是,在随机森林中,我们不计算所有特征的增益,而是 从总量为 M 的特征向量中,随机选择 m 个特征,其中 m 可以等于 sqrt(M),然后 计算 m 个特征的增益,选择最优特征(属性)。这样能够使得随机森林中的决策树 都能够彼此不同,提升系统的多样性,从而提升分类性能。注意,这里的随机选择特 征是无放回的选择。如图 7-2 所示,蓝色的方块代表所有可以被选择的特征,也就是 目前的待选特征。黄色的方块是分裂特征。左边是一棵决策树的特征选取过程,通过 在待选特征中选取最优的分裂特征(别忘了前文提到的 ID3 算法、C4.5 算法、CART 算法等),完成分裂。右边是一个随机森林中的子树的特征选取过程。 3. 构建决策树 有了上面随机产生的样本集,我们就可以使用一般决策树的构建方法,得到一棵 分类(或者预测)的决策树。需要注意的是,在计算结点最优分类特征的时候,我们

数据整理与分析手册

数据整理与分析手册

数据整理与分析手册第1章数据整理基础 (3)1.1 数据收集与清洗 (3)1.1.1 数据收集 (3)1.1.2 数据清洗 (4)1.2 数据整合与转换 (4)1.2.1 数据整合 (4)1.2.2 数据转换 (4)1.3 数据存储与备份 (4)1.3.1 数据存储 (4)1.3.2 数据备份 (5)第2章数据分析方法论 (5)2.1 描述性统计分析 (5)2.1.1 频数分析 (5)2.1.2 集中趋势分析 (5)2.1.3 离散程度分析 (5)2.1.4 分布形态分析 (5)2.2 推断性统计分析 (5)2.2.1 参数估计 (5)2.2.2 假设检验 (6)2.3 预测性分析模型 (6)2.3.1 线性回归模型 (6)2.3.2 时间序列模型 (6)2.3.3 机器学习模型 (6)第3章数据可视化 (6)3.1 基本图表绘制 (6)3.1.1 柱状图 (6)3.1.2 折线图 (6)3.1.3 饼图 (7)3.2 高级图表展示 (7)3.2.1 散点图 (7)3.2.2 箱线图 (7)3.2.3 热力图 (7)3.3 交互式数据可视化 (7)3.3.1 可视化筛选 (7)3.3.2 数据联动 (7)3.3.3 动态数据展示 (7)第4章数据预处理 (8)4.1 数据标准化与归一化 (8)4.1.1 数据标准化 (8)4.1.2 数据归一化 (8)4.2 缺失值处理 (8)4.2.1 删除法 (8)4.2.2 填充法 (9)4.2.3 插值法 (9)4.2.4 模型法 (9)4.3 异常值检测与处理 (9)4.3.1 简单统计方法 (9)4.3.2 密度估计方法 (9)4.3.3 机器学习方法 (9)4.3.4 异常值处理 (9)第5章统计推断 (9)5.1 假设检验 (9)5.1.1 单样本假设检验 (10)5.1.2 双样本假设检验 (10)5.1.3 方差分析 (10)5.1.4 卡方检验 (10)5.2 置信区间的构建 (10)5.2.1 单样本置信区间 (10)5.2.2 双样本置信区间 (10)5.2.3 方差比的置信区间 (10)5.2.4 比例的置信区间 (10)5.3 非参数检验 (10)5.3.1 单样本非参数检验 (10)5.3.2 双样本非参数检验 (10)5.3.3 秩和检验 (10)5.3.4 符号检验 (10)第6章预测模型 (10)6.1 线性回归模型 (10)6.1.1 一元线性回归 (10)6.1.2 多元线性回归 (11)6.2 时间序列分析 (11)6.2.1 时间序列的基本概念 (11)6.2.2 时间序列模型 (11)6.3 机器学习预测方法 (11)6.3.1 决策树 (11)6.3.2 随机森林 (11)6.3.3 支持向量机 (11)6.3.4 神经网络 (11)6.3.5 集成学习方法 (12)第7章数据降维与特征选择 (12)7.1 主成分分析 (12)7.1.1 PCA的基本原理 (12)7.1.2 PCA的算法流程 (12)7.1.3 PCA的应用案例 (12)7.2 因子分析 (12)7.2.1 因子分析的基本原理 (12)7.2.2 因子分析的算法流程 (13)7.2.3 因子分析的应用案例 (13)7.3 特征选择方法 (13)7.3.1 过滤式特征选择 (13)7.3.2 包裹式特征选择 (13)7.3.3 嵌入式特征选择 (13)7.3.4 特征选择的应用案例 (13)第8章多变量分析 (13)8.1 聚类分析 (13)8.1.1 类别聚类 (14)8.1.2 层次聚类 (14)8.1.3 密度聚类 (14)8.2 判别分析 (14)8.2.1 线性判别分析 (14)8.2.2 二次判别分析 (14)8.2.3 费舍尔判别分析 (14)8.3 关联规则挖掘 (14)8.3.1 Apriori算法 (14)8.3.2 FPgrowth算法 (15)8.3.3 关联规则的评价与优化 (15)第9章数据分析在实际应用中的案例 (15)9.1 金融数据分析 (15)9.2 生物信息分析 (15)9.3 社交网络分析 (16)第10章数据分析工具与软件 (16)10.1 常用数据分析工具 (16)10.2 编程语言与库 (17)10.3 大数据技术与应用 (17)10.4 数据分析云平台与API接口 (17)第1章数据整理基础1.1 数据收集与清洗数据收集是整个数据分析过程的基础与起点。

第二版机器学习答案

第二版机器学习答案

一、判断题(共30分,每题2分,打诚X)1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。

(X)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。

(X)3、深度学习中应该尽量避免过拟合。

(X)4、在随机森林Bagging过程中,每次选取的特征个数为m, m的值过大会降低树之间的关联性和单棵树的分类能力。

(X)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。

(V)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。

(V)7、在流形学习ISOMAP中,测地距离即是欧氏距离。

(X)8、贝叶斯决策实质上是按后验概率进行决策的。

(V)9、非参数估计需要较大数量的样本才能取得较好的估计结果。

(V)10、不需要显示定义特征是深度学习的优势之一。

(V)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。

我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。

也可以看一下机器学习十大算法那个PDF文件。

Co-training和ensemble learning两个文件大家有时间可以看一下了解了解。

二、问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。

3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。

监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。

非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。

非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数2、什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K 个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

机器学习原理及应用习题答案

机器学习原理及应用习题答案

第一章的题目填空题1、常见的机器学习算法有_________、___________、___________(随意列举三个)答:逻辑回归、最大熵模型、k-近邻模型、决策树、朴素贝叶斯分类器、支持向量机、高斯混合模型、隐马尔可夫模型、降维、聚类、深度学习2、sklearn.model_selection中的train_test_split函数的常见用法为______,______,______,______ = train_test_split(data,target)(填写测试集和训练集名称,配套填写,例如x_train,x_test)答:x_train x_test y_train y_test3、根据机器学习模型是否可用于生成新数据,可以将机器学习模型分为_________和_________。

答:生成模型判别模型4、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索,这一过程称为______。

其中在训练之前调整设置的参数,称为_________。

答:调参超参数5、根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为____________、____________和______________。

答:监督学习半监督学习无监督学习判断题1、根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。

(F)(回归问题)2、决策树属于典型的生成模型。

(F)(判别模型)3、降维、聚类是无监督学习算法(T)4、当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强(F)(很差)5、训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。

(T)选择题1、以下属于典型的生成模型的是(D)A、逻辑回归B、支持向量机C、k-近邻算法D、朴素贝叶斯分类器2、以下属于解决模型欠拟合的方法的是(C)A、增加训练数据量B、对模型进行裁剪C、增加训练过程的迭代次数D、正则化3、构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型、(A)。

第3章-基本概念--机器学习与应用第二版

第3章-基本概念--机器学习与应用第二版

第3章基本概念本章介绍机器学习中的常用概念,包括算法的分类,算法的评价指标,以及模型选择问题。

按照样本数据是否带有标签值,可以将机器学习算法分为有监督学习与无监督学习。

按照标签值的类型,可以将有监督学习算法进一步细分为分类问题与回归问题。

按照求解的方法,可以将有监督学习算法分为生成模型与判别模型。

比较算法的优劣需要使用算法的评价指标。

对于分类问题,常用的评价指标是准确率;对于回归问题,是回归误差。

二分类问题由于其特殊性,我们为它定义了精度与召回率指标,在此基础上可以得到ROC曲线。

对于多分类问题,常用的评价指标是混淆矩阵。

泛化能力是衡量有监督学习算法的核心标准。

与模型泛化能力相关的概念有过拟合与欠拟合,对泛化误差进行分解可以得到方差与偏差的概念。

正则化技术是解决过拟合问题的一种常见方法,在本章中我们将会介绍它的实例-岭回归算法。

3.1算法分类按照样本数据的特点以及求解手段,机器学习算法有不同的分类标准。

这里介绍有监督学习和无监督学习,分类问题与回归问题,生成模型与判别模型的概念。

强化学习是一种特殊的机器学习算法,它的原理将在第20章详细介绍。

3.1.1监督信号根据样本数据是否带有标签值(label),可以将机器学习算法分成有监督学习和无监督学习两类。

要识别26个英文字母图像,我们需要将每张图像和它是哪个字符即其所属的类别对应起来,图像的类别就是标签值。

有监督学习(supervised learning)的样本数据带有标签值,它从训练样本中学习得到一个模型,然后用这个模型对新的样本进行预测推断。

样本由输入值与标签值组成:(),y x其中x为样本的特征向量,是模型的输入值;y为标签值,是模型的输出值。

标签值可以是整数也可以是实数,还可以是向量。

有监督学习的目标是给定训练样本集,根据它确定映射函数:()y f=x确定这个函数的依据是它能够很好的解释训练样本,让函数输出值与样本真实标签值之间的误差最小化,或者让训练样本集的似然函数最大化。

机器学习原理及应用练习题答案

机器学习原理及应用练习题答案

第一章机器学习概述1.机器学习研究什么问题,构建一个完整的机器学习算法需要哪些要素?机器学习主要研究如何选择统计学习模型,从大量已有数据中学习特定经验。

构建一个完整的机器学习算法需要三个方面的要素,分别是数据,模型,性能度量准则。

2.可以生成新数据的模型是什么,请举出几个例子可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。

3.监督学习、半监督学习和无监督学习是什么,降维和聚类属于哪一种?监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的机器学习,而半监督学习介于二者之间。

降维和聚类是无监督学习。

4.过拟合和欠拟合会导致什么后果,应该怎样避免?过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。

而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。

5.什么是正则化,L1正则化与L2正则化有什么区别?正则化是一种抑制模型复杂度的方法。

L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。

L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。

第二章逻辑回归与最大熵模型1.逻辑回归模型解决(B )A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于(B )回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现(D )A.二分类B.多分类C.分类预测D.非线性回归4.下列关于最大熵模型的表述错误的是(B )A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是(C )A.准确率、精确率、召回率以及AUC均是建立在混淆矩阵的基础上B.在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果C.准确率表示所有被预测为正的样本中实际为正的样本的概率D.一般来说,置信度阈值越高,召回率越低,而精确率越高6.简述逻辑回归的原理。

二分类变量降维方法

二分类变量降维方法

二分类变量降维方法引言:在数据分析和机器学习中,我们经常会遇到二分类变量的情况,即变量只有两个取值。

然而,对于包含大量二分类变量的数据集,处理起来可能会很复杂,并且可能会导致维度灾难。

因此,降维是一种常用的技术,用于减少变量的数量,同时保留尽可能多的信息。

本文将介绍几种常用的二分类变量降维方法。

一、相关系数法相关系数法是一种常用的二分类变量降维方法。

它通过计算每个二分类变量与目标变量之间的相关系数,来评估变量的重要性。

相关系数的绝对值越大,说明变量对目标变量的影响越大。

因此,可以选择相关系数较大的变量,保留下来进行分析,而将相关系数较小的变量剔除。

二、卡方检验法卡方检验法也是一种常用的二分类变量降维方法。

它通过计算每个二分类变量与目标变量之间的独立性卡方值,来评估变量的重要性。

卡方值越大,说明变量与目标变量之间的关联性越强。

因此,可以选择卡方值较大的变量,保留下来进行分析,而将卡方值较小的变量剔除。

三、信息增益法信息增益法是一种常用的二分类变量降维方法。

它通过计算每个二分类变量与目标变量之间的信息增益,来评估变量的重要性。

信息增益越大,说明变量对目标变量的影响越大。

因此,可以选择信息增益较大的变量,保留下来进行分析,而将信息增益较小的变量剔除。

四、逻辑回归系数法逻辑回归系数法是一种常用的二分类变量降维方法。

它通过训练一个逻辑回归模型,得到每个二分类变量的系数值,来评估变量的重要性。

系数值的绝对值越大,说明变量对目标变量的影响越大。

因此,可以选择系数值较大的变量,保留下来进行分析,而将系数值较小的变量剔除。

五、随机森林法随机森林法是一种常用的二分类变量降维方法。

它通过训练一个随机森林模型,得到每个二分类变量的重要性指标,来评估变量的重要性。

重要性指标越大,说明变量对目标变量的影响越大。

因此,可以选择重要性指标较大的变量,保留下来进行分析,而将重要性指标较小的变量剔除。

六、L1正则化法L1正则化法是一种常用的二分类变量降维方法。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说,掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。

最后,将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第7章数据降维在很多应用问题中向量的维数会很高。

处理高维向量不仅给算法带来了挑战,而且不便于可视化,另外还会面临维数灾难(这一概念将在第14章中介绍)的问题。

降低向量的维数是数据分析中一种常用的手段。

本章将介绍最经典的线性降维方法-主分量分析,以及非线性降维技术-流形学习算法。

7.1主成分分析在有些应用中向量的维数非常高。

以图像数据为例,对于高度和宽度都为100像素的图像,如果将所有像素值拼接起来形成一个向量,这个向量的维数是10000。

一般情况下,向量的各个分量之间可能存在相关性。

直接将向量送入机器学习算法中处理效率会很低,也影响算法的精度。

为了可视化显示数据,我们也需要把向量变换到低维空间中。

如何降低向量的维数并且去掉各个分量之间的相关性?主成分分析就是达到这种目的方法之一。

7.1.1数据降维问题主成分分析(principal component analysis,简称PCA)[1]是一种数据降维和去除相关性的方法,它通过线性变换将向量投影到低维空间。

对向量进行投影就是对向量左乘一个矩阵,得到结果向量:y Wx在这里,结果向量的维数小于原始向量的维数。

降维要确保的是在低维空间中的投影能很好的近似表达原始向量,即重构误差最小化。

下图7.1是主成分投影示意图:图7.1主成分投影示意图在上图中样本用红色的点表示,倾斜的直线是它们的主要变化方向。

将数据投影到这条直线上即能完成数据的降维,把数据从2维降为1维。

7.1.2计算投影矩阵核心的问题是如何得到投影矩阵,和其他机器学习算法一样,它通过优化目标函数而得到。

首先考虑最简单的情况,将向量投影到1维空间,然后推广到一般情况。

假设有n 个d 维向量i x ,如果要用一个向量0x 来近似代替它们,这个向量取什么值的时候近似代替的误差最小?如果用均方误差作为标准,就是要最小化如下函数:()2001n i i L ==-∑x x x 显然问题的最优解是这些向量的均值:11n i i n ==∑m x 证明很简单。

为了求上面这个目标函数的极小值,对它求梯度并令梯度等于0,可以得到:()()0012n i i L =∇=-=∑x x x 0解这个方程即可得到上面的结论。

只用均值代表整个样本集过于简单,误差太大。

作为改进,可以将每个向量表示成均值向量和另外一个向量的和:i i a =+x m e其中e 为单位向量,i a 是标量。

上面这种表示相当于把向量投影到一维空间,坐标就是i a 。

当e 和i a 取什么值的时候,这种近似表达的误差最小?这相当于最小化如下误差函数:()21,n i i i L a a ==+-∑e m e x 为了求这个函数的极小值,对i a 求偏导数并令其为0可以得到:()T 20i i a +-=e m e x 变形后得到:()T T i i a =-e e e x m 由于e 是单位向量,因此T1=e e ,最后得到:()T i i a =-e x m 这就是样本和均值的差对向量e 做投影。

现在的问题是e 的值如何选确定。

定义如下的散布矩阵:()()T1n i i i ==--∑S x m x m 这个矩阵是协方差矩阵的n 倍,协方差矩阵的计算公式为:()()T 11n i i i n ==--∑Σx m x m 将上面求得的i a 代入目标函数中,得到只有变量e 的函数:()()()()()()()()()()()()()()()()()()()()T 1T T T 1T 221112T T 11T T T 11T 2 2 n i i i i i n i i i i i i i n n n i i i i i i i n n i i i i i n n i i i i i i L a a ααααα==========+-+-=+-+--=-+--=--+--=---+--=--∑∑∑∑∑∑∑∑∑e e m x e m x e e e m x m x m x m x m x ex m m x m x ex m x m e m x m x e Se +m x ()()T1n i i i =-∑m x 上式的后半部分和e 无关,由于e 是单位向量,因此有1=e 的约束,这可以写成T 1=e e 。

要求解的是一个带等式约束的极值问题,可以使用拉格朗日乘数法。

构拉格朗日函数:()()T T ,1L λλ=-+-e e Se e e 对e 求梯度并令其为0可以得到:22λ-=Se +e 0即:λ=Se eλ就是散度矩阵的特征值,e 为它对应的特征向量,因此上面的最优化问题可以归结为矩阵的特征值和特征向量问题。

矩阵S 的所有特征向量给出了上面极值问题的所有极值点。

矩阵S 是实对称半正定矩阵,因此所有特征值非负。

事实上,对于任意的非0向量x ,有:()()()()()()()()T T T1T T 1T T T1 0n i i i n i i i n i i i ===⎛⎫=-- ⎪⎝⎭=--=--≥∑∑∑x Sx x x m x m x x x m x m xxx m x x m 因此这个矩阵半正定。

这里需要最大化T e Se 的值,由于:T T λλ==e Se e e 因此λ为散度矩阵最大的特征值时,Te Se 有极大值,目标函数取得极小值。

将上述结论从一维推广到'd 维,每个向量可以表示成:'1d i i i a ==+∑x m e 在这里i e 都是单位向量,并且相互正交,即寻找低维空间中的标准正交基。

误差函数变成:'211n d ij j ii j a ==+-∑∑m ex 和一维情况类似,可以证明,使得该函数取最小值的j e 为散度矩阵最大的'd 个特征值对应的单位长度特征向量。

即求解下面的优化问题:()T T min tr -=W W SWW W I 其中tr 为矩阵的迹,I 为单位矩阵,该等式约束保证投影基向量是标准正交基。

矩阵W 的列j e 是要求解的基向量。

散度矩阵是实对称矩阵,属于不同特征值的特征向量相互正交。

前面已经证明这个矩阵半正定,特征值非负。

这些特征向量构成一组基向量,我们可以用它们的线性组合来表达向量x 。

从另外一个角度来看,这种变换将协方差矩阵对角化,相当于去除了各分量之间的相关性。

从上面的推导过程我们可以得到计算投影矩阵的流程为:1.计算样本集的均值向量。

将所有向量减去均值,这称为白化。

2.计算样本集的协方差矩阵。

3.对方差矩阵进行特征值分解,得到所有特征值与特征向量。

4.将特征值从大到小排序,保留最大的一部分特征值对应的特征向量,以它们为行,形成投影矩阵。

具体保留多少个特征值由投影后的向量维数决定。

使用协方差矩阵和使用散度矩阵是等价的,因为后者是前者的n倍,而矩阵A和n A有相同的特征向量。

7.1.3向量降维得到投影矩阵之后可以进行向量降维,将其投影到低维空间。

向量投影的流程为:1.将样本减掉均值向量。

2.左乘投影矩阵,得到降维后的向量。

7.1.4向量重构向量重构根据投影后的向量重构原始向量,与向量投影的作用和过程相反。

向量重构的流程为:1.输入向量左乘投影矩阵的转置矩阵。

2.加上均值向量,得到重构后的结果。

从上面的推导过程可以看到,在计算过程中没有使用样本标签值,因此主成分分析是一种无监督学习算法。

除了标准算法之外它还有多个变种,如稀疏主成分分析,核主成分分析[2][8],概率主分量分析等。

7.2流形学习主成分分析是一种线性降维技术,对于非线性数据具有局限性,而在实际应用中很多时候数据是非线性的。

此时可以采用非线性降维技术,流形学习(manifold learning)是典型的代表。

除此之外,第9章介绍的人工神经网络也能完成非线性降维任务。

这些方法都使用非线性函数将原始输入向量x映射成更低维的向量y,向量y要保持x的某些信息:()φy x=流形是几何中的一个概念,它是高维空间中的几何结构,即空间中的点构成的集合,可以简单的将流形理解成二维空间的曲线,三维空间的曲面在更高维空间的推广。

下图7.2是三维空间中的一个流形,这是一个卷曲面:图7.2三维空间中的一个流形很多应用问题的数据在高维空间中的分布具有某种几何形状,即位于一个低维的流形附近。

例如同一个人的人脸图像向量在高维空间中可能是一个复杂的形状。

流形学习假设原始数据在高维空间的分布位于某一更低维的流形上,基于这个假设来进行数据的分析。

对于降维,要保证降维之后的数据同样满足与高维空间流形有关的几何约束关系。

除此之外,流形学习还可以用实现聚类,分类以及回归算法,在后面各章中将会详细介绍。

假设有一个D 维空间中的流形M ,即DM ⊂ ,流形学习降维要实现的是如下映射:dM → 其中d D 。

即将D 维空间中流形M 上的点映射为d 维空间中的点。

下面介绍几种典型的流形降维算法。

7.2.1局部线性嵌入局部线性嵌入[3](locally linear embedding ,简称LLE )将高维数据投影到低维空间中,并保持数据点之间的局部线性关系。

其核心思想是每个点都可以由与它相邻的多个点的线性组合来近似重构,投影到低维空间之后要保持这种线性重构关系,即有相同的重构系数,这也体现了它的名字。

假设数据集由n 个D 维向量i x 组成,它们分布在D 维空间中的一个流形附近。

每个数据点和它的邻居位于或者接近于流形的一个局部线性片段上,即可以用邻居点的线性组合来重构,组合系数体现了局部面片的几何特性:i ij jj w ≈∑x x权重ij w 为第j 个数据点对第i 个点的组合权重,这些点的线性组合被用来近似重构数据点i 。

权重系数通过最小化下面的重构误差确定:211min ij n n w i ij ji j w ==-∑∑x x 在这里还加上了两个约束条件:每个点只由它的邻居来重构,如果j x 不在i x 的邻居集合里则权重值为0。

另外限定权重矩阵的每一行元素之和为1,即:1ij j w =∑这是一个带约束的优化问题,求解该问题可以得到权重系数。

这一问题和主成分分析要求解的问题类似。

可以证明,这个权重值对平移、旋转、缩放等几何变换具有不变性。

假设算法将向量从D 维空间的x 映射为d 维空间的y 。

每个点在d 维空间中的坐标由下面的最优化问题确定:211min i n n i ij ji j w ==-∑∑y y y 这里的权重和上一个优化问题的值相同,在前面已经得到,是已知量。

这里优化的目标是i y ,此优化问题等价于求解稀疏矩阵的特征值问题。

得到y 之后,即完成了从D 维空间到d 维空间的非线性降维。

下图7.3为用LLE 算法将手写数字图像投影到3维空间后的结果:图7.3LLE 算法投影到3维空间后的结果7.2.2拉普拉斯特征映射拉普拉斯特征映射[4](简称LE )是基于图论的方法。

相关文档
最新文档