机器学习 主成分分析及奇异值分解

合集下载

人工智能数据分析技术的工作原理

人工智能数据分析技术的工作原理

人工智能数据分析技术的工作原理一、概述随着人工智能和大数据技术的发展,数据分析成为了一个重要的工作领域,应用范围涵盖医疗、电子商务、金融、制造业等众多领域。

人工智能数据分析技术是指通过使用计算机算法和模型对大量数据进行处理和分析,从而发掘出数据中的特征、关系、规律等,为实际应用提供支撑。

人工智能数据分析技术包括数据预处理、特征提取、数据建模等几个阶段。

数据预处理是指通过数据清洗、去噪、填充等措施对数据进行准备。

特征提取是指从大量数据中挖掘出对解决实际问题有帮助的特征。

数据建模是指通过制定数学模型、选择算法等方法,将问题抽象成为可计算的数学模型,进而进行的数据建模。

二、数据预处理数据预处理是数据分析的第一步,它的目的是使原始数据适合进行后续处理,包括数据清洗、数据去噪、数据填充等操作。

数据预处理的主要内容如下:(1)数据清洗:清洗数据是指删除或纠正错误数据。

这包括检查数据是否有重复、缺失、不正确或不一致的情况。

(2)数据去噪:去噪是指移除不必要的数据,例如删除不相关的数据或试图识别和移除无用的属性和其他信息。

(3)数据填充:有时候原始数据中会有缺失信息,因此,我们需要通过一些方法来填充这些缺失信息。

填充方法包括统计概率、插值法、回归等。

三、特征提取特征提取是数据分析的核心,也是实现人工智能算法的关键。

特征提取的目的是从原始数据中挖掘出与问题有关的有效特征,将原始数据转换成人工容易识别的特征表示方式。

特征提取分为两个阶段:特征选择和特征抽取。

(1)特征选择:特征选择是指在保留原始数据中有用信息的基础上,减少数据的复杂性。

特征选择的方法包括过滤特征选择、包装特征选择、嵌入式特征选择等。

(2)特征抽取:特征抽取是指从原始数据中提取有用的特征,包括文本特征、图像特征和音频特征等。

常用的特征抽取算法包括主成分分析、奇异值分解、小波分析、离散余弦变换等。

四、数据建模数据建模是将问题转化为易于计算的数学模型的过程,包括分析模型、算法模型等。

介绍机器学习中的主成分分析算法

介绍机器学习中的主成分分析算法

介绍机器学习中的主成分分析算法主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习算法,被广泛应用于数据降维、数据可视化和特征提取等领域。

本文将详细介绍机器学习中的主成分分析算法原理、应用和实现方法。

首先,PCA的原理是通过将高维数据映射到低维空间,找到能代表原始数据大部分信息的主成分。

在数据预处理阶段,我们通常对数据进行中心化操作,即将每个特征的均值减去整个特征的均值。

然后,我们计算数据的协方差矩阵,它反映了不同特征之间的相关性。

接下来,我们利用特征值分解(Eigenvalue Decomposition)对协方差矩阵进行分解,得到特征值和特征向量。

最后,我们选择最大的k个特征值对应的特征向量作为主成分,将原始数据投影到这些主成分上,实现将高维数据降到k维。

PCA算法的主要应用之一是数据降维。

在现实问题中,常常会面临具有大量特征的高维数据,这时候使用这些特征进行建模可能会导致维度灾难和过拟合问题。

通过PCA降维,我们可以选择保留的主成分数量来控制降维后数据的维度。

降维后的数据可以更方便地进行可视化和理解,同时减少了建模的复杂性和计算开销。

另外,PCA也可以用于特征提取。

特征提取是通过将原始特征转换为新特征,提高数据表达能力和模型性能的过程。

通过PCA选择最重要的特征,我们可以减少冗余信息和噪声特征,提取最具代表性的信息。

在图像处理领域,PCA在人脸识别中的应用广泛而成功。

PCA可以从人脸图像中提取主要的特征,进而实现对人脸进行分类、识别等任务。

在实现PCA算法时,有多种方法可选。

常用的有基于特征值分解的方法和基于奇异值分解的方法。

特征值分解方法可以通过计算协方差矩阵的特征值和特征向量来得到主成分;而奇异值分解方法则可以直接对原始数据进行分解,得到主成分。

基于奇异值分解的方法更适用于大规模数据集,计算效率更高。

此外,还有一些改进的PCA算法,如增量PCA和核PCA,用于处理更复杂的数据情况。

线性代数方法在机械学习中的应用

线性代数方法在机械学习中的应用

线性代数方法在机械学习中的应用在机械学习中,线性代数方法被广泛应用。

线性代数是数学中的一个分支,它主要研究向量空间和线性映射等概念。

在机器学习中,我们可以将数据看做一个向量空间,而将学习过程看做一个线性映射的过程。

本文将探讨线性代数方法在机械学习中的应用,并介绍一些常用的算法和技巧。

一、特征值分解特征值分解是线性代数中非常重要的一个概念。

在机器学习中,我们可以利用特征值分解来降维或者进行数据压缩。

对于一个矩阵A,其特征值和特征向量可以通过以下公式来计算:Ax = λx其中,特征向量x不等于零向量,λ为特征值。

我们可以通过求解上述公式来得到特征值和特征向量。

而对于实对称矩阵,其特征向量是正交的。

利用特征值分解,我们可以将矩阵A分解成以下形式:A = QΛQ^T其中,Q为正交矩阵,Λ是对角矩阵,对角线上的元素是A的特征值。

通过特征值分解,我们可以对数据进行降维和压缩,从而提高机器学习的效率。

二、奇异值分解奇异值分解是线性代数中的另一个非常重要的概念。

在机器学习中,奇异值分解被广泛应用于数据压缩、图像处理和推荐系统等领域。

对于一个矩阵A,其奇异值分解可以表示为以下形式:A = UΣV^T其中,U和V为正交矩阵,Σ是对角矩阵,对角线上的元素称为奇异值。

奇异值分解可以帮助我们找到数据中的模式和结构,从而进行数据压缩和降维。

三、主成分分析主成分分析是一种常用的数据降维方法。

它通过线性变换将高维数据映射到低维空间中。

在主成分分析中,我们将数据的方差最大化,从而找到最能代表原始数据的主成分。

主成分分析的基本思想是将数据在不同方向上的变化尽可能分开,从而找到数据中最重要的成分。

在机器学习中,主成分分析被广泛应用于图像处理、模式识别和数据可视化等领域。

四、线性回归线性回归是机器学习中非常重要的一个算法。

在线性回归中,我们试图找到一组权重,从而将特征向量映射到目标值上。

线性回归基于线性代数的方法来求解模型参数,而最小二乘法是线性回归中常用的求解方法之一。

人工智能的基础知识培训资料

人工智能的基础知识培训资料
深度学习图像识别方法
利用卷积神经网络(CNN)自动提取图像特征 并进行分类,如AlexNet、VGGNet、ResNet等 网络结构。
图像分类数据集
介绍常用的图像分类数据集,如MNIST手写数字 数据集、CIFAR-10/100自然图像数据集、 ImageNet大规模图像数据集等。
目标检测与跟踪技术
研究词语所表达的语义信息,包括词 义消歧、词义表示等。
句法分析
研究句子中词语之间的结构关系,建 立词语之间的依存关系或短语结构。 常见的句法分析任务有依存句法分析 、短语结构分析等。
语义理解与情感分析
语义理解
通过自然语言处理技术,将文本 转换为计算机可理解的语义表示 ,包括实体识别、关系抽取、事
件抽取等任务。
利用大量语音数据训练统计模型 ,如HMM、GMM等,以实现更 自然的语音合成。这种方法可以 合成出较为自然的语音,但仍存 在一些问题,如音质不佳、语调 不自然等。
基于深度学习的语音 合成
采用深度学习技术,如生成对抗 网络(GAN)、Transformer等 ,构建复杂的模型结构以生成高 质量的语音波形。这种方法可以 合成出非常自然、高质量的语音 ,是目前主流的语音合成方法。
内容推荐
通过分析用户以前的行为和兴趣,推荐与其兴趣相似的物品或服务 。
深度学习推荐
利用深度学习模型,如神经网络,来预测用户对物品的评分或点击 率,并生成推荐列表。
个性化推荐技术应用
01
02
03
04
电子商务
根据用户的购物历史、浏览行 为等,为用户推荐可能感兴趣
的商品。
音乐和视频平台
分析用户的听歌或观影历史, 推荐符合用户口味的歌曲或视
频。
新闻和资讯应用

机器学习方法有哪些

机器学习方法有哪些

机器学习方法有哪些数学基础有无数激情满满大步向前,誓要在机器学习领域有一番作为的同学,在看到公式的一刻突然就觉得自己狗带了。

是啊,机器学习之所以相对于其他开发工作,更有门槛的根本原因就是数学。

每一个算法,要在训练集上最大程度拟合同时又保证泛化能力,需要不断分析结果和数据,调优参数,这需要我们对数据分布和模型底层的数学原理有一定的理解。

所幸的是如果只是想合理应用机器学习,而不是做相关方向高精尖的research,需要的数学知识啃一啃还是基本能理解下来的。

至于更高深的部分,恩,博主非常愿意承认自己是『数学渣』。

基本所有常见机器学习算法需要的数学基础,都集中在微积分、线性代数和概率与统计当中。

下面我们先过一过知识重点,文章的后部分会介绍一些帮助学习和巩固这些知识的资料。

微积分微分的计算及其几何、物理含义,是机器学习中大多数算法的求解过程的核心。

比如算法中运用到梯度下降法、牛顿法等。

如果对其几何意义有充分的理解,就能理解“梯度下降是用平面来逼近局部,牛顿法是用曲面逼近局部”,能够更好地理解运用这样的方法。

凸优化和条件最优化的相关知识在算法中的应用随处可见,如果能有系统的学习将使得你对算法的认识达到一个新高度。

线性代数大多数机器学习的算法要应用起来,依赖于高效的计算,这种场景下,程序员GG们习惯的多层for循环通常就行不通了,而大多数的循环操作可转化成矩阵之间的乘法运算,这就和线性代数有莫大的关系了向量的内积运算更是随处可见。

矩阵乘法与分解在机器学习的主成分分析(PCA)和奇异值分解(SVD)等部分呈现刷屏状地出现。

概率与统计从广义来说,机器学习在做的很多事情,和统计层面数据分析和发掘隐藏的模式,是非常类似的。

极大似然思想、贝叶斯模型是理论基础,朴素贝叶斯(Na?veBayes)、语言模型(N-gram)、隐马尔科夫(HMM)、隐变量混合概率模型是他们的高级形态。

常见分布如高斯分布是混合高斯模型(GMM)等的基础。

奇异值分解在自然语言处理中的应用(六)

奇异值分解在自然语言处理中的应用(六)

奇异值分解在自然语言处理中的应用自然语言处理(NLP)是人工智能领域的一个重要分支,旨在让计算机能够理解和处理人类语言。

奇异值分解(SVD)是一种矩阵分解的方法,它在NLP领域有着广泛的应用。

本文将探讨奇异值分解在NLP中的应用,并分析其在文本处理、语义分析和推荐系统中的作用。

奇异值分解是一种在线性代数和矩阵理论中常用的方法,它能够将一个矩阵分解为三个矩阵的乘积。

在NLP中,奇异值分解可以被用来降维和提取文本数据的关键信息。

例如,在文本处理中,我们可以将文本数据表示成一个矩阵,每一行代表一个文档,每一列代表一个词语,矩阵中的元素表示该词语在该文档中的出现次数。

通过奇异值分解,我们可以将这个矩阵分解成三个矩阵,分别代表文档的特征、词语的特征和特征值。

这样一来,我们就可以通过奇异值分解来提取文本数据中的主题信息,实现文本的自动分类和聚类。

此外,奇异值分解还可以用于语义分析。

在NLP中,语义分析是指根据上下文和语境来理解词语和句子的含义。

奇异值分解可以帮助我们将文本数据映射到一个更低维度的空间中,从而找到文本数据中隐藏的语义信息。

通过奇异值分解,我们可以将文本数据表示成一个更为紧凑的向量空间模型,这有助于提高文本数据的语义表示和语义理解能力。

例如,当我们需要对文本数据进行情感分析或情感分类时,奇异值分解可以帮助我们更好地捕捉文本数据中的情感信息,从而提高情感分析模型的准确性和鲁棒性。

除了文本处理和语义分析,奇异值分解还在推荐系统中有着重要的作用。

推荐系统是一种能够根据用户的偏好和行为推荐个性化内容的系统。

在NLP中,我们可以利用奇异值分解来建模用户和内容之间的关系,从而实现更加准确和有效的推荐。

通过将用户-内容矩阵进行奇异值分解,我们可以得到用户和内容的隐含特征,这有助于推荐系统更好地理解用户和内容之间的关系,从而提高推荐的准确性和个性化程度。

总的来说,奇异值分解在自然语言处理中有着广泛的应用,它能够帮助我们提取文本数据中的主题信息、捕捉文本数据中的语义信息,以及建模用户和内容之间的关系。

强化学习算法中的稀疏表示学习方法详解(十)

强化学习算法中的稀疏表示学习方法详解(十)

强化学习算法中的稀疏表示学习方法详解强化学习是一种通过试错来学习最优行为的机器学习方法,而稀疏表示学习则是其中的一种重要技术。

本文将详细介绍强化学习算法中的稀疏表示学习方法,包括其基本概念、应用场景以及相关算法原理。

一、稀疏表示学习的基本概念稀疏表示学习是一种通过线性组合来表示输入数据的方法。

在稀疏表示学习中,输入数据被表示为少量非零元素的线性组合,这些非零元素通常被称为字典或基。

通过对输入数据进行稀疏表示,我们可以实现对数据的高效压缩和信息提取,从而更好地理解和利用输入数据。

在强化学习中,稀疏表示学习被广泛应用于状态空间的表示和值函数的学习。

通过将状态空间进行稀疏表示,可以有效地减少状态空间的维度,从而减少值函数的计算复杂度。

此外,稀疏表示还可以帮助我们更好地理解状态空间的结构和特征,从而提高值函数的学习效率和性能。

二、稀疏表示学习在强化学习中的应用场景稀疏表示学习在强化学习中有多种应用场景,其中最主要的应用包括状态表示、特征提取和值函数逼近。

在状态表示方面,稀疏表示学习可以帮助我们将高维的状态空间进行有效地表示和压缩,从而减少值函数的计算复杂度。

在特征提取方面,稀疏表示学习可以帮助我们从原始的状态空间中提取出更有用的特征,从而提高值函数的泛化能力和学习效率。

在值函数逼近方面,稀疏表示学习可以帮助我们通过少量的基函数来逼近值函数,从而减少值函数的计算复杂度和提高值函数的学习性能。

三、稀疏表示学习的相关算法原理稀疏表示学习的相关算法主要包括奇异值分解(SVD)、主成分分析(PCA)和稀疏编码等。

在奇异值分解中,我们通过分解输入数据的奇异值分解矩阵来得到稀疏表示的基函数。

在主成分分析中,我们通过找到输入数据的主成分来得到稀疏表示的基函数。

在稀疏编码中,我们通过最小化输入数据与稀疏表示的基函数之间的误差来得到稀疏表示的基函数。

在强化学习中,我们常常使用基于稀疏表示学习的价值函数逼近方法来学习值函数。

线性代数中的奇异值分解与主成分分析

线性代数中的奇异值分解与主成分分析

线性代数中的奇异值分解与主成分分析奇异值分解(Singular Value Decomposition,SVD)和主成分分析(Principal Component Analysis,PCA)是线性代数领域中两个重要的概念和技术。

它们在数据处理、模式识别、图像处理等领域中被广泛应用,并具有很高的实用价值。

本文将对奇异值分解和主成分分析进行介绍和解释。

一、奇异值分解(Singular Value Decomposition,SVD)奇异值分解是指对一个实数或复数的矩阵进行分解,将矩阵分解为三个矩阵的乘积。

具体来说,对于一个m × n的矩阵A,可以将它表示为如下形式的乘积:A = UΣV^T其中,U是一个m × m的酉矩阵,Σ是一个m × n的矩阵,只有对角线上有非零元素且非负,V^T是一个n × n的酉矩阵,表示V的共轭转置。

奇异值分解的重要性在于它可以实现对矩阵的降维和信息提取。

通过SVD,我们可以找到矩阵A的主要特征,将其表示为一系列奇异值以及对应的特征向量的线性组合。

这些特征向量对应的奇异值越大,代表这些特征在数据中的重要性越大。

因此,奇异值分解在数据压缩、模式识别和数据挖掘等领域发挥着重要作用。

二、主成分分析(Principal Component Analysis,PCA)主成分分析是一种常用的数据降维技术,能够将高维数据转换为低维数据,同时保留原始数据的重要特征。

PCA的核心思想是找到原始数据中方差最大的方向,并将数据投影到这个方向上,以达到数据降维的目的。

具体来说,主成分分析包括以下几个步骤:1. 标准化数据:对原始数据进行标准化处理,使得每个维度的数据具有相同的尺度。

2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵。

3. 计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

4. 选择主成分:按照特征值从大到小的顺序选择前k个特征向量作为主成分。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Amn Pnr A m r
但是这个怎么和 SVD 扯上关系呢?之前谈到,SVD 得出的奇异向量也是从奇 异值由大到小排列的, 按 PCA 的观点来看,就是方差最大的坐标轴就是第一个奇 异向量,方差次大的坐标轴就是第二个奇异向量…我们回忆一下之前得到的 SVD 式子:
Amn U mr r r VrT n
Prm Amn A r n
这样就从一个 m 行的矩阵压缩到一个 r 行的矩阵了, 对 SVD 来说也是一样的, 我们对 SVD 分解的式子两边乘以 U 的转置 U '
U rmT Amn rr VrT n
这样我们就得到了对行进行压缩的式子。可以看出,其实 PCA 几乎可以说是 对 SVD 的一个包装,如果我们实现了 SVD,那也就实现了 PCA 了,而且更好的地 方是,有了 SVD,我们就可以得到两个方向的 PCA,如果我们对 A ' A 进行特征值 的分解,只能得到一个方向的 PCA。
Fi ai ' X
主成分的方差(信息)贡献率用来反映信息量的大小, i 为:
i i / i
i 1 m
(3)选择主成分
Fm 中 m 的确定是通过方差(信息)累 最终要选择几个主成分,即 F1、F2、
计贡献率 G (m) 来确定
G (m) i / k
i 1 k 1 m p
Fi 上的载荷 ai , 为了加以限制, 载荷系数 ai 启用的是 i 对应的单位化的特征向量,
即有 ai ' ai =1。
三、主成分分析法的计算步骤
主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵: ( sij ) p p ,其中
sij 1 n ( xki xi )( xkj x j ) n 1 k 1
当累积贡献率大于 85%时,就认为能足够反映原来变量的信息了,对应的 m 就是抽取的前 m 个主成分。 (4)计算主成分得分 计算样品在 m 个主成分上的得分:
Fi a1i X 1 a2i X 2 ... a pi X p i 1, 2, , m
实际应用时, 指标的量纲往往不同,所以在主成分计算之前应先消除量纲的 影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数 据变换:
-2-
关的 X 1 , X 2 , X 3 , X p 的所有线性组合中方差最大的,故称 F2 为第二主成分,依
Fm 为原变量指标 X 1 , X 2 , X 3 , X p 第一、第二、……、 此类推构造出的 F1、F2、
第 m 个主成分。
F1 a11 X 1 a12 X 2 ... a1 p X p F a X a X ... a X 2 21 1 22 2 2p p ...... Fm am1 X 1 am 2 X 2 ... amp X p
X 1 , X 2 , X 3 , X p 的所有线性组合中方差最大的, 故称 F1 为第一主成分。 如果第一
主成分不足以代表原来 p 个指标的信息,再考虑选取第二个主成分指标 F2 ,为 有效地反映原信息, F1 已有的信息就不需要再出现在 F2 中,即 F2 与 F1 要保持独 立、不相关,用数学语言表达就是其协方差 Cov ( F1 , F2 ) 0 ,所以 F2 是与 F1 不相
二、主成分分析(PCA)
主成分分析是数学上对数据降维的一种方法。 其基本思想是设法将原来众多 的具有一定相关性的指标 X 1 , X 2 , X 3 , X p (比如 p 个指标),重新组合成一组较 少个数的互不相关的综合指标 Fm 来代替原来指标。那么综合指标应该如何去提 取,使其既能最大程度的反映原变量 X 所代表的信息,又能保证新指标之间保 持相互无关(信息不重叠)。 设 F1 表 示 原 变 量 的 第 一 个 线 性 组 合 所 形 成 的 主 成 分 指 标 , 即
A U * S *V '
1
其中 S diag ( 1 , 2 , r ), i 0(i 1, r ), r rank ( A) 。 推论:设 A 为 m*n 阶实矩阵,则存在 m 阶正交阵 U 和 n 阶正交阵 V ,使得
A U * S *V ' ,其中 S diag ( 1 , 2 , r ), i 0(i 1, r ), r rank ( A) 。 Amn U mm mn VnT n
六、利用主成分分析(PCA)进行降维
9 个学生各科成绩如下,
能不能把数据的六个变量用几个综合变量表示? 这几个综合变量包含原来多少信息呢?
-7-
我们现在用主成分分析法求解,得到如下结果:
结果分析: 如用 x1,x2,x3,x4,x5,x6 分别表示原先的六个变量, 而用 y1,y2,y3,y4,y5,y6 表示 新的主成分,那么,第一和第二主成分为
机 器 学 习 期 末 报 告
成员:白子轩,安勇正,李文涛,王琳 时间:2016 年 4 月 9 日
-1-
主成分分析(PCA)与奇异值分解(SVD)原理及其应用
一、导论
在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分 析问题的难度与复杂性, 而且在许多实际问题中,多个变量之间是具有一定的相 关关系的。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必 然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为 有效的解决方法, 它既能大大减少参与数据建模的变量个数,同时也不会造成信 息的大量丢失。 主成分分析正式这样一种能够有效降低变量维数,并已得到广泛 应用的分析方法。
* xij
xij x j sj
i 1, 2,..., n; j 1, 2,..., p
其中: x j
1 n 1 n xij , s 2 ( xij x j ) 2 j n i 1 n 1 i 1
根据数学公式知道, ①任何随机变量对其作标准化变换后,其协方差与其相 关系数是一回事, 即标准化后的变量协方差矩阵就是其相关系数矩阵。②另一方 面, 根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数, 亦即, 标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化 前后变量的相关系数矩阵不变化。
F1 a11 X 1 a21 X 2 ... a p1 X p
,由数学知识可知,每一个主成分所提取的信息量可
用其方差来度量,其方差 Var ( F1 ) 越大,表示 F1 包含的信息越多。常常希望第一 主 成 分 F1 所 含 的 信 息 量 最 大 , 因 此 在 所 有 的 线 性 组 合 中 选 取 的 F1 应 该 是
-3-
i,j=1,2,…,p
(2)求出Σ的特征值 i 及相应的正交化单位特征向量 ai Σ的前 m 个较大的特征值 1 2 m 0 ,就是前 m 个主成分对应的方 差,i 对应的单位特征向量 ai 就是原来变量在主成分 Fi 上的载荷系数, 则原变量 的第 i 个主成分 Fi 为:
在矩阵的两边同时乘上一个矩阵 V ,由于 V 是一个正交的矩阵,所以 V 转置 乘以 V 得到单位阵 I ,所以可以化成后面的式子
AmnVr n U mr r r VrT nVr n AmnVr n U mr r r
-6-
将后面的式子与 A P 那个 m* n 的矩阵变换为 m * r 的矩阵的式子对照看看, 在这里,其实 V 就是 P ,也就是一个变化的向量。这里是将一个 m*n 的矩阵压缩 到一个 m*r 的矩阵,也就是对列进行压缩,如果我们想对行进行压缩(在 PCA 的观点下,对行进行压缩可以理解为,将一些相似的 sample 合并在一起,或者 将一些没有太大价值的 sample 去掉)怎么办呢?同样我们写出一个通用的行压 缩例子:
可见, A 是矩阵 u1v 1 , u2 v 2 , , u rv r 的加权和,其中 1 , 2 , r 是权重。若将奇异 值按递减顺序排列
1 2 r 0
显然,奇异值大的项对矩阵 A 的贡献大。因此,当舍去了权重小的部分项后仍然 能够较好地“逼近” A ,这一特性常被用来压缩图像。 矩阵 A 的秩 k 逼近定义为
四、奇异值分解(SVD)
-4-
定义:设 A 为 m*n 阶矩阵, AH A 的 n 个特征值的非负平方根叫作 A 的奇异值,记 为 i ( A) 。如果把 AH A 的特征值记为 i ( A) ,则 i ( A) i 2 ( A H A) 。 定理(奇异值分解)设 A 为 m*n 阶复矩阵,则存在 m 阶酉阵 U 和 n 阶酉阵 V ,使 得:
根据以上分析得知: (1) Fi 与 Fj 互不相关, 即 Cov ( Fi , F j ) 0 ,并有 Var ( Fi ) ai ' ai , 其中Σ为 X 的 协方差阵 (2) F1 是 X 1 , X 2 , X 3 , X p 的一切线性组合(系数满足上述要求)中方差最大
Fm-1 都不相关的 X 1 , X 2 , X 3 , X p 的所有线性组合中方差最 的,即 Fm 是与 F1、F2、
Amn Pnn A mn
而将一个 m*n 的矩阵 A 变换成一个 m*r 的矩阵,这样就会使得本来有 n 个 feature 的,变成了有 r 个 feature 了( r n ),这 r 个其实就是对 n 个 feature 的一种提炼,我们就把这个称为 feature 的压缩。用数学语言表示就是:
A u1 1v 1 u2 2v 2 u r rv r ,1 k r
-5-
五、奇异值分解(SVD)与主成分分析(PCA)的关系
PCA 的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐 标轴, 第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得 方差最大的,第三个轴是在与第 1、2 个轴正交的平面中方差最大的,这样假设 在 N 维空间中, 我们可以找到 N 个这样的坐标轴, 我们取前 r 个去近似这个空间, 这样就从一个 N 维的空间压缩到 r 维的空间了,但是我们选择的 r 个坐标轴能够 使得空间的压缩使得数据的损失最小。 还是假设我们矩阵每一行表示一个样本,每一列表示一个 feature,用矩阵 的语言来表示, 将一个 m*n 的矩阵 A 的进行坐标轴的变化,P 就是一个变换的矩 阵从一个 N 维的空间变换到另一个 N 维的空间,在空间中就会进行一些类似于 旋转、拉伸的变化。
相关文档
最新文档