偏最小二乘回归方法(PLS)

合集下载

偏最小二乘方法

偏最小二乘方法
第六章 偏最小二乘方法
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展 起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合 物结构-活性/性质相关性研究中是一种非常有用的手段。如美国 Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处 理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础 是主成分分析。替潜变量的个数一般少于原自变量的个数,所 以PLS特别适用于自变量的个数多于试样个数的情况。在此种 情况下,亦可运用主成分回归方法,但不能够运用一般的多元 回归分析,因为一般多元回归分析要求试样的个数必须多于自 变量的个数。
设矩阵X的阶为I*J,若T的阶与J相等,则主成分回归与 多元线性回归所得结果相同,并不能显示出主成分回归的优 越之处。选取的主成分数一般应该比J 小,而删去那些不重 要的主成分,因为这些主成分所包含的信息主要是噪声,由 此所得的回归方程稳定性较好。 另外,由X所定义的空间可以进一步来说明主成分回归 与多元线性回归的区别。多元线性回归应用了由X的列所定 义的全部空间,而主成分回归所占用的是一子空间。当X的J 列中,有一列可为其它J —1列的线性组合时,则X可用J -1列 的矩阵T来描述,而并不丢失信息。新的矩阵T定义了X的一 个子空间。
2 7 5 4 3 3 Y 9 12 3 6 8 2
运用式(6.3)则可得B矩阵:
0.48 0.71 0.55 B 0.42 0.41 0.24 0.08 0.28 0.05
所用数学模型有效性的量度可用Err:

两种偏最小二乘特征提取方法的比较

两种偏最小二乘特征提取方法的比较

两种偏最小二乘特征提取方法的比较偏最小二乘(Partial Least Squares, PLS)是一种常用的多元统计分析方法,在特征提取方面有两种常见的应用方法,分别是偏最小二乘回归(PLS Regression)和偏最小二乘判别分析(PLS-DA)。

本文将从这两种方法的原理、应用领域以及优缺点等方面进行比较,以便读者更好地理解它们的特点和适用场景。

一、偏最小二乘回归(PLS Regression)1.原理偏最小二乘回归是一种利用预测变量与被预测变量之间的关系来建立模型的方法。

它通过线性变换将原始变量转化为一组新的变量,即潜在变量,使得预测变量与被预测变量之间的相关性最大化。

PLS Regression既可以用于降维,提取主要特征,又可以用于建立预测模型。

2.应用领域PLS Regression广泛应用于化学、生物、食品等领域。

在化学领域,可以利用PLS Regression来建立光谱与化学成分之间的定量关系模型;在生物领域,可以利用PLS Regression来处理生物数据,如基因表达数据、蛋白质数据等。

3.优缺点优点:PLS Regression可以处理多重共线性和小样本问题,能够提取变量间的共同信息,对噪声和异常值具有较强的鲁棒性。

缺点:PLS Regression对参数的解释性较差,提取的潜在变量不易解释其物理或化学意义。

二、偏最小二乘判别分析(PLS-DA)偏最小二乘判别分析是一种将多变量数据进行降维和分类的方法。

它和偏最小二乘回归类似,也是通过线性变换将原始变量转化为一组潜在变量,但它的目的不是建立预测模型,而是根据已有类别信息对样本进行分类。

PLS-DA广泛应用于生物、医学、食品等领域。

在生物领域,可以利用PLS-DA对基因表达数据进行分类,发现与疾病相关的基因表达模式;在医学领域,可以利用PLS-DA对影像数据进行分析,帮助医生做出诊断和治疗决策。

缺点:PLS-DA的分类结果不易解释其物理或化学意义,对于大样本问题的分类效果可能不如其他分类方法。

偏最小二乘法

偏最小二乘法

偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。

近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。

由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。

本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。

偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。

该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。

如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。

在PLS 方法中用的是替潜变量,其数学基础是主成分分析。

替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。

在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。

§§ 6.3.1 基本原理6.3 偏最小二乘(PLS )为了叙述上的方便,我们首先引进“因子”的概念。

一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。

第章偏最小二乘回归分析

第章偏最小二乘回归分析

第章偏最小二乘回归分析偏最小二乘回归(PLS Regression)是一种多元统计回归分析方法,用于处理多个自变量与一个或多个因变量之间的关系。

与传统的最小二乘回归相比,PLS回归可以在数据存在多重共线性或高维情况下获得更为稳定和准确的结果。

本章将详细介绍PLS回归的原理、应用以及其在实际问题中的使用。

1.PLS回归的原理PLS回归通过建立自变量和因变量之间的线性关系模型,将数据投影到一个新的空间中,以降低维度并消除多重共线性的影响。

PLS回归的主要思想是将原始数据进行分解,得到一系列相互相关的隐藏变量,然后使用这些隐藏变量来进行回归分析。

2.PLS回归的步骤PLS回归的步骤包括数据预处理、建立模型、模型评估和解释。

首先,需要对原始数据进行预处理,包括中心化和标准化,以保证数据的平均值为零且方差为一、然后,通过逐步回归的方法构建模型,选择与响应变量高度相关的隐藏变量。

模型的选择可以通过交叉验证的方法进行。

最后,通过解释模型的系数和残差来评估模型的质量和可解释性。

3.PLS回归的应用PLS回归在实际问题中有广泛的应用,特别是在化学、生物、医学和食品科学等领域。

例如,PLS回归可以用于药物分析,通过测量药物的光谱数据来预测其浓度。

另外,PLS回归还可以用于食品安全和质量检测,通过分析食品的化学成分和感官属性来预测食品的品质。

4.PLS回归的优势和局限性相比于传统的最小二乘回归,PLS回归具有以下优势:能够处理高维数据和多重共线性问题,对异常值和缺失数据有较强的鲁棒性,对小样本数据有较好的稳定性。

然而,PLS回归也存在一些局限性,例如对数据的敏感性较高,模型的解释性较差,难以挑选合适的隐藏变量数量。

5.PLS回归的使用在使用PLS回归时,需要注意选择合适的模型评估方法和隐藏变量数量。

常用的评估方法包括交叉验证和留一法。

此外,还需要注意数据预处理的方法,如中心化、标准化和异常值处理等。

对于隐藏变量数量的选择,可以通过观察坐标平方和贡献率图来确定。

pls最小二乘法

pls最小二乘法

偏最小二乘法
偏最小二乘法(Partial Least Squares, PLS)是一种多元统计分析方法,通常用于处理具有多个自变量(特征)和一个或多个因变量(响应变量)的数据集。

PLS的主要目标是通过线性组合自变量来建立与因变量之间的关系,同时减少自变量之间的多重共线性。

PLS的核心思想是将自变量和因变量进行分解,然后找到它们之间的最大协方差方向。

这种方法可以降低数据维度,同时保留与因变量相关性最高的信息。

PLS可以应用于回归问题和分类问题。

PLS的应用领域包括化学分析、生物信息学、工程、金融和其他领域,特别是在处理高维数据和样本较少的情况下,PLS可以帮助提高模型性能和降低过拟合的风险。

PLS方法通常包括以下步骤:
1. 数据准备:收集自变量和因变量的数据。

2. 标准化:对数据进行标准化处理,以确保不同变量的尺度一致。

3. 模型拟合:建立PLS模型,找到自变量和因变量之间的最大协方差方向。

4. 模型评估:评估模型的性能,通常使用交叉验证等方法。

5. 预测:使用训练好的PLS模型进行新数据的预测。

PLS有不同的变种,包括PLS回归(用于连续因变量),PLS-DA(用于分类问题),以及其他扩展。

这种方法在实际数据分析和建模中具有广泛的应用,可以帮助解决多变量数据分析中的问题。

两种偏最小二乘特征提取方法的比较

两种偏最小二乘特征提取方法的比较

两种偏最小二乘特征提取方法的比较偏最小二乘(PLS)是一种广泛应用于数据分析和特征提取的方法。

在实际应用中,我们常常会遇到需要对数据进行降维和提取有效特征的需求。

在PLS方法中,有两种常见的偏最小二乘特征提取方法,分别是PLS回归和PLS降维。

本文将对这两种方法进行比较,分析它们各自的特点和适用场景。

一、PLS回归PLS回归是一种基于偏最小二乘的预测建模方法,它通过最小化自变量和因变量之间的协方差来进行特征提取。

在PLS回归中,我们会将自变量和因变量分别投影到潜在变量空间中,然后通过构建潜在变量之间的线性关系来进行预测建模。

在特征提取方面,PLS 回归可以有效地捕捉自变量和因变量之间的相关信息,提取出对因变量影响较大的特征。

PLS回归的优点在于其能够处理多重共线性和高维数据,同时对噪声和异常值具有一定的鲁棒性。

在实际应用中,PLS回归常常用于预测建模和特征选择中。

PLS回归也存在一些缺点,例如在处理高度非线性的数据时效果欠佳,同时对于过拟合的数据也比较敏感。

二、PLS降维与PLS回归不同,PLS降维是一种直接针对自变量数据进行特征提取的方法。

在PLS 降维中,我们通过最小化自变量的协方差矩阵来选取最具代表性的特征,从而实现数据的降维和特征提取。

在特征提取方面,PLS降维可以有效地保留原始数据中的信息,并且能够捕捉数据中的主要结构和模式。

PLS回归和PLS降维是两种常用的偏最小二乘特征提取方法,在实际应用中各有其优点和局限。

在选择哪种方法时,我们需要根据具体的应用场景和需求来进行综合考虑。

一般来说,当我们需要进行预测建模和特征选择时,可以选择PLS回归方法;而当我们需要对数据进行降维和压缩时,则可以选择PLS降维方法。

我们也可以根据数据的特点和要求来选择合适的偏最小二乘特征提取方法,从而实现更加高效和准确的数据分析和建模。

【根据需求选择合适的偏最小二乘特征提取方法,可以帮助我们更好地处理数据并挖掘出其中的有效信息,从而实现更加准确和可靠的数据分析和预测。

偏最小二乘回归方法(PLS)

偏最小二乘回归方法(PLS)

偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。

多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。

而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。

为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。

最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。

它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。

近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。

偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。

它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。

偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。

下面将简单地叙述偏最小二乘回归的基本原理。

偏最小二乘法

偏最小二乘法

偏最小二乘法( PLS)是光谱多元定量校正最常用的一种方法, 已被广泛应用于近红外、红外、拉曼、核磁和质谱等波谱定量模型的建立, 几乎成为光谱分析中建立线性定量校正模型的通用方法〔1, 2〕。

近年来, 随着PLS方法在光谱分析尤其是分子光谱如近红外、红外和拉曼中应用的深入开展, PLS 方法还被用来解决模式识别、定量校正模型适用性判断以及异常样本检测等定性分析问题。

由于PLS方法同时从光谱阵和浓度阵中提取载荷和得分, 克服主成分分析( PCA)方法没有利用浓度阵的缺点, 可有效降维, 并消除光谱间可能存在的复共线关系, 因此取得令人非常满意的定性分析结果〔3 ~5〕。

本文主要介绍PLS方法在光谱定性分析方面的原理及应用实例。

偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。

该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。

如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS。

在PLS方法中用的是替潜变量,其数学基础是主成分分析。

替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。

在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。

§§ 6.3.1 基本原理6.3 偏最小二乘(PLS)为了叙述上的方便,我们首先引进“因子”的概念。

一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。

在主成分回归中,第一步,在矩阵X的本征矢量或因子数测试中,所处理的仅为X矩阵,而对于矩阵Y 中信息并未考虑。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。

多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。

而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。

为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。

最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。

它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。

近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。

偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。

它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。

偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。

下面将简单地叙述偏最小二乘回归的基本原理。

2 偏最小二乘法的工作目标2.1 偏最小二乘法的工作目标在一般的多元线性回归模型中,如果有一组因变量Y={y1,…,y q}和一组自变量X={x1,…,x p},当数据总体能够满足高斯—马尔科夫假设条件时,根据最小二乘法,有⋂Y=X(X T X)-1X T Y⋂Y将是Y的一个很好的估计量。

从这个公式容易看出,由于(X T X)必须是可逆矩阵,所以当X中的变量存在严重的多重相关性时,或者在X中的样本点数与变量个数相比显然过少时,这个最小二乘估计都会失效并将引发一系列应用方面的困难。

考虑到这个问题,偏最小二乘回归分析提出了采用成分提取的方法。

在主成分分析中,对于单张数据表X,为了找到能最好地概括原数据的综合变量,在X中提取了第一主成分F1,使得F1中所包含的原数据变异信息可达到最大,即Var(F1)→max在典型相关分析中,为了从整体上研究两个数据表之间的相关关系,分别在X和Y中提取了典型成分F1和G1,它们满足r(F1,G1) →maxF1T F1=1G1T G1=1在能够达到相关度最大的综合变量F1和G1之间,如果存在明显的相关关系,则可以认为,在两个数据表之间亦存在相关关系。

提取成分的做法在数据分析的方法中十分常见,除主成分、典型成分以外,常见到的还有Fisher判别法中的判别成分。

实际上,如果F是X数据表的某种成分,则意味着F是X中变量的某一线性组合F=Xa,而F作为一个综合变量,它在X中所综合提取的信息,将满足我们特殊的分析需要。

2.2 偏最小二乘回归分析的建模方法设有q个因变量{y1,…,y q}和p个自变量{x1,…,x p},为了研究因变量与自变量的统计关系,观测n个样本点,由此构成了自变量与因变量的数据表X=【x1,…,x p】n*p和Y=【y1,…,y q】n*q。

偏最小二乘法回归分别在X与Y中提取出t1和u1(也就是说,t1是x1,…,x p的线性组合,u1是y1,…,y q的线性组合)。

在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1)t1和u1应尽可能大地携带它们各自数据表中的变异信息(2)t1和u1的相关程度能达到最大这两个要求表明,t1和u1应尽可能好地代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后,偏最小二乘法回归分别实施X对t1的回归以及Y对t1的回归。

如果方程达到了满意的精度,则算法终止;否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。

如此递推,直到能达到一个较为满意的精度为止。

若最终对X共提取了m个成分t1,…,t m,偏最小二乘法回归将通过实施Y K 对t1,…,t m的回归,然后再表达成Y K关于原变量x1,…,x p的回归方程,k=1,…,q。

3 计算方法推导3.1 普遍采用的计算推导过程为了数学推导方便起见,首先将数据做标准化处理。

X 经标准化处理后的数据矩阵记为E 0=(E 01,…,E 0P )n*p ,Y 经过标准化处理后的数据矩阵记为F 0=(F 01,…,F 0q )n*q 。

第一步,记t 1是E 0的第一个成分,t 1=E 0w 1, w 1是E 0的第一个轴,它是一个单位向量,即||w 1||=1;记u 1是F 0的第一个成分,u 1=F 0c 1, c 1是F 0的第一个轴,它是一个单位向量,即||c 1||=1。

如果要t 1,u 1能分别很好德代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(t 1)→max Var(u 1)→max另一方面,由于回归建模的需要,又要求t 1对u 1有最大的解释能力,由典型相关分析的思路,t 1与u 1的相关度应达到最大值,即r(t 1,u 1)→max因此综合起来,在偏最小二乘回归中,我们要求t 1与u 1协方差达到最大,即 Cov(t 1,u 1)=即求解下列优化问题max<E 0w 1,F 0C 1>w 1T w 1=1 (3-1) c 1T c 1=1因此,将在||w 1||=1和||c 1||=1的约束条件下,去求(w 1T E 0T F 0c 1)的最大值。

此种情况下我们就可以用拉格朗日算法求其最优解,记s= w 1T E 0T F 0c 1-λ1(w 1T w 1-1)- λ2(c 1T c 1-1)对s 分别求关于w 1、c 1、λ1、λ2的偏导,并令之为零,有=∂∂1sw E 0T F 0c 1-2λ1 w 1=0 (3-2)=∂∂1c sF 0T E 0w 1-2λ2 c 1=0 (3-3) =∂∂1sλ -( w 1T w 1-1)=0 (3-4) =∂∂2sλ -( c 1T c 1-1)=0 (3-5)由(3-2)~(3-5)可以推出2λ1=2λ2= w 1T E 0T F 0c 1=<E 0w 1,F 0C 1>记ϴ1=2λ1=2λ2= w 1T E 0T F 0c 1,所以ϴ1是优化问题的目标函数值。

把式(3-2)和式(3-3)写成E 0TF 0c 1= ϴ1 w 1 (3-6) F 0T E 0w 1= ϴ1 c 1 (3-7) 将式(3-7)代入式(3-6),有E 0TF 0F 0T E 0w 1= ϴ12 w 1 (3-8)由式(3-8)可知,w 1是矩阵E 0T F 0F 0T E 0特征向量,对应的特征值为ϴ12,ϴ1是目标函数值,要求取得其最大值,所以w 1是对应于矩阵E 0T F 0F 0T E 0最大特征值ϴ12的单位特征向量。

求得轴w 1和c 1后,即可得到成分t 1=E 0w 1 u 1=F 0c 1然后,分别求E 0和F 0对t 1和u 1的回归方程11101*1101110,,F r t F FQ u F E P t E T T +=+=+=其中,21101/t t E P T=,21101/u u F Q T=,向量21101/t t F r T=;E 1,F 1*,F 1为回归方程的残差矩阵。

第2成分t 2的提取,以E 1取代E 0 , F 1取代F 0 , 用上面的方法求第2个轴W 2和第2个成分t 2 ,有11211112,W E t F E F E W TT==同样,E 1 , F 1分别对t 2做回归, 得到22212221,F r t F E P t E T T +=+=同理可推得第h 成分t h , h 的个数可以用交叉有效性原则进行, h 小于X 的秩。

如此计算下去,如果X 的秩为A ,则会有E 0=t 1P 1T +…+t A P A TF 0= t 1r 1T +…+t A r A T +F A由于t 1,…,t A 均可以表示成E 01,…,E 0P 的线性组合,因此,上式可以还原成Y K = F 0K 关于X J =E 0J的回归方程形式Y K =b k1X 1+…+ b kP X P +F AK k=1,..,q3.2一种简洁的计算推导过程3.1中介绍的推导思路是最为常见的,在3.2中将介绍一种更为简洁的计算方法,即直接在E0,…,E m-1矩阵中提取成分t1,…,t m(m<p)。

要求t h能尽可能多地携带X中的信息,同时,t h对因变量系统F0有最大的解释能力。

这时无需在F0中提取成分u h,并且在迭代算法中也无需使用其残差矩阵,而始终直接用F0进行计算。

这可以使计算过程大为简化,并且对算法结论的解释也更为方便。

下面讨论成分t1,…,t m(m<=A,A=R(X))的一种新原则。

在3.1中推导偏最小二乘法回归算法时,第一步的思路是在因变量F0抽取一个成分u1=F0c1,同时在自变量E0中抽取一个成分t1=E0w1,成分的抽取原则是max<E0w1,F0C1>。

在这个原则下得知w1,c1,u1,t1的计算方法如下:(1)w1是矩阵E0T F0F0T E0最大特征值的特征向量,成分t1=E0w1;(2)c1是矩阵F0T E0E0T F0最大特征值的特征向量,成分u1=F0c1;在求得成分u1,t1以后,分别实施E0在t1上的回归,并生成残差矩阵E1,以及F0在t1上的回归,得到残差矩阵F1。

再以E1,F1取代E0,F0进行第二轮成分的提取计算,注意到成分u1,…,u m是不参加回归计算的,因此是否可以考虑不提取因变量的成分呢?为此,用下述原则提取比变量中的成分t2是与3.1中介绍的方法,结果是完全等价的,即由于F0K是标准化变量,所以Cov(F0K, E0w1)=r(F0K, E0w1)因此,该优化原则是求成分t1=E0w1,使得t1能携带尽可能多的E0变异,同时,t1对因变量F0K(k=1,…,q)的解释能力会综合达到最大值。

相关文档
最新文档