偏最小二乘回归分析案例
PLS偏最小二乘法

偏最小二乘法(Partial Least Square) 通过最小化误差平方来寻找数据与函数间的最佳匹配,是一种参数估计方法,一般估计步骤包括:首先将解释变量和被解释变量标准化,并提取解释变量和被解释变量的主成分,例如提取解释变量的主成分,要求与被解释变量高度相关,这个过程体现了典型相关和主成分分析的思想。
其次做解释变量和被解释变量在主成分上的回归,可以分别得到残差,这个还是OLS的思想。
最后,按以上的步骤循环下去,直到新的主成分系数不再显著。
其实PLS仍然是OLS的一种扩展,目前在解决多重共线性问题领域的研究很成熟。
一般认为比岭回归、主成分分析等方法在解决多重共线性问题上更为有效。
此外,PLS与结构方程(SEM)在应用上相得益彰,我们知道SEM是大样本理论的产物,因此其应用受到诸多限制,尤其在小样本下,该模型几乎无法应用,而PLS恰好可以弥补这方面的缺陷。
研究结论认为PLS 在非正态分布、小样本、共线性的情况下,仍然很稳定。
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1) 能够在自变量存在严重多重相关性的条件下进行回归建模;(2) 允许在样本点个数少于变量个数的条件下进行回归建模;(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5) 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘法是一种多因变量对多自变量的回归建模方法。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
第十一章 偏最小二乘法

u1 Y0c1
注意这里t1和u1分别为n维向量,是n个 个案在两组变量的主成分的取值。
2.建立回归方程
分别求X0和Y021 22 w'1X Y0c1 0
则 记
X Y0c1 1w1 0 0 Y0 X0w1 1c1 0
可得
X Y0Y0 X0w1 w1 0
2 1
Y 0 X0 X 0Y0c1 c
' '
2 1 1
可见,w1是矩阵的 X0Y0Y0X0 特征向量,对应 12 。所以w1是对应于矩阵 X0Y0Y0X0 的特征值为 12 的单位特征向量。而另一方面, 最大特征值 ' ' 12 的 c1是对应于 Y 0 X0 X 0Y0 矩阵最大特征值 单位特征向量c1。
求X组变量的第一主成分t1,w1为第一主成分 的系数向量, w1是一个单位向量。 t1=X0w1 求Y组变量的第一主成分t1,c1为第一主成分 的系数向量, c1是一个单位向量。 u1=Y0c1 有Var(t1)=max Var(u1)=max (t1, u1)=max
因此综合起来,在偏最小二乘回归中, 我们要求与的协方差达到最大,既
一、 偏最小二乘回归的建模原理和方法 (一)建模原理
设有 q个因变量{ y1, y2,…, yq}和p个自变量 { x1, x2,…, xp}。为了讨论两组变量之间的关系, 观测了n个样本点。偏最小二乘回归开始与典型 相关分析相同,分别在X与Y中提取出主成分。 设 { t1, t2,…, tr}为{ x1, x2,…, xp}的主成分, { u1, u2,…, ur}为{ y1, y2,…, yq},其中r=min(p,q)。
max X0 w1 , Y0c1 w1 ,c1 w1w1 1 cc 1 11
回归分析中的偏最小二乘回归模型应用技巧(Ⅲ)

回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
在实际应用中,常常会遇到变量间存在多重共线性或高维数据的情况,这时偏最小二乘回归模型(PLS回归)就显得尤为重要。
本文将介绍偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。
一、偏最小二乘回归模型的原理偏最小二乘回归模型是一种降维技术,它可以在解决多重共线性和高维数据问题时发挥作用。
其原理是将自变量和因变量在低维空间中表示,通过保留最大的协方差信息来建立预测模型。
与传统的多元线性回归相比,PLS回归可以更好地处理变量间的多重共线性,适用于高度相关的自变量或多元回归中自变量数量远远大于样本量的情况。
二、数据预处理在进行偏最小二乘回归分析之前,数据预处理是非常重要的一步。
首先,需要对数据进行标准化处理,使得所有的自变量和因变量都具有相同的尺度。
其次,对于存在缺失值或异常值的数据,需要进行适当的处理,以提高模型的稳定性和准确性。
最后,如果数据存在较大的噪声或离群点,可以考虑进行平滑处理或异常值检测,以减小数据中的随机误差。
三、变量选择在建立偏最小二乘回归模型时,变量选择是至关重要的一步。
PLS回归可以通过提取主成分的方式,自动选择对预测目标最为重要的自变量,减少不必要的信息冗余。
但在实际应用中,为了更好地理解模型,我们还是需要对变量进行合理的选择和筛选。
可以借助相关性分析、方差膨胀因子等方法,选取与因变量相关性较高且相互独立的自变量,以提高模型的解释性和预测准确性。
四、模型诊断建立偏最小二乘回归模型后,模型诊断是评估模型拟合效果和稳定性的重要手段。
可以利用残差分析、交叉验证等方法,检验模型的预测能力和稳健性。
另外,对于模型中存在的共线性问题,可以通过方差膨胀因子、特征值等指标进行诊断,及时调整模型结构,以提高模型的解释力和预测精度。
五、模型解释偏最小二乘回归模型不仅可以用于预测建模,还可以用于变量的重要性排序和解释。
在模型解释方面,可以利用变量负荷图、VIP值等方法,识别对因变量影响最大的自变量,并对其进行解释和解读。
回归分析中的偏最小二乘回归模型应用技巧(Ⅱ)

回归分析是统计学中一种重要的数据分析方法,它用于研究自变量与因变量之间的关系。
在实际应用中,回归分析可以帮助我们预测未来的趋势、评估影响因素、进行市场预测等。
而偏最小二乘回归模型(Partial Least Squares Regression, PLSR)作为一种回归分析方法,在一些特定领域有着非常明显的应用优势。
本文将探讨偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。
一、理解偏最小二乘回归模型的原理偏最小二乘回归模型是一种多元统计分析方法,它主要用于解决自变量之间存在多重共线性、因变量之间存在相关性等问题。
在传统的多元线性回归中,当自变量之间存在高度相关性时,会导致回归系数的估计不准确,甚至无法进行回归分析。
而偏最小二乘回归模型通过对自变量和因变量进行降维处理,找到最能解释因变量变异的新变量,从而避免了多重共线性和相关性带来的问题。
在偏最小二乘回归模型中,首先会将自变量和因变量进行主成分分析,得到新的主成分变量。
然后,通过最小二乘法对主成分变量进行回归分析,得到了偏最小二乘回归系数。
这些回归系数可以帮助我们理解自变量和因变量之间的关系,同时也可以用于预测和分析。
二、选择合适的偏最小二乘回归模型在应用偏最小二乘回归模型时,选择合适的模型是非常重要的。
首先,我们需要考虑自变量和因变量之间的关系是否符合线性关系。
如果存在非线性关系,可以考虑使用非线性偏最小二乘回归模型,或者对数据进行变换处理。
其次,我们需要考虑自变量和因变量的数量和相关性,以确定模型的复杂度和可解释性。
最后,我们还需要考虑模型的稳定性和预测能力,以确保选择的模型能够有效地解释数据和进行预测。
三、数据预处理在进行偏最小二乘回归分析之前,我们需要对数据进行预处理。
首先,我们需要对数据进行标准化处理,以消除不同变量之间的量纲差异。
其次,我们需要对数据进行缺失值处理和异常值处理,以确保数据的完整性和准确性。
最后,我们还可以考虑对自变量进行降维处理,以减少模型的复杂度和提高计算效率。
10.主成分回归偏最小二乘回归

偏最小二乘和主成分分析很相似,其差别在于用于描述
变量Y中因子的同时也用于描述变量X。 其数学模型为: 及
X TP E
Y UQ F
(9.4) (9.5)
此处,T和U的矩阵中的元素分别为X和Y的得分,而P和Q的
矩阵的元素分别为X和Y的载荷,E和F分别为运用偏最小二
乘模型法去拟合X和Y所带来的误差。
10. u 0 10
将t 对u作图,可显示出二者的线性关系,其斜率b = 0.53。
矩阵X的因子
t对矩阵Y的 因子u作图
二、偏最小二乘回归的建模步骤
Step1.将X与Y进行标准化处理,得到标准化后 的自变量矩阵E0=(E01,E02,…,E0P)n×p和因变 量矩阵 F0= (F01,F02,…,F0q)n×q 。 标准化处理的目的是为了公式表达上 的方便和减少运算误差。
偏最小二乘方法的基本思想
偏最小二乘方法(PLS-Partial Least Squares)首先产生于化学 领域,它是对最小二乘方法的推广。偏最小二乘法利用对数据 进行分解和筛选,提取对因变量解释最强的综合变量,剔除多 重相关信息和无解释意义的信息,从而克服了多变量多重共线x 性在建模中的不良影响。 偏最小二乘法和其他方法相比,具有简单稳健、计算量小、 预测精度高、不需要剔除任何解释变量和样本点的优点,因而 得到了广泛的应用。 近年来偏最小二乘得到了迅速的发展,并将继续向非线性化、 海量数据的处理方面发展。
T = XP(主成分分析) TP’ = XPP’ PP’ = I X = TP’(因子分析)
在理想的情况下,X中误差的来源和Y中的误差的来源完全
相同,即影响X与Y的因素相同。但实际上,X中误差与Y中误差 并不相关,因而T≠U,但当两个矩阵同时用于确定因子时,则 X和Y的因子具有如下关系:
线性回归之最小二乘法

1.最小二乘法的原理最小二乘法的主要思想是通过确定未知参数(通常是一个参数矩阵),来使得真实值和预测值的误差(也称残差)平方和最小,其计算公式为E=\sum_{i=0}^ne_i^2=\sum_{i=1}^n(y_i-\hat{y_i})^2 ,其中 y_i 是真实值,\hat y_i 是对应的预测值。
如下图所示(来源于维基百科,Krishnavedala 的作品),就是最小二乘法的一个示例,其中红色为数据点,蓝色为最小二乘法求得的最佳解,绿色即为误差。
图1图中有四个数据点分别为:(1, 6), (2, 5), (3, 7), (4, 10)。
在线性回归中,通常我们使用均方误差来作为损失函数,均方误差可以看作是最小二乘法中的 E 除以m(m 为样本个数),所以最小二乘法求出来的最优解就是将均方误差作为损失函数求出来的最优解。
对于图中这些一维特征的样本,我们的拟合函数为h_\theta(x)=\theta_0+\theta_1x ,所以损失函数为J(\theta_0,\theta_1)=\sum_\limits{i=0}^m(y^{(i)}-h_\theta(x^{(i)}))^2=\sum_\limits{i=0}^m(y^{(i)}-\theta_0-\theta_1x^{(i)})^2 (这里损失函数使用最小二乘法,并非均方误差),其中上标(i)表示第 i 个样本。
2.最小二乘法求解要使损失函数最小,可以将损失函数当作多元函数来处理,采用多元函数求偏导的方法来计算函数的极小值。
例如对于一维特征的最小二乘法, J(\theta_0,\theta_1) 分别对 \theta_0 , \theta_1 求偏导,令偏导等于 0 ,得:\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_0}=-2\sum_\limits{i=1}^{m}(y^{(i)}-\theta_0-\theta_1x^{(i)}) =0\tag{2.1}\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_1}=-2\sum_\limits{i=1}^{m}(y^{(i)}-\theta_0-\theta_1x^{(i)})x^{(i)} = 0\tag{2.2}联立两式,求解可得:\theta_0=\frac{\sum_\limits{i=1}^m(x^{(i)})^2\sum_\limits{i=1}^my^{(i)}-\sum_\limits{i=1}^mx^{(i)}\sum_\limits{i=1}^mx^{(i)}y^{(i)}}{m\sum_\limits{i=1}^m(x^{(i)})^2-(\sum_\limits{i=1}^mx^{(i)})^2} \tag{2.3}\theta_1=\frac{m\sum_\limits{i=1}^mx^{(i)}y^{(i)}-\sum_\limits{i=1}^mx^{(i)}\sum_\limits{i=1}^my^{(i)}}{m\sum_\limits{i=1}^m(x^{(i)})^2-(\sum_\limits{i=1}^mx^{(i)})^2} \tag{2.4}对于图 1 中的例子,代入公式进行计算,得: \theta_0 = 3.5, \theta_1=1.4,J(\theta) = 4.2 。
python实现plsr偏最小二乘回归底层逻辑
PLSR(偏最小二乘回归)是一种基于多元线性回归的统计方法,用于分析两个变量之间的关系。
在Python中,可以使用多种库来实现PLSR,其中一种常用的库是Scikit-Learn。
下面是一个简单的示例代码,展示了如何使用Scikit-Learn库实现PLSR的底层逻辑。
```pythonimport numpy as npfrom sklearn.cross_decomposition import PLSRegression# 生成训练数据X_train = np.random.rand(100, 5)y_train = 2 * X_train[:, 0] + np.random.randn(100)# 生成测试数据X_test = np.random.rand(10, 5)# 创建PLSRegression模型对象pls = PLSRegression(n_components=2)# 使用训练数据拟合模型pls.fit(X_train, y_train)# 使用测试数据进行预测y_pred = pls.predict(X_test)# 输出预测结果print(y_pred)```上述代码中,我们首先使用NumPy库生成了训练数据和测试数据。
训练数据是一个包含5个特征的随机矩阵,目标变量y_train是一个与训练数据相关联的随机向量。
测试数据是一个包含10个样本的随机矩阵,用于评估模型的预测性能。
接下来,我们使用Scikit-Learn库中的PLSRegression类创建了一个PLSRegression模型对象。
该类接受一个参数n_components,指定了PLS回归中的主成分数量。
在这个例子中,我们使用n_components=2来指定我们希望拟合两个主成分。
然后,我们使用训练数据拟合模型,通过调用fit方法将训练数据传递给模型进行训练。
拟合完成后,我们可以使用测试数据进行预测,通过调用predict方法将测试数据传递给模型进行预测。
最小二乘法在回归分析和趋势预测中的应用
最小二乘法在回归分析和趋势预测中的应用最小平方法,又称最小二乘法。
其方法的计算依据是利用算术平均数的数学性质,在我们介绍算术平均数的数学性质时,有两条性质分别是:一、各个变量值与平均数的离差之和等于零,用表达式表示即0)(=-∑x x ;二、各个变量值与平均数的离差平方之和为最小值,用表达式表示为最小值=-∑2)(x x 。
这两条数学性质已证明过,我们把它们应用到回归分析和趋势预测中来。
回归分析和时间序列趋势预测中,主要是为求得回归方程或趋势方程,但在求得方程的参数时,就要用到上面的两条数学性质。
最小平方法的数学依据是实际值(观察值)与理论值(趋势值)的离差平方和为最小。
据此来拟合回归方程或趋势方程。
1、利用最小平方法拟合直线回归方程拟合直线回归方程的主要问题就在于估计待定参数a 和b 之值,而用最小平方法求出的回归直线是原有资料的“最佳”拟合直线。
假设直线回归方程为:bx a y c +=,其中a 是直线的截距,b 是直线的斜率,称回归系数。
a 和b 都是待定参数。
将给定的自变量x 之值代入上述方程中,可求出估计的因变量y 之值。
这个估计值不是一个确定的数值,而是y 许多可能取值的平均数,所以用c y 表示。
当x 取某一个值时,y 有多个可能值。
因此,将给定的x 值代入方程后得出的c y 值,只能看作是一种平均数或期望值。
配合直线方程的具体方法如下:∑=-=最小值2)(c y y Q (1) 用直线方程bx a y c +=代入式(1)得:最小值=--=∑2)(bx a y Q (2) 分别求Q 关于a 和Q 关于b 的偏导,并令它们等于0: 整理后得出由下列两个方程式所组成的标准方程组:⎩⎨⎧+=+=∑∑∑∑∑2x b x a xy x b na y (3)根据已知的或样本的相应资料x 、y 值代入式(3),可求出a 和b 两个参数:⎪⎪⎩⎪⎪⎨⎧-=--=∑∑∑∑∑∑∑n x b n y a x x n y x xy n b 22)( (4)只要把a 和b 两个参数代入c y ,就可得到直线回归方程bx a y c +=。
Mathematica偏导数最小二乘法(线性回归)
Mathematica偏导数最⼩⼆乘法(线性回归)a = 2/123a //输出的还是2/123N[a] //输出的就是⼩数点N[a,2] //保留三位⼩数点Clear[a]Solve[2== x^2-7 , x] //结果-3 和 3Plot[Sin[x], {x, 0, pi}]Integrate[1/(1 - x^3), x]Log[1] = 0积分中的积分d ⼀定适⽤esc dd 打出来的或者\[DifferentialD].求导:f = 1/(1+x)D[f,x] 也就是f'(x)D[f, {x, 2}] ⼆阶导ScientificForm[0.0000125] = 1.25 * (10^-5) //这种是科学计数微分:DSolve[{y'[x] - 2*y[x] == 0}, y[x], x] //不带初值DSolve[{y'[x] - 2*y[x] == 0, y[0] == 1}, y[x], x] //初值微分⽅程y'-2y=0 y[0]=1绘图:1,one dim⼀元函数2,画带有积分的⼀元函数要注意:参数⽅程:x=(sin t) ^3y=(cos t) ^3同时绘制2个参数图:参数图并且求导:三维参数图:r(t ) = (cos t)i + (sin t)j + (sin2t)kz = x^2 + y^2ContourPlot3D[x^2 + y^2 == z, {x, -3, 3}, {y, -3, 3}, {z, -18, 18}, PlotLabel -> "x^2+y^2=z"]2,:z^2 + x^2 -y^2=13 ⼆元函数:⼆元函数的图形是三维坐标空间的⼀个点集. 所以⼆元函数形式为f(x,y) ,f(x,y)= c ,就是等位线(等⾼线)⽅程。
画 (a)⼆元函数给定的曲⾯,(b)并且画等⾼线(等位线),(c)并且画f 给定点的等⾼线(等位线)4,三元函数:三元函数的的图形是四维空间的⼀个点集. 所以画三元函数的⼀些等⾼线便于理解三元函数.例如:f(x,y,z) = 4Ln(x^2 + y^2 + z^2)可以画f(x,y,z) = 0 ,f(x,y,z)=1 .... 三维等位⾯图形。
偏最小二乘回归分析spss
偏最小二乘回归分析spss
最小二乘(OLS)回归分析是一种常用的统计学分析方法,它可
以通过解决拟合曲线与数据点之间的差别来解释变量和结果之间的关系。
有时,当我们需要研究多个因变量对结果变量的影响时,就需要
使用偏最小二乘(PLS)回归。
偏最小二乘(PLS)回归是一种线性回
归分析,它可以允许被解释变量(X)具有多种类型,并且不一定非常
相关。
PLS回归能够捕捉复杂的多变量因果关系,能够处理大量的变量,以及解释变量和结果变量之间的非线性关系。
在统计包spss中,偏最小二乘回归分析可以通过“定性结构模型”模块进行。
在该模块中,用户可以指定一组被解释变量(X)和一
个结果变量(Y),然后运行偏最小二乘回归分析。
spss会生成回归系数、检验结果和预测结果,这些信息将帮助用户更好地理解被解释变
量与结果变量之间的关系。
此外,spss还为用户提供了可视化工具,用户可以使用它来更直观地查看偏最小二乘回归的结果。
例如,用户可以根据被解释变量的
类型创建直方图,以查看其与结果变量之间的关系,这有助于更准确
地了解解释变量和结果变量之间的关系。
因此,偏最小二乘回归分析是一种有用的统计分析方法,与spss 的定性结构模型模块结合,可以帮助用户更好地理解多变量之间的关系。
如果你正在研究多个因素对结果变量的影响,那么使用偏最小二
乘回归分析可能会是一个明智的选择。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归分析案例
偏最小二乘(PLS)回归方法,用来解决两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量)。
偏最小二乘回归是一种多对多线性回归建模的方法,当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。
偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。
接下来让我们通过例子来学习偏最小二乘回归分析的建模方法。
#偏最小二乘回归
考虑p 个变量y1 , y2 ,... , yp " 与m 个自变量x1 , x2 ,... , xm " 的建模问题。
偏最小二乘回归的基本作法是首先在自变量集中提出第一成分
t1 ( t1 是x1 ,... , xm" 的线性组合,且尽可能多地提取原自变量集中的变异信息);
同时在因变量集中也提取第一成分u1 ,并要求t1 与u1 相关程度达到最大。
然后建立因变量y1, ..., yp与t1的回归,如果回归方程已达到满意的精度,则算法中止。
否则继续第二对成分的提取,直到能达到满意的精度为止。
若最终对自变量集提取r 个成分t1 ,t2 ,... ,tr ,偏最小二乘回归将通过建立y1 ,... , yp 与t1 ,t2 ,... ,tr 的回归式,然后再表示为
y1 ,... , yp " 与原自变量的回归方程式,即偏最小二乘回归方程式。
为了方便起见,不妨假定p 个因变量y1 ,... , yp 与m 个自变量x1 ,... , xm 均为标准化变量。
因变量组和自变量组的n 次标准化观测数据阵分别记为
偏最小二乘回归分析建模的具体步骤如下:
1.分别提取两变量组的第一对成分,并使之相关性达最大。
假设从两组变量分别提出第一对成分为t1 和u1 ,t1 是自变量集X (x1 ,... , xm )T = 1 的线性组合:
u1 是因变量集的线性组合:
为了回归分析的需要,要求:
1.1 t1 和u1 各自尽可能多地提取所在变量组的变异信息;
1.2 t1 和u1 的相关程度达到最大。
由两组变量集的标准化观测数据阵E0 和F0 ,可以计算第一对成分的得分向量,记为tˆ1 和uˆ1 :
第一对成分t1 和u1 的协方差Cov(t1 ,u1 ) , 可用第一对成分
的得分向量tˆ1 和uˆ1 的内积来计算。
故而以上两个要求可化为数学上的条件极值问题:
利用Lagrange乘数法,问题化为求单位向量w1和v1,使
最大。
问题的求解只须通过计算m× m 矩阵的特征值和特征向量。
且M 的最大特征值为θ12 ,相应的单位特征向量就是所求的解w1,而v1 可由w1计算得到
2.建立y1 ,... , yp " 对t1 的回归及x1 ,... ,xm " 对t1 的回归。
假定回归模型为
其中
分别是多对一的回归模型中的参数向量,E1和F1是残差阵。
回归系数向量α1 , β1 的最小二乘估计称α1 , β1 为模型效应负荷量。
3.用残差阵E1和F1代替E0 和F0 重复以上步骤。
记
则残差阵
如果残差阵F1 中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分。
否则用残差阵E1和F1代替E0 和F0 重复以上步骤即得:
分别为第二对成分的权数。
而v 为第二对成分的得分向量。
分别为X ,Y 的第二对成分的负荷量。
这时有
4.设n × m 数据阵E0 的秩为r ≤ min(n −1,m) ,则存在r 个成分t1 ,t2 , ...,tr " ,使得
把tA=wk1x1+...+wkmxm(k=1,2,...,,r)
代入Y = t1β1 +...+ tr βr ,即得p 个因变量的偏最小二乘回归方程式
5.交叉有效性检验。
一般情况下,偏最小二乘法并不需要选用存在的r 个成分
t1 ,t2 ,... ,tr来建立回归式,而像主成分分析一样,只选用前l个成分(l ≤ r ),即可得到预测能力较好的回归模型。
对于建模所需提取的主成分个数l,可以通过交叉有效性检验来确定。
每次舍去第i 个观测(i = 1,2,", n ),用余下的n −1个观测值按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到yj ( j =1,2,.. , p) 在第i 个观测点上的预测值yˆ(i)j(h) 。
对i = 1,2,..., n 重复以上的验证,即得抽取h 个成分时第j 个因变量yj ( j =1,2,.. , p) " 的预测误差平方和为
Y= ( y1 ,... , yp ) T的预测误差平方和为
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这时,记第i 个样本点的预测值为yijˆ (h) ,则可以定义yj 的误差平方和为
定义Y 的误差平方和为
当PRESS(h) 达到最小值时,对应的h 即为所求的成分个数。
通常,总有PRESS(h) 大于SS(h) ,而SS(h) 则小于SS(h −1)。
因此,在提取成分时,总希望比值PRESS(h) SS(h −1) 越小越好;一般可设定限制值为0.05,即当
增加成分t h有利于模型精度的提高。
或者反过来说,当
就认为增加新的成分th ,对减少方程的预测误差无明显的改善作用。
为此,定义交叉有效性为
这样,在建模的每一步计算结束前,均进行交叉有效性检验,如果在第h 步有
则模型达到精度要求,可停止提取成分;若Qh2 ≥0.0975 ,表示第h 步提取的th 成分的边际贡献显著,应继续第h +1步计算。