偏最小二乘回归多元线性回归分析典型相关分析主成分分析
回归分析中的偏最小二乘回归模型应用技巧(Ⅲ)

回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
在实际应用中,常常会遇到变量间存在多重共线性或高维数据的情况,这时偏最小二乘回归模型(PLS回归)就显得尤为重要。
本文将介绍偏最小二乘回归模型的应用技巧,帮助读者更好地理解和运用这一方法。
一、偏最小二乘回归模型的原理偏最小二乘回归模型是一种降维技术,它可以在解决多重共线性和高维数据问题时发挥作用。
其原理是将自变量和因变量在低维空间中表示,通过保留最大的协方差信息来建立预测模型。
与传统的多元线性回归相比,PLS回归可以更好地处理变量间的多重共线性,适用于高度相关的自变量或多元回归中自变量数量远远大于样本量的情况。
二、数据预处理在进行偏最小二乘回归分析之前,数据预处理是非常重要的一步。
首先,需要对数据进行标准化处理,使得所有的自变量和因变量都具有相同的尺度。
其次,对于存在缺失值或异常值的数据,需要进行适当的处理,以提高模型的稳定性和准确性。
最后,如果数据存在较大的噪声或离群点,可以考虑进行平滑处理或异常值检测,以减小数据中的随机误差。
三、变量选择在建立偏最小二乘回归模型时,变量选择是至关重要的一步。
PLS回归可以通过提取主成分的方式,自动选择对预测目标最为重要的自变量,减少不必要的信息冗余。
但在实际应用中,为了更好地理解模型,我们还是需要对变量进行合理的选择和筛选。
可以借助相关性分析、方差膨胀因子等方法,选取与因变量相关性较高且相互独立的自变量,以提高模型的解释性和预测准确性。
四、模型诊断建立偏最小二乘回归模型后,模型诊断是评估模型拟合效果和稳定性的重要手段。
可以利用残差分析、交叉验证等方法,检验模型的预测能力和稳健性。
另外,对于模型中存在的共线性问题,可以通过方差膨胀因子、特征值等指标进行诊断,及时调整模型结构,以提高模型的解释力和预测精度。
五、模型解释偏最小二乘回归模型不仅可以用于预测建模,还可以用于变量的重要性排序和解释。
在模型解释方面,可以利用变量负荷图、VIP值等方法,识别对因变量影响最大的自变量,并对其进行解释和解读。
偏最小二乘法基本知识

偏最小二乘法(PLS)简介-数理统计偏最小二乘法partial least square method是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y 中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y= b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
多元线性回归分析的参数估计方法

多元线性回归分析的参数估计方法多元线性回归是一种常用的数据分析方法,用于探究自变量与因变量之间的关系。
在多元线性回归中,参数估计方法有多种,包括最小二乘估计、最大似然估计和贝叶斯估计等。
本文将重点讨论多元线性回归中的参数估计方法。
在多元线性回归中,最常用的参数估计方法是最小二乘估计(Ordinary Least Squares,OLS)。
最小二乘估计是一种求解最优参数的方法,通过最小化残差平方和来估计参数的取值。
具体而言,对于给定的自变量和因变量数据,最小二乘估计方法试图找到一组参数,使得预测值与观测值之间的残差平方和最小。
这样的估计方法具有几何和统计意义,可以用来描述变量之间的线性关系。
最小二乘估计方法有一系列优良的性质,比如无偏性、一致性和有效性。
其中,无偏性是指估计值的期望等于真实参数的值,即估计值不会出现系统性的偏差。
一致性是指当样本容量趋近无穷时,估计值趋近于真实参数的值。
有效性是指最小二乘估计具有最小的方差,即估计值的波动最小。
这些性质使得最小二乘估计成为了多元线性回归中最常用的参数估计方法。
然而,最小二乘估计方法在面对一些特殊情况时可能会出现问题。
比如,当自变量之间存在多重共线性时,最小二乘估计的解不存在或不唯一。
多重共线性是指自变量之间存在较高的相关性,导致在估计回归系数时出现不稳定或不准确的情况。
为了解决多重共线性问题,可以采用一些技术手段,如主成分回归和岭回归等。
另外一个常用的参数估计方法是最大似然估计(Maximum Likelihood Estimation,MLE)。
最大似然估计方法试图找到一组参数,使得给定样本观测值的条件下,观测到这些值的概率最大。
具体而言,最大似然估计方法通过构建似然函数,并对似然函数求导,找到能够最大化似然函数的参数取值。
最大似然估计方法在一定条件下具有良好的性质,比如一致性和渐近正态分布。
但是,在实际应用中,最大似然估计方法可能存在计算复杂度高、估计值不唯一等问题。
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析教学内容

(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
偏最小二乘法回归系数值

偏最小二乘法回归系数值一、偏最小二乘法回归系数值的定义偏最小二乘法回归系数值是用来量化自变量与因变量之间关系强度的参数,用来衡量自变量和因变量之间关系的强度和方向的统计量。
它通过最小化预测误差方和来估计回归系数,从而得到回归方程。
二、偏最小二乘法回归系数值的意义偏最小二乘法回归系数值是在回归分析中,偏最小二乘法是一种常用的方法,它通过对自变量和因变量进行线性回归分析,得出回归系数值,从而揭示出自变量对因变量的影响程度。
三、偏最小二乘法回归系数值的特点偏最小二乘法回归系数值的特点在于自变量的变换过程,它使用了典型相关分析的目标函数和主成分分析的约束方程,变换是求解组间相关性最强的变量,不过它的约束条件是控制变换向量的范数。
四、偏最小二乘法回归系数值的影响从形式上看,它使用了典型相关分析的目标函数和主成分分析的约束方程。
另一个角度看,偏最小二乘的回归参数也是使用最小二乘估计的,所以它在回归参数求解的时候,对于多个因变量的参数是单独求解的。
在偏最小二乘法回归分析中,回归系数值的正负表示自变量和因变量之间的相关关系方向,正值表示正相关,负值表示负相关。
回归系数值的绝对值大小则表示自变量对因变量的影响程度。
一般来说,如果回归系数值的绝对值较大,说明自变量对因变量的影响程度较大,反之则较小。
五、解释偏最小二乘法回归系数值的注意事项首先,回归系数值并不是一个概率或概率比值,它只表示自变量和因变量之间的相关关系强度和方向。
其次,回归系数值的大小并不代表预测的准确性,预测的准确性需要使用其他统计方法进行评估。
最后,回归系数值并不是固定不变的,它们会随着样本数据的变化而变化。
六、偏最小二乘回归系数值的计算步骤1.收集数据,建立样本矩阵。
2.对样本矩阵进行标准化处理。
3.计算样本矩阵的协方差矩阵。
4.对协方差矩阵进行特征值分解。
5.提取主成分,保留前k个主成分。
6.建立回归模型,使用主成分作为自变量,因变量为原始数据中的因变量。
偏最小二乘回归的应用效果分析

应 用 数 学M ATHE M ATIC A APP LIC AT A2004,17(增):140~143Ξ偏最小二乘回归的应用效果分析申艳,刘次华(华中科技大学数学系,武汉430074)摘要:本文介绍了偏最小二乘回归(P LS)的建模方法,比较了P LS与普通最小二乘回归(O LS)及主成分回归的应用效果,并总结了P LS回归的基本特点.关键词:多重共线性;偏最小二乘回归;最小二乘回归;主成分回归中图分类号:O212.1 AMS(2000)主题分类:62J05文献标识码:A 文章编号:100129847(2004)增20140204、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归便是常用的方法之一.一般采用普通最小二乘方法估计回归系数,可以使残差平方和达到最小,但当自变量之间存在多重共线性时,最小二乘估计方法往往失效,不仅增大了模型误差,而且使模型丧失稳健性.为消除系统中的多重共线性,常采用主成分回归的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力.近年来发展起来的偏最小二乘回归(P LS)研究的焦点是多因变量对多因变量回归建模,能在自变量之间存在多重共线性的条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力.考虑q个变量y1,…,y q与p个自变量x1,…,x p的建模问题.偏最小二乘回归的基本思想是首先在自变量集中提取第一成分t1(t1是x1,…,x p的线性组合,且尽可能多地携带原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达最大,然后建立因变量y1,…,y q与t1的回归方程,如果回归方程已达到满意的精度,则算法终止.否则继续第二成分的提取,直到能达到满意的精度为止.若最终对自变量集提取了l个成分t1,…,t l,偏最小二乘回归将通过建立y1,…,y q与t1,…,t l的回归方程式得出y1,…,y q与自变量x1,…,x p的回归方程式,即偏最小二乘回归方程式.首先将数据做标准化处理.记X=(x1,…,x p)n×p经标准化处理后的数据矩阵为E0= (E01,…,E0p)n×p,Y=(y1,…,y q)经标准化处理后的数据矩阵为F0=(F01…F0q)n×q第一步,记t1是E0的第一成分,t1=E0w1,w1是E0的第一个轴,且‖w1‖=1,记u1是F0的第一成分,u1=F0c1,c1是F0的第一个轴,且‖c1‖=1.如果要求t1,u1能分别很好地代表X 与Y中的数据变异信息,根据主成分分析原理,我们要求t1与u1标准差Var(t1),V(u1)趋于最大.另一方面t1对u1要有最大的解释能力,由典型相关分析的思路,t1与u1的相关度应达Ξ收稿日期:2004205213作者简介:申艳,女,讲师,华中科技大学数学系硕士,研究方向:概率与数理统计.到最大值,即r (t 1,u 1)→max ,综合起来就是要求t 1与u 1的协方差达到最大,即C ov (t 1,u 1)=Var (t 1)Var (u 1)r (t 1,u 1)→max ,也就是在‖w 1‖=1,‖c 1‖=1的约束条件下求w T 1E T 0F 0c 1的最大值.采用拉格朗日算法,记s =w T 1E Γ0F 0c 1-λ1(w T 1w 1-1)-λ2(c T1c 1-1),对s 分别求关于w 1,c 1,λ1和λ2的偏导,并令之为零,可以推出E T 0F 0F T 0E 0w 1=θ21w 1,F T 0E 0E T 0F 0c 1=θ21c 1,这里记θ1=2λ1=2λ2=w T 1E T0F 0c 1,容易看出θ1正是优化问题的目标函数值(要求θ1取最大值),w 1是对应于矩阵E T 0F 0F T 0E 0的最大特征值θ21的单位特征向量,c 1是对应于矩阵F T 0E 0E T 0F 0的最大特征值θ21的单位特征向量.求得w 1和c 1后,即可得成分t 1=E 0w 1,u 1=F 0c 1,然后,分别求E 0和F 0对t 1,u 1的三个回归方程E 0=t 1p T 1+E 1,F 0=u 1q T 1+F 31,F 0=t 1r T1+F 1,式中回归系数p 1=E T 0t 1‖t 1‖2,q 1=F T 0u 1‖u 1‖2,r 1=F T0t 1‖t 1‖2,而E 1,F 31,F 1分别是三个回归方程的残差矩阵.第二步用残差矩阵E 1和F 1取代E 0和F 0,用同样的方法求第二个轴w 2和c 2以及第二个成分t 2,u 2.如此计算下去,如果X 的秩是l ,则存在l 个成分t 1,t 2,…,t l ,使得E 0=t 1p T1+…+t l p T l ,F 0=t 1r T 1+…+t l r Tl +F l ,由于t 1,t 2,…,t l 均可以表示成E 01…E 0P 的线性组合,因此可得y 3k =F 0k ,关于x 3j =E 0j 的回归方程式,即y 3k =a k 1x 31+…+a kp x 3p +F lk ,k =1,2,…,q.一般情况下,偏最小二乘回归并不需要选用存在的l 个成分t 1,t 2,…,t l 来建立回归式,而像主成分分析一样,只选用前m 个成分(m ≤l ),即可得到预测能力较好的回归模型.下面讨论确定抽取成分个数m 的两种常用方法.(1)“舍2交叉验证法”:每次舍去第i 个观测(i =1,…,n ),用余下的n -1个观测按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到y j 在第i 个观测点上的预测值^y j (-i )(h ).对于每一个i =1,2,…,n ,重复以上测试,可得y j (j =1,2,…,q )的预测残差平方和为PR ESS j (h )=∑ni =1(yij-^y j (-i )(h ))2,(j=1,2,…,q ),Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).对抽取成分个数h 从1到A 逐个计算Y 的预测残差平方和PR ESS (h ),然后选取使Y 的预测残差平方和达到最小的h ,取m =h.(2)“Q 2h ”验证法:同方法(1)先算出Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).另外,再采用所有的样本点,拟合含h 个成分的回归方程,记yj在第i 个样本点的预测值为^y ji (h ),则可定义y j 的残差平方和为SS j (h )=∑n i =1(yij-^y ji (h ))2,Y =(y 1,…,y q )的残差平方和为SS (h )=∑qj -1SS j(h ).对于全部因变量Y ,成分th的交叉有效性可定义为Q 2h =1-PR ESS (h )SS (h -1),Q 2h ≥0.097时,表明加入成分能改善模型质量,否则不能.下面我们考察大学生的高考成绩对其大学成绩的影响.选取某高校学生的5门高考成绩141增刊 申艳等:偏最小二乘回归的应用效果分析为自变量X=(x1,x2,x3,x4,x5),其中x12语文,x22数学,x32英语,x42政治,x52历史.并以他们大学第一学期的高等数学成绩为因变量Y.对数据进行标准化处理,建立高考成绩对高等数学的P LS回归模型,有关数据见表1,表2.表1 成分与自变量的相关系数表t1t2t3t4t5E01-0.36740.76290.43190.1979-0.2392E020.8477-0.19340.10820.48080.0330E030.90370.12330.2718-0.25790.1669E040.35820.7693-0.34350.07290.3956E050.44510.4844-0.6779-0.1701-0.2807Y0.72120.20520.0657-0.02790.0002由表1可以看出,第一成分t1与自变量E02,E03的相关系数很高,因此t1是一个体现自变量系统中数学和英语的因子.表2 高等数学的P LS回归模型的精度分析表成分t1t2t3t4t5RdX0.39930.29220.16990.07420.0643累积RdX0.39930.69160.85150.9357 1.000RdY0.52010.04210.00430.00080.000累积RdY0.52010.56220.56650.56130.5673PRESS9.47129.846310.572911.064811.20044RdX=1p∑pj=1r2(x j,t h)表示成分t h对X的解释能力,RdY=1q∑qk=1r2(y k,t h)表示成分t h对Y的解释能力.由表2可以看出,第一主成分解释了自变量系统中39.93%的变异信息,同时解释了因变量系统中52.01%的变异信息,这反映出数学,英语对因变量系数的贡献最大.另一方面,当h=1时,预测残差平方和最小(PR ESS=9.4712),因此我们用第一成分t1来建立P LS 回归模型,对高等数学有较好的观测能力.P LS回归模型是F0=0.0454E01+0.3000E02+0.3725E03-0.0663E04+0.2019E05 为了比较P LS回归与最小二乘回归(O LS),主成分回归(PCR)的回归效果,建立其它几种回归关于高考成绩对高等数学的回归模型如下:1.普通最小二乘回归方程:F0=0.1153E01+0.2442E02+0.5045E03-0.0062E04+0.2210E05 2.主成分回归方程:(1)用两个主成分建立的回归方程:F0=-0.2370E01+0.5356E02+0.6058E03-0.1131E04+0.4659E05 (2)用三个主成分建立的回归方程:F0=0.0857E01+0.5917E02+0.6753E03-0.1155E04+0.3812E05回归系数的大小表示相关程度的高低,或者贡献率的高低.这三个模型回归系数的性质是一致的,都反映出数学,英语对因变量系数的贡献最大,与我们的定性认识比较符合.但从回归模型的预测残差平方和PRESS(下表)241应 用 数 学 2004O LSRPCR (2)PCR (3)P LSR PRESS15.224413.123112.78999.4712可以发现偏最小二乘回归的PRESS 最小,说明由偏最小二乘回归方程拟合的方程对样本点的变动而引起的扰动误差影响最小,可见偏最小二乘回归模型最理想.特别当自变量之间存在严重多重相关性时,P LS 方法的优越性更能充分显示出来.偏最小二乘回归有如下基本特点:(1)P LS 对数据拟合及预测精度和稳定性均高于最小二乘回归(O LS )与主成分回归.(2)P LS 回归可以较好地处理O LS 难以解决的问题.当自变量之间存在严重多重相关性时,使用O LS 无法建立模型.然而P LS 却能利用对系统中的数据信息进行分解和筛选,提取对因变量解释最强的综合变量,识别系统中的噪声,建立适当的模型.另一方面,O LS 建模时的样本数不宜太少,一般要求为拟合项的两倍以上,而P LS 回归却能在自变量多,样本数少的情况下建立精度较高的模型.(2)P LS 回归在建模的过程中集中了O LS 回归、主成分分析、典型相关分析三者的特点.因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息.参考文献:[1] 罗永泰,李小妹.高考入学成绩对后续课程影响的统计分析[J ].数理统计与管理,1996,15(2):14~16.[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.[3] 何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.[4] 茆诗松,王静龙.高等数理统计[M].高等教育出版社,2000.Analysis of Applied E ffect of P artial Least Squares R egressionSHEN Yan ,LIU Ci 2hua(Mathematics Department ,Huazhong Univer sity o f Science and Technology ,Wuhan 430074,China )Abstract :In the paper ,we introduced how to build partial least squares regression m odel and com 2pared the applied effect of P LS with O LS and PCR.K ey w ords :Partial least squares regression ;Multi 2correlation ;O LSR341增刊 申艳等:偏最小二乘回归的应用效果分析。
27第二十七章 偏最小二乘回归分析

线性组合: t1 = w11 x1 + L + w1m xm = w1 X , u1 是因变量集 Y = ( y1 ,L , y p ) 的线性组
T
T
合: u1 = v11 y1 + L + v1 p y p = v1 Y 。为了回归分析的需要,要求:
T
① t1 和 u1 各自尽可能多地提取所在变量组的变异信息; ② t1 和 u1 的相关程度达到最大。 由两组变量集的标准化观测数据阵 E0 和 F0 ,可以计算第一对成分的得分向量,记
2 ⎧α = E T tˆ t ˆ1 0 1 ⎪ 1 , ⎨ 2 T ˆ ˆ ⎪ ⎩β1 = F0 t1 t1
称 α1 , β1 为模型效应负荷量。
(3)用残差阵 E1 和 F1 代替 E0 和 F0 重复以上步骤。
ˆ = tˆ α , F ˆ = tˆ β ,则残差阵 E = E − E ˆ ,F = F − F ˆ 。如果残差阵 F 记E 1 0 1 1 0 1 1 1 0 0 1 0 0
-674-
ˆ1 和 u ˆ1 : 为t
⎡ x11 tˆ1 = E0 w1 = ⎢ ⎢ M ⎢ ⎣ xn1 ⎡ y11 ⎢ ˆ1 = F0 v1 = ⎢ M u ⎢ yn1 ⎣ L x1m ⎤ ⎡ w11 ⎤ ⎡t11 ⎤ ⎢ ⎥ ⎢ ⎥ M ⎥ ⎥⎢ M ⎥ = ⎢ M ⎥ L xnm ⎥ ⎦⎢ ⎣ w1m ⎥ ⎦ ⎢ ⎣t n1 ⎥ ⎦
⎡ y11 L y1 p ⎤ ⎡ x11 L x1m ⎤ ⎢ ⎥ F0 = ⎢ M M ⎥ , E0 = ⎢ M ⎥ ⎢M ⎥ ⎢ yn1 L ynp ⎥ ⎢ ⎥ x x L nm ⎦ ⎣ n1 ⎣ ⎦
偏最小二乘回归分析建模的具体步骤如下: (1)分别提取两变量组的第一对成分,并使之相关性达最大。 假设从两组变量分别提出第一对成分为 t1 和 u1 ,t1 是自变量集 X = ( x1 ,L , xm ) 的
偏最小二乘回归结果解读

偏最小二乘回归结果解读
偏最小二乘回归(Partial Least Squares Regression, PLSR)是一种多元线性回归方法,用于建立预测模型。
下面是对偏最小二乘回归结果的解读的一般步骤:
1. PLSR模型摘要:查看回归模型的总体概况,包括模型的拟合优度(如R-squared)以及交叉验证结果(如果进行了交叉验证)。
这可以帮助你评估模型的预测能力。
2. 系数权重解读:PLSR通过计算主成分来建立回归模型。
你可以查看每个主成分的系数权重,这些权重表示每个变量对预测结果的影响程度。
较大的正权重表示该变量对于结果的正相关性较强,较大的负权重表示该变量对于结果的负相关性较强。
3. 模型可解释性:对于每个主成分,查看其解释的方差百分比。
较高的百分比表示该主成分能够较好地解释结果的变异性。
你可以通过累计解释方差百分比来评估模型的整体解释能力。
4. 变量重要性:通过查看每个变量的VIP(Variable Importance in Projection)指标来评估变量的重要性。
VIP值越大,表示该变量在建立模型中的贡献越大。
5. 预测性能验证:使用交叉验证或独立测试数据集来评估模型的预测性能。
比较实际观测值和模型预测值之间的误差,例如均方根误差(Root Mean Squared Error, RMSE)或平均绝对误差(Mean Absolute Error, MAE)。
较小的误差值表示模型具有较好的预测能力。
请注意,上述步骤的具体解读可能因数据集和具体模型而异。
在解读偏最小二乘回归结果时,最好参考相应的文献、专业知识或咨询相关领域的专家以获取更准确的解释。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德与阿巴诺等人首次提出。
近十年来,它在理论、方法与应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论与方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解与筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法 1.1建模原理设有 q 个因变量{q y y ,...,1}与p 自变量{p x x ,...,1}。
为了研究因变量与自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}与.Y={q y y ,...,1}。
偏最小二乘回归分别在X 与Y 中提取出成分1t 与1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) 1t 与1u 应尽可能大地携带他们各自数据表中的变异信息; (2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 与1u 应尽可能好的代表数据表X 与Y,同时自变量的成分 1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 与 1u 被提取后,偏最小二乘回归分别实施X 对1t 的回归以及 Y 对1u 的回归。
如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。
如此往复,直到能达到一个较满意的精度为止。
若最终对 X 共提取了 m 个成分1t ,…,m t ,偏最小二乘回归将通过实施ky 对1t ,…,m t , 的回归,然后再表达成ky 关于原变量x 1,…,x m , 的回归方程,k=1,2,…,q 。
1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,既||1w ||=1。
记1u 是0F 的第一个成分,1u =0F c 1。
c 1是0F的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(1u )→max Var(1t )→max另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既r (1t ,1u )→max因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既Cov(1t ,1u )=)()(11u t Var Var r(1t ,1u )→max正规的数学表述应该是求解下列优化问题,既因此,将在||1w ||2=1与||c 1||2=1的约束条件下,去求(w '1E '0F 0c 1)的最大值。
如果采用拉格朗日算法,记s=w '1E '00F c 1-λ1 (w '11w -1)-λ2 (c '1c 1-1)对s 分别求关于1w ,c 1,λ1与λ2的偏导并令之为零,有 1w s∂∂=E '00F c 1-λ121w =0 (1 -2)1c s∂∂=F '00E 1w -λ22c 1=0 (1-3)1λ∂∂s =-(w '11w -1)=0 (1-4)2λ∂∂s=-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值. 把式(1-2)与式(1-3)写成11100'w c F E θ= (1-6)11100'c w E F θ= (1-7)将式(1-7)代入式(1-6),有121100'00'w w E F F E θ= (1-8)同理,可得121100'00'c c F E E F θ= (1-9)可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量.求得轴1w 与1c 后,即可得到成分然后,分别求0E 与0F 对1t ,1u 的三个回归方程 11'10E p t E +=(1-10)11'10*+=F q u F (1-11)11'10F r t F += (1-12)式中,回归系数向量是2110'1||||t t E p = (1-13)2110'1||||u u F q =(1-14)2110'1||||t t F r = (1-15) 而1E ,1*F ,1F 分别是三个回归方程的残差矩阵.第二步 用残差矩阵1E 与1F 取代0E 与0F ,然后,求第二个轴2w 与2c 以及第二个成分2t ,2u ,有2w 是对应于矩阵11'11'E F F E 最大特征值22θ的特征值, 2c 是对应于矩阵11'11'F E E F 最大特征值的特征向量.计算回归系数 因此,有回归方程如此计算下去,如果X 的秩是A ,则会有A A p t p t E '1'10++= (1-16)A A A F r t r t F +++='1'10 (1-17)由于,A t t ,,1 均可以表示成p E E 001,, 的线性组合,因此,式(1-17)还可以还原成k k F y 0*=关于k j E x 0*=的回归方程形式,即Ak p kp k k F x x y +++=**11*αα k=1,2,…,qAk F 是残差距阵A F 的第k 列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
在许多情形下,偏最小二乘回归方程并不需要选用全部的成分A t t ,,1 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分))(,(X A A m 秩=<,仅用这m 个后续的成分m t t ,,1 就可以得到一个预测性较好的模型。
事实上,如果后续的成分已经不能为解释0F 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。
在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。
下面的问题是怎样来确定所应提取的成分个数。
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。
我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量B b ,拟合值B y ˆ以及残差均方与2ˆB σ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出2ˆˆT T y σ和。
一般地,若有≈2ˆT σ2ˆB σ,则回归方程会有更好的预测效果。
若 >>2ˆT σ2ˆB σ,则回归方程不宜用于预测。
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成两部分:第一部分除去某个样本点i 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i 代入前面拟合的回归方程,得到j y 在样本点i上的拟合值)(ˆi hj y-。
对于每一个i =1,2,…,n,重复上述测试,则可以定义j y 的预测误差平方与为hj PRESS ,有∑=--=ni i hj ij hj yy PRESS 12)()ˆ( (1-18) 定义Y的预测误差平方与为h PRESS ,有∑==pj hj h PRESS PRESS 1(1-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大h PRESS 的值。
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这是,记第i 个样本点的预测值为hji yˆ,则可以记j y 的误差平方与为hj SS ,有 ∑=-=ni hji ij hj yy SS 12)ˆ( (1-20) 定义Y 的误差平方与为h SS ,有∑==pj hj h SS SS 1(1-21)一般说来,总是有h PRESS 大于h SS ,而h SS 则总是小于1-h SS 。
下面比较1-h SS 与h PRESS 。
1-h SS 是用全部样本点拟合的具有h-1个成分的方程的拟合误差; h PRESS 增加了一个成分h t ,但却含有样本点的扰动误差。
如果h 个成分的回归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分h t ,会使预测结果明显提高。