偏最小二乘回归方法课件

偏最小二乘回归方法(PLS)

偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中，多元线性回归分析是一种普遍应用的统计分析与预测技术。

多元线性回归中，一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数，以使残差平方和达到最小，但当自变量之间存在多重相关性时，最小二乘估计方法往往失效。

而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重，但又普遍存在。

为消除这种影响，常采用主成分分析(principal Components Analysis :PCA)的方法，但采用主成分分析提取的主成分，虽然能较好地概括自变量系统中的信息，却带进了许多无用的噪声，从而对因变量缺乏解释能力。

最小偏二乘回归方法(Partial Least Squares Regression：PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。

它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。

近十年来，偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展，己经广泛地应用在许多领域，如生物信息学、机器学习和文本分类等领域。

偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模，它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。

它不再是直接考虑因变量集合与自变量集合的回归建模，而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分)，然后对它们进行回归建模。

偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来，可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析)，即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。

下面将简单地叙述偏最小二乘回归的基本原理。

偏最小二乘回归分析

x y xy 101.8389 b 2 2 , x x a y b x -28.6883
y
2 [ y ( a bx )] i i
n2
0.931912
利用肖维涅舍弃判据来剔除测量值中带有粗差的数据，列表如下（n=16时,Cu=2.15)：
递推关系:
P0(x)=1, P1(x)=x,
2 P2 ( x) 1 ( 3 x 1) 2
则： a 28.7 0.4 b 101.8 0.1
即回归方程为：
y 28.7 101.8 x
附：临界相关系数 R表
N-2 a
0.05 0.01
1
2
3
4
5
6
7
8
9
10
0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576 1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.707
1.3 相关关系
相关关系的描述相关关系最直观的描述方式——坐标图（散点图）
非线性相关
零相关
正相关
负相关
相关系数 — 相关程度的度量
X和Y的总体相关系数： •
Cov( X , Y ) Var ( X )Var (Y )
其中： Var(X)-----X 的方差 Var(Y)-----Y的方差 Cov（X，Y）-----X和Y的协方差
解： 1.列表
n x
y x2 y2 xy
1 2 3 4 5 6 7 8 9
1.11
82.5 1.2321 6806.25 91.575

偏最小二乘课件

20/45
2019/3/13
算法流程
每次舍去第 i 个观测数据（ i 1,2, ，对余下 , n）
的 n 1个观测数据用偏最小二乘回归方法建模，并考虑抽取 h （ h r ）个成分后拟合的回归式，然后把舍去的自变量组第 i 个观测数据代入所拟合的回归方程式，得到 y j ( j 1,2, ˆ ( h) 。 b
5/45
2019/3/13
简介
偏最小二乘回归分析在建模过程中集成了主成分分析、典型相关分析和线性回归分析方法的特点，因此在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究内容，提供一些更丰富、深入的信息。
6/45
2019/3/13
简介
（6）
16/45
2019/3/13
算法流程
（3）用残差阵 A1 和 B1 代替 A和 B 重复以上步骤。 ˆ u ˆ， ˆ u ˆ1 (1)T ， B ˆ1 (1)T ，则残差阵 E1 A A 记A ˆ 。如果残差阵 B 中元素的绝对值近似为 0， B1 B B 1 则认为用第一个成分建立的回归式精度已满足需要了，可以停止抽取成分。否则用残差阵 A1 和 B1 代替 A和 B 重复以上步骤即得
4. 否则继续对第二成分的提取，直到能达到满意的精度为止。 5. 若最终对自变量集提取 r 个成分 u1 , u2 , 二乘回归将建立 y1 , 6. 最后表示为 y1 ,
, ur ，偏最小
, y p 与 u1 , u2 ,
, ur 的回归方程。
, y p 与原自变量的回归方程，即偏
最小二乘回归方程式。
分别为 X ,Y 的第二对成分的负荷量。这时有 (1)T ( 2)T ˆ ˆ A u u A2 , 1 2 (1)T ( 2)T ˆ ˆ B u u B2 . 1 2

专题6偏最小二乘回归ppt课件

基于这个应用的需要,S.Wold和C.Alb ano等人于1983年首次提出了PLS回归方法并首先在化工领域取得了广泛的应用。
3
一、偏最小二乘回归概述——偏最小二乘回归方法的产生背景(续)
在国内,最早对此进行系统研究的学者是北京航空航天大学的王惠文教授。
4
一、偏最小二乘回归概述
偏最小二乘回归的基本思想
2 T
。一般地,若有ˆT2
ˆ
2 B
,
则回归方程会有更好的预测效果;若
ˆT2
ˆ
2 B
,
则回归方程不宜用于预测。
22
二、偏最小二乘回归的建模步骤
在PLS建模中,究竟该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成2部分:第1部分除去某个样本点i的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程, 得到 y j 在样本点i上的拟合值 yˆ hj(i)。
显提高。
26
三、偏最小二乘回归的辅助分析技术
与典型相关分析对应的研究内容与主成分分析对应的研究内容
27
三、偏最小二乘回归的辅助分析技术
与典型相关分析对应的研究内容
1.精度分析
(1)th对某自变量xj的解释能力为
Rd (xj ;th ) r2 (xj ,th )
(2)th对X的解释能力为
1 p
m
Rd (xj ;t1,t2, ,tm ) Rd (xj ;th ) h1
(5)th对某因变量yk的解释能力为 Rd ( yk ;th ) r2 ( yk ;th )

偏最小二乘法

for i=1:n %以下计算 w，w*和 t 的得分向量，
matrix=e0'*f0*f0'*e0; [vec,val]=eig(matrix); %求特征值和特征向量 val=diag(val); %提出对角线元素
[val,ind]=sort(val,'descend'); w(:,i)=vec(:,ind(1)); %提出最大特征值对应的特征向量 w_star(:,i)=chg*w(:,i); %计算 w*的取值 t(:,i)=e0*w(:,i); %计算成分 ti 的得分 alpha=e0'*t(:,i)/(t(:,i)'*t(:,i)); %计算 alpha_i chg=chg*(eye(n)-w(:,i)*alpha'); %计算 w 到 w*的变换矩阵 e=e0-t(:,i)*alpha'; %计算残差矩阵
在上式中， p1
X
T α
t1 2
， s1
YαT t1 2
； X β 、Yβ 为回归方程的残差矩阵。
（2）第2个成分 t2 的提取
以 X β 取代 X α ，以Yβ 取代Yα ，用求 t1 的方法，求到第2个轴 w2 以及第2个成分 t2 。
w2
X
T β
Yβ
X
T β
Yβ
同样， X β 、Yβ 分别对 t2 进行回归，得到 X β 、Yβ 对 t2 的回归方程： X β t2 p2T X δ
6.119 6.9293 6.934 6.1524 7.4984 7.35 7.1299 7.8258 8.9597 8.1966 8.5688 8.5383 9.3404 9.2511 9.4694 9.9961 10.5853 10.616 10.0119 10.0782 11.2238 11.4733 11.3371 11.4427 12.7513 12.3517 12.1622 12.1067 13.2551 13.8308 13.7943 13.9619

偏最小二乘回归方法(PLS)

偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中，多元线性回归分析是一种普遍应用的统计分析与预测技术。

多元线性回归中，一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数，以使残差平方和达到最小，但当自变量之间存在多重相关性时，最小二乘估计方法往往失效。

而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重，但又普遍存在。

为消除这种影响，常采用主成分分析(principal Components Analysis :PCA)的方法，但采用主成分分析提取的主成分，虽然能较好地概括自变量系统中的信息，却带进了许多无用的噪声，从而对因变量缺乏解释能力。

最小偏二乘回归方法(Partial Least Squares Regression：PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。

它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。

近十年来，偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展，己经广泛地应用在许多领域，如生物信息学、机器学习和文本分类等领域。

偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模，它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。

它不再是直接考虑因变量集合与自变量集合的回归建模，而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分)，然后对它们进行回归建模。

偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来，可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析)，即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。

下面将简单地叙述偏最小二乘回归的基本原理。

偏最小二乘方法

75 152 102 91
X2
63 96
132 218
82 176
36 74
69 157 124 51
2 7 5
Y
4
3
3
9 12 3
6
8
2
由此得到的B矩阵为：
0.71 0.18 0.42
B2
0.42 0.24
0.19 0.20
0.20 0.03
0.12 0.03
0.01
对于此模型，Err=0.07。它比前者为小，这就意味着对于矩阵Y，第二个数学模型比第个要更有效，这是一种假象。由于X中引入最后一列，使得B2中上部3*3部分与前边所提B不相等（B为真实模型）。由B2计算所得Y尽管误差要小，但其数学模型所描述的自变量与因变量间的关系并不真实。其原因主要为多元线性回归方法是采用整个X矩阵来建立数学模型，而并不顾及在X中的信息与真实模型相关与否。很显然，若所得结果偏离了其实际数学模型，则对于未知试样的预测也是错误的。
事实上，完全满足上述条件比较困难。当噪声较强，或干扰较严重时，有可能导致所得数学模型失真，如下例：
75 152 102
X
63
132
82
96 218 176
69
157
124
2 7 5
Y
4
3
3
9 12 3
6
8
2
运用式(6.3)则可得B矩阵：
0.71 0.55 0.48 B 0.42 0.41 0.24
为了克服多元线性回归的不足，在数学方法上引进了主成分回归方法（PCR）。
§ 6.2 主成分回归
主成分回归可分为两步：测定主成分数，并由主成分分析将X矩阵降维；对于降维的X矩阵再进行线性回归分析。

偏最小二乘回归方法

偏最小二乘回归方法嘿，朋友们！今天咱来聊聊偏最小二乘回归方法。

这玩意儿啊，就像是一把神奇的钥匙，能打开好多数据背后隐藏的秘密大门呢！你想想看，我们生活中有那么多的数据，就像一堆乱麻。

而偏最小二乘回归方法呢，就像一个超级厉害的理线小能手，能把这些乱麻给理顺咯！它能从那些看似杂乱无章的数据中找出规律来，是不是很神奇呀！比如说，你想知道气温和冰淇淋销量之间的关系。

如果光靠眼睛看，那可真是两眼一抹黑，啥也看不出来。

但用了偏最小二乘回归方法，嘿，它就能帮你找到其中的关联啦！它能把那些复杂的数据关系变得清晰明了，就好像在黑暗中给你点亮了一盏明灯。

它可不只是能处理简单的问题哦！不管是多么复杂的数据情况，它都能迎刃而解。

这就好比一个经验丰富的老船长，不管是风平浪静的海面，还是波涛汹涌的大海，都能稳稳地驾驶着船只前进。

你再想想，如果没有这种方法，我们得在数据的海洋里迷失多久啊！那可真是像没头苍蝇一样乱撞。

但有了偏最小二乘回归方法，我们就有了方向，就可以朝着正确的目标前进啦！而且哦，它还特别灵活。

就像一个变形金刚一样，可以根据不同的情况变换自己的形态，去适应各种需求。

它能处理不同类型的数据，不同规模的数据，这多厉害呀！咱再打个比方，它就像是一个厨艺高超的大厨。

不管你给它什么食材，它都能变出美味的菜肴来。

是不是很牛？很多时候，我们面对那些密密麻麻的数据，会觉得头疼，不知道该怎么下手。

但有了偏最小二乘回归方法，就不用担心啦！它能帮我们把难题都解决掉。

它就像是我们在数据世界里的好伙伴，一直陪着我们，帮我们解决一个又一个的难题。

它让我们能更好地理解这个世界，更好地利用数据。

所以啊，朋友们，可千万别小瞧了偏最小二乘回归方法。

它可是我们探索数据世界的得力助手呢！让我们一起好好利用它，去发现更多的数据奥秘吧！。