第十二讲多重线性回归资料

合集下载

第12章-多重线性回归分析

8
6 因变量总变异的分解
P
(X,Y)

Y
（Y Y）（Y Y）

（Y Y）
Y X

Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹？
瘦素
脂联 BMI 病程瘦素
脂联
(X3)

血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0： 1 2 3 4 0 ，即总体中各偏回归系数均为0； H 1：总体中各偏回归系数不为0或不全为0；
= 0.05。
2 计算检验统计量： 3 确定P值，作出推断结论。
拒绝H0，说明从整体上而言，用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因素，某医师测定30例患者的BMI、病程、瘦素、空腹血糖，数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86

卫生统计学：12多重线性回归分析

校正决定系数、Cp准则、AIC准则
逐步选择法
后退法前进法逐步回归法
（一）全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数（考虑了自变量的个数） Cp准则（C即criterion，p为所选模型中变量的个数；Cp接近（p+1）模型为最优） AIC (Akaike’s Information Criterion)准则；
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R （复相关系数）
0.884
R Square （决定系数）
0.781
Adj R-Sq （校正决定系数）
0.740
Std.Error of the Estimate （剩余标准差）
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000

课件：多重线性回归与相关

一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为确定系
数(coefficient of determination),或决定系数，记为R2 ，用于反映线性回归模型能在多大程度上解释反应变量Y的变异性。定义为R2 =SSR/SST.它的取值范围为0-1之间。它越接近1，表示样本数据很好地拟合了所选用线性回归模型。 R2直接反映了回归方程中所有自变量解释反应变量Y总变异的百分比，或者说， R2 也可以解释为回归方程使反应变量Y的总变异减少的百
的78.74%
复相关系数(multiple correlation
coefficient)R，定义为确定系数的算术平方根，
即 R
SSR 表示变量Y与k个自变量的线性相关的
SST
密切程度。
对本例R=0.8515。表示肺活量与三个自变量的复相关
系数为0.8515。
调整决定系数(Adjusted R-Square)
变异来源回归模型
残差总变异
SS
df
3.436
3
1.302 16 4.738 19
MS
F
P
1.145 14.067 <0.001
0.081
SS回它反应在Y的总变异中由于X与Y的直线关系而使 Y变异减少的部分.它越大说明回归效果越好. SS剩它反应X对Y的线性影响之外的一切因素对Y的变异的作用.它越小,说明直线回归的估计误差越小.
河北省省级精品课程
卫生统计学
课程负责人: 尹素凤
第12章多重线性回归与相关主讲人：武建辉
第十二章多重线性回归与相关
第一节第二节第三节第四节
多重线性回归的概念与统计描述多重线性回归的假设检验复相关系数与偏相关系数自变量筛选

多重线性回归

（2）有序多分类
• 按照有序的顺序，从低到高（或从小到大）依次赋值：0，1，2，…。
• 如：家庭月收入情况（元）：<50， 50-，500-，2000，≥10000分为5个等级，可依次赋值为：0，1，2，3，4。
（3）无序多分类
• 如：若设W代表血型变量，则W的状态就有 4种情况，即W=A型、W=B型、W=AB型、 W=O型。此时需引入3个哑变量。现假设以O 型为基准，则3个哑变量X1、X2、X3可按如下方式来定义：
Rc2
1 (1
R2)
(n
n 1 1)
p
1 SS残 /(n 1 p) ＝1－ MS残
SS总 /(n 1)
MS总
R
2 c
R
2,考虑了自变
量个
数的
影响
Coe fficientsa
Standardi
偏系U回数nCso归teafnfdica标ierdnizt准sed误
标准zed化偏回Co归eftfsi系cien数
• 优点：
– 1次能引入多个自变量,若两个变量在一起时效果好容易被选中。
• 缺点：
– 只出不进。
逐步回归法（stepwise)
• 将前进和后退两种方法结合起来,既考虑引入变量又考虑剔除变量。
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
F
Sig.
5.617
.035a
决定系数（ determination coefficient）
R2 SS回 1 SS残
SS总
SS总
说明所有自变量能解释Y变化的百分比。取值（0，1），越接近1模型拟合越好

多重线性回归

x1
x2
2.989 1.292
4.647
F0.05,(1,37)=4.11
23
评价回归方程的标准
• 复相关系数 • 校正复相关系数 • 剩余标准差
24
复相关系数
(multiple correlation coefficient)
• 0≤R≤1
R R2 SS回归 SS总
• R反映的是因变量与所有自变量的总的相关关系,当方程中自变量个数增加时,R总是增加的。当只有一个因变量y与一个自变量x时，R就等于y与x的简单相关系数之绝对值：R= | ryx |。
SS （n k 1) 剩余
1
20
例20-1
总胆固醇和甘油三酯对空腹血糖的影响
• 模型检验结果
A NOVAb
Model 1
R egre ssio n R esidua l To t al
Sum of Sq ua re s
4. 2 81 10 . 293 14 . 574
df 2
37 39
Mean Square 2. 1 40 . 27 8
1 R2
1 MS误差 MS总
26
剩余标准差
• 剩余标准差小则估计值与实测值接近，反之则估计值与实测值相差较大，它是反映回归方程精度的指标
s y,x1x2 xk
n
yi yˆi 2
i 1
n m 1
SS剩余 n m 1
MS剩余
27
自变量的筛选
• 全面分析法 • 前进法 • 后退法 • 逐步回归法
P3=0.223
• Y与x2 ， x5
P4=0.635
• 选入X3 方程中有二个变量
•

多重线性回归课件

也可采用矩阵计算偏回归系数向量
BX'X1X'Y
多重线性回归课件
2005年11月
SAS软件输出结果
Parameter Estimates
Parameter Standard
Standardized
Variable DF Estimate
Error t Value Pr > |t| Estimate
Intercept 28 42.78878 9.88159 4.33 0.0002
0
tj bj Sbj bj (SY|12...p Cj ), np1;
1
Cj
ljj
(1R2j|1,2,...,
j1,
) j1,...,p
R2 j|1,2,...,
j1,
j1,...,p为Xj与其余自变量间的决定系数
多重线性回归课件
x2x3 x1x3 x4 x1 x1x2 x3 x2
ADJRSQ 0.40748 0.37522 0.34653 0.28443 0.27478 0.23063 0.17864
CP AIC 3 46.66 3 48.091 2 48.405 2 50.857 3 52.116 2 52.814 2 54.579
多重线性回归课件
2005年11月
F j SS SS 残回 ( nS S回 p( j1 ));11;2np1
Full Model
多重线性回归课件
Reduced Model
2005年11月
实例计算
用表 15-1 数据计算偏回归平方和，并进行 F 检验
平方和
方程的自变量方程 SS 回 SS 回－SS 回-j

多重线性回归分析

16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为：第三步，确定P值，下统计学结论。
根据检验统计量F的值和自由度，确定其对
应的P值。若P>a，则接受H0，认为回归模型的系数全部为0；若P<a，则拒绝H0，接受H1，认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了，也不能再次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。回归方程中的变量从无到有像前进法那样，
根据F统计量和P值大小按sle水平决定该自变量是否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后，又像后退法那样，
模型的显著性检验步骤为：第一步，建立检验假设。
H0：b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为：第二步，计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值，当P值小于sls(规定的从方程中踢除变量的临界水准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法否则，从最大的P值所对应的自变量开始逐一
踢除，直到回归方程中没有变量可以被踢除时为止。
37
三、分析步骤
• 2.4.2 后退法局限性： sls大时，任何一个自变量都不能被踢除； sls小时，开始被踢除的自变量后来在新条件

【卫生统计学】12章多重线性相关与回归

0.05
27
SS总＝
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
＝SS回归＋SS 误差
SS回归＝ yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归／回归 SS误差／误差
增加或减少一个单位时Y的平均变化量。不能用各bj来比较各自变量对应变量的影响大小。
标准化回归系数无单位，用来比较各自变量对应变量的影响大小，bj '越大，自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总＝58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数，然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程，相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述

多重线性回归

目的：作出以多个自变量估计应变量的多元线性回归方程资料：
应变量为定量指标自变量最好全部或大部分是定量指标，如有少数定性或等级指标要转换成定量
用途：解释和预报
多元回归分析数据格式
一、回归模型简介
（一）多元线性回归模型的一般形式
（二）多元线性回归分析的一般步骤
二、多元线性回归方程的建立
Model 1 2
3
4
5
(Constant) 糖化血红蛋白 (Constant) 糖化血红蛋白总胆固醇 (Constant) 糖化血红蛋白总胆固醇胰岛素 (Constant) 糖化血红蛋白总胆固醇胰岛素甘油三脂 (Constant) 糖化血红蛋白胰岛素甘油三脂
R R 0.6008 0.7751
说明所有自变量与Y间的线性相关程度。即观察值Y与估计值 ˆ之间的相关程度。 Y 如果只有一个自变量，此时 R | r |
2
ˆ Y
2 Rc
SS残 /(n 1 p) n 1 1 (1 R ) 1 (n 1) p SS总 /(n 1)
2 “最优”回归方程指Rc 最大者，此时MS残最小
（一） Cp准则的计算公式
1964年CL Mallows 提出 ( SS 残 ) p Cp ( n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m ( n 2 p)
C p 接近(p 1)的模型为最佳
多元线性回归分析
Multiple linear regression
例
人的体重与身高、胸围
子
血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂

多重线性回归

yi 的变异分解为两个部分：
ˆi ； (1) 由自变量解释的部分，即 yi 的估计值 y
(2) 不能由自变量解释的部分，即残差 ei
回归方程的各部分也可用矩阵表示为：
y1 y2 Y yn n1
b0 b1 B＝ bm m 11
i
述。
因此，以 x1.x2 x p 中的一个自变量(记为 xk )为应变量，以其它 x i k 为自变量建立回归方程，考察其
i
决定系数 Rk ，若 Rk 较大，说明 xk 与其它自变量间存在
2 2
近似的线性关系。
方差膨胀因子--VIF多重共线性严重程度的指标。
2 bk 的回归系数 bk 的方差与 1 Rk2 有关。Rk 越大，
回归的贡献，回归平方和： U l yy Q (Y Y )2 (sum of squares due to regression)

Y的总变异分解为两部分：
• 回归贡献U
• 剩余变异Q
整个方程是否有意义，就看回归所能解释的变异U比剩余Q大多少而定。
假设检验为：
H 0 ：各总体偏回归系数βj均为0；

R2可用于检验多重回归方程的统计学意义：
H0：2=0； H1：20。
检验统计量为：
R2 n m 1 F ~ F( m ,n m 1) 2 1 R m
复相关系数： R 反映的是应变量与自变量线性组合的总的相关关系，其性质： 0≤R≤1。
当只有一个因变量y与一个自变量x时，R就等于y与 x的简单相关系数之绝对值：R= | ryx |
估计值与残差
编号 1 3 y 1.75 2.75

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8
七、决定系数
R2＝SS回 /SS总校正决定系数是衡量方程好坏的常用指标之一
八、标准化偏回归系数
Ra2d
1
MS剩 MS总
bi bi lii / lYY
9
九、残差分析
残差 ei Yi Yˆi ，标准化残差 ei
ei MS残差
。通常以标准化残差为纵坐标，以Yˆi
为横
坐标作残差图进行分析。残差分析可以用于评价回归模型和验证资料是否满足多重线性
4
三、多重线性回归分析的步骤
1.估计参数，建立多重线性回归模型。根据样本提供的数据资料，采用最小二乘法原理求得多重线性回归模型参数 0 ，1 ， 2 ，…，m 的估计值，即求得 b0 ，b1 ，b2 ，…，bm ，从而得到Yˆ b0 b1X1 b2X2 .... bmXm 多重线性回归模型。 2.对整个模型进行假设检验，模型有统计学意义的前提下，再对各偏回归系数进行假设检验。对求得的多重线性回归方程及各自变量进行假设检验，检验自变量 X1， X 2 ，…， X m 与应变量Y 之间是否存在线性关系。 3.计算相应指标，评价回归模型的拟合效果。 4.残差分析。 5.自变量的选择。 6.回归诊断与评价。
14
十二、自变量间交互作用的分析
将自变量的交互项引入方程进行检验分析。
【例17-1】大白鼠作受试对象，分析乌头碱不同注射速度x1、常咯啉的不同剂量x2，大鼠体重 x3 与应变量延缓心律失常发生的时间Y的关系。
编号 X1 X2 X3 Y
1
2
3
4
5
6
78Biblioteka 91011
12
13
14
15
4.8
5.6
7.1
中医药统计学与软件应用
曹治清
成都中医药大学管理学院数学与统计教研室 czq9771@
第10讲非参数检验
概述多重线性回归的应用以及注意事项多重线性回归的电脑实验
2
第11讲多重线性回归—引言
在医药研究中，应变量的变化往往受到多个因素的影响，此时就需要用多重线性回归（Multiple Linear Regression），多重线性回归是直线回归的扩展。例如，人的体重与身高、胸围有关；人的心率与年龄、体重、肺活量有关。因此，采用两个或多个影响因素作为自变量(Xi)来解释应变量(Y)的变化，建立最优组合模型来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。
回归条件等。
10
从上到下从左到右依次编号为①-⑧：①散点均匀分布在以 0 为中心，与横轴平行的带状区域内，可以认为基本满足线性和方差齐性的假定条件；②③散点呈现曲线趋势，提示资料不满足线性的假设；④⑤⑥散点随预测值的变化而变化，提示资料不满足方差齐性的假定；⑦⑧散点随预测值的变化而变化且呈曲线趋势，提示资料不满足方差齐性的假定。
5
四、多重共线性问题
如果一些自变量之间存在较强的线性关系，称多重共线性。判断多重共线有相关系数、容忍度、方差膨胀因子等指标。
一般来说，相关系数r>0.8的变量可能存在共线问题，r>0.9的变量存在共线。
容忍度=1－R2，愈小说明共线问题愈严重，如果某个自变量的容忍度<0.1，共线问题严重。
4.9
2.6
6.6
5.2
5.5
4.7
6.8
5.4
2.9
4.0
3.1
3.1
0.08 0.07 0.01 0.07 0.11 0.11 0.07 0.11 0.03 0.01 0.02 0.21 0.01 0.11 0.10
方差膨胀因子 = 容忍度的倒数，愈大说明共线问题愈严重。
消除多重共线性的方法有多种，如岭回归、主成分回归等。
6
五、多重回归的样本含量
只要例数n多于自变量个数m即可，一般要求n 为m的5倍以上。六、多重回归的检验
多元线性回归方程的假设检验：①对整个方程的综合检验，即对回归方程的线性假设检验；②对每一个自变量的检验，即对每个偏回归系数的假设检验。
（2）同时调整多个混杂因素的作用（类似多元协方差分析调整多个混杂因素的作用）。
（3）估计与预测，用较易测量的多个自变量来估计难以测得应变量总体均数μY或预测个体Y值。
（4）多重回归分析是进一步学习logistic回归、判别分析、主成分分析、因子分析等多元统计分析方法的基础。
十一、筛选自变量方法
7
⑴ 回归方程的方差分析
F MS回 SS回 / m (n m 1) SS回
MS剩 SS剩 /(n m 1)
m SS剩
剩余标准差
sY 12 m
SS剩 n m 1
剩余标准差的平方是残差的方差，又称均方误差，记为MSE，其值越小越好
（2）偏回归系数的假设检验
分别考察每一个自变量 xi 与应变量 Y 是否都有直线回归关系
11
资料不满足其条件时，常用的处理方法有：修改模型或者采用曲线拟合；变量变换，常用的变量变换有对数变换、平方根变换、倒数变换等。变量变换对自变量或（和）应变量均适宜；如果方差不齐，可采用加权最小二乘法估计偏回归系数。
12
十、多元回归分析的应用
（1）分析因素的相对重要性，找出对因变量最大的关键因素。
13
（1）全局择优法：m 个自变量的不同组合共有 2m-1 种，分别建立回归方程进行比较后择优。择优的准则有多种，准则不同，筛选的结果可能不同。如果用最大校正决定系数准则，则挑选校正决定系数R2a最大者来获得“最优子集”的回归方程。 SPSS为Enter法。
（2）逐步选择法：备选自变量较多时，全局择优的计算量非常大，用逐步回归法选择可减少计算量。常用逐步（Stepwise）、向前（Forward）、向后（Backward）法。向后法考虑了自变量的组合作用，但变量数不能太多。3种逐步回归方法选中的自变量不一定相同。逐步回归得到只是局部最优，不一定是全局最优回归方程。
3
第一节多重线性回归一、多重线性回归模型
Y＝β0＋β1X1＋β2X2＋…＋βmXm＋e
Yˆ b0 b1X1 b2 X2 .... bm Xm
二、多重线性回归的基本条件
多重线性回归模型的应用条件同直线回归，即线性（linearity）、独立性（indepen-dency）、正态性和方差齐性（normal distribution and equal variance）等条件，简记LINE。还要注意个自变量间不能存在多重共线性。

第十二讲多重线性回归资料

第12章-多重线性回归分析

卫生统计学：12多重线性回归分析

课件：多重线性回归与相关

多重线性回归

多重线性回归

多重线性回归课件

多重线性回归分析

【卫生统计学】12章 多重线性相关与回归

多重线性回归

多重线性回归

【卫生统计学】12章多重线性相关与回归