第十二讲多重线性回归资料
合集下载
第12章-多重线性回归分析

8
6 因变量总变异的分解
P
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y X
Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和 剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹 ?
瘦素
脂联 BMI 病程 瘦素
脂联
(X3)
血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖 素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0: 1 2 3 4 0 ,即总体中各偏回归系数均为0; H 1:总体中各偏回归系数不为0或不全为0;
= 0.05。
2 计算检验统计量: 3 确定P值,作出推断结论。
拒绝H0,说明从整体上而言,用这四个自变量构成 的回归方程解释糖尿病患者体内脂联素的变化是有统 计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86
6 因变量总变异的分解
P
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y X
Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和 剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹 ?
瘦素
脂联 BMI 病程 瘦素
脂联
(X3)
血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖 素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0: 1 2 3 4 0 ,即总体中各偏回归系数均为0; H 1:总体中各偏回归系数不为0或不全为0;
= 0.05。
2 计算检验统计量: 3 确定P值,作出推断结论。
拒绝H0,说明从整体上而言,用这四个自变量构成 的回归方程解释糖尿病患者体内脂联素的变化是有统 计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86
卫生统计学:12多重线性回归分析

校正决定系数、Cp准则、AIC准则
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
课件:多重线性回归与相关

一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为确定系
数(coefficient of determination),或决定系数,记 为R2 ,用于反映线性回归模型能在多大程度上解释反 应变量Y的变异性。定义为R2 =SSR/SST.它的取值范围 为0-1之间。它越接近1,表示样本数据很好地拟合了 所选用线性回归模型。 R2直接反映了回归方程中所有 自变量解释反应变量Y总变异的百分比,或者说, R2 也可以解释为回归方程使反应变量Y的总变异减少的百
的78.74%
复相关系数(multiple correlation
coefficient)R,定义为确定系数的算术平方根,
即 R
SSR 表示变量Y与k个自变量的线性相关的
SST
密切程度。
对本例R=0.8515。表示肺活量与三个自变量的复相关
系数为0.8515。
调整决定系数(Adjusted R-Square)
变异来源 回归模型
残差 总变异
SS
df
3.436
3
1.302 16 4.738 19
MS
F
P
1.145 14.067 <0.001
0.081
SS回它反应在Y的总变异中由于X与Y的直线关系而使 Y变异减少的部分.它越大说明回归效果越好. SS剩它反应X对Y的线性影响之外的一切因素对Y的变异 的作用.它越小,说明直线回归的估计误差越小.
河北省省级精品课程
卫生统计学
课程负责人: 尹素凤
第12章 多重线性回归与相关 主讲人:武建辉
第十二章 多重线性回归与相关
第一节 第二节 第三节 第四节
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
多重线性回归

(2)有序多分类
• 按照有序的顺序,从低到高(或从 小到大)依次赋值:0,1,2,…。
• 如:家庭月收入情况(元):<50, 50-,500-,2000,≥10000分为5个等级, 可依次赋值为:0,1,2,3,4。
(3)无序多分类
• 如:若设W代表血型变量,则W的状态就有 4种情况,即W=A型、W=B型、W=AB型、 W=O型。此时需引入3个哑变量。现假设以O 型为基准,则3个哑变量X1、X2、X3可按如下 方式来定义:
Rc2
1 (1
R2)
(n
n 1 1)
p
1 SS残 /(n 1 p) =1- MS残
SS总 /(n 1)
MS总
R
2 c
R
2,考虑了自变
量个
数的
影响
Coe fficientsa
Standardi
偏系U回 数nCso归teafnfdica标ierdnizt准sed误
标准zed化偏 回Co归eftfsi系cien数
• 优点:
– 1次能引入多个自变量,若两个变量在一起时效果好 容易被选中。
• 缺点:
– 只出不进。
逐步回归法(stepwise)
• 将前进和后退两种方法结合起来,既考虑引入变 量又考虑剔除变量。
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
F
Sig.
5.617
.035a
决定系数 ( determination coefficient)
R2 SS回 1 SS残
SS总
SS总
说明所有自变量能解释Y变化的百分比。 取值(0,1),越接近1模型拟合越好
多重线性回归

x1
x2
2.989 1.292
4.647
F0.05,(1,37)=4.11
23
评价回归方程的标准
• 复相关系数 • 校正复相关系数 • 剩余标准差
24
复相关系数
(multiple correlation coefficient)
• 0≤R≤1
R R2 SS回归 SS总
• R反映的是因变量与所有自变量的总的相关关 系,当方程中自变量个数增加时,R总是增加的。 当只有一个因变量y与一个自变量x时,R就等 于y与x的简单相关系数之绝对值:R= | ryx |。
SS (n k 1) 剩余
1
20
例20-1
总胆固醇和甘油三酯对空腹血糖的影响
• 模型检验结果
A NOVAb
Model 1
R egre ssio n R esidua l To t al
Sum of Sq ua re s
4. 2 81 10 . 293 14 . 574
df 2
37 39
Mean Square 2. 1 40 . 27 8
1 R2
1 MS误差 MS总
26
剩余标准差
• 剩余标准差 小则估计值与实测值接近,反 之则估计值与实测值相差较大,它是反映回 归方程精度的指标
s y,x1x2 xk
n
yi yˆi 2
i 1
n m 1
SS剩余 n m 1
MS剩余
27
自变量的筛选
• 全面分析法 • 前进法 • 后退法 • 逐步回归法
P3=0.223
• Y与x2 , x5
P4=0.635
• 选入X3 方程中有二个变量
•
多重线性回归课件

也 可 采 用 矩 阵 计 算 偏 回 归 系 数 向 量
BX'X1X'Y
多重线性回归课件
2005年11月
SAS软件输出结果
Parameter Estimates
Parameter Standard
Standardized
Variable DF Estimate
Error t Value Pr > |t| Estimate
Intercept 28 42.78878 9.88159 4.33 0.0002
0
tj bj Sbj bj (SY|12...p Cj ), np1;
1
Cj
ljj
(1R2j|1,2,...,
j1,
) j1,...,p
R2 j|1,2,...,
j1,
j1,...,p为Xj与其余自变量间的决定系数
多重线性回归课件
x2x3 x1x3 x4 x1 x1x2 x3 x2
ADJRSQ 0.40748 0.37522 0.34653 0.28443 0.27478 0.23063 0.17864
CP AIC 3 46.66 3 48.091 2 48.405 2 50.857 3 52.116 2 52.814 2 54.579
多重线性回归课件
2005年11月
F j SS SS 残 回 ( nS S回 p( j1 ));11;2np1
Full Model
多重线性回归课件
Reduced Model
2005年11月
实例计算
用表 15-1 数据计算偏回归平方和,并进行 F 检验
平方和
方程的自变量 方程 SS 回 SS 回-SS 回-j
BX'X1X'Y
多重线性回归课件
2005年11月
SAS软件输出结果
Parameter Estimates
Parameter Standard
Standardized
Variable DF Estimate
Error t Value Pr > |t| Estimate
Intercept 28 42.78878 9.88159 4.33 0.0002
0
tj bj Sbj bj (SY|12...p Cj ), np1;
1
Cj
ljj
(1R2j|1,2,...,
j1,
) j1,...,p
R2 j|1,2,...,
j1,
j1,...,p为Xj与其余自变量间的决定系数
多重线性回归课件
x2x3 x1x3 x4 x1 x1x2 x3 x2
ADJRSQ 0.40748 0.37522 0.34653 0.28443 0.27478 0.23063 0.17864
CP AIC 3 46.66 3 48.091 2 48.405 2 50.857 3 52.116 2 52.814 2 54.579
多重线性回归课件
2005年11月
F j SS SS 残 回 ( nS S回 p( j1 ));11;2np1
Full Model
多重线性回归课件
Reduced Model
2005年11月
实例计算
用表 15-1 数据计算偏回归平方和,并进行 F 检验
平方和
方程的自变量 方程 SS 回 SS 回-SS 回-j
多重线性回归分析
16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了,也不能再 次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,
根据F统计量和P值大小按sle水平决定该自变量是 否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
模型的显著性检验步骤为: 第一步,建立检验假设。
H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第二步,计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值, 当P值小于sls(规定的从方程中踢除变量的临界水 准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一
踢除,直到回归方程中没有变量可以被踢除时为 止。
37
三、分析步骤
• 2.4.2 后退法 局限性: sls大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
下即使变得对因变量有较大的贡献了,也不能再 次被选入回归方程并参与检验。
38
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,
根据F统计量和P值大小按sle水平决定该自变量是 否入选。
39
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
模型的显著性检验步骤为: 第一步,建立检验假设。
H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第二步,计算统计量F的值。
FSS残S/S回 n /kk1~Fk,nk1
归方程中的各个自变量所产生的F统计量和P值, 当P值小于sls(规定的从方程中踢除变量的临界水 准)则将此变量保留在方程中。
36
三、分析步骤
• 2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一
踢除,直到回归方程中没有变量可以被踢除时为 止。
37
三、分析步骤
• 2.4.2 后退法 局限性: sls大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件
【卫生统计学】12章 多重线性相关与回归
0.05
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
27
SS总=
2
(Y Y )
(Yˆ
Y
2
)
(Y
Yˆ
2
)
=SS回归+SS 误差
SS回归= yˆ y 2 b1l1y b2l2y bmlmy
ν总 = n-1 ν回归=m ν剩余=n-m-1
SS误差 = SS总 - SS回
归
F
MS回归 MS误差
SS回归/回归 SS误差/ 误差
增加或减少一个单位时Y的平均变 化量。不能用各bj来比较各自变 量对应变量的影响大小。
标准化回归系数无单位,用来 比较各自变量对应变量的影响大 小,bj '越大,自变量对应变量的23
l11
41467
8812 20
2658 .95
l22
137953
.5 1656 .02 20
836.70
SS总=58.9388
Yˆ 0.6815 0.0546 X1 0.1944 X 2
21
标准化回归系数
变量标准化是将原始数据减去相应变量的均数,然后再
除以该变量的标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
b
' j
bj
l jj lYY
b j
Sj SY
XiX j
Xi X j , i , j=1,2, ,k n
ljY
( X j X j )(Y Y )
X jY
Xj
Y , j 1, 2 , k
n
统计软件
多重线性回归方程
14
多重线性回归的概念及其统计描述
多重线性回归
目的:作出以多个自变量估计应变量的 多元线性回归方程 资料:
应变量为定量指标 自变量最好全部或大部分是定量指标,如有 少数定性或等级指标要转换成定量
用途:解释和预报
多元回归分析数据格式
一、回归模型简介
(一)多元线性回归模型的一般形式
(二)多元线性回归分析的一般步骤
二、多元线性回归方程的建立
Model 1 2
3
4
5
(Constant) 糖 化 血红 蛋 白 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 甘 油 三脂 (Constant) 糖 化 血红 蛋 白 胰岛素 甘 油 三脂
R R 0.6008 0.7751
说明所有自变量与Y间的线性相关程度。 即观察值Y与估计值 ˆ之间的相关程度。 Y 如果只有一个自变量,此时 R | r |
2
ˆ Y
2 Rc
SS残 /(n 1 p) n 1 1 (1 R ) 1 (n 1) p SS总 /(n 1)
2 “最优”回归方程指Rc 最大者,此时MS残最小
(一) Cp准则的计算公式
1964年CL Mallows 提出 ( SS 残 ) p Cp ( n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m ( n 2 p)
C p 接近(p 1)的模型为最佳
多元线性回归分析
Multiple linear regression
例
人的体重与身高、胸围
子
血压值与年龄、性别、劳动强度、饮食 习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋 白、血清总胆固醇、甘油三脂
多重线性回归
yi 的变异分解为两个部分:
ˆi ; (1) 由自变量解释的部分,即 yi 的估计值 y
(2) 不能由自变量解释的部分,即残差 ei
回归方程的各部分也可用矩阵表示为:
y1 y2 Y yn n1
b0 b1 B= bm m 11
i
述。
因此,以 x1.x2 x p 中的一个自变量(记为 xk )为应 变量,以其它 x i k 为自变量建立回归方程,考察其
i
决定系数 Rk , 若 Rk 较大, 说明 xk 与其它自变量间存在
2 2
近似的线性关系。
方差膨胀因子--VIF多重共线性严重程度的指标。
2 bk 的 回归系数 bk 的方差与 1 Rk2 有关。Rk 越大,
回归的贡献,回归平方和: U l yy Q (Y Y )2 (sum of squares due to regression)
Y的总变异分解为两部分:
• 回归贡献U
• 剩余变异Q
整个方程是否有意义,就看回归所能解释的变 异U比剩余Q大多少而定。
假设检验为:
H 0 :各总体偏回归系数βj均为0;
R2可用于检验多重回归方程的统计学意义:
H0:2=0; H1:20。
检验统计量为:
R2 n m 1 F ~ F( m ,n m 1) 2 1 R m
复相关系数: R 反映的是应变量与自变量线性组合 的总的相关关系,其性质: 0≤R≤1。
当只有一个因变量y与一个自变量x时,R就等于y与 x的简单相关系数之绝对值:R= | ryx |
估计值与残差
编号 1 3 y 1.75 2.75
ˆi ; (1) 由自变量解释的部分,即 yi 的估计值 y
(2) 不能由自变量解释的部分,即残差 ei
回归方程的各部分也可用矩阵表示为:
y1 y2 Y yn n1
b0 b1 B= bm m 11
i
述。
因此,以 x1.x2 x p 中的一个自变量(记为 xk )为应 变量,以其它 x i k 为自变量建立回归方程,考察其
i
决定系数 Rk , 若 Rk 较大, 说明 xk 与其它自变量间存在
2 2
近似的线性关系。
方差膨胀因子--VIF多重共线性严重程度的指标。
2 bk 的 回归系数 bk 的方差与 1 Rk2 有关。Rk 越大,
回归的贡献,回归平方和: U l yy Q (Y Y )2 (sum of squares due to regression)
Y的总变异分解为两部分:
• 回归贡献U
• 剩余变异Q
整个方程是否有意义,就看回归所能解释的变 异U比剩余Q大多少而定。
假设检验为:
H 0 :各总体偏回归系数βj均为0;
R2可用于检验多重回归方程的统计学意义:
H0:2=0; H1:20。
检验统计量为:
R2 n m 1 F ~ F( m ,n m 1) 2 1 R m
复相关系数: R 反映的是应变量与自变量线性组合 的总的相关关系,其性质: 0≤R≤1。
当只有一个因变量y与一个自变量x时,R就等于y与 x的简单相关系数之绝对值:R= | ryx |
估计值与残差
编号 1 3 y 1.75 2.75
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
七、决定系数
R2=SS回 /SS总 校正决定系数是衡量方 程好坏的常用指标之一
八、标准化偏回归系数
Ra2d
1
MS剩 MS总
bi bi lii / lYY
9
九、残差分析
残差 ei Yi Yˆi ,标准化残差 ei
ei MS残差
。通常以标准化残差为纵坐标,以Yˆi
为横
坐标作残差图进行分析。残差分析可以用于评价回归模型和验证资料是否满足多重线性
4
三、多重线性回归分析的步骤
1.估计参数,建立多重线性回归模型。 根据样本提供的数据资料,采用最小二乘法原理求得多重线性回归模型参数 0 ,1 , 2 ,…,m 的估计值,即求得 b0 ,b1 ,b2 ,…,bm ,从而得到Yˆ b0 b1X1 b2X2 .... bmXm 多重线性回归模型。 2.对整个模型进行假设检验,模型有统计学意义的前提下,再对各偏回归系数进行 假设检验。对求得的多重线性回归方程及各自变量进行假设检验,检验自变量 X1, X 2 ,…, X m 与应变量Y 之间是否存在线性关系。 3.计算相应指标,评价回归模型的拟合效果。 4.残差分析。 5.自变量的选择。 6.回归诊断与评价。
14
十二、自变量间交互作用的分析
将自变量的交互项引入方程进行检验分析。
【例17-1】 大白鼠作受试对象,分析乌头碱不 同注射速度x1、常咯啉的不同剂量x2,大鼠体重 x3 与应变量延缓心律失常发生的时间Y的关系。
编号 X1 X2 X3 Y
1
2
3
4
5
6
78Biblioteka 91011
12
13
14
15
4.8
5.6
7.1
中医药统计学与软件应用
曹治清
成都中医药大学管理学院 数学与统计教研室 czq9771@
第10讲 非参数检验
概述 多重线性回归的应用以及注意事项 多重线性回归的电脑实验
2
第11讲 多重线性回归—引言
在医药研究中,应变量的变化往往受到多个因 素的影响,此时就需要用多重线性回归 (Multiple Linear Regression),多重线性回归 是直线回归的扩展。例如,人的体重与身高、 胸围有关;人的心率与年龄、体重、肺活量有 关。因此,采用两个或多个影响因素作为自变 量(Xi)来解释应变量(Y)的变化,建立最优组合模 型来预测或估计因变量,比只用一个自变量进 行预测或估计更有效,更符合实际。
回归条件等。
10
从上到下从左到右依次编号为①-⑧:①散点均匀分布在以 0 为中心,与横轴平行 的带状区域内,可以认为基本满足线性和方差齐性的假定条件;②③散点呈现曲线趋势, 提示资料不满足线性的假设;④⑤⑥散点随预测值的变化而变化,提示资料不满足方差 齐性的假定;⑦⑧散点随预测值的变化而变化且呈曲线趋势,提示资料不满足方差齐性 的假定。
5
四、多重共线性问题
如果一些自变量之间存在较强的线性关系,称 多重共线性。判断多重共线有相关系数、容忍度、 方差膨胀因子等指标。
一般来说,相关系数r>0.8的变量可能存在共线 问题,r>0.9的变量存在共线。
容忍度=1-R2,愈小说明共线问题愈严重,如 果某个自变量的容忍度<0.1,共线问题严重。
4.9
2.6
6.6
5.2
5.5
4.7
6.8
5.4
2.9
4.0
3.1
3.1
0.08 0.07 0.01 0.07 0.11 0.11 0.07 0.11 0.03 0.01 0.02 0.21 0.01 0.11 0.10
方差膨胀因子 = 容忍度的倒数,愈大说明共线 问题愈严重。
消除多重共线性的方法有多种,如岭回归、主 成分回归等。
6
五、多重回归的样本含量
只要例数n多于自变量个数m即可,一般要求n 为m的5倍以上。 六、多重回归的检验
多元线性回归方程的假设检验:①对整个方程 的综合检验,即对回归方程的线性假设检验;②对 每一个自变量的检验,即对每个偏回归系数的假设 检验。
(2)同时调整多个混杂因素的作用(类似多元 协方差分析调整多个混杂因素的作用)。
(3)估计与预测,用较易测量的多个自变量来 估计难以测得应变量总体均数μY或预测个体Y值。
(4)多重回归分析是进一步学习logistic回归、 判别分析、 主成分分析、 因子分析等多元统计分析 方法的基础。
十一、筛选自变量方法
7
⑴ 回归方程的方差分析
F MS回 SS回 / m (n m 1) SS回
MS剩 SS剩 /(n m 1)
m SS剩
剩余标准差
sY 12 m
SS剩 n m 1
剩余标准差的平方是残差的方差,又称均方误 差,记为MSE,其值越小越好
(2) 偏回归系数的假设检验
分别考察每一个自变量 xi 与应变量 Y 是否都有 直线回归关系
11
资料不满足其条件时,常用的处理方法有:修 改模型或者采用曲线拟合;变量变换,常用的 变量变换有对数变换、平方根变换、倒数变换 等。变量变换对自变量或(和)应变量均适宜; 如果方差不齐,可采用加权最小二乘法估计偏 回归系数。
12
十、多元回归分析的应用
(1)分析因素的相对重要性,找出对因变量最 大的关键因素。
13
(1)全局择优法:m 个自变量的不同组合共有 2m-1 种,分别建立回归方程进行比较后择优。择优 的准则有多种,准则不同,筛选的结果可能不同。 如果用最大校正决定系数准则,则挑选校正决定系 数R2a最大者来获得“最优子集”的回归方程。 SPSS为Enter法。
(2)逐步选择法: 备选自变量较多时,全局择 优的计算量非常大, 用逐步回归法选择可减少计算 量。常用逐步(Stepwise)、向前(Forward)、向 后(Backward)法。向后法考虑了自变量的组合作 用,但变量数不能太多。3种逐步回归方法选中的自 变量不一定相同。 逐步回归得到只是局部最优,不 一定是全局最优回归方程。
3
第一节 多重线性回归 一、多重线性回归模型
Y=β0+β1X1+β2X2+…+βmXm+e
Yˆ b0 b1X1 b2 X2 .... bm Xm
二、多重线性回归的基本条件
多重线性回归模型的应用条件同直线回归,即线性 (linearity)、独立性(indepen-dency)、正态性和方差 齐性(normal distribution and equal variance)等条 件,简记LINE。还要注意个自变量间不能存在多重共线性。