方积乾《卫生统计学》多重线性回归与相关.ppt

合集下载

回归与相关(卫生统计学课件)

回归与相关(卫生统计学课件)
• a - 截距(intercept)或常数项(constant term);
• b - 回归系数(regression coefficient)。
Francis Galton
实例
➢ 例1 研究成人BMI(kg/m2)与肝脏硬度指数LSM间的关系,得到了表中所示的资料,试 进行线性回归分析。
表1 成人BMI(kg/m2)与肝脏硬度指数LSM回归分析数据
直线回归系数的假设检验
线性回归的假设检验
一、方差分析
➢ 回归方程检验的基本思想:
(Y -Y )2 = (Yˆ -Y )2 +(Y -Yˆ)2
SS总 SS回归 SS残差
图4 变异划分示意图
➢ 如果 X 与Y 之间无线性回归关系,则 SS回归 与 SS残差 都只包含随机因素对Y 的影响,因 此其均方 MS回归 与 MS残差 应近似相等,如果两者差别较大,并超出能够用随机波动解 释的程度,则认为回归方程具有统计学意义。
Sb
SY |X lXX
SY |X
SS残差
残差
MS残差
➢ Sb 为样本回归系数的标准误,反映样本回归系数的抽样误差; SY|X 为剩余标准差,表 示因变量 Y 值对于回归直线的离散程度。
实例 对例1数据建立的回归方程后,进行 t 检验,过程如下:
1. 建立检验假设,确定检验水准 H0 :回归系数 0,即BMI和LSM间无线性回归关系
图3 成人BMI(kg/m2)与肝脏硬度指数LSM间关系散点图
小结
1. 线性回归分析常用于分析两个变量之间是否存在线性依存关系,通过散点图可以直观描述两个变量的数量变化关系, 参数估计可以使用最小二乘法。 2. 在回归分析中,因变量是随机变量,自变量既可以是随机变量,也可以是给定的量,在两个变量都是随机变量的情 况,应以变异小的变量作为自变量 3.线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。 4. 对同一资料进行相关与回归分析,r 与 b 正负号相同,r 和b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增 大,Y 也增大;反之亦然。 5. 如果散点图显示两变量间不是直线关系,但可以通过某种变量变换转变为直线相关关系,则可以对变换后的数据采 用上述公式建立模型。

卫生统计学 直线回归分析 ppt课件

卫生统计学   直线回归分析  ppt课件

ppt课件
29
应变量 y 的平方和划分示意
P (x, y)
y
y yˆ
y y
yˆ y
y y
x
ppt课件
30
第三段 y ,是因变量 y 的均数。
上述三个线段的代数和为:
y y ˆy y y ˆy
移项 y y ˆy y y ˆy
这里P点是散点图中任取的一点,若将全部点子都按 上法处理,并将等式两端平方后再求和,则有
y y2 ˆy y2 y ˆy2
ppt课件
31
上式用符号表示为:
SS总= SS回归+SS残差
SS总,即 y y2,为y的离均差平方和lyy,又称总平方
和,说明未考虑x与y的回归关系时y的变异。
SS回归,

ˆy
y
2
,它反映在y的总变异中由于x与y的
直线关系而使y变异减少的部分,也就是在总平方和中
可以用x解释的部分。SS回越大,说明回归效果越好。
SS残差, 即 y ˆy2,为残差平方和,它反映x对y的线性
影响之外的一切因素对y的变异的影响,也就是总平
ppt课件
32
方和中无法用x解释的部分。在散点图中,各实测点与
回归直线越近, y ˆy2也就越小,说明直线回归的残差
越小。
上述三个平方和各自的自由度及相互关系如下:
(i 1, 2,L n)
其中,(xi, yi),i=1, 2, , n为已知的样本数据。
ppt课件
17
我们希望得到a和b的适宜值,能使所有n个数据点的
残差平方和达到最小值,则称这一对a和b为 和的
最小二乘估计(LSE)。上述使回归残差平方和最小的 策略称为最小二乘原则。即要求:

方积乾《卫生统计学》18 logistic回归-hc.pptx

方积乾《卫生统计学》18 logistic回归-hc.pptx

公共卫生学院 医学统计与流行病学系
7
用途:研究某疾病或现象发生与否,和一个或者多 个影响因素(危险因子或保护因子)的数量关系。
用 2检验(或 t 检验)的局限性: ➢ 分析较少的影响因素; ➢ 混杂因素的作用未加以控制; ➢ 对因素的作用只能得出定性结论。
公共卫生学院 医学统计与流行病学系
8
第一节 logistic 回归模型
女:0,男:1
乳头状腺癌:0,管状腺癌:1 6cm 及以上:0,6cm 以下:1 A:1,B:2,C:3,D:4 无:0,有:1 无:0,有:1 存活:0,死亡:1
9
表 18-1 158 例经手术治疗大肠癌患者临床病理因素及 5 年生存状态资料
组织学
患者 性别 年龄(岁) 分类
编号
X1
X2
X3
11
P(pY1 =1 Xa 1P(Yp1 0 Xb
=10).0033,1服用药组“发生出血症状”比“不发生出血症状”的优势, 1) 11
取值范围 0 至+ 。
未服用药组(无暴露史),发生出血症状的条件概率:
p0
=
c
c
d

未服用药组(无暴露史),不发生出血症状的条件概率:1
p0

c
d
d

优势: Odds0
服用该药( X =1) 未用该药( X =0)
出血例数(Y =1) 未出血例数(Y =0) 合 计
155(a)
46 981(b)
47 136(a+b)
96(c)
44 538(d)
44 634(c+d)
暴露、关
心的因素
公共卫生学院 医学统计与流行病学系

卫生统计学课件12多重线性回归分析(研)

卫生统计学课件12多重线性回归分析(研)

多重线性回归分析的步骤
(一)估计各项参数,建立多重线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提 下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
多重线性回归方程的建立
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Enter OK
Mo del S um mary
Model 1
Std. Error of
R R Square Adju sted R Square the E stimate
.8 84a .7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
(二)偏回归系数的假设检验及其评价
各偏回归系数的t检验
C oe fficien tas
Unstand ardized Co efficients
St an d ard ized Co efficients
Model
B
Std. Error
Bet a
1
(Constant) -2262.081 1081 .870
(三)有关评价指标
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
216.0570680
Std.Error of the Estimate (剩余标准差)
SY ,12...m

卫生统计学 第一章 绪论PPT课件

卫生统计学 第一章 绪论PPT课件
卫生统计学(health statistics):是应用统计学的原理 与方法研究居民健康状况以及卫生服务领域中数据的收集、 整理、分析和结果正确解释与表达的一门科学。更侧重于 社会、人群的卫生问题。
2021/4/18
可编辑课件PPT
4
二、统计学和卫生统计学的发展简史
统计学“statistics”一词源于国家“state”,拉丁语中 “statisticus”就是治国术的意思。
统计学是帮助人们分析所占有的信息,达到去伪存真、 去粗取精、正确认识世界的一种重要手段。
2021/4/18
可编辑课件PPT
3
根据研究领域和研究对象的不同,统计学又分为:数 理统计、经济统计、生物统计、卫生统计、医学统计……
医学统计学(medical statistics):用统计学的原理和 方法研究医学领域中数据的收集、整理、分析和结果正确 解释与表达的一门科学。
2021/4/18
可编辑课件PPT
11
比率%
25 20 15 10
5 0
2.6 3.2 3.8 4.4 5.0 5.6 6.2 红细胞计数(1012/L)
图 1-1 120名正常成年男子 红细胞计数直方图
最大值=6.18, 最小值=3.29, 极差=2.89
2021/4/18
可编辑课件PPT
12
2. 用统计学思维方式考虑有关医学研究中的问题
2021/4/18
可编辑课件PPT
2
第一节 概述
一、统计学、医学统计学与卫生统计学的定义
统计学(statistics):统计学是处理数据中变异性的科学与 艺术,内容包括数据的收集 (collection)、分析(analysis)、解 释(interpretation)和表达(presentation),目的是求得可 靠的结果。

《医学统计学》教学课件-多重线性回归

《医学统计学》教学课件-多重线性回归

Sum of Squares 133.711dfຫໍສະໝຸດ 4Re si du a l
88.841
22
T o ta l
222.552
26
a. Predictors: (Constant), x4, x2, x3, x1
b. Dependent Variable: y
Mean Square 33.428 4.038
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
各变量的离差矩阵
4阶线性方程组
建立多元回归方程
方程的求解过程复杂,可借助于SPSS、SAS等统计软件来完成 SPSS:Analyze→Regression→Linear regression
剔除后所引起的回归平方和的减少量。
H0 : j 0;H1 : j 0,j=1,2,…,m;
2.对回归方程及各自变量作假设检验,并对方程的拟 合效果及各自变量的作用大小作出评价。
多元线性回归方程的建立:
利用最小二乘法原理估计模型的参数: (使残差平方和最小)
表2 27名糖尿病人的血糖及有关变量的测量结果
序号 总胆固醇 甘油三酯 胰岛素 糖化血红蛋白
血糖
i (mmol/L) (mmol/L) (U/ml)
12.3
27

第1讲 多重线性回归ppt课件

第1讲 多重线性回归ppt课件
回归的贡献,回归平方和: (sum of squares due to regression)
(YY)2
(Y Y)2
(YY)2
11
回归方程的方差分析表
变异来源
SS

lyy
回归
U
剩余
Q
自由度 n-1 m
n-m-1
MS
F
n m 1U
U/m
mQ
Q/(n-m-1)
12
例3.1资料回归方程的方差分析
变异来源
1.75 1.9494- 0.1994
编号
2 4 6 8 10 12 14 16 18 20 22 24 26 28
y

e
2.00 1.7796 0.2204
2.50 1.9803 0.5197
2.00 2.1381 -0.1381
1.50 1.8612 -0.3612
2.25 2.1904 0.0596
U (yi y)2 Q i1
n
Q (yi y)2 i1
14
R2可用于检验多重回归方程的显著性: H0:2=0; H1:20。 检验统计量为:
F1 R R 22 nm m 1 ~F (m ,nm 1)
15
复相关系数的性质 0≤R≤1。 当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对
2.50 2.3453 0.1547
估计值与残差有下列性质:
n
n
(yi yˆi) ei 0
i1
i1
n
n
(yi yˆi)2 ei2
i1
i1
10
3. Y的总变异分解
未引进回归时的总变异: (sum of squares about the mean of Y)

卫生统计学课件12多重线性回归分析(研)

卫生统计学课件12多重线性回归分析(研)

ANO VAe
Model 1
Sum of Sq uares Regressi on 2042 821.830
Resi dual
1368 553.170
Tot al
3411 375.000
2
Regressi on 2442 190.549
Resi dual
9691 84.4 51
Tot al
3411 375.000
t -2.09 1
X1
48.135 22.058
.3 42 2.182
X2
38.550 13.346
.4 44 2.889
X3
104.585 74.361
.2 60 1.406
a. Dependent Variable: Y
Si g . .0 53 .0 44 .0 11 .1 79
标准化回归系数(可说明各自变量相对贡献大小)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
216.0570680
Yˆ 2262.081 48.135X1 38.550X2 104.585X3
ANO VAb
Model
Sum of Squ ares
(Y Yˆ)2 /(n m 1)
SS残(n m 1) MS残
46680.657 216.057
反映了回归方程的精度,其值越小说明回归 效果越好
决定系数(determination coefficient)
R2 SS回 1 SS残
SS总
SS总
2664484.494=0.781 3411375.000
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、数据与模型
例13-1 为了研究有关糖尿病患者体内脂联素水平的影响因素, 某医师测定了30名患者的体重指数BMI(kg/m2)、病程DY (年)、瘦素LEP(ng/mL)、空腹血糖FPG(mmol/L)及脂 联素ADI(ng/mL)水平,数据如表13-1所示。
2020/10/14
Multiple Linear Reg.& Corr
Multiple Linear Reg.& Corr
13
二、偏回归系数的 t 检验
H0 : j 0 H1 : j 0
t bj
bj S bj
2020/10/14
Multiple Linear Reg.& Corr
14
利用SAS软件对例13-1的四个偏回归系数进行t检验,并
计算标准化偏回归系数,结果如表13-3所示。
24
2.残差均方缩小或调整决定系数增大
MS 残
n
SS残 p 1
Ra2
1
MS残 MS总
一、整体回归效应的假设检验(方差分析)
H0 : 1 2 3 4 0
2020/10/14
Multiple Linear Reg.& Corr
12
表13-2显示,P <0.0001,拒绝H 0 。说明整体而言,用
这四个自变量构成的回归方程解释糖尿病患者体内脂联素的 变化是有统计学意义的。
2020/10/14
Yˆ b 0 b1 X 1 b 2 X 2 b3 X 3 b 4 X 4
2020/10/14
Multiple Linear Reg.& Corr
7
X
* i
Xi Xi Si

b0
b1 X
' 1
Байду номын сангаас
b2 X
' 2
b3 X
' 3
b4 X
' 4
标准化偏回归系数(standardized partial regression coefficient)
19
2020/10/14
游 泳 人 数 残 差
Multiple Linear Reg.& Corr
冷饮销售量残差
20
P=0.5509
偏相关系数(partial correlation coefficient): 一般地,扣除其他变量的影响后,变量Y与X的 相关。
2020/10/14
Multiple Linear Reg.& Corr
2020/10/14
Multiple Linear Reg.& Corr
2
多重线性回归 (multiple linear regression) 多重相关 (multiple correlation)
2020/10/14
Multiple Linear Reg.& Corr
3
第一节 概念及其统计描述
多重线性回归与相关
凌莉 中山大学公共卫生学院
2020/10/14
Multiple Linear Reg.& Corr
1
简单线性回归
Y|X X
Yˆ a b X
Y
X 1 , X 2 , , X p
0
1X 1
2X
2
...
pX
p
Yˆ b 0 b1 X 1 b 2 X 2 ... b p X p
2020/10/14
Multiple Linear Reg.& Corr
10
Yˆ 5 8 .1 9 9 1 .0 3 0 X 1 0 .1 3 2 X 2 0 .8 1 1 X 3 0 .5 7 9 X 4
2020/10/14
Multiple Linear Reg.& Corr
11
第二节 多重线性回归的假设检验
1
MS残差 MS总
R2
p(1 R2 ) n p 1
R
2 a
0.7312
4(1 0.7312) 30 4 1
0.7312
0.0430
0.6882
2020/10/14
Multiple Linear Reg.& Corr
18
二、偏相关系数
例:
2020/10/14
Multiple Linear Reg.& Corr
2020/10/14
Multiple Linear Reg.& Corr
5
2020/10/14
Multiple Linear Reg.& Corr
6
偏回归系数(partial regression coefficient)
Y X1,X2,X3,X4 0 1X 1 2 X 2 3 X 3 4 X 4
2020/10/14
Multiple Linear Reg.& Corr
15
第三节 复相关系数与偏相关系数
一、决定系数、复相关系数与调整决定系数
R2 SS回 SS总
R 2 1773.343 1 651.958 0.7312 2425.301 2425.301
2020/10/14
Multiple Linear Reg.& Corr
16
复相关系数(multiple correlation coefficient)
R SS回 SS总
R Cor(Y ,Yˆ)
R 0.7312 0.8551
2020/10/14
Multiple Linear Reg.& Corr
17
调整的R2 (Adjusted R-Square)
Ra2d
4
注释:
脂联素是一种肽,可抑制炎症反应和减少冠心病的发生。
瘦素是一种由脂肪组织分泌的激素,人们之前普遍认
为它进入血液循环后会参与糖、脂肪及能量代谢的调节, 促使机体减少摄食,增加能量释放,抑制脂肪细胞的合 成,进而使体重减轻。科学家的研究表明,在婴儿时期 摄取瘦素,可能可以固定大脑对食欲的反应,进而一生 都不会过度饮食。人们是在对老鼠的实验中得到了这个 发现的。
2020/10/14
Multiple Linear Reg.& Corr
8
二、偏回归系数的估计
前提条件(LINE) :线性、独立、正态和等方差 参数估计方法:最小二乘法
n
Min
Yi Yˆ 2
i 1
2020/10/14
Multiple Linear Reg.& Corr
9
图13-1 两个自变量时,回归平面示意图
21
2020/10/14
Multiple Linear Reg.& Corr
22
第四节 自变量筛选
2020/10/14
Multiple Linear Reg.& Corr
23
一、自变量筛选的标准与原则
1.残差平方和缩小或决定系数增大 R2 1 SS残 SS总
2020/10/14
Multiple Linear Reg.& Corr
相关文档
最新文档