logistic回归讲义

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 南京医科大学流行病与卫生统计学系
多元线性回归的适用条件 计量资料(均数)=计量、等级、分类 二分类资料(率)=计量、等级、分类 ?
4 南京医科大学流行病与卫生统计学系
1 模型简介 P发病的概率, 0≤P≤1。
P 1 x1 2 x2 L m xm
Cox(1970) logit变换
10 0.8000
12 南京医科大学流行病与卫生统计学系
P
8个年龄组与冠心病患病率的散点图
1 .8 .6 .4 .2 0
12345678 Age group
13 南京医科大学流行病与卫生统计学系
P
8个年龄组与冠心病患病率的logit回归
1 .8 .6 .4 .2 0
12345678 Age group
19 0 33 2 53 0 45 5 86 0 58 7
20
0
33
2
54
1
45
5 87 1 58 7 10 南京医科大学流行病与卫生统计学系
chd
100个个体的年龄与冠心病的散点图
1
0 20 25 30 35 40 45 50 55 60 65 70 75 age
11 南京医科大学流行病与卫生统计学系
_cons |-4.36985 .4347941 -10.05 0.000 -5.222031 -3.517669
----------------------------------------------------------------
23 南京医科大学流行病与卫生统计学系
发病的概率。
P 为“机会”或“优势”(odds) 1 P
logit P为优势之对数(log odds)
logit
P
ˆ
ln
1
P P
logit P 1 x1 2 x2 m xm
8 南京医科大学流行病与卫生统计学系
logistic回归模型的几种形式
logit P 1 x1 2 x2 m xm
= ln(OR)
OR e1.3107 3.7089
20 南京医科大学流行病与卫生统计学系
例 分层四格表资料与logistic回归
按年龄分层的心肌梗死与近期口服避孕药的关系
年龄组
X=1, 使用过
Y=1
Y=0
X=0, 未使用过
Y=1
Y=0
1: 25~29
4
62
2
224
2: 30~34
9
33
12
logit P = -5.363111+0.1121×age
15 南京医科大学流行病与卫生统计学系
年龄与冠心病(CHD)的logistic回归
logit P = -5.363111+0.1121×age P/(1-P)=exp(-5.363111+0.1121×age)
1 P 1 e5.363111-0.1121age
y | Coef. Std. Err.
z P>|z|
95% CI
--------+-------------------------------------------------------
x | 1.385176 .2505323 5.53 0.000 .8941417 1.87621
_Iage_2 | 1.138362 .4769719 2.39 0.017 .2035146 2.07321
第4讲 logistic回归
logistic的主要内容
logistic回归 条件logistic回归 多类结果的logistic回归 有序结果的累计比数logistic回归 logistic回归的正确应用
2 南京医科大学流行病与卫生统计学系
logistic回归
模型简介 传统方法与logistic回归的关系 回归系数的解释 模型的估计与假设检验 建模策略
13 0 30 2 47 0 43 4 80 0 57 7
14 0 30 2 48 1 43 4 81 0 57 7
15 0 30 2 49 0 44 4 82 1 57 7
16 0 30 2 50 0 44 4 83 1 57 7
17 1 32 2 51 1 44 4 84 1 57 7
18 0 32 2 52 1 44 4 85 1 57 7
14 南京医科大学流行病与卫生统计学系
年龄与冠心病(CHD)的logistic回归
.logit chd age
Logit estimates
Number of obs =
100
LR chi2(1)
= 29.76
Prob > chi2
= 0.0000
Log likelihood = -53.453542
390
3: 35~39
4
26
33
330
4: 40~44
6
9
65
362
5: 45~49
6
5
93
301
21 南京医科大学流行病与卫生统计学系
Mantel-Haenszel法结果
. mhodds y x [fw=f] , by(age)
Comparing x==1 vs. x==0
by age
---------------------------------------------------------------
2 | 8.863636
28.64
0.0000
3.369128 23.31881
3 | 1.538462
0.58
0.4450
0.504952 4.687303
4 | 3.712821
6.58
0.0103
1.266587 10.88361
5 | 3.883871
5.53
0.0187
1.147490 13.14561
四格表资料与logistic回归
X=1时 X=0 时
ln
P1 1-P1
=
-0.2478
1.3107
ln
P0 1-P0
=
-0.2478
OR P1 (1 P1 ) P0 (1 P0 )
1.3107
ln
1
P1 P1
ln
1
P0 P0
= ln
P1 P0
/(1 P1) /(1 P0 )
Pseudo R2
= 0.2177
------------------------------------------------------------
chd | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+-----------------------------------------------------
Odds Ratio chi2(1)
P>chi2
[95% Conf. Interval]
----------------------------------------------------------------
3.969895
34.72
0.0000
2.418041 6.517702
----------------------------------------------------------------
例 四格表资料
探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究
雌激素
使用过
未使用过
病例 对照
55(a) 19(c)
128(b) 164(d)
OR P1 (1 P1 ) ad 55164 3.7089 P0 (1 P0 ) bc 19128
95%CI :
3.7089 exp 1.96
1 55
age | Odds Ratio chi2(1)
P>chi2 [95% Conf. Interval]
------+--------------------------------------------------------
1 | 7.225806
6.78
0.0092
1.263340 41.32877
1 128
1 19
1 164
2.0964 ~
6.5616
18 南京医科大学流行病与卫生统计学系
四格表资料的logistic回归
X=1 表示使用过雌激素 X=0 表示未使用过雌激素
logit P = - 0.2478+1.3107x
ln
1
P -P
=
-
0.2478
+
1.3107x
19 南京医科大学流行病与卫生统计学系
---------------------------------------------------------------
Mantel-Haenszel estimate controlling for age
----------------------------------------------------------------
7 0 26 1 41 0 41 4 74 0 55 7
8 0 28 1 42 0 42 4 75 1 55 7
9 0 28 1 43 0 42 4 76 1 55 7
10 0 29 1 44 0 42 4 77 1 56 7
11 0 30 2 45 1 42 4 78 1 56 7
12 0 30 2 46 0 43 4 79 1 56 7
Logit estimates Log likelihood = -643.06749
Number of obs =
LR chi2(5)
=
Prob > chi2
=
源自文库
Pseudo R2
=
1976 151.47 0.0000 0.1054
----------------------------------------------------------------
Test of homogeneity of ORs (approx): chi2(4) = 6.27 Pr>chi2 = 0.1797
22 南京医科大学流行病与卫生统计学系
logistic回归结果
. xi : logit y x i.age [fw=f]
i.age
_Iage_1-5
(naturally coded; _Iage_1 omitted)
1 P 1 e( 1x1 2 x2 L m xm )
5 南京医科大学流行病与卫生统计学系
logistic函数
z 1 x1
1 P 1 ez
2 x2
L
m xm
6 南京医科大学流行病与卫生统计学系
7 南京医科大学流行病与卫生统计学系
logistic回归模型
P(y=1|X),简记为P,表示暴露因素为X时个体
e -5.363111+0.1121age P 1 e-5.363111+0.1121age
16 南京医科大学流行病与卫生统计学系
2 传统方法与logistic回归 四格表资料(病例对照)与logistic的关系 分层四格表资料与logistic的关系
17 南京医科大学流行病与卫生统计学系
age | .1120853 .0241941 4.63 0.000 .064666 .159505
_cons |-5.363111 1.1401 -4.70 0.000 -7.597666 -3.128556
------------------------------------------------------------
_Iage_3 | 1.934401 .4583881 4.22 0.000 1.035977 2.832825
_Iage_4 | 2.648059 .4497735 5.89 0.000 1.766519 3.529599
_Iage_5 | 3.194293 .4475326 7.14 0.000 2.317145 4.07144
8个年龄组与冠心病患病率
Age group 1 (20~) 2 (30~) 3 (35~) 4 (40~) 5 (45~) 6 (50~) 7 (55~) 8 (60~)
n
p
10 0.1000
15 0.1333
12 0.2500
15 0.3333
13 0.4615
8 0.6250
17 0.7647
1 P 1 e( 1x1 2 x2 L m xm )
e 1 x1 2 x2 L m xm P 1 e 1 x1 2 x2 L m xm
9 南京医科大学流行病与卫生统计学系
100个个体的年龄和冠心病(CHD)状况
ID CHD AGE AGRP ID CHD AGE AGRP ID CHD AGE AGRP
1 0 20 1 35 0 38 3 68 0 51 6
2 0 23 1 36 0 39 3 69 0 52 6
3 0 24 1 37 1 39 3 70 1 52 6
4 0 25 1 38 0 40 4 71 1 53 6
5 1 25 1 39 1 40 4 72 1 53 6
6 0 26 1 40 0 41 4 73 1 54 6
相关文档
最新文档