十多元线性回归与logistic回归

十多元线性回归与logistic回归
十多元线性回归与logistic回归

第十一章 多元线性回归与logistic 回归

一、教学大纲要求

(一)掌握内容

1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。

2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。

3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。 4.logistic 回归模型结构:模型结构、发病概率比数、比数比。 5.logistic 回归参数估计方法。

6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容

常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。

(三)了解内容

标准化偏回归系数的解释意义。

二、教学内容精要

(一) 多元线性回归分析的概念

将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )

基本形式:

01122?k k

Y b b X b X b X =+++???+ 式中Y ?为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k

X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。

(二) 多元线性回归的分析步骤

Y ?是与一组自变量1X ,2X ,…,k

X 相对应的变量Y 的平均估计值。 多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计

值Y ?和实际观察值Y 的残差平方和22)?(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…,

k b 值。根据以上要求,用数学方法可以得出求回归系数1b ,2b ,…, k b 的下列正规方程组

(normal equation ):

??

?

??

??=+++=+++=+++ky kk k k k y

k k y k k l l b l b l b l l b l b l b l l b l b l b 22112222221111122111

式中

()()

()()i j ij ji i i j j i j X X l l X X X X X X n

==--=-

∑∑∑∑

∑∑∑∑-

=--=

n

Y X Y X Y Y X X

l i i i i

iy )

)(())((

常数项0b 可用下式求出:

k k X b X b X b Y b ----= 22110

(三)多元线性回归分析中的假设检验

在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量1X ,2X ,…,k X 是否与Y 真有线性依存关系,也就是检验无效假设0H (1230k ββββ===

==), 备选假设1H 为各j β值不全等于0或全不等于0。

检验时常用统计量F

)

1(--=

=k n l k

l MS MS F 误差回归误差回归 式中n 为个体数,k 为自变量的个数。

式中 ky k y y l b l b l b l +++= 2211回归

回归总误差l l l -=

()∑=-=yy l Y Y l 2

(四) logistic 回归模型结构

设k X X X ,,,21 为一组自变量,Y 为应变量。当Y 是阳性反应时,记为Y =1;当Y 是阴性反应时,记为Y =0。用P 表示发生阳性反应的概率;用Q 表示发生阴性反应的概率,显然P +Q =1。

Logistic 回归模型为:

k

k k

k X X X X X X e e P ββββββββ+++++++++=

22110221101

同时可以写成:

k

k X X X e Q ββββ+++++=

2211011

式中0β是常数项;(12)j j k β=,,,是与研究因素j X 有关的参数,称为偏回归系数。 事件发生的概率P 与x β之间呈曲线关系,当x β在()∞∞-,之间变化时, P 或Q 在(0,1)之间变化。

若有n 例观察对象,第i 名观察对象在自变量ik i i X X X ,,,21 作用下的应变量为i Y ,阳性

反应记为i Y =1,否则i Y =0。相应地用i P 表示其发生阳性反应的概率;用i Q 表示其发生阴性反应的概率,仍然有i P +i Q =1。i P 和i Q 的计算如下:

01122011221i i k ik

i i k ik

X X X X X X P i e e ββββββββ++++++++=+

011221

1i i k ik

i X X X Q e ββββ++++=

+

这样,第i 个观察对象的发病概率比数(odds )为i i Q P ,第l 个观察对象的发病概率比数为l l Q P ,而这两个观察对象的发病概率比数之比值便称为比数比OR (odds ratio )。对比数

比取自然对数得到关系式:

ln )()()(222111lk ik k l i l i l l i i X X X X X X Q P Q P -++-+-=?

??

?

??βββ 等式左边是比数比的自然对数,等式右边的()lj

ij X X -()k j ,,, 21=是同一因素i

X

的不同

暴露水平ij X 与lj X 之差。j β的流行病学意义是在其它自变量固定不变的情况下,自变量j X 的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量j X 的水平每增加一个测量单位时所引起的比数比为增加前的j

e

β倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。

(五)logistic 回归参数估计

由于logistic 回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate )求解模型中参数j β的估计值(12)j b j k =,,,。

Y 为在k X X X ,,,21 作用下的阳性事件(或疾病)发生的指示变量。其赋值为:

?

??=应个观察对象出现阴性反,第应个观察对象出现阳性反,第i i Y i 01

第i 个观察对象对似然函数的贡献量为:

1i i

Y Y i i i

l P Q -= 当各事件是独立发生时,则n 个观察对象所构成的似然函数L 是每个观察对象的似然函数贡献

量的乘积,即

∏∏==-==n i n

i Y i Y i i i i Q P l L 1

1

1

式中∏为i 从1到n 的连乘积。

依最大似然估计法的原理,使得L 达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton —Raphson 迭代算法求

解参数估计值)21(k j b

j

,,, =。

(六)logistic 回归筛选自变量

在logistic 回归中,筛选自变量的方法有似然比检验(likelihood ratiotest )、计分检验(score test)、Wald 检验(Wald test)三种。其中似然比检验较为常用,

用Λ表示似然比检验统计量,计算公式为:

()

)ln (ln 2ln 2''L L L L -==Λ

式中ln 为自然对数的符号,L 为方程中包含)(k m m <个自变量的似然函数值,'

L 为在方程中包含原m 个自变量的基础上再加入1个新自变量j X 后的似然函数值。在无效假设0H 条件下,

统计量Λ服从自由度为1的2χ分布。当2

)1(αχ≥Λ时,

则在α水平上拒绝无效假设,即认为j X 对回归方程的贡献具有统计学意义,应将j X 引入到回归方程中;否则,不应加入。逆向进行

即可剔除自变量。

三、典型试题分析

(一)单项选择题

1.多元线性回归分析中,反映回归平方和在应变量Y 的总离均差平方和中所占比重的统计量是( )。

A . 复相关系数

B . 偏相关系数

C . 偏回归系数

D . 确定系数 答案:D

[评析] 本题考点:多元线性回归中的几个概念的理解。

多元线性回归中的偏回归系数(multiple linear regression )表示在其它自变量固定不变的情况下,自变量j X 每改变一个单位时,单独引起应变量Y 的平均改变量。确定系数(coefficient of determination )表示回归平方和回归SS 占总离均差平方和总SS 的比例,简记为2

R 。即

总回归SS SS R =2。确定系数的平方根即R 称为复相关系数(multiple correlation coefficient ),

它表示p 个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤R ≤1。

2.Logistic 回归分析适用于应变量为( )。

A .分类值的资料

B .连续型的计量资料

C .正态分布资料

D .一般资料

答案:A

[评析] 本题考点:logistic 回归的概念。

logistic 回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。

(二)计算题

根据表11-2数据,分别用SPSS 统计软件、SAS 统计软件写出多元线性回归的统计分

析步骤及其简要结果。

表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果

编号 体重1X /kg 胸围2X /cm 肩宽3X /cm 肺活量Y /L

1 50.8 73.

2 36.

3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.91

4 55.0 77.1 31.0 2.63

5 45.3 81.7 30.0 2.8

6 6 45.3 74.8 32.0 1.91

7 51.4 73.7 36.5 2.9

8 8 53.8 79.4 37.0 3.28

9 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:

SPSS :数据文件:“EXAP11—2.sav ”。 数据格式:4列20行。过程: Statistic

Regression Linear ...

Dependent :Y

Independent(s):1X ,2X ,3X

Method : Enter 结果:

Variables Entered/Removed

a All requested variables entered.

b Dependent Variable: Y (肺活量)

Model Summary

a Predictors: (Constant),

3X ,2X ,1X

ANOVA

a Predictors: (Constant), 3X ,2X ,1X

b Dependent Variable: Y

Coefficients

a Dependent Variable: Y

SAS :

数据步 过程步 DATA EXAP11—2;INPUT x1 x2 x3 y@ @; PROC REG ;

CARDS ; MODEL y=x1 x2 x3; 50.8 73.2 36.3 2.96…45.8 75.0 32.5 1.94; RUN ;

结果:

Analysis of Variance

Sum of Mean

Source DF Squares Square F V alue Pr > F

Model 3 3.36732 1.12244 13.41 0.0001 Error 16 1.33893 0.08368 Corrected Total 19 4.70626

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t| Intercept 1 -4.67553 1.32051 -3.54 0.0027 X1 1 0.06036 0.02082 2.90 0.0105 X2 1 0.03508 0.01544 2.27 0.0372 X3 1 0.05010 0.02888 1.73 0.1020

[评析] 本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。 根据SPSS 或SAS 的输出结果,可进行以下分析: 1. 检验H 0:1230βββ===的方差分析表。F =13.413,P =0.0001,拒绝H 0,肺活量至少与一个自变量存在线性关系。

2. 估计偏回归系数b 1,b 2,b 3,给出多元线性回归方程

1234.680.060.040.05Y X X X =+++,R 2=0.715,R a 2

=0.662。

3. 偏回归系数检验,见表11-2。

表11-2 偏回归系数估计值及其检验

偏回归系数 估计值

SE t P b 0 -4.675 1.321 -3.54 0.00 b 1 0.060 0.021 2.90 0.01 b 2 0.035 0.015 2.27 0.04 b 3 0.050 0.029 1.73 0.10

四、习 题

(一) 单项选择题 1.

可用来进行多元线性回归方程的配合适度检验是: A .

2χ检验 B . F 检验

C . U 检验

D . Ridit 检验

2.

在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数: A . 不变

B . 增加相同的常数

C . 减少相同的常数

D . 增加但数值不定

3. 在多元回归中,若对某个自变量的值都乘以一个相同的常数k ,则: A . 该偏回归系数不变

B . 该偏回归系数变为原来的1/k 倍

C . 所有偏回归系数均发生改变

D . 该偏回归系数改变,但数值不定

4.

作多元回归分析时,若降低进入的F 界值,则进入方程的变量一般会: A . 增多 B . 减少

C . 不变

D . 可增多也可减少

(二) 名词解释

1.多元线性回归

2.偏回归系数

3.复相关系数

4.确定系数

5.比数

6.比数比 (三) 简答题

logistic 回归模型中,偏回归系数i β的解释意义是什么? (四) 计算题

某学者研究在某种营养缺乏状态下儿童的体重(Y ,kg )与身高(1X ,cm )、年龄(2X ,岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:

∑=16111

X ,

∑=21963121

X ,∑=1062

X ,∑=97622

X ,∑=341Y ,

∑=98832

Y

,∑=144542

1

X X ,∑=464391

Y X ,∑=30792

Y X 。

(1) 请写出求解2

2110?X b X b b Y ++=二元线性回归方程的正规方程组。 (2) 设方程组的解为114.20=b ,135.01=b ,923.02=b ,请写出回归方程。 (3) 完成下列方差分析表。

表11-3 12名儿童体重与身高、年龄回归分析方差分析表 变异来源 v SS MS F 回归 残差 总和

五、习题答案要点

(一) 单项选择题

1. B 2. A 3. B 4. A

(二) 名词解释

1. 用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线性依存关系,称为多元线性回归(multiple linear regression ),简称多元回归(multiple regression )。

2. 多元线性回归的基本形式为:01122?k k

Y b b X b X b X =+++???+ 1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。

3. 复相关系数R (coefficient of multiple correlation ), R 的大小表示所有自变量与应变量之间线性关系的密切程度。

4. 确定系数(coefficient of determination )简记为2

R ,表示回归平方和回归SS 占总离均差平方和总SS 的比例,即总回归SS SS R /2

=。用2

R 可定量评价在y 的总变异中,由x 变量组建立的线性回归方程所能解释的比例。

5. logistic 回归模型为:

k

k k

k X X X X X X e e P ββββββββ+++++++++=

22110221101

同时可以写成:

k k X X X e

Q ββββ+++++=

2211011

第i 个观察对象的发病概率比数(odds )为i i Q P ,即同一暴露水平下,阳性概率与阴性概率之比值称为比数(odds )。

6. logistic 回归模型中,两个观察对象的发病概率比数之比值称为比数比OR (odds

ratio )。其大小反映了不同暴露水平下,个体发病的相对危险程度。

(三)简答题

答:j β的流行病学意义是在其它自变量固定不变的情况下,自变量j X 的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量j X 的水平每增加一个测量单位时所引起的比数比为增加前的j e β

倍。

(四) 计算题

1.求解2

2110?X b X b b Y ++=二元线性回归方程的正规方程组为: ????

?=+=+y y

l l b l b l l b l b 222221

11122111 2.当方程组的解为114.20=b ,135.01=b ,923.02=b ,回归方程为:

2

1

923.0135.0114.2?X X Y

++= 3.列方差分析表。

表11-4 12名儿童体重与身高、年龄回归分析方差分析表 变异来源 v SS MS F 回归 2 151.35 75.675 16.380 残差 9 41.57 4.62 总和 11 192.92

(尹平 白玉祥)

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

Logistic回归分析报告结果解读分析.docx

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1.Logistic回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。 Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。 图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达 3. Logistic报告OR值或β值 在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该报告OR值,

第18章 Logistic回归思考与练习参考答案

第18章Logistic回归 思考与练习参考答案 一、最佳选择题 1. Logistic回归与多重线性回归比较,( A )。 A.logistic回归的因变量为二分类变量 B.多重线性回归的因变量为二分类变量 C.logistic回归和多重线性回归的因变量都可为二分类变量 D.logistic回归的自变量必须是二分类变量 E.多重线性回归的自变量必须是二分类变量 2. Logistic回归适用于因变量为( E )。 A.二分类变量B.多分类有序变量C.多分类无序变量 D.连续型定量变量E.A、B、C均可 3. Logistic回归系数与优势比OR的关系为( E )。 A.> β0等价于OR<1 C.β=0等价于OR=1 β0等价于OR>1 B.> D.β<0等价于OR<1 E.A、C、D均正确 4. Logistic回归可用于( E )。 A.影响因素分析B.校正混杂因素C.预测 D.仅有A和C E.A、B、C均可 5. Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( D )。 A.软件自动筛选的前进法B.软件自动筛选的后退法 C.软件自动筛选的逐步法D.应将几个哑变量作为一个因素,整体进出回归方程E.A、B、C均可 二、思考题 1. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,并用logistic回归方程筛选影响因素。试问上述问题采用logistic回归是否妥当?

答:上述问题采用logistic回归不妥当,因为logistic回归中参数的极大似然估计要求样本结局事件相互独立,而研究的问题中低龄青少年吸烟行为不独立。 2. 分类变量赋值不同对logistic回归有何影响? 分析结果一致吗? 答:(1)若因变量交换赋值,两个logistic回归方程的参数估计绝对值相等,符号相反;优势比互为倒数,含义有所区别,实质意义一样;模型拟合检验与回归系数的假设检验结果相同。 (2)若改变自变量参照类或哑变量设置方法,logistic回归方程形式、参数含义虽有不同,但是模型实质与应用结果相同,可以根据研究需要选择不同赋值方法。Logistic回归结果报告中,一定要说明分类变量赋值方法及其参照,否则无法理解模型意义。 3. 例18-6研究性别对吸烟行为的影响,采用logistic回归校正了年龄对居民吸烟行为的影响,请考虑有无其他混杂因素需要校正? 答:例18-6的主要目的是研究吸烟行为与性别的联系及其强度,例题采用logistic回归只校正了年龄对居民吸烟行为的影响。事实上,除年龄外,仍有其他因素会影响吸烟行为与性别的联系强度,如家庭人均年收入、受教育程度、主动获取保健知识等。建立回归模型时,首先应根据专业知识确定可能的影响因素,再采用logistic回归,将性别作为强制引入变量,对其他可能的影响因素进行变量筛选,最后将性别与筛选出的因素作为自变量建立logistic回归方程,从而正确回答校正混杂因素后吸烟行为与性别的联系及其强度。 4. 配对病例-对照研究资料若采用非条件logistic回归进行分析,对结果有何影响? 答:采用配对(匹配)方法的目的是对可能的混杂因素加以控制,有助于提高研究效率和可靠性。配对设计的特点是对子内部控制的混杂变量一致,有较好的可比性。配对(匹配)资料若采用非条件logistic回归进行分析,则忽视了这种可比性,降低了分析方法的检验效能。 三、计算题 探讨肾细胞癌转移有关的因素研究中,收集了26例行根治性肾切除术患者的肾癌标本资料(教材表18-19),有关变量说明如下,试进行logistic回归分析。 X:确诊时患者的年龄(岁)。 1 X:肾细胞癌血管内皮生长因子,其阳性表达由低到高共3个等级,分别赋值1、2、3。 2 X:肾细胞癌组织内微血管数。 3 X:肾细胞癌细胞核组织学分级,由低到高共4级,分别赋值1、2、3、4。 4

logistic回归分析实例操作

Logistic回归分析 二分类(因变量Y有(如发病1与未发病0)两种可能出现的结果)资料的Logistic回归分析,至于多分类Logistic回归分析,与二分类操作过程类似,只是在数据编制及分析方法选择处不同。 分析的一般步骤: 变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释 实例操作 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。 1.各变量及其赋值说明 x1:确诊时患者的年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级(1-3)x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共4级(1-4) x5:肾细胞癌分期,由低到高共4期(1-4) y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。为二分类变量。 若作单因素的Logistic回归分析,也就是分别作Y与各自变量间的回归分析,如Y与X1、Y与X2等的单因素Logistic回归分析。 2.建立数据库

3.分析步骤 (1)

(2)

上图中若为单因素回归分析,只需在Covariates协变量框内导入单一自变量如X1即可。(3) 4.分析结果 (1)数据描述 Case Processing Summary Unweighted Cases a N Percent Selected Cases Included in Analysis 26 100.0 Missing Cases 0 .0 Total 26 100.0 Unselected Cases 0 .0 Total 26 100.0 a. If weight is in effect, see classification table for the total number of cases. (2)Block 1: Method = Forward Stepwise (Likelihood Ratio)

SAS 中Logistic回归方法的正确应用及结果的正确解释

Logistic回归方法的正确应用及结果的正确解释 金水高 (中国疾病预防控制中心,北京,100050) Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。近年来文献中经常出现对方法错用、误用及对结果的错误解释的现象。本文仅就在使用Logistic方法时经常出现的错误进行探讨。 1.Logistic回归中分类变量的数量化方法 在Logistic回归中,自变量可以有多种形式。以连续变量形式的如年龄;以等级变量进入方程的如不同的污染等级。而更多的却是以分类变量(定性变量)形式出现的,如性别,地区,职业等。对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但经常有有些作者将多水平的分类变量按等级来进行赋值(1)。下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。 表1 某个吸烟调查中一些自变量的意义及赋值 作者将第一个变量不同水平赋为具有等级关系的四个值,虽然比较勉强,还可以接受,因为变量的四个取值确实存在程度的差异(但为什麽相邻之间都相差1,这就没有太多的道理了)。而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。因为变量M2是询问调查对象是否在电视中看到过有关吸烟的内容,人们对这个问题给出的答案显然并不存在任何量上的程度差别。 对这类自变量的赋值应该采取数量化的方法。通常建议的数量化方法为设臵哑变量。例如对于上面的M2,有4种可能回答,则要设臵3个哑变量,假设为M21,M22,M23。将每一种可能回答(水平)用一组哑变量的取值来表述(表2)。 从表2可以看到,用M21,M22及M23同时等于0表示没有在电视里看到过有关吸烟方面的任何内容;而用M21=1,M22及M23均为0表示在电视里看到过关于吸

logistic回归

定性资料的回归分析------Logistic 回归 Logistic 模型的主要用途: 1. 用作影响因素分析 2.作为判别分析方法 第一节 二分类变量的logistic 回归 逻辑回归区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。啥是0-1型数据?就是这个数据有且仅有两个可能的取值。数学上为了方便,把其中一个记作0,另外一个记作1. 例1:购买决定:我是买呢?还是买呢?还是买呢?如果您的决策永远是:买、买、买,这不是0-1数据。我们说的购买决策是:买还是不买? 定义:1=购买,0=不购买。这个关于购买决定的0-1变量老牛了。为啥?因为它支撑了太多的重要应用。例如,我生产了一瓶矿泉水,叫做“农妇山泉有点咸”, 到底卖给谁呢?为此,我们需要做市场定位。什么是市场定位?市场定位从回归分析的角度看,就是想知道:谁会买这个产品?谁不会买?或者说:谁购买这个产品的可能性大,谁购买的可能性小。这样我们就可以瞄准可能性最高的一批人,他们就构成了我的目标市场。这就是我们通常所说的市场定位。 令Y 表示购买决定,那么影响它的因素有很多。比如,消费者自己的人口特征1X 、消费者过去的购买记录是2X 、来自社交网络朋友的行为信息3X 、产品自己的特征4X 、产品正在承受的市场手段策略(例如:促销)5X 、竞争对手的市场动作6X 等等。 一.模型建立 理论回归模型:01122ln ...,1p p p x x x p ββββ=+++-其中1(1,...,)p p p y x x ==。 注: 1p p - 称为优势(odds), 表示某个事件的相对危险度. 获得容量为n 的样本()12,,,,1,...,i i ip i x x x y i n =后可得样本回归模型: 01122ln ,1i i i p ip i p x x x p ββββ=+++-其中1(1,...,)i i p p p y x x ==,1,...,i n =。 补充说明 (1)逻辑回归模型的整个生成过程是以构造性的思想为主,而不是因为:上帝他老人家生成数据的真实机制是这样的,没有那么巧的事。 (2)逻辑回归构造的核心思想是通过逻辑变换把0-1之间的概率变换为正负无穷之间的一个数字。给定一组数据,如果赶巧了,他能够被逻辑回归模型很好的拟合,那么相应的估计精度和预测精度都会很优秀。但是,绝大多数情况下,拟合效果跟上帝比,差得远,跟拍脑袋比,好很多。所以,这就成就了逻辑回归,作为一种最常见的0-1回归分析方法的重要地位。 (3)通过逻辑回归模型,我们可以对一个样本Y 取值为1的概率予以测算,然

相关文档
最新文档