SPSS 危险度分析和Logistic回归

合集下载

SPSS专题2回归分析线性回归Logistic回归对数线性模型

SPSS专题2回归分析线性回归Logistic回归对数线性模型
预测。 • 这里所说的预测,是用已知的自变量的值通过模型
对未知的因变量值进行估计;它并不一定涉及时间 先后的概念。
3
例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩 相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav)
50名同学初三和高一成绩的散点图
70.00
j3
80.00
90.00
100.00
Corre la ti ons
j3
j3
Pearson Correlati on
1
s1 .7 95 **
Si g. (2-tai l ed)
. 0 00
N
50
50
s1
Pearson Correlati on
.7 95 **
1
Si g. (2-tai l ed)
回归分析
线性回归 Logistic回归 对数线性模型
吴喜之
回归分析
• 顾客对商品和服务的反映对于商家是至关重要的,但是仅仅 有满意顾客的比例是不够的,商家希望了解什么是影响顾客 观点的因素以及这些因素是如何起作用的。
• 一般来说,统计可以根据目前所拥有的信息(数据)建立 人们所关心的变量和其他有关变量的关系(称为模型)。
. 0 00
N
50
50
**. Correl ati on i s si gnifi cant at the 0.01 l evel (2-tai l ed).
Corre la ti ons
Kendal l's tau_b j 3
Correl ati on Coeffi ci ent
j3 1 . 00 0
80

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析[转载]SPSS学习笔记之——二项Logistic回归分析一、概述Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。

他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。

因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。

下面学习一下Odds、OR、RR的概念:在病例对照研究中,可以画出下列的四格表:------------------------------------------------------暴露因素病例对照-----------------------------------------------------暴露 a b非暴露 c d-----------------------------------------------比值、比数,是指某事件发生的可能性(概率)与不发生的可能Odds: 称为性(概率)之比。

在病例对照研究中病例组的暴露比值为:odds1 = (a/(a+c))/(c(a+c)) = a/c,对照组的暴露比值为:odds2 = (b/(b+d))/(d/(b+d)) = b/dOR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) =ad/bc换一种角度,暴露组的疾病发生比值:odds1 = (a/(a+b))/(b(a+b)) = a/b非暴露组的疾病发生比值:odds2 = (c/(c+d))/(d/(c+d)) = c/dOR = odds1/odds2 = ad/bc与之前的结果一致。

OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。

OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。

SPSS专题2 回归分析(线性回归、Logistic回归、对数线性模型)

SPSS专题2 回归分析(线性回归、Logistic回归、对数线性模型)

19
Correlation s lif e_ expectanc y _ f emale(y ear) .503** .000 164 1.000 . 192 .676**
cleanwateraccess_rura... life_expectancy_femal... Die before 5 per 1000
Model 1 2
R .930
a
R Square .866 .879
Model 1
df 1 54 55 2 53 55
Regres sion Residual Total Regres sion Residual Total
Mean Square 54229.658 155.861 27534.985 142.946
2
回归分析 • 一旦建立了回归模型 • 可以对各种变量的关系有了进一步的定量理解 • 还可以利用该模型(函数)通过自变量对因变量做 预测。 • 这里所说的预测,是用已知的自变量的值通过模型 对未知的因变量值进行估计;它并不一定涉及时间 先后的概念。
3
例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩 相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav)
50名同学初三和高一成绩的散点图
100
90
80
70
60
高 一成 绩
50
40 40
从这张图可以看出什么呢?
50 60 70 80 90 100 110
4
初三成绩
还有定性变量 • 该数据中,除了初三和高一的成绩之外,还有 一个定性变量 • 它是学生在高一时的家庭收入状况;它有三个 水平:低、中、高,分别在数据中用1、2、3 表示。

SPSS专题2回归分析线性回归Logistic回归对数线性模型

SPSS专题2回归分析线性回归Logistic回归对数线性模型

(Constant)
410.150
18.817
21.797
.000
l i fe_expectancy_ femal e(year)
-4.896
.284
-.885
-17.252
.000
cl eanwateraccess_ rural (%)
-.237
a. Dependent Vari abl e: Di e before 5 per 1000
Kendall Spearman
Corre la ti ons
Kendal l's tau_b cl eanwateraccess_ rural (%)
cl eanwateracc
ess_rural (%)
Correl ati on Coeffi ci ent
1 . 00 0
Si g. (2-tai l ed)
Corre la ti ons
cl eanwateraccess_ rural (%)
Pearson Correl ati on Si g. (2-tai l ed)
cl eanwateracc e ss_ ru ra l(% )
l i fe_expectancy_ femal e(year)
N
Die before 5 per 1000
5
还有定性变量
下面是对三种收入对高一成绩和高一与初三成绩差的盒 形图
高一成绩与初三成绩之差 高一成绩
110
100
90
80
70
60
50
39 25
40
30
N=
11
27
12
1
2

SPSS数据分析—二分类Logistic回归模型

SPSS数据分析—二分类Logistic回归模型

对于分类变量,我们知道通常使用卡方检验,但卡方检验仅能分析因素的作用,无法继续分析其作用大小和方向,并且当因素水平过多时,单元格被划分的越来越细,频数有可能为0,导致结果不准确,最重要的是卡方检验不能对连续变量进行分析。

使用线性回归模型可以解决上述的部分问题,但是传统的线性模型默认因变量为连续变量,当因变量为分类变量时,传统线性回归模型的拟合方法会出现问题,因此人们继续发展出了专门针对分类变量的回归模型。

此类模型采用的基本方法是采用变量变换,使其符合传统回归模型的要求。

根据变换的方法不同也就衍生出不同的回归模型,例如采用Logit变换的Logistic回归模型,采用Probit变换的Probit回归模型等,相比之下,Logistic是使用最为广泛的针对分类数据的回归模型。

Logistic回归模型的适用条件1.因变量为二分类变量或是某事件的发生率2.自变量与Logit变换后的因变量呈线性关系3.残差合计为0,且服从二项分布4.各观测值之间独立由于Logistic回归模型的残差项服从二项分布而不是正态分布,因此不能使用最小二乘法进行参数估计,而是要使用最大似然法。

和其他回归分析一样,Logistic回归也放在分析—回归过程下面,下面我们通过一个例子来说明具体操作收集了一组数据,希望通过这些数据分析出低出生体重儿的影响因素,数据如下可见,数据集中变量比较多,且数据类型丰富,因变量为二分类变量Low,有两个水平:0-正常体重,1-低出生体重,我们先做一个最简单的单变量Logistic 回归,只考虑smoke这个因素分析—回归—二元Logistic回归前面我们只引入了一个自变量,可以看到模型的效果并不理想,而且Logistic 回归和传统回归模型一样,也可以引入多个自变量并且可以对自变量进行筛选,尽量引入对因变量存在强影响的自变量,下面我们继续加入自变量并进行筛选。

SPSS--logistic回归分析

SPSS--logistic回归分析

小结
谢谢大家!
基础知识
通过下例复习相关概念 如:研究患某疾病与饮酒的关联性
患病率 P1=? P2=?
基础知识
二分类logistic回归模型
回归系数的意义
多因素logistic回归分析时,对回归系数 的解释都是指在其他所有自变量固定的 情况下的优势比。 存在因素间交互作用时,logistic回归系 数的解释变得更为复杂,应特别小心。
适用条件
因变量为二分类变量或某事件的发生率 自变量与Logit(P)之间为线性关系 残差合计为0,且服从二项分布 各观测间相互独立 参数估计方法:最大似然法
例1
研究急性心肌梗塞(AMI)患病与饮酒的关 系,采用横断面调查。
SPSS基本操作
哑变量设置
为了便于解释,对二分类变量按0、1编码 如果对二项分类变量按+1、-1编码,结果? 分类变量必须转化。如地区对血压的影响。 等级资料,当等级之间量度不一时必须转化。 连续资料不宜直接进入方程时,转化为等级 资料或分类资料。
多因素统计分析 1. 因变量为计量资料,多重现性回归 2. 因变量为分类变量,logistic回归
பைடு நூலகம்
Logistic回归模型
按研究设计分类: 1. 非配对设计:非条件logistic回归模型 2. 配对病例对照:条件logistic回归模型
按反应变量分类: 1. 二分类logistic回归模型(常用) 2. 多分类无序logistic回归模型(常用) 3. 多分类有序logistic回归模型(常用)
logistic 回归
海南医学院公共卫生学院 卫生统计学教研室 赵婵娟
chanjuan850@
内容
基本概念 基本步骤 基本操作 基本结果解释

spss二元logistic回归分析结果解读

spss的二元logistic回归
SPSS(Statistical Product and Service Solutions)是一款数据统计与分析软件。

SPSS软件可以提供全面高级的统计分析,方便易用可快速操作,可缩小数据科学与数据理解之间的差距;在具体的应用方向方面,SPSS提供了高级统计分析、大量机器学习算法、文本分析等功能,具备开源可扩展性,可与大数据的集成,并能够无缝部署到应用程序中。

Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。

变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。

Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。

OR(OddsRatio):比值比,优势比。

二元logistic回归是研究二分类反应变量和多个解释变量间回归关系的统计学分析方法。

详解利用SPSS进行Logistic_回归分析

第8 章利用SPSS 进行Logistic 回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1 表示。

如果我们采用多个因素对0-1 表示的某种现象进行因果关系解释,就可能应用到logistic 回归。

Logistic 回归分为二值logistic 回归和多值logistic 回归两类。

首先用实例讲述二值logistic 回归,然后进一步说明多值logistic 回归。

在阅读这部分内容之前,最好先看看有关SPSS 软件操作技术的教科书。

§8.1 二值logistic 回归8.1.1 数据准备和选项设置我们研究2005 年影响中国各地区城市化水平的经济地理因素。

城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。

地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。

我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。

这些数据不妨录入Excel 中。

数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1 表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。

以各地区2005 年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes 表示,否则用No 表示(图8-1-1)图8-1-1 原始数据(Excel 中,局部)将数据拷贝或者导入SPSS 的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31 个地区的数据(SPSS 中,局部)第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic K”的路径(图8-1-3)打开二值Logistic 回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic 回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。

利用SPSS进行logistic回归分析(二元、多项)

线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢?比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品,等等,这时候我们就要用到logistic回归分析了。

Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。

还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。

二值logistic回归:选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。

有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。

把你的自变量选到协变量的框框里边。

细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。

我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。

那么我们为了模型的准确,就把这个交互效应也选到模型里去。

我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。

默认的是进入,就是强迫所有选择的变量都进入到模型里边。

除去进入法以外,还有三种向前法,三种向后法。

一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。

再下边的选择变量则是用来选择你的个案的。

利用SPSS进行Logistic回归分析

第8章利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。

如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。

Logistic回归分为二值logistic回归和多值logistic回归两类。

首先用实例讲述二值logistic回归,然后进一步说明多值logistic回归。

在阅读这部分内容之前,最好先看看有关SPSS软件操作技术的教科书。

§8.1 二值logistic回归8.1.1 数据准备和选项设置我们研究2005年影响中国各地区城市化水平的经济地理因素。

城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。

地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。

我们用各地区的地带分类代表地理位置。

第一步:整理原始数据。

这些数据不妨录入Excel中。

数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。

以各地区2005年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes表示,否则用No表示(图8-1-1)。

图8-1-1 原始数据(Excel中,局部)将数据拷贝或者导入SPSS的数据窗口(Data View)中(图8-1-2)。

图8-1-2 中国31个地区的数据(SPSS中,局部)第二步:打开“聚类分析”对话框。

沿着主菜单的“Analyze→Regression→Binary Logistic K”的路径(图8-1-3)打开二值Logistic回归分析选项框(图8-1-4)。

图8-1-3 打开二值Logistic回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
exp(bi)为每增加一岁时,发病的相对危险度 如60岁相对于35岁其发病的相对危险度为exp(25bi)
A
10
Logistic回归的应用4
4. 比较各因素对于发病的相对重要性 比较各标准化偏回归系数bi’ 绝对值的大小,绝对值大的对发病的作用也 大。
5. 考察因素之间的交互作用 如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK= XL*XK ,如其偏回归系数bLK显著,则XL和XK之间的交互作用显著。
A
4
危险度分析3
分层分析步骤: (1)计算各层的比数比,作显著性检验。 (2)检验各层的总体比数比是否相同。
如差异有统计学意义,结束。 (3)如差异无统计学意义,
计算公共比数比。 (4)检验公共比数比和1之间的差异是否有统计学意义。
A
5
SPSS中的实现
AnalyzeDescriptive Statistics Crosstabs Statistics对话框中选取Risk选项,分层分析另外选
(1) 当Xi为二值变量时,如吸烟(1=吸,0=不吸) exp(bi)为吸烟对于发病的比数比
A
9
Logistic回归的应用3
(2)当Xi为等级变量时,如吸烟(0=不吸,1=少量,2=中等,3=大 量)。 exp(bi)为每增加一个等级,发病的相对危险度
如大量对于不吸其发病的相对危险度为: exp(3bi) (3)当Xi为连续变量时,如年龄(岁)
2. 因素分析 分析哪些因素(协变量)对疾病的发生有显著作用。 对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的 影响后,该因素与发病有显著关系。
A
8
Logistic回归的应用2
3. 求各因素在排除其它因素的影响后,对于发病的相对危险度 (或比数比) 如某因素Xi的偏回归系数为bi, 则该因素Xi对于发病的比数比为 exp(bi)
两个比数之比值称为比数比:OR(odds ratio)。 病例组中暴露的比数与对照组中暴露的比数之比值
OR=[a/b]/[c/d]=ad/bc
A
3
危险度分析2
有时在分析某危险因素与疾病之间的关系时, 有些额外因 素会对所分析的问题起干扰作用,这些额外因素就称为混 杂因素。它能部分甚至全部掩盖危险因素与疾病之间的真 实关系,故必须设法排除。例如要研究卫生状况与某传染 病发病之间的关系,但传播可能与居住密度有关 ,故居住 密度对所研究的问题就成为一个混杂因素,如果结论中未 排除该因素之干扰,将影响推断之可靠性
在发病率较低的疾病中可由比数比来近似地估计相对危险度 。
A
2
RR与OR的计算
RR=P1/P0
比数(odds),某事件发生的概率和不发生的概率之比。 Odds=P/(1-P)
病例组中暴露的比数=[a/(a+b)]/[b/(a+b)]=a/b 对照组中暴露的比数=[c/(c+d)]/[d/(c+d)]=c/d
危险度分析和Logistic回归
讲授:王柏松
A
1
危险度分析
相对危险度(relative risk)简记为RR,人群总体中暴露于某因素 者的发病率P1与不暴露于某因素者的发病率P0之比值称为该因素对 于该疾病发病的相对危险度。
所比较的是病例组和对照组中暴露者比数(odds),两个比数之比值 称为比数比(odds ratio)。
6. Logistic回归也可用于二类间的判别分析。
A
11
SPSS中的实现
AnalyzeRegressionBinary Logistic
A
12
本节内容
掌握危险度分析在SPSS中的实现及结果解释,注意 RR和OR的区别
熟悉分层分析在SPSS中的实现及结果解释 了解logistic回归
A
13
tistics选项。
A
6
Logistic回归
数据:因变量为二值变量。 统计量:回归系数,比数比等。 较大值代表终点事件 应用:
A
7
Logistic回归的应用
1. 在队列研究中用于预测 把各协变量代入方程,得到P值,即发病 的概率。
相关文档
最新文档