高级心理统计4-Logistic回归分析

合集下载

第8章:Logistic回归分析

第8章:Logistic回归分析

3、Logistic 回归模型的参数估计 对 Logistic 回归模型的参数估计可以采用极大似然法或者迭 代法。 极大似然法的基本思想是先建立似然函数,然后求使得似然 函数达到最大的参数估计值。 对于已有样本,可建立样本的似然函数为:
L piyi (1 pi )1 yi
i 1 n
样本的对数似然函数为:
ln L [ yi ln pi (1 yi ) ln(1 pi )]
n
将 pi 代入得:
i 1
ln L [ yi ( 0 1 xi1 2 xi 2 k xik )
i 1
n
ln(1 exp(0 1xi1 2 xi 2 k xik ))]
根据极大似然原理,对 lnL 求一阶导数并令其为0,再用 Newton-Raphson 迭代方法求解,得到参数估计值及其标准误。
4、 Logistic 回归的评价及统计检验 ⑴对于整体模型的检验 logistic回归方程求解参数是采用极大似然估计方法,因此 其回归方程的整体检验通过似然函数值( Likelihood )。 所谓似然函数值表达的是一种概率,即在假设拟合模型为真 实情况时能够观察到这一特定样本数据的概率,因此这个函数 值处于[0,1]之间。
e pi 1 e 0 1x1 2 x2 k xk e 0 1x1 2 x2 k xk 1 pi 1 1 e 0 1x1 2 x2 k xk
其中:pi 表示第 i 个观测中事件发生的概率,1-pi 表示第 i 个观 测中事件不发生的概率。
Logistic 回归分析根据因变量取值类别不同,又可以分为二 元 Logistic 回归分析和多元 Logistic 回归分析。

logistic回归分析

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。

在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。

一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。

Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。

这样,我们可以用这个数值来表示某个事件发生的概率。

当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。

2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。

其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。

在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。

在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。

在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。

在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。

3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。

其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。

此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。

二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。

统计学中的Logistic回归分析

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数,可以将概率转化为对数几率。

Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。

比较常用得情形就是分析危险因素与就是否发生某疾病相关联。

例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。

自变量既可以就是连续变量,也可以为分类变量。

通过Logistic回归分析,就可以大致了解胃癌得危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。

多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。

2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。

Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。

如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。

这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。

如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。

掌握多元logistic回归分析,看这篇就够了

掌握多元logistic回归分析,看这篇就够了

掌握多元logistic回归分析,看这篇就够了01. 概念多元 logistics 回归(multinomial logistics regression)又称多分类logistics 回归。

医学研究、社会科学领域中,存在因变量是多项的情况,其中又分为无序(口味:苦、甜、酸、辣;科目:数学、自然、语文、英语)和有序(辣度:微辣、中辣、重辣)两类。

对于这类数据需要用多元 logistics 回归。

多元logistics 回归实际就是多个二元logistics 回归模型描述各类与参考分类相比各因素的作用。

如,对于一个三分类的因变量(口味:酸、甜、辣),可建立两个二元logistics回归模型,分别描述酸味与甜味相比及辣味与酸味相比,各口味的作用。

但在估计这些模型参数时,所有对象是一起估计的,其他参数的意义及模型的筛选等与二元logistics类似。

02.条件因变量:三个及以上分类变量自变量:分类或连续变量协变量:分类变量03.案例及操作【例】为了研究饮食口味偏好的影响因素,分析年龄、婚姻情况、生活态度在饮食口味类型偏好(1=酸、2=甜、3=辣)中的作用,共挑选被试30人,结果见下表,试进行多元logistics回归。

说明:本案例数据纯属编造,结论不具有参考性和科学性,仅供操作训练使用。

⑴ 建立数据文件口味偏好,sav,见下图每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。

⑵对口味偏好 taste 加权单击【数据】→【加权个案】,打开加权个案对话框,加权口味偏好,见下图(3)选择【分析】→【回归】→【多项logistics】,打开多项logistics回归主对话框,见图。

⌝【因变量】:分类变量,本例选择“taste”⌝【因子】:可选择多个变量作为因子,本例选择“age”、“married”、“inactive”⌝【协变量】:可选择多个变量作为协变量,本例未选择(4)单击【参考类别】按钮,打开参考类别对话框,见图⌝【参考类别】:可选择【第一类别】、【最后类别】或【定制】,本例选择【最后类别】⌝【类别顺序】:可选择【升序】或【降序】(5)单击【模型】按钮,打开模型对话框,见下图:本例主要考察自变量age、married、inactive的主效应,暂不考察它们之间的交互作用,然后点击【继续】;(6)单击【statistics】按钮,打开统计对话框,见图:设置模型的统计量。

4参数Logistic拟合算法

4参数Logistic拟合算法

4参数Logistic 拟合算法详解1. 方程形式:00101A p x x A A y +⎪⎪⎭⎫ ⎝⎛+-=曲线形状:S 型递增或递减。

A1:x 趋近于无穷大或无穷小时,y 的最大值;A0:x 趋近于无穷大或无穷小时,y 的最小值;X :曲线拐点;P :与拐点处曲线斜率相关 2. 拟合算法:高斯牛顿迭代法第一步:做Logit-Ln 线性回归,求A1, A0, x 和p 的初值。

此时x 不能为0值,若输入的x 有0值,则将其设为一小值(例如:0.00001)。

首选将原方程变形为如下线性形式:x p x p y A A y ln ln ln 010-=⎪⎪⎭⎫ ⎝⎛+- 将A0的初值设为输入的y 值的最大值加1,A1的初值设为输入的y 值的最小值减0.1。

通过简单的直线拟合即可求出p 和x0的初值。

第二步:对Logistic 方程四个参数求偏微分,得到y 对给定系数的增量(△A1, △A2, △x, △p )的泰勒级数展开式。

p x x A y ⎪⎪⎭⎫ ⎝⎛+=∂∂0111p x x A y ⎪⎪⎭⎫ ⎝⎛+-=∂∂02111pp x x x x A A x p x y ⎪⎪⎭⎫ ⎝⎛⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛+-=∂∂020010012001001ln ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛+-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=∂∂p px x A A x x x x p y 泰勒级数展开式为: )(0000110p py x x y A A y A A y y y ∆∂∂+∆∂∂+∆∂∂+∆∂∂+= 由此,将曲线回归转化为多元线性回归,通过迭代计算,得到四个参数的变量△A1, △A2, △x, △p ,逐步修正四参数的值。

多元线性回归与多项式拟合方法相同,具体步骤如附录流程图所示。

每一次迭代可计算出参数变量值,新的参数值为原参数值与变量值的叠加。

第三步:为保证迭代收敛,在计算相关系数时,引入一系数a ,初值设为2,将a 与参数的变量矩阵相乘,计算相关系数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 逻辑回归
Logistic Regression
核心要点
1. 了解logistic回归的基本概念和原理,掌握其适 用的基本情境。
2. 了解logistic回归方程中的系数的含义与解释。 3. 学习logistic回归方程的整体检验和拟合优度的
评价标准。 4. 掌握SPSS软件展示logistic回归的操作过程和结
b. 伪测定系数(pseudo-R2):
c. 预测准确性:分类表(classification table)
4. 注意事项
第一,样本量大小。 第二,个案与变量的比例。 第三,预测变量的多重共线性。 第四,分类结果中的异常值。
5. 案例及SPSS操作
本章的应用案例是模拟生成 的,因此其分析结果不能推 论到实际之中,我们仅以此 为例演示logistic回归分析过 程。本案例数据文件参见 “4_1 logistic.sav”
存在线性关系; 2. 结果变量应为二分变量;预测变量可以是连续变
量、离散变量,如果是分类变量,采用虚拟编码; 3. 每次观测相互独立、残差均值为0。
3. 前提假设与模型
3. 前提假设与模型
3. Logistic曲线
我们以0.5作为截点,将事件发生概率大于0.5的结果变量赋值为
。 1(事件发生),否则赋值为0(事件未发生)
详见《高级心理统计》P92-P97
关键术语
二分变量 分类表 发生比 对数发生比 优势比 logistic曲线 logit转换 logit模型 发生比模型 logistic回归系数 logistic回归系数幂值 对数似然 函数 伪测定系数 wald检验
内容小结
1. 对于因变量为二分变量的情境,传统多元回归的方法不再适用, logistic回归则适用于此情境。 2. 通过对发生比取自然对数来进行logit转换,从而将二分结果变量转 移到连续的量尺上,使之与自变量之间形成线性可加的关系。 3. logistic回归方程由于对结果变量进行了转换,其对回归系数的解释 比传统多元回归方程的解释更加复杂。通常采用回归系数的幂值,即 EXP(B)来反映预测变量对结果变量发生比的影响。用Wald test对回归 系数的显著性进行检验。 4.用-2LL 和伪测定系数对logistic回归方程进行整体检验和拟合优度的 评价。
1. Logistic回归分析概述
Logistic回归的优势:
1. 对预测变量的分布和类型没有特定假设,预测变量可 以是连续变量、分类变量等;
2. 尤其适用于自变量对因变量的影响具有收益递减规律 或非线性的情况,即当自变量处于取值范围的两端时, 其值的变化对因变量的影响较小;当自变量处于取值 范围的中间部分时,其值的变化对于因变量的影响较 大的情况。
2. 主要回答的问题
1. 能否根据一系列的预测变量来预测个案在结果变 量的类别?
2. 各预测变量的效果如何? 3. 预测变量之间是否存在交互作用? 4. 个案的分类结果是否准确? 5. 预测变量的效应值多大?
3. 前提假设与模型
一、模型假设 1. 连续预测变量与经过logit转换后的结果变量之间
果解释。
提纲
4 注意的问题 5案例和SPSS操作
1. Logistic回归分析概述
用于处理因变量为离散的二分变量的问题,也可 以进一步扩展为多分类Logistic回归。
logistic回归分析中并不直接对二分结果变量进行 回归分析,而是将其转换到logit尺度下,引入发 生比(事件发生的概率/事件不发生的概率)的概 念,再对发生比取自然对数(ln)作为因变量, 探究自变量的线性组合对转换后的因变量的影响。
3. 前提假设与模型
3. 前提假设与模型
5. 模型评价
a. 负2倍对数似然值(-2LL):
反映了假设拟合模型为实际情境时观察到特定样本的概率,其值处于0 和1之间。其值越大,表明回归方程的似然值越小,则拟合越差。
将截距模型(不包含任何预测变量)与含有预测变量的logistic模型的2LL进行比较,如果前者显著高于后者,那么可以证明含有预测变量的 模型显著改善了模型的拟合情况,即预测变量可以显著改善模型的拟 合情况。显著性的检验采用卡方检验。注意样本量的影响。
相关文档
最新文档