单变量描述统计分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加 以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功 经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的 55倍。

10

二项Logistic回归方程系数的含义: p 因为 exp( 0 i xi ), i 1 当自变量 xi 增加一个单位时,则有
exp( 1 0 i xi )
* p
*
exp( i ) 于是:
i 1
xi 增加一个单位时 即表明:当其它解释条件不变时, 所导致的相对风险是原来相对风险的 exp( i ) 倍。即控 制其它变量不变时,x增加一个单位的相对风险比exp( i ) 即x在不同水平时的,二者的Odds radio是 exp( i ) 。
注:以上问题的共同点是因变量不是连续型变量, 而是分类变量。
3




若因变量是被解释变量,则一般线性模型会出现以 下问题: 对于任意给定的 xi 值,残差 i 也变成了离散型变 量,不是正态分布,因此导致无法进行相应的统计 推断。 对于任意给定的 xi 值,残差 i 也不再满足 E( i ) 0, D( i ) 2
第九章
Logistic回归分析
9.1Logistic回归分析概述

问题1:研究消费者的不同特征如何影响是否购买 小轿车时,消费者的年龄、年收入、职业、性别等 因素将作为解释变量,是否购买作为被解释变量, 此时的被解释变量是一个二分类变量。
问题2:在研究消费者特征对某种商品的品牌选择 取向时,品牌作为被解释变量,由于候选品牌多样 ,因此是一个多分类问题。
11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计 ,但是,由于Logistic回归模型中随机扰动项并不满足 经典假设,所以需要使用极大似然法估计。

ˆ 估计就是使Ln(L)达到最大的 。
12
二项Logistic回归方程的检验



回归方程的显著性检验 目的:检验解释变量全体与LogitP (定义LogitP=ln) 的线性关系是否显著,是否可以用线性模型拟合。 检验思想:设没有引入任何解释变量的回归方程的 似然函数为 L0 ,引入解释变量之后回归方程的似然 0 L0 / L1 1 函数值为 L1 ,则似然比为 L0 / L1 。显然, ,且 0 L0 / L1 1 越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。

6
9.2二项Logistic回归分析
二项Logistic回归方程: P 设 P (Y 1) P ,称 为发生比(Odds)或 1 P 相对风险,则定义

P
p P ln( ) 0 i xi 1 P i 1 1
1 exp[( 0 i xi )]
i 1
7
p




模型的评价: 二项Logistic回归模型很好的体现了概率P值和解释 变量之间的非线性关系。 二项Logistic回归模型本质是一个二分类的线性概率 模型。 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两 个概率的大小,可以对样本进行类别预测。
8
发生比(相对风险,胜算,odds)的意义: Odds: P 某事件发生概率与不发生概率之 1 P 比。 例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可 以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1 ,可以解释为考不上与考上之比为1:3
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
即当被解释变量出现分类变量时,如果建立普通的回 归模型会违背回归模型的前提假设。此时采用的建模
4
方法是Logistic回归分析。
二项Logistic回归分析:
Logistic回归分析பைடு நூலகம்
Y为二分类 多项Logistic回归分析:
Y为多分类
5
1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险 因素的研究,较早将Logistic回归用于医学研究。
14



回归系数的显著性检验 目的:需要对每个回归系数的显著性进行检验。 检验思想:通过构造Wald统计量进行检验,Wald统 计量和似然比统计量都是极大似然估计方法中常用 的检验统计量。 方法: H0 : j 0
Waldi (
ˆ j S ˆ
j
) 2 ~ 2 (1)
15
13

方法:似然比卡方检验
H 0 : 1 2
p 0
统计量的观测值越大越好,或观测值对应的概率p值 ,p<a,拒绝原假设,认为回归方程整体显著;p>a, 接受原假设,认为回归方程整体不显著。
L0 2 L0 ln( ) 2 ln( ) ~ 2 ( p) L1 L1

2

问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。
相关文档
最新文档