分类资料的回归分析
回归分析数据

回归分析数据回归分析是一种经济学和统计学中常用的方法,用于研究两个或更多变量之间的关系。
这种分析方法广泛应用于各个领域,包括市场研究、金融分析、经济预测等。
在此文档中,我们将介绍回归分析数据以及如何使用它们进行分析和解释。
回归分析的基本概念是研究一个或多个自变量对某个因变量的影响。
自变量是独立变量,而因变量则是依赖于自变量的变量。
通过分析自变量与因变量之间的关系,我们可以得出它们之间的数学模型,用于预测或解释因变量。
在进行回归分析之前,我们首先需要收集回归分析数据。
这些数据包括自变量和因变量的观测值。
通常,我们会收集一组样本数据,其中包含自变量和对应的因变量的数值。
这些数据可以是经过实验或观测得到的,也可以是从其他来源获取的。
一旦我们收集到回归分析数据,接下来就可以使用统计软件或编程语言进行数据分析。
常见的回归分析方法包括简单线性回归、多元线性回归和非线性回归。
在简单线性回归中,我们将自变量和因变量之间的关系建模为一条直线。
在多元线性回归中,我们可以考虑多个自变量对因变量的影响。
非线性回归则允许我们考虑更复杂的关系模型。
回归分析的结果通常包括回归方程、参数估计和统计显著性检验。
回归方程描述了自变量和因变量之间的数学关系。
参数估计给出了回归方程中的系数估计值,用于解释自变量与因变量之间的关系。
统计显著性检验则用于判断回归方程的有效性和模型的拟合度。
当我们得到回归分析的结果后,我们可以进行解释和预测。
通过解释回归方程中的系数估计值,我们可以了解自变量与因变量之间的关系强度和方向。
通过预测模型,我们可以根据自变量的数值预测因变量的数值。
回归分析数据在许多实际应用中具有重要的价值。
在市场研究中,回归分析数据可以帮助我们理解产品价格与销售量之间的关系。
在金融分析中,回归分析数据可以用于预测股票价格或汇率变动。
在经济预测中,回归分析数据可以用于预测GDP增长率或失业率。
总而言之,回归分析数据是一种强大的工具,用于研究自变量与因变量之间的关系。
现代统计方法--回归分析1

现代统计方法的种类
三、相关分析方法 1、定性资料分析 2、回归分析 3、典型相关分析 4、主成分分析 5、因子分析 6、对应分析
现代统计方法的种类
四、预测决策方法: 1、回归分析 2、判别分析 3、定性资料分析 4、聚类分析
统计分析方法应用流程
现实经济问题
提炼具体问题 确定欲达目标
分类研究
结构简化 研究
ˆ 1 、 1
1回归分析2判别分析3定性资料分析4聚类分析统计分析方法应用流程现实经济问题提炼具体问题确定欲达目标根据定性理论设计指标变量搜集整理统计数据选择统计方法构造理论模型进行统计计算估计模型参数修改yes应用分类研究结构简化研究相关分析研究预测决策研究教材统计软件简介eview关于spssspssstatisticalpackagesocialscience即社会科学统计软件包是世界著名的统计分析软件
一元线性回归分析
1、一元线性回归模型 2、回归模型的参数估计 3、OLSE估计的性质 4、回归方程的显著性检验 5、回归方程的拟合优度 6、残差分析 7、回归系数的区间估计
一元线性回归分析模型
1、回归模型建模的实践背景 2、一元线性回归模型的数学形式: 1)、理论模型: y 0 1 x
ξ♐♣☯♧
现代统计方法
前言
统计学的几个问题
1、自1969年设立诺贝尔经济学奖以来,已有 42名学者获奖,而其中有2/3的人是统计学家、 计量经济学家、数学家。 2、目前的研究趋势是:从一般的逻辑推理发展 到重视实证研究;从理论论述发展到数量研 究。 3、硕士和博士的学位论文,如果没有数量模型 和分析,其文章的水平会有问题。
关于S-PLUS
另外Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系 统,其语法形式与S语言基本相同,但实现 不同,两种语言的程序有一定的兼容性。R 是一个GPL自由软件,现在的版本是1.00版, 它比S-PLUS 还少许多功能,但已经具有了 很强的实用性
分类与回归分析

疾病名 肠道传染病
ICD-9 001-009
分类结点 1 (年龄) 0~20 岁 21~40 岁 ≥41 岁
分类结点 2 (费用类别)
结点 3 (…)
…
新组合 的编码 001 002
自 费 公费及其它 …
003 004
从上表可以看出,经过CHAID分析,最后将肠道传染病重新组合为4个组,分别为: 年龄为0~20岁的病人、年龄为20~40岁的病人、年龄为四十岁以上且费用类别为自 费的病人、年龄为40岁以上且费用类别为非自费的病人
Variables in the Equation 95.0% C.I.for EXP(B) Lower Upper 1.655 17.304 2.307 1.072 850.488 1.797
Step a 1 Step b 2
drink Constant drink age Constant
B 1.677 -4.039 3.791 .328 -18.077
S.E. .599 1.237 1.508 .132 6.815
Wald 7.848 10.662 6.323 6.171 7.036
df 1 1 1 1 1
Sig . .005 .001 .012 .013 .008
Exp(B) 5.352 .018 44.299 1.388 .000
分类树与回归树分析
——决策树分类
浙江大学医学院流行病与卫生统计学教研室
沈毅
饮酒与产妇年龄发生早产的风险:
高风险 低风险
浙江大学医学院流行病与卫生统计学教研室
沈毅
决策树的基本概念:
分类:决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对 连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控 制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。
回归分析的分类

目录
因子分析(Factor analysis)
因子分析的关键点 因子分析应用的领域和解决的典型问题 问卷设计形式 案例演示
聚类分析(Cluster analysis) 对应分析(Correspondence analysis) 联合分析(Conjoint analysis) 多元回归分析( Multiple Linear regressions
因子分析+知觉图 研究
品牌
因子分析可以从研究品牌形象的诸多软性和硬性的特性中浓缩和 提炼的出少数几个综合因素,使得品牌形象更加鲜明、独树一帜
因子分析的结果可以用定位图的方式呈现
在品牌形象研究方面,定性研究的方法应用的比较早也相对成熟, 但是随着统计学的发展同时也为了适应市场研究领域不断提出的 更新要求,定量研究的方法越来越多的应用在了品牌研究方面
因子4 14%
因子5 14%
因子1 33%
因子2 18%
因子3 21%
案例演示
主要的影响因子
通过因子分析还可以进行地区 间的比较,如左图
F(1) 0.4
0.2
从图中可以看出,广告和促销、 医生及报销手段对上海人的影 响明显高于对北京人的影响
0
F(5)
-0.2
-0.4
相应的,周围人和朋友及疾病
应用领域和解决的典型问题
因子分析在市场研究领域应用的越来越广泛。作 为一种比较高级的统计分析技术,因子分析的结果不但可 以直接揭示某些隐含的信息,还可以为其他很多分析提供 支持
因子分析+聚类分析
市场细分
通过对提取的因子做聚类分析将受访者分成不同的人群
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
分类变量资料的统计分析 详细讲解

分类变量资料的统计分析详细讲解资料的统计分析通常包括描述统计和推断统计两个方面。
描述统计主要是对变量的单个特征进行分析,常用的统计指标包括频数、比例、均值、中位数、众数、标准差等;推断统计则是在样本数据的基础上推断总体数据的特征,常用的方法包括假设检验、方差分析、回归分析等。
本文将以分类变量为例,详细介绍分类变量资料的统计分析方法和步骤。
首先,分类变量是一种相互独立、不可顺序比较的变量,常见的示例包括性别、职业、学历等。
对于分类变量资料的统计分析,首先需要进行数据的整理和描述。
数据整理包括去除缺失值、异常值和重复值等处理。
应根据实际情况选择合适的处理方法,常用的方法有均值填充、删除等。
同时,需要将数据进行编码或离散化处理,便于后续的分析。
数据描述主要包括频数及比例的统计,可以用来描述分类变量的分布情况。
通过计算每个类别的频数和比例,可以获得分类变量的基本特征。
同时,可以使用图表来展示分类变量的分布情况,如饼图、柱状图等。
接下来,可以对分类变量与其他变量之间的关系进行分析。
常用的方法有卡方检验和列联表分析。
卡方检验适用于两个分类变量之间的关系检验,可以用来判断两个分类变量是否相关;列联表分析则可以用来描述两个分类变量之间的关系程度。
通过分析发现两个或多个分类变量之间的关联关系,可以更好地理解数据。
此外,对于分类变量的统计分析还可以进行组内和组间的比较。
组内比较主要是对同一分类变量的不同类别进行比较,常用的方法有t检验和方差分析;组间比较则是对不同分类变量之间的差异进行比较,可以使用相关分析和回归分析等方法。
最后,需要进行结果的解释和报告。
对分类变量资料的统计分析得出的结果进行解读,并进行相关性讨论。
通过各种统计方法对变量进行分析,报告结果可以提供决策者一个更全面的了解。
总结起来,分类变量资料的统计分析主要包括数据整理和描述、关联分析、比较分析和结果解释等步骤。
通过这些步骤可以更好地分析分类变量的特征、关系和差异,为实际问题的解决提供有力的支持和参考。
logistic回归、probit回归与poission回归
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并 无不同。
ห้องสมุดไป่ตู้第九页,共44页。
模型评估
(1)Hosmer-Lemeshowz指标
HL统计量的原假设Ho是预测值和观测值之间无显著差异 ,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模
ln[exp(0 1X1 2 X 2 m X m )]
0 1X1 2 X 2 m X m
Logit与概率不同,它没有上下限。比数去除了概率的上限,比数的对 数去除了概率的下限;且是以0,5为中点对称的,概率大于0.5产生正的 logit,logit距离0的距离反映了概率距离0.5的距离;概率上相同的改变与
在logits上产生的改变是不同的,logit转化拉直了X与最初的概率之间的
非线性关系。
第八页,共44页。
问题2:
回归系数的意义:
• Logistic回归中的回归系数 i 表示,某一因素 改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
• Logistic回归中的常数项 表 0 示,在不接触任何潜
上述三种方法中,似然比检验(与之前的类似) 最可靠,比分检验(logistic回归模型特有)一般 与它相一致,但两者均要求较大的计算量;而Wald 检验(相当于广义的t检验)未考虑各因素间的综 合作用,在因素间有共线性时结果不如其它两者可 靠。
第二十一页,共44页。
对所拟合模型的假设检验:
第二十二页,共44页。
型可表示为:
P
1
exp( 0 exp(
0
1 X1 1 X
2 X 2 1 2X
logistic回归分析(2)
8
非条件logistic回归
logit 因变量 自变量,[选择项]
sw logit 因变量 自变量,[选择项]
选择项: or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值
9
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触石 棉的关系,资料见下表。试对其进行分析。
begin with full model
p = 0.7439 >= 0.1100 removing ht
p = 0.1314 >= 0.1100 removing drug
Conditional (fixed-effects) logistic regression Number of obs = 315
4
参数估计与假设检验
参数的估计:极大似然(MLE) 假设检验:
似然比检验: G=-2lnL-(-2lnL’)
Wald检验: z 检验
2 i
(
ˆi SE(ˆi
)
)
2
5
回归系数的解释
回归系数 表示当其它自变量固定不变时, X每改变一个单位,优势对数的改变量(优 势比的对数)。
6
回归系数的解释
7
回归系数的解释
多分类变量:哑变量(dummy variable)
x=1时: x1=1, x2=0, x3=0, x4=0 表示A型血 x=2时: x1=0, x2=1, x3=0, x4=0 表示B型血 x=3时: x1=0, x2=0, x3=1, x4=0 表示AB型血 x=4时: x1=0, x2=0, x3=0, x4=1 表示O型血
➢ 回归系数β:表示病例与对照变量值之差与患病 优势的关系,即exp(β)表示病例与对照暴露水平 相差一个单位时患病的优势比。
回归分析方法
回归分析方法
回归分析是一种统计学方法,用于研究自变量与因变量之间的关系。
在实际应用中,回归分析可以帮助我们预测未来的趋势,分析变量之间的影响关系,以及找出影响因变量的主要因素。
本文将介绍回归分析的基本概念、常见方法和实际应用。
首先,回归分析可以分为简单线性回归和多元线性回归两种基本类型。
简单线性回归是指只有一个自变量和一个因变量的情况,而多元线性回归则是指有多个自变量和一个因变量的情况。
在进行回归分析时,我们需要先确定自变量和因变量的关系类型,然后选择合适的回归模型进行拟合和预测。
常见的回归模型包括最小二乘法、岭回归、Lasso回归等。
最小二乘法是一种常用的拟合方法,通过最小化残差平方和来找到最佳拟合直线或曲线。
岭回归和Lasso回归则是在最小二乘法的基础上引入了正则化项,用于解决多重共线性和过拟合的问题。
选择合适的回归模型可以提高模型的预测准确性和稳定性。
在实际应用中,回归分析可以用于市场营销预测、金融风险评估、医学疾病预测等领域。
例如,我们可以利用回归分析来预测产
品销量与广告投放的关系,评估股票收益率与市场指数的关系,或
者分析疾病发病率与环境因素的关系。
通过回归分析,我们可以更
好地理解变量之间的关系,为决策提供可靠的依据。
总之,回归分析是一种强大的统计工具,可以帮助我们理解变
量之间的关系,预测未来的趋势,并进行决策支持。
在实际应用中,我们需要选择合适的回归模型,进行数据拟合和预测分析,以解决
实际问题。
希望本文对回归分析方法有所帮助,谢谢阅读!。
分类变量资料的统计分析
分类变量资料的统计分析分类变量是一种在研究或分析中常见的类型数据,它描述了被观察个体或对象之间的不同特征,可以将其分为不同的类别或组。
在统计学中,对分类变量的分析可以帮助我们了解不同类别的分布情况、比较不同类别之间的差异、探索不同类别与其他变量之间的关系等。
本文将介绍分类变量资料统计分析的一些常用方法。
首先,我们可以通过计算频数和频率来描述分类变量的分布情况。
频数是指每个类别中观察到的个体或对象的数量,频率则是频数除以总数后的比例。
通过绘制条形图或饼图,可以直观地展示分类变量不同类别的频数或频率分布,帮助我们了解变量的整体情况。
其次,我们可以对不同类别之间的差异进行比较。
其中一种常用的方法是卡方检验,它用于检验两个或多个分类变量之间是否存在显著性差异。
卡方检验的原理是通过比较观察到的频数与期望频数之间的差异来判断差异是否显著。
比如,我们可以用卡方检验来确定两个不同群体之间的分布是否存在显著差异。
此外,分类变量的统计分析还可以探索其与其他变量之间的关系。
当我们有一个分类变量和一个或多个连续变量时,可以使用方差分析(ANOVA)来检验分类变量对连续变量的影响是否显著。
方差分析通过比较不同类别下的连续变量的均值来判断差异是否显著。
另外,我们还可以使用列联表分析来研究两个或多个分类变量之间的关联关系,例如,我们可以通过计算卡方值来确定两个分类变量之间的关联程度。
此外,还有一些其他常用的分类变量分析方法。
比如,在研究中,我们经常遇到多个分类变量之间的关联关系,可以使用多项Logistic回归模型来分析这些多分类变量之间的依赖关系。
另外,如果我们想预测或分类新的个体或对象所属的类别,可以使用分类树或逻辑回归等方法进行建模和预测。
综上所述,分类变量的统计分析是一种有价值的工具,可以帮助我们理解和揭示数据背后的模式和关联关系。
通过对分类变量的分布和差异进行描述分析,我们可以更好地理解数据,并从中提取有用的信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章分类资料的回归分析――Regression菜单详解(下)(医学统计之星:张文彤)上次更新日期:10.1 Linear过程10.1.1 简单操作入门10.1.1.1 界面详解10.1.1.2 输出结果解释10.1.2 复杂实例操作10.1.2.1 分析实例10.1.2.2 结果解释10.2 Curve Estimation过程10.2.1 界面详解10.2.2 实例操作10.3 Binary Logistic过程10.3.1 界面详解与实例10.3.2 结果解释10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化10.3.3.2 模型的简单诊断在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上...我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。
其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。
好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。
特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。
据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。
§10.3 Binary Logistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。
随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。
由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。
10.3.1 界面详解与实例例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。
∙i:标本序号∙x1:确诊时患者的年龄(岁)∙x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级∙x3:肾细胞癌组织内微血管数(MVC)∙x4:肾癌细胞核组织学分级,由低到高共4级∙x5:肾细胞癌分期,由低到高共4期∙y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。
在菜单上选择Analyze==》Regression==》Binary Logistic...,系统弹出Logistic回归对话框如下:左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的Covariates框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。
两框中间的是BLOCK系列按扭,我在上一课已经讲过了,不再重复。
中下部的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么SPSS偏在这里做得不同),下方的Method列表框用于选择变量进入方法,有进入法、前进法和后退法三大类,三类之下又有细分。
最下面的四个按钮比较重要,请大家听我慢慢道来:o Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会被纳入分析,单击它后对话框会展开让你填入相应的条件。
不过我觉得该功能纯属多余,和专门的Select对话框的功能重复了。
o Categorical钮:如果你的自变量是多分类的(如血型等),你必须要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水平,各水平间比较的方法是什么等。
当然,如果你弄不明白,不改也可以,默认的是以最大取值为基础水平,用Deviance做比较。
o Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度因子和残差三大类。
o Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以对模型作精确定义,还可以选择模型预测情况的描述方式,如Statistics and Plots中的Classification plots就是非常重要的模型预测工具,Correlations of estimates则是重要的模型诊断工具,Iteration history可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有用的。
好,根据我们的目的,应变量为Y,而X1~X5为自变量,具体的分析操作如下:1.Analyze==》Regression==》Binary Logistic...2.Dependent框:选入Y3.Covariates框:选入x1~x54.OK钮:单击10.3.2 结果解释Logistic Regression上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26条记录均纳入了分析。
上表为应变量分类情况列表,没什么好解释的。
Block 0: Beginning Block此处已经开始了拟合,Block 0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。
上表为Block 0时的变量系数,可见常数的系数值为-0.636。
上表为在Block 0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance值等)。
可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。
Block 1: Method = Forward Stepwise (Conditional)此处开始了Block 1的拟合,根据我们的设定,采用的方法为Forward(我们只设定了一个Block,所以后面不会再有Block 2了)。
上表为全局检验,对每一步都作了Step、Block和Model的检验,可见6个检验都是有意义的。
此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。
此处为每一步的预测情况汇总,可见准确率由Block 0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。
上表为方程中变量检验情况列表,分别给出了Step 1和Step 2的拟合情况。
注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。
以Step 2中的X2为例,可见其系数为2.413,OR值为11。
上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。
最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。
可见在Step 1时,X4还应该引入,而在Step 2时,其它变量是否引入都无关了。
10.3.3 模型的进一步优化与简单诊断10.3.3.1 模型的进一步优化前面我们将X1~X5直接引入了方程,实际上,其中X2、X4、X5这三个自变量为多分类变量,我们并无证据认为它们之间个各等级的OR值是成倍上升的,严格来说,这里应当采用哑变量来分析,即需要用Categorical钮将他们定义为分类变量。
但本次分析不能这样做,原因是这里总例数只有26例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是每个例子都只有26例。
默认情况下定义分类变量非常容易,做到如上图所示就可以了,此时分析结果中的改变如下:上表为自变量中多分类变量的哑变量取值情况代码表。
左侧为原变量名及取值,右侧为相应的哑变量名及编码情况:以X5为例,表中可见X5=4时,即取值最高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。
而X5(1)代表的是X5=1的情况(X5为1时取1,否则取0),X5(2)代表的是X5=2的情况,依此类推。
同时注意到许多等级值有几个记录,显然后面的分析结果不会太好。
相应的,分析结果中也以哑变量在进行分析,如下所示:上表出现了非常有趣的现象:所有的检验P值均远远大于0.05,但是所有的变量均没有被移出方程,这是怎么回事?再看看下面的这个表格吧。
这个表格为方程的似然值改变情况的检验,可见在最后Step 2生成的方程中,无论移出X2还是X4都会引起方程的显著性改变。
也就是说,似然比检验的结果和上面的Walds检验结果冲突,以谁为准?此处应以似然比检验为准,因为它是全局性的检验,且Walds检验本身就不太准,这一点大家记住就行了,实在要弄明白请去查阅相关文献。
请注意:上面的哑变量均是以最高水平为基线水平,这不符合我们的目的,我们希望将最低水平作为基线水平。
比如以肾细胞癌第一期为基线水平,需要这样做只要在Categoriacl框中选中相应的变量,在Reference Category处选择First,再单击Change即可,此时变量旁的标示会做出相应的改变如下:分析结果中也会做出相应的改变,此处略。