流行病学常用多因素回归统计分析
流行病学研究中的数据分析方法

流行病学研究中的数据分析方法流行病学研究是一门旨在探索疾病在人群中传播和影响的学科。
随着数据收集和分析技术的进步,数据分析方法在流行病学研究中发挥着越来越重要的作用。
本文将重点介绍几种常用的数据分析方法,以及它们在流行病学研究中的应用。
一、描述性统计分析描述性统计分析是数据分析的基础,它主要通过计算和描述一组数据的特征来研究疾病的流行情况。
其中常用的统计指标包括均值、中位数、标准差和百分位数等。
通过描述性统计分析,研究人员可以直观地了解疾病的患病率、平均年龄、性别比例等基本信息。
二、生存分析生存分析是一种用于研究疾病的发展和生存率的方法。
它首先确定研究对象的入组时间、观察时间和事件发生情况,然后计算生存或事件发生的概率和风险。
生存分析常用的方法包括生存曲线、生存率比较和Cox比例风险模型等。
通过生存分析,研究人员可以评估疾病的存活率、观察期内的事件发生率和相关因素的影响。
三、回归分析回归分析广泛应用于流行病学研究中,用于探究疾病与潜在风险因素之间的关联关系。
回归分析可以用于预测和解释疾病的发生率、患病率或相关因素的变化。
常见的回归分析方法包括线性回归、逻辑回归和多因素回归等。
通过回归分析,研究人员可以确定与疾病发生相关的危险因素,并为预防和干预提供理论支持。
四、群组比较分析群组比较分析是用于比较不同群体之间差异的统计方法。
在流行病学研究中,群组比较分析常被用于比较不同年龄、性别、职业、地区或生活方式等因素对疾病发生率的影响。
常用的群组比较方法包括独立样本T检验、方差分析和卡方检验等。
通过群组比较分析,研究人员可以确定不同因素对疾病发生率的影响程度,进而制定相应的干预策略。
五、聚类分析聚类分析是一种用于将个体或对象分成若干相似群组的方法。
在流行病学研究中,聚类分析可以用于发现潜在的亚型或疾病病理特点等。
聚类分析通常包括层次聚类和K均值聚类两种方法。
通过聚类分析,研究人员可以识别不同的亚型和疾病特征,为个体化的预防和治疗提供新的思路。
利用统计学方法分析疾病流行病学数据

利用统计学方法分析疾病流行病学数据疾病的发生、发展和传播受到多种因素的影响,了解这些因素对于预防和控制疾病至关重要。
流行病学作为研究疾病在人群中分布和影响因素的学科,依赖于大量的数据收集和分析。
而统计学方法在这一过程中发挥着关键作用,能够帮助我们从复杂的数据中提取有价值的信息,揭示疾病的规律和趋势。
在疾病流行病学研究中,常用的数据类型包括发病率、患病率、死亡率等。
发病率是指在一定时期内特定人群中新发病例的频率;患病率则是特定时间内某病的新旧病例数所占比例;死亡率是指在一定人群中死于某种疾病的频率。
这些数据的收集通常通过大规模的调查、监测系统或医疗记录等途径。
例如,在研究某种传染病时,我们可以收集不同地区、不同年龄段、不同性别群体的发病数据。
通过统计学方法,对这些数据进行描述性分析,如计算均值、中位数、标准差等,来了解疾病发病的集中趋势和离散程度。
同时,还可以绘制图表,如直方图、折线图等,直观地展示疾病的分布情况。
假设我们要研究某个地区流感的发病情况。
首先,收集该地区在特定时间段内的流感病例数据,包括患者的年龄、性别、发病时间、症状等信息。
然后,运用统计学方法进行数据清理和预处理,去除重复或错误的数据。
接下来,进行描述性统计分析。
计算该地区流感的发病率、不同年龄段的发病率分布等。
除了描述性分析,推断性统计方法在疾病流行病学中也具有重要意义。
假设检验是常用的推断性方法之一。
比如,我们想知道某种疫苗接种是否降低了疾病的发病率,就可以通过设立对照组和实验组,收集两组的发病数据,然后运用假设检验来判断两组之间的发病率差异是否具有统计学意义。
另一个重要的统计学方法是回归分析。
在疾病流行病学研究中,我们常常想要了解某个因素(如吸烟、肥胖、环境污染等)与疾病发生之间的关系。
通过回归分析,可以建立疾病发生与这些因素之间的数学模型,从而定量地评估这些因素的影响程度。
例如,研究发现吸烟与肺癌的发生存在关联。
通过收集大量的病例数据和对照数据,包括吸烟史、年龄、性别等因素,运用多元回归分析,可以计算出吸烟对于肺癌发生的相对危险度(RR)或比值比(OR)。
流行病学常用多因素回归统计分析

流行病学常用多因素回归统计分析流行病学中常常使用多因素回归模型来分析和解释疾病的发病风险及其与不同危险因素之间的关系。
多因素回归分析是一种统计方法,可以探究多个危险因素对疾病的影响,同时考虑其他潜在影响因素的调整。
多因素回归分析可以用来识别和评估与疾病相关的危险因素,同时控制其他潜在危险因素的影响。
它可以提供关于各个危险因素对疾病贡献的估计值,并确定其统计显著性。
在进行多因素回归分析之前,需要进行数据收集和整理。
一般来说,多因素回归分析需要考虑以下几个步骤:1.变量选择:根据研究的目的和疾病的特点,选择与疾病相关的变量。
这些变量可以包括患者的基本特征(如年龄、性别)、生活方式(如饮食、运动)和环境因素(如空气污染、水质)等。
2.数据收集和整理:收集相关的数据,并进行数据清洗和整理。
确保数据的准确性和完整性。
3.建立回归模型:根据研究的目的和变量的特征,选择合适的回归模型。
常用的回归模型包括线性回归模型、逻辑回归模型等。
4.模型拟合:将收集到的数据应用到回归模型中,进行参数估计和模型拟合。
拟合后可以得到危险因素的估计系数、标准误差、置信区间和P值等。
5.结果解释:根据模型拟合的结果,评估每个危险因素对疾病的影响,并进行解释。
可以根据估计系数和其置信区间来判断危险因素的显著性和贡献。
6.效应调整:对于其他可能的潜在影响因素,可以进行调整处理,检验危险因素对疾病的独立贡献。
调整常用的方法包括多元回归、对匹配等。
7.结果报告:根据分析结果,撰写分析报告,并对结果进行解释和讨论。
多因素回归分析在流行病学中的应用非常广泛。
它可以帮助科研人员确定疾病的风险因素,为预防和控制疾病提供科学依据。
通过多因素回归分析,可以了解各个危险因素之间的相互作用关系,为制定有效的公共卫生政策和预防措施提供指导。
总之,多因素回归分析是流行病学中常用的统计分析方法,可以评估和解释疾病的发病风险及其与多个危险因素之间的关系。
它在流行病学研究和公共卫生实践中具有重要的应用价值。
流行病学的研究方法调查实验与数据分析

流行病学的研究方法调查实验与数据分析流行病学(Epidemiology)是研究人群发生和分布疾病及其影响因素的学科。
为了能够更好地了解流行病学,科学家们使用各种研究方法和数据分析技术来进行调查实验及数据分析。
本文将介绍流行病学研究中常用的方法,并探讨其在实际应用中的作用。
一、研究方法1.1 横断面调查横断面调查是一种流行病学研究方法,通过对特定人群在某一时点的调查来了解患病率和影响因素。
研究人员在一段时间内,收集人口特征数据和相关疾病信息,并分析这些数据以评估患病率和风险因素的关系。
1.2 纵向研究纵向研究是一种通过追踪研究对象在一段时间内的变化情况来了解疾病关联因素的方法。
这种研究方式能够提供关于疾病发展和相应影响因素的长期数据,有助于发现潜在的危险因素和预测疾病的发展趋势。
1.3 病例对照研究病例对照研究是一种比较两组人群的研究方法,其中一组是患病者,另一组是没有患病者。
研究人员通过对比两组人群在暴露于某种因素后的患病情况,来评估该因素是否与疾病发生相关。
1.4 队列研究队列研究是一种追踪研究对象的方法,将人群按暴露于特定因素的程度分组并进行观察,以了解暴露因素与疾病发生的关系。
队列研究通常分为前瞻性队列研究和回顾性队列研究。
二、数据分析数据分析是流行病学研究中不可或缺的一部分,通过对收集到的数据进行处理和分析,可以得到科学、准确的结论。
下面介绍几种常用的数据分析方法。
2.1 描述性流行病学分析描述性流行病学分析是一种对流行病现象进行描述和概括的方法。
通过对人群特征、患病率、风险因素等进行统计和分析,可以描述和总结流行病学特征,如疾病的流行趋势、高发地区等。
2.2 关联性分析关联性分析是一种评估暴露因素和疾病之间关系的方法。
通过计算各种统计指标,如相关系数、风险比例等,可以判断某种因素与疾病之间的相关性。
这种分析方法常用于病例对照研究和队列研究。
2.3 回归分析回归分析是一种用来研究多个自变量对因变量的影响程度的方法。
流行病学研究中的统计学方法与数据分析

流行病学研究中的统计学方法与数据分析流行病学研究是研究疾病在人群中的分布和影响因素的科学。
为了准确评估和控制疾病的传播和风险,统计学方法和数据分析在流行病学研究中起着重要的角色。
本文将探讨流行病学研究中常用的统计学方法和数据分析技术,并详细解释它们的应用。
一、样本设计与抽样方法在流行病学研究中,样本设计和抽样方法的选择对于研究结果的准确性和可信度至关重要。
常见的样本设计包括横断面研究、纵向研究和队列研究等。
横断面研究通过在特定时间点对人群进行观察和数据收集,用以描述疾病在人群中的分布。
纵向研究则追踪同一群体在一段时间内的发展和变化,以评估疾病风险的相关因素。
队列研究通过将人群分为暴露组和非暴露组,观察两组之间疾病发生率的差异,以确定暴露因素对疾病的影响。
抽样方法的选择应基于研究目标、样本容量和资源等因素。
常见的抽样方法包括简单随机抽样、系统抽样和分层抽样等。
简单随机抽样是将人群中的个体随机选择为样本,确保每个个体都有相同的机会被选中。
系统抽样是按照一定的规则选取样本,例如每隔一定个体选取一个个体。
分层抽样通过将人群划分为若干层次,然后在每个层次中进行简单随机抽样,以保证样本在各层次中的代表性。
二、描述性统计学分析描述性统计学分析用于对样本数据进行整理和描述,以帮助我们更好地理解疾病在人群中的分布和特征。
常用的描述性统计学方法包括频数分布、均值、中位数、标准差等。
频数分布将数据按照不同数值的出现次数进行分类和展示,可以直观地呈现数据的分布情况。
均值是指一组数据的平均值,中位数是将一组数据按大小顺序排列后位于中间位置的数值,标准差则衡量数据的离散程度。
三、推断性统计学分析推断性统计学分析用于通过样本数据对总体进行推断,从而对疾病的发生和风险因素进行评估。
常用的推断性统计学方法包括假设检验和置信区间估计。
假设检验用于判断样本数据与研究假设之间的一致性,从而确定变量之间是否存在显著差异。
置信区间估计则通过对样本数据进行分析,给出总体参数的估计范围。
流行病学中的流行病学调查结果统计分析

流行病学中的流行病学调查结果统计分析在流行病学研究中,流行病学调查是一项重要的工作,通过对特定人群的调查,可以了解疾病在人群中的分布情况、病因及风险因素等信息。
然而,仅仅进行流行病学调查是不够的,对调查结果进行有效的统计分析才能更好地理解疾病现象,并为疾病的预防和控制提供科学依据。
流行病学调查结果的统计分析可从以下几个方面进行:一、描述性统计分析描述性统计分析是对调查数据的基本情况进行总结和描述。
通常使用频数、比例、均值、标准差等指标来描述数据的分布和集中程度。
比如,对流行病学调查中的样本人数、疾病发生情况和风险因素等进行计数,并计算比例;对连续变量如年龄进行均值和标准差的计算,以了解人群的年龄分布情况。
二、推断性统计分析推断性统计分析是基于样本数据对总体参数进行估计,并进行假设检验和置信区间估计,用以评估疾病发生情况与风险因素之间的关系。
在这一分析中,常用的方法包括T检验、卡方检验、回归分析等。
例如,利用卡方检验来判断某个风险因素与疾病之间是否存在关联;利用回归分析来评估某个因素对疾病的影响程度。
三、生存分析生存分析是流行病学调查中重要的统计方法之一,用以研究时间相关的疾病,如生存时间、发病时间等。
生存分析可以评估疾病的发展速度、预测疾病的存活率以及评估干预措施的效果等。
在这一分析中,常用的方法包括Kaplan-Meier曲线、Cox比例风险模型等。
四、群组间比较群组间比较是通过比较不同人群之间的差异,探究疾病和风险因素之间的关联。
常用的方法包括Fisher确切检验、t检验等。
例如,进行性别间的比较,评估疾病对男性和女性的影响情况。
五、因果推断分析因果推断分析是通过对观察结果进行因果关系分析,从而确定某个因素是否为疾病发生的原因。
该分析方法可以通过构建因果图、进行交互作用分析等来揭示疾病发生的潜在机制。
在进行流行病学调查结果统计分析时,我们需要注意以下几个问题:1. 数据质量:确保数据的准确性和完整性,避免数据收集和录入过程中的错误。
流行病学中的相关分析与回归分析

流行病学中的相关分析与回归分析流行病学是研究人群中疾病的分布和疾病与可能有关的因素之间的关系的科学。
相关分析和回归分析是流行病学中常用的统计方法,用于研究和解释疾病与各种因素之间的关联。
一、相关分析相关分析是一种用于研究两个或多个变量之间关系的统计方法。
在流行病学中,我们可以使用相关分析来探讨疾病与可能的危险因素之间的关系。
以某地区的疾病发病率和饮食习惯为例,我们可以使用相关分析来判断饮食习惯与该疾病之间的相关性。
首先,我们需要收集一定数量的样本数据,包括疾病发病率和个体的饮食情况。
然后,我们可以使用相关系数来衡量两个变量之间的相关程度。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于两个连续变量之间的相关性分析,斯皮尔曼相关系数适用于两个有序变量之间的相关性分析。
通过计算相关系数,我们可以确定疾病与饮食习惯之间的关系强度和方向,从而进一步研究与预测疾病的风险因素。
二、回归分析回归分析是流行病学中常用的一种统计方法,用于研究一个或多个自变量对一个因变量的影响程度和方向。
与相关分析不同的是,回归分析可以对多个潜在的危险因素进行控制,以确定每个因素对疾病风险的相对作用。
在进行回归分析之前,我们需要收集相关的数据,包括疾病的发病率和各种潜在的风险因素,比如年龄、性别、饮食习惯等。
然后,我们可以运用回归模型来预测疾病风险和研究各种因素对疾病的相对贡献度。
常用的回归模型包括线性回归模型和逻辑回归模型。
线性回归适用于研究连续因变量的影响因素,而逻辑回归适用于研究二分类因变量的影响因素。
通过回归分析,我们可以确定每个自变量对疾病风险的相对影响,并制定相应的预防措施。
总结:流行病学中的相关分析和回归分析是一种有力的统计工具,用于研究疾病与各种因素之间的关联。
通过相关分析,我们可以确定变量之间的关系强度和方向;通过回归分析,我们可以确定各个潜在因素的相对作用。
这些分析方法的运用可以帮助我们更加准确地了解疾病的成因和预测风险因素,从而采取相应的预防措施来保护公众健康。
流行病学数据分析

流行病学数据分析流行病学数据分析是指对疾病流行规律及其相关因素进行统计和分析的过程。
通过对大量的流行病学数据的收集、整理和分析,可以揭示出疾病的传播方式、流行趋势以及影响因素,为制定健康政策和疾病预防控制提供科学依据。
本文将从数据收集、数据处理以及数据分析方法等方面进行探讨。
一、数据收集数据收集是流行病学数据分析的第一步,有效的数据收集对于后续分析的可靠性至关重要。
常见的数据收集方法包括调查问卷、现场观察、医疗记录等。
在收集数据时,需要确保样本的代表性和数据的准确性,避免数据采集过程中的偏倚和误差。
二、数据处理在数据收集完成后,需要对原始数据进行处理,以确保数据的完整性和一致性。
数据处理的步骤包括数据清洗、数据整合和数据转换。
数据清洗是指对数据中的缺失值、异常值进行处理,保证数据的完整性和准确性。
数据整合是将来自不同数据源的数据进行结合和整合,以建立完整的数据集。
数据转换是通过对数据进行加工和提取,得到符合分析需求的数据变量。
三、数据分析方法在进行流行病学数据分析时,常用的方法包括描述性分析、相关性分析、回归分析和生存分析等。
描述性分析是对数据的基本特征进行概括和描述,如均值、标准差等。
相关性分析用于研究不同变量之间的相关关系,可以通过计算相关系数来评估变量之间的关联程度。
回归分析则可以用于探讨各种因素对流行病发生和发展的影响程度。
生存分析则可以用于研究事件发生的概率和影响因素。
四、应用举例流行病学数据分析在实际应用中极其重要。
以新冠疫情为例,通过对感染人数和病例增长趋势等数据的分析,我们可以推测出疫情的扩散速度和传播方式,并及时采取相应的防控措施。
此外,在疫情防控的决策制定中,流行病学数据分析也发挥了重要的作用,为政府和相关部门提供科学的依据和参考。
综上所述,流行病学数据分析是研究疾病流行规律及其相关因素的重要手段。
通过数据收集、数据处理和数据分析等环节,我们可以深入了解疾病的传播方式和流行趋势,为疾病预防控制提供科学依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本章我们来交流点什么?
多因素线性回归 多因素logistic回归 多因素COX 回归
本讲学习目标
掌握多因素回归的技巧及注意点
一、多因一果的回归分析方法
比较研究
实验因素与疗效 实验组VS对照组:t检验、卡方、秩和、方差分析
相关性研究
相关分析 回归分析
多因素问题常见情况
常见于观察性研究
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
哪些因素可以做呢?
匹配 分层 多因素回归 多因素回归+匹配 多因素回归+倾向得分 多因素回归+倾向得分
回归中的混杂因素
混杂因素的识别:
(1)该因素对结局有影响,可利用单因素回归或χ2检验 来验证。 (2)该因素在分析因素中的分布不均衡,可用χ2检验验 证一下。 (3)从专业角度来判断,即该因素不能是分析因素与 结局关系的一个中间环节。也就是说,不能是分析因素 引起该因素,通过该因素再引起结局。这一点主要根据 专业知识来确定。
Epidemiology & Statistics
流行病学资料的多因素回归分析
郑卫军 流行病学与卫生统计学教研室
Example of complexity of medical study
gender
source
???
disease
age
gene
environment SES
health habit
多因素回归的自变量:可以是定量,也可以是分类资 料
不同方法的应用场合
病例对照研究? 队列研究? 实验性研究?
不同方法的应用场合
线性回归 队列/实验性研究 Logistic回归 病例对照/队列/实验性研究 Poisson回归 队列 COX模型 队列/实验性研究
思考:什么样的设计?采用什么样的方法?
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
本例结论: 流产次数多是乳腺增生的危险因素,初产年龄和是否 母乳喂养的交互作用对乳腺增生的影响也有统计学意 义。 初产年龄≥25且非母乳喂养的人,其乳腺增生的危险 明显增高。 而单纯初产年龄<25的人,或单纯非母乳喂养的人,发 生乳腺增生的危险并不高。 这提示可针对不同人群开展不同的干预措施。
当混杂混入流行病学
自变量从无到有、从少到多
(2)后退法
先将全部自变量放入方程,然后逐步剔除
(3)逐步法
双向筛选:引入有意义的变量(前进法),剔除无意义 变量(后退法)
24
逐步回归分析的基本思想-拟合效果
线性回归 保证纳入因素后,模型的R2值最大
Logistic等回归方法 AIC值、SC 值或-2 log likelihood值越小好
回归案例分析
多因素分析小结:
可以设想,妊娠次数对乳腺增生可能并无影响或影响很小, 单因素中的影响可能主要是通过流产次数这一因素起作用 的,当多因素分析中校正了流产次数的影响后,妊娠次数 的影响变得无统计学意义。 将妊娠次数这一变量去掉,重新拟合方程。
回归案例分析
模型中所有变量均有统计 学意义。
与含rs变量的模型相比, AIC和SC均降低,似然比 差别很小。
例1 某研究者跟踪随访已发病冠心病病人,研究病人的
年龄age、性别sex(0为女性、1为男性)、心电图检验是 否异常ecg(ST段压低、0为正常、1为轻度异常、2为重 度异常)与冠心病ca复发是否有关。
例1 某研究者希望研究病人的年龄age、性别sex(0为女
性、1为男性)、心电图检验是否异常ecg(ST段压低、0 为正常、1为轻度异常、2为重度异常)与冠心病ca发病 是否有关。
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
COX回归分析结果
多因素回归
多因素线性回归:因变量定量资料 多因素logistic回归:因变量是分类资料(常见二分类) 多因素Poisson回归:因变量是泊松分布资料 多因素COX比例风险模型:因变量是时间生存资料
回归案例分析
交互项的进一步解释:
对于母乳喂养的人(mr=0),初产年龄>=25与初产年龄<25岁的 人相比,其效应(参数估计值)为0.2717。 对于非母乳喂养的人(mr=1),初产年龄>=25与初产年龄<25岁 的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。
回归案例分析
表 8.2 各因素的变量名及编码表
变量名 Y Age Chage Rs Lc Mr
编码 1=是;0=否 0= <30;1= ≥30 0= <25;1= ≥25 1= 1 次;2= 2 次;3= 3 次及以上 0= 0 次;1= 1 次;2= 2 次及以上 0= 是;1= 否
回归案例分析
1:单因素分析
weight
cholesterol
diabetes
coronary heart disease
endogeneous factors
diseases
流行病学多变量分析工具
回归
多因素、多元线性回归 多因素、多元logistic回归 COX 比例风险模型
主成分分析 因子分析 聚类 判别分析 路径分析 结构方程模型
Example of complexity in medical study
physical activity
social economic status
eating
drinking
smoking
environment life style
endured glucose
blood pressure
0:死亡、1:删失0:无术ຫໍສະໝຸດ 放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
本例目标探讨术中放疗较未放疗是否影响生存,其 它为混杂因素,需要排除混杂干扰
变量名 caseno time censor
age trt sex bui ch p stage
25
因素筛选注意事项
如果有变量的引入导致具有关键作用的因子其统计学意义 发生改变(从无到有,或从有到无),必须发现原因!
是否由于样本量过少,变量过多导致 是否存在多重共线性 是否属于混杂因素 是否属于中间变量: 回归模型不能同时纳入影响因素及其
中间变量
26
多重共线性问题
多重共线性是指在进行多因素回归分析时,自变量间存在较强的线 性相关关系。共线关系的存在,可使得估计系数方差加大,系数估 计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难 以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重 要的那些自变量,剔出方程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量 以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避 免共线性指标对结果的影响。
28
回归案例分析(logistic)
某妇幼保健院采用病例对照研究探索乳腺增生的影响 因素。随机抽取某年在本院就诊的200名乳腺增生患者 及200名非乳腺增生患者,采用问卷调查法对各种可能 的影响因素进行调查,以探索乳腺增生的危险因素。
回归案例分析
因素 乳腺增生 年龄 初产年龄 妊娠次数 流产次数 是否母乳喂养
回归案例分析
单因素分析初步结论:
由于年龄的影响在单因素分析中无统计学意义,且OR 值也较为接近1,在多因素分析中不再考虑年龄因素, 仅对其它4个因素进行分析。
回归案例分析
多因素分析结果:
回归案例分析
多因素分析小结:
为什么rs变得无统计学意义了? 相关分析结果显示,妊娠次数与流产次数具有较强的相关 性(r=0.55,P<0.001)。
27
多重共线性的表现在实际应用中主要表现为:
(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归
系数发生较大变化或当一个自变量被引入或剔除时其余变量 偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致 或与经验相悖,结果难以解释 出现以上情况,提示存在多重共线性问题,应进行多重共线 性诊断。
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
固有的因素,理论上和结局时间逻辑明确的因素可以 开展多因素回归分析
多因素回归的注意点
样本量 回归方程中,因素的筛选 多重共线性问题
样本量
线性回归:纳入回归模型变量数的5-10倍 Logistic回归:阳性数纳入模型变量数的5-10倍,总 样本量至少乘以2
说明去掉rs后模型更优
含rs模型 rs模型
不含
回归案例分析
初产年龄与母乳喂养可能存在一定的交互效应
为什么mr和chage变得无统计学意义? (注意:即使有统计学意义,也无法反应真实的情况) 一旦模型中加入交互项,变量便不再反映主效应,而是单独效 应。此时mr反映的是chage=0时的效应,同样,chage反映的是 mr=0时的效应。