卫生统计学两变量关联性分析
卫生统计学知识点整理

卫生统计学知识点整理1.数据类型:卫生统计学包括两种主要类型的数据,即定量数据和定性数据。
定量数据是数值型数据,如身高、体重等,可以使用各种统计方法进行分析。
定性数据是非数值型数据,如性别、职业等,可以使用描述性统计方法进行分析。
2.数据收集方法:卫生统计学使用多种方法收集数据,其中包括调查、观察、实验和文献研究等。
调查是最常用的数据收集方法,通过设计问卷或面对面访谈等手段收集信息。
观察是观察和记录事件或行为,以获取相关数据。
实验是通过对照组和干预组进行比较来确定原因和效果的方法。
文献研究是通过分析已有的文献、报告和统计数据来获取相关信息。
3.数据描述和总结:在数据收集完成后,卫生统计学需要对数据进行描述和总结。
这包括计算各种统计指标,如平均数、中位数、众数和标准差等,以了解数据的分布和变异程度。
4.假设检验:卫生统计学中常用的方法之一是假设检验,用于判断一些变量是否与其他变量有显著关联或差异。
假设检验基于统计学原理,通过计算样本数据与预期数据之间的差异,评估是否拒绝或接受一些假设。
5.相关分析:相关分析是研究两个或多个变量之间关系的统计方法。
它可以确定变量之间的相关性大小和方向,并计算相关系数来度量相关性的强弱。
6.回归分析:回归分析是用来预测和解释一个或多个因变量与一个或多个自变量之间关系的方法。
它可以估计自变量对因变量的影响程度,并评估其统计显著性。
7.生存分析:生存分析是研究个体在一定时间内生存或发生一些事件的概率的统计方法。
它通常用于研究疾病的生存率和治疗效果。
8.抽样方法:抽样方法是在卫生调查中常用的一种方法,它可以通过选择一部分样本来代表整体群体。
常见的抽样方法包括随机抽样、系统抽样、分层抽样和整群抽样等。
9.统计软件:卫生统计学使用各种统计软件来进行数据分析和统计计算。
常用的统计软件包括SPSS、SAS、R和STATA等,它们提供了丰富的统计功能和图形展示方式。
10.数据伦理:卫生统计学中数据伦理是一个重要的问题,主要涉及数据的保密性、隐私保护和知情同意等方面。
卫生统计学笔记整理

卫生统计学笔记整理第1章绪论1、卫生统计学的概念:2、统计工作的基本步骤:3、卫生统计学的几个基本概念(attention:资料的分类)第2章调查研究设计1、调查研究的特点:2、调查研究的类型,按调查抽样比例划分.第3章实验设计1、实验设计的特点.2、实验设计的三要素四原则。
3、常用的实验设计方案:(attention:正确区别完全随机设计和配对设计)第4章定量资料的统计描述1、频数表的编制步骤和频数表的用途2、集中趋势的描述。
(P55知识点4-2)3、离散趋势的描述。
(P58知识点4-3)4、正态分布的特征5、制定医学参考值范围第5章定性资料的统计描述1、相对数是对定性资料进行统计描述的一类指标。
2、常用相对数(率、构成比、相对比)的定义3、应用相对数需要注意的问题[知识点5-3] P694、标准化法的意义和基本思想5、标准化率的计算方法与注意事项[知识点5-5] P74补充:1、该方法便于比较,但不能反映实际情况。
2、并非所有资料都可以计算标准化率,若各组间出现交叉,不宜用该方法。
3、两样本做标准化率后应做假设检验第6章总体均数和总体率的估计1、抽样误差的概念。
2、标准误的概念。
[知识点6-2] P793、t分布(了解)(一)t分布的概念与计算公式(二)t分布的特征与t界值表4、可信区间的概念。
5、总体均数的估计方法:[知识点6-3] P83第7章假设检验1、假设检验的基本思想及基本步骤[知识点7-1] P922、Ⅰ型错误与Ⅱ型错误。
[知识点7-2] P933、单侧检验与双侧检验区分。
[知识点7-3] P954、假设检验应该注意的问题。
[知识点7-3] P97第8章 t检验第一节样本与总体均数的比较1.检验步骤2.[知识点8-1] P1003.当样本数量n≧50或总体均数已知时用z检验[知识点8-2] P102第二节配对设计均数的比较1.检验步骤2.[知识点8-3] P103第三节两样本均数的比较1.检验步骤2.z检验的适用条件第9章方差分析第一节方差分析的基本思想和应用条件(1)总变异、组间变异、组内变异的定义与公式(2)条件:符合定量资料,具有独立性正态分布方差齐性的特征,多样本(3或3个以上)间的比较第二节完全随机设计的方差分析(1)检验步骤(2)注意事项:[知识点9-2] P120第四节多个样本均数的两两比较1.q检验适用范围:当方差分析得出结论拒绝H0接受H1假设时需进行q检验2.掌握检验步骤第10章 X2检验第一节2x2表的X2 检验(一)完全随机设计X2 检验1.检验步骤及公式2.注意事项:[知识点10-2] p141(二)配对设计X2 检验1.检验步骤及公式2.[知识点10-3] p142第二节RⅹC表的X2 检验1.注意事项:[10-4] p143第11章非参数检验适用条件:(1)总体分布形式未知或分布类型不明(2)偏态分布的资料(3)等级资料不能精确测定,只能以严重程度优劣等级次序先后等表示(4)不满足参数检验条件资料各组方差明显不齐(5)数据的一端或两端为不确定数值的资料、等级资料(6)[知识点11-1] p153第一节秩和检验1.检验步骤:详读p154 (2)(3)3.第二节两样本比较的秩和检验1.掌握编秩的方法2.注意条件详看p157的3第12章双变量关联性分析第一节直线相关1、直线相关的概念:又称简单相关,是用来描述具有直线关系的两变量x、y相互关系的统计方法,要求两变量均来自双变量正态分布的随机变量,且两变量不分主次,处于同等地位。
医学统计学八种检验方法

医学统计学八种检验方法医学统计学是医学研究中一个重要的分支,它通过对医学数据进行收集、整理和分析,以帮助医学研究者得出准确可靠的结论。
而在医学统计学中,检验方法是评价医学研究数据是否具有统计意义的一种重要工具。
下面将介绍医学统计学中常用的八种检验方法。
1.正态性检验:正态性检验是用来检验数据是否符合正态分布的统计性质。
常见的正态性检验方法有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。
2.两独立样本t检验:该方法用于检验两个不相互依赖的样本均值之间是否存在差异。
适用于连续变量的比较,例如治疗前后的体重变化。
3.配对样本t检验:配对样本t检验适用于对同一组研究对象在不同时间或不同条件下进行比较。
如药物治疗前后患者的血压比较。
4.卡方检验:卡方检验是用来检验分类变量之间是否存在关联性的方法。
适用于分组数据的比较,例如男女性别与健康状况之间的关系。
5.方差分析:方差分析是用来检验多个组之间是否存在显著差异的方法。
适用于分析多个因素对结果的影响,如不同年龄组对某种疾病发生率的影响。
6.生存分析:生存分析用于研究事件发生时间和随时间而变化的危险率。
适用于研究患者生存期、疾病复发时间等,常见的分析方法有Kaplan-Meier曲线和Cox比例风险模型。
7.相关分析:相关分析用于研究两个连续变量之间的关系。
常见的相关分析方法包括皮尔逊相关系数和Spearman等级相关系数。
8.回归分析:回归分析用于研究一个或多个自变量对因变量的影响程度和方向的方法。
适用于分析影响因素较多的情况,如探讨年龄、性别、病情等因素对治疗效果的影响。
以上八种检验方法在医学统计学中被广泛运用,每种方法都有其适用的场景和注意事项。
在进行医学研究时,选择合适的检验方法能够提高研究结果的可靠性,从而为临床实践和医学决策提供准确依据。
因此,熟练掌握这些统计方法是每个医学研究者必备的基本技能。
《卫生统计学》考试重点复习资料

卫生统计学Statistics第一章绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。
总体:根据研究目的确定的同质(大同小异)的观察单位的全体。
分为目标总体和研究总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:从研究总体中抽取少量有代表性的个体。
变量:表现出个体变异性的任何特征或属性。
分定型变量和定量变量。
定型变量:1)分类变量或名义变量:最简单的是二分类变量。
0-1变量也常称为假变量或哑变量。
2)有序变量或等级变量。
定量变量:分离散型变量和连续型变量。
变量只能由高级向低级转化:定量→有序→分类→二值。
常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。
2)计数资料或分类资料,如性别、血型等。
3)等级资料,如尿蛋白含量-、+、++、+++、…第一章定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。
累计频数为该组及前面各组的频数之和。
累计频率表示各组累计频数在总例数中所占的比例。
可用直条图表达。
2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。
2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。
3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。
4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X表示。
适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。
分:直接法和频率表法。
即所有变量值加和除以总数n或所有频数f k乘以组中值X0k后求和再除以总数n。
卫生统计学知识点(笔记)

第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
两变量关联性分析

线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.
卫生统计学 两变量关联性分析

(21.9198)
故体重与双肾体积总体相关系数的95%置信区间为
(0.6574,0.9579)
四、线性相关应用中应注意的问题 1. 样本的相关系数接近零并不意味着两变量间一定
无相关性。
通常应先绘出样本值的散点图,利用散点图可直观
地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析
115.508 0.548 n 384
2
二、2×2 配对资料的关联性分析 例7 有132份食品标本,把每份标本一分为二,分别
用甲、乙两种检验方法作沙门菌检验,检验结果如表
4,问两种检验方法的结果是否存在关联?
表4 两种检测方法的结果比较
前面我们用McNemar检验解决了两种培养基的阳性 率是否相等的问题。但如要了解两种培养基结果之间 是否有关联,则需作两种属性的关联性分析。
n 15
y 3991.56, xy 243931.9
lxx 2555.733 l yy 20270.495 lxy 6301.038
2 y 1082440.5572, n 15
代入公式得: r lxy lxx l yy
0.875
说明双肾体积随体重增加而增大,两变量呈正相关。
氧含量分级之间存在相关关系,且为正相关。
第三节 分类变量的关联性分析
对定性变量之间的联系通常用的方法是根据两个定性变
量交叉分类计数所得的频数资料(列联表)作关联分析,
即关于两种属性独立性的卡方检验。
一、交叉分类 2×2 表的关联分析 例6 为研究青少年在校情况与对艾滋病知晓情况之间的 关系,某研究者在某地共调查了384名青少年,并对每名 青少年按是否在校和对艾滋病是否知晓两种属性交叉分 类,如表3所示。试问青少年在校情况与对艾滋病知晓情 况之间是否存在关联性?
《卫生统计学》考试重点复习资料

②权衡两类错误的危害以确定α的大小。 ③正确理解 P 值的意义,如果 P<α,宜说差异“有统计学意义”。
第八章 方差分析
名词解释
总变异:样本中全部实验单位差异称为总变异。其大小可以用全部观察值的均方(方差)表 示。 组间变异:各处理组样本均数之间的差异,受处理因素的影响,这种变异称为组间变异,其 大小可用组间均方表示。 组内变异: 各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象 的特征相同或相近,且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对 象随机地分配到各处理组,这种设计叫做随机区组设计。
构成比
某一组成部分的观察单 位数 同一事物各组成部分的 观察单位总数
100 %
③比又称相对比,是 A、B 两个有关指标之比,说明两者的对比水平,常以倍数或百分数表
示,其公式为:相对比=甲指标 / 乙指标(或 100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
应用相对数时应注意哪些问题?
答:应用相对数时应注意的问题有:
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、
构成比、比等。
标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就
是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使
之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
料间的相对水平。 3) 报告比较结果时必须说明所选用的“标准”和理由。 4) 两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图1 15名正常成年人体重和双肾体积的散点图
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
例2 计算上述例1中体重与双肾体积之间的样本相关系数。 本例计算过程如下表:
由原始数据可算出:
x 893, x2 55719, n 15 y 3991.56, y2 1082440.5572, n 15 xy 243931.9
lxx 2555.733 lyy 20270.495
n2 ④. 确定概率P值
15 2
v=n-2=15-2=13,tr=6.517,查 t 界值表, 得p<0.001。
⑤. 下结论
因为p<0.001,按=0.05水准,拒绝H0,接受 H1,差异有统计学意义。即双肾体积与体重之间 存在直线相关关系。
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需 要计算总体相关系数的ρ置信区间。由于一般情况下 (ρ≠0时) ρ的分布并不对称,故先对r按(1)式作z变换:
第二节 秩相关
一、秩相关的概念及其统计描述
Pearson积矩相关的假设检验要求x和y均服从正态分 布。 对不服从正态分布的资料,或是总体分布未知的资料或 者原始数据用等级表示的资料,需采用秩相关来描述两 变量的相关性。 秩相关是利用两变量的秩次大小作直线相关分析,对 原 变量的分布不作要求,属非参数统计方法。 其中最常用的统计量是Spearman秩相关系数rs,又称等
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定 无相关性。 通常应先绘出样本值的散点图,利用散点图可直观 地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析 要求两变量均为随机变量。
3. 出现异常值时慎用相关。 4. 相关未必真有内在联系 5. 分层资料盲目合并易出假象。
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
0< r <1
-1< r <0
的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和相关方向的统 计指标。
N
(x x)(y y)
(0.7882, 1.9198);将z的上、下限分别代入(3)式,得
ρ的下限:r
e2z e2z
1 1
e ( 20.7882 ) e ( 20.7882 )
1 1
0.6574
e2z 1 e(21.9198) 1 ρ的上限:r e2z 1 e(21.9198) 1 0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
两种常用的检验方法:
(一) 直接查r界值表 根据自由度v=n-2,查r界值表,用r绝对值与界值进行 比较,统计量越大,概率P越小;统计量越小,概率P 越大。
(二) 采用t 检验,实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时,tr服从自由度为 n 2的t分布
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
在实际工作中,我们常常只能获得样本的信息或有关
数据,据此我们只能计算样本相关系数,记为 r。
n
r
(x x)(y y)
i1
lxy , r为样本相关系数
n
n
(x x)2 (y y)2
lxxlyy
i1
i1
式中:lxx为x的离均差平方和; lyy为y的离均差平方和; lxy为x与y的离均差乘积和。
第一节 直线相关
一、直线相关的概念及其统计描述 例1 某医师测量了15名正常成年人的体重(kg)与CT双 肾体积(ml)大小,数据如表1所示。据此回答两变量是 否有关联,其方向与密切程度如何?
表1 15名正常成年人的体重与双肾体积的测量值
1.散点图
15个人的一对对测得值可看成(x, y)的样本取值,据 此在直角坐标系中标出对应的点来,这样的图形称为 散点图。
r
e2z e2z
1 1
(3)
例3(续) 在例2算得r=0.875后,试估计总体相关系数ρ的 95%置信区间。 将r=0.875代入(1)式,得
z
1 2
ln
1 1
r r
1 2
ln
1 1
0.875 0.875
1.3540
将z=1.3540,Z0.05/2 1.96 和代入(2)式得z的95%置信区间为
lxy 6301.038
代入公式得: r lxy
lxx l yy 0.875
说明双肾体积随体重增加而增大,两变量呈正相关。
三、相关系数的统计推断
我们在实际工作中,常常只能得到样本相关系数r. 因此需要对总体相关系数ρ是否等于零进行假设检验. H0:ρ=0 H1:ρ≠0
假设检验的假设前提为x和y均服从正态分布。
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
,标准差
为1 n 3 的正态分布,故z的(1- )置信区间按下式计算:
z
Za/2 , n3
z
Za/2 n
3
(2)
将(2)式的上、下限代入下列(3)式,即得到总体相关系数 ρ的(1- )置信区间。
2
x lxx x2 n
2
y lyy y2 n
lxy
xy
x
n
y
相关系数的特点:
(1) 直线相关系数r是一个没有单位的数值,且-1≤r≤1; (2) r>0为正相关,r<0为负相关, r=0为零相关; (3) r的绝对值越接近1,说明相关性越好或密切程度越
高;r的绝对值越接近0,说明相关性越差或密切程 度越低。
例3 在例2算得r=0.875后,试检验相关是否有统计学意 义。
①. 建立假设 H0:ρ=0 H1:ρ≠0
②. 确定检验水准 α=0.05
③. 方法1:
由自由度v=15-2=13,查附表13 r界值表,得p<0.001.
r 0 0.875 0
方法二: tr
1 r2
6.517 1 0.8752