分类变量的统计描述
第三单元3分类变量的统计分析

第三单元3分类变量的统计分析一、分类变量的描述统计分析分类变量的描述统计分析主要包括频数分布、频率分布和柱状图等。
1.频数分布频数(frequency)是每个类别在样本或总体中的出现次数。
频数分布(frequency distribution)是指将各个类别的频数按照从小到大的顺序列出,以显示它们的分布情况。
频数分布可以通过计算或绘制柱状图来展示。
2.百分比分布百分比(percentage)是每个类别频数与总频数的比例。
百分比分布(percentage distribution)是指将各个类别的百分比按照从小到大的顺序列出,以显示它们的分布情况。
百分比分布可以通过计算或绘制饼状图来展示。
3.柱状图柱状图(bar chart)是一种常用的展示分类变量分布情况的图形。
在柱状图中,每个类别在x轴上对应一个竖直的条形,条形的高度表示该类别的频数或百分比。
柱状图不仅可以展示各个类别的分布情况,还可以进行不同类别之间的比较。
二、分类变量的关联性分析分类变量的关联性分析可以帮助我们了解两个或多个分类变量之间的相关性。
其中常用的关联性分析方法包括卡方检验和列联表分析。
1.卡方检验卡方检验(chi-square test)是一种非参数统计方法,用于检验两个分类变量之间是否存在相关性。
卡方检验的原假设是两个变量独立无关,备择假设是两个变量相关。
通过计算卡方统计量和对应的P值,可以判断两个变量之间的关联性。
2.列联表分析列联表(contingency table)是用来描述两个或多个分类变量之间关系的表格。
通过计算每个类别的频数或百分比,并绘制列联表的热图或堆积图,可以直观地展示两个变量的关联性。
此外,通过计算列联表的卡方值和判断显著性水平,还可以进行进一步的关联性分析。
三、分类变量的预测分析分类变量的预测分析可以帮助我们根据已有数据对未知数据进行分类。
其中常用的预测分析方法包括逻辑回归和决策树。
1.逻辑回归逻辑回归(logistic regression)是一种用于建立分类模型的统计学方法。
spss-统计描述

23
SPSS12.0统计软件
例
题
数据背景:调查对象为某大专院校的大学生,文件名student.sav。主要调查 内容代码如下:性别( 1 男、 2 女),出生年、月、日(具体数字),身高 (cm),体重(kg),血型(A、AB、B、O),血型代码(1A、2B、3AB、 4O),教育背景(1重点大学本科、2普通大学本科、3大专、4中专/职校),学
Sum:求和
Dispersion:离散程度统计量 Std. deviation:标准差 Variance:方差 Minimum :最小值 Maximum:最大值
Range:全距
Distribution:分布指标 Skewness:偏度系数 Kurtosis:峰度系数 Display Order:输出排列方式 Variable list:按变量选择清单的顺序 Alphabetic:按变量的字母顺序
10
SPSS12.0统计软件
连续变量的统计描述
11
SPSS12.0统计软件
连续变量的统计描述概况
1、集中趋势 如均数、中位数、几何均数、众数、调和均数等 2、离散趋势 如全距、方差和标准差、百分位数、四分位数和四分位间 距、变异系数等
12
SPSS12.0统计软件
Descriptive过程
Analyze->Descriptive Statistics->Descriptive… 可对资料进行简单统计描述;
Lev ene Statistic d f1 1 1 1 1 d f2 2 13 2 13 2 08 .85 5 2 13 Sig. .7 60 .8 08 .8 08 .7 64
身 高
Based on Mean Based on Median Based on Median an d with ad ju sted df Based on trimmed mean
描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
医学统计学第七讲分类变量统计描述

平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相
6.分类变量的统计描述

某一事物各组成部分的个体数 构成比 = —————————————— × 100% 同一事物各组成部分的个体总数
医学统计学
DR. 朱彩华
3. 相对比 (Relative ratio) ratio)
医学统计学
DR. 朱彩华
如:
麻疹病人
甲地 乙地 200 240
哪个地方发病严重? 哪个地方发病严重?
易感者
甲地 乙地 1000 2000
哪个地方发病严重? 哪个地方发病严重?
医学统计学
DR. 朱彩华
甲地麻疹发病率: 甲地麻疹发病率: 200/1000 × 100% = 20% 乙地麻疹发病率: 乙地麻疹发病率: 240/2000 × 100% = 12% 一、相对数的作用 1、反映某现象当时当地的实际水平; 反映某现象当时当地的实际水平; 2、便于不同资料之间的比较。 便于不同资料之间的比较。
即得年龄标准化死亡(或发病)率。 医学统计学 DR. 朱彩华
P72表7-8,其基本操作用的是第1种方法:
各年龄组标准人( 栏 各年龄组标准人(口)数(2栏) 各年龄组的预期死亡数( 、 栏 各年龄组的预期死亡数(4、6栏) 两地标化率: 两地标化率: 甲县: 甲县 p´ = 6146 / 6152992 ×10000/10万 万 = 99.9 /10万 /10万 乙县: 乙县 p´ = 5245 / 6152992 ×10000/10万 万 = 85.2 /10万 /10万 医学统计学 DR. 朱彩华
22.3
医学统计学
DR. 朱彩华
四、率的标准化
分类变量的描述性统计讲解

相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
第三讲 分类变量的统计描述
分类变量的整理(1)
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
OR=odds1/odds2=ad/bc
病人
表3-2 COPD病人与非病人的吸烟情况资料
有吸烟史
无吸烟史
合计
231
125
356
非病人
183
296
479
合计
414
421
835
例3-4 采用例3-1的资料,将基本数据用表3-2表示,试 计算优势与优势比。
病人有吸烟史的优势
odds1
231/ 356 125/ 356
科室 标准组出院
甲院
乙院
病 人 构 成 比 原 治 愈 率 (%) 分 配 治 愈 率 (%) 原 治 愈 率 (%) 分 配 治 愈 率 (%)
Ni/N
pi
⑴
⑵
⑶
(Ni/N)pi
pi
⑷ =⑵ ⑶
⑸
(Ni/N)pi ⑹ =⑵ ⑸
内科
0.2792
妇科
0.2907
医学统计学第七讲分类变量统计描述

柱状图
柱状图是最常用的可视化工具。 它适用于展示不同类别的数量或 频数,并能够直观显示不同类别 之间的差异。
堆积图
堆积图适用于比较不同类别的数 量,并且能够突出显示整体和各 组别的比例大小。
分类变量的描述方法
频数表
频数表是分类变量最常用的描述方法之一。它可以罗列出每个类别的频数和相对频数,直观 展示每个类别的数量与比例。
探索医学统计学中的分类 变量
欢迎来到本课程的第七节,今天我们将深入探索医学统计学中的分类变量。 我们将介绍什么是分类变量,它们的分类方式以及常用的数据收集方法。
比例、频数和累积频数
比例和比率
分类变量的比例和比率是非 常重要的统计描述。比例指 某一类别在总体中所占的比 例,而比率则是一个类别与 另一个类别之间的比例。
百分比表
百分比表是频数表的补充,它将每个类别的相对频数转化成百分比,更容易为人们所理解。
统计量
除了频数和相对频数以外,描述分类变量的统计量还包括众数、中位数和分位数等。
分类变量的展示技巧
1
不要使用图形太多
过多的图形会分散读者的注意力,降低课程的效果。
2
使用图形突出重点
图形和文字的结合可以使主要内容更加醒目易懂。
3
避免引用虚假数据
在使用分类变量的具体数据时,请务必保证数据的真实性和准确性。
分类变量举例分析
最后,我们以现实中的实例来说明如何使用分类变量进行分析。通过收集病 人的分类变量数据,我们可以更好地了解病人的健康情况并为他们提供更好 的医疗服务。
分类变量的有效应用
通过本课程的学习,您将能够更好地理解和运用分类变量在医学研究和临床实践中的应用。希望您能够发挥所 学的知识,探索出更多医学统计学的奥秘。
class520111017分类变量的统计描述

编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
已知1998到2002年我国某地区的医护人 员数为4721、4833、5162、5884和6997人。
猜一猜:搜集该资料的目的?
利用该资料可以说明什么问题? 利用该资料可以计算什么指标?
动态数列
我们一步一步地算:列表计算,excel
已知
年份 医护 人员数 指 标
*数值变量资料可转化为分类变量资料进行分析
分类变量资料或计数资料的表达
体检资料:文字-数量化 性别: 个体:男性/女性
群体/汇总:男性受检者人数 女性受检者人数
总人数
实际数
实际数
把研究对象按某特征进行分类后,由原 始数据直接汇总得到的某个或各个类别的人 数或研究单位数。
*实际数和相对数都是对汇总数据的群体指 标
ቤተ መጻሕፍቲ ባይዱ
收缩压 sbp
舒张压 dbp
心电图:
超声诊断:
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 3-2 COPD病 人 与 非 病 人 的 吸 烟 情 况 资 料
有吸烟史 无吸烟史 合计
COPD病 人
231
125
356
非病人
183
296
479
合计
414
421
835
吸烟率 64.89% 38.02% 49.58%
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
速率表示单位时间内某现象发生的频率。如人
符号 (2)
a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10
学生 人数 (3)
4200 4500 4800 4900 5150 5320 5510 5780 5950 6000 6200
绝对增长量
累计 逐年 (4) (5)
-
-
300
300
600
300
700
100
950
250
1120
第二节 标准化法及其应用
表 5-7 1998 年某省城乡女性原发性骨质疏松症患病率比较
年龄组
城市
农村
(岁) (1)
调查人数 患病人数 患病率(%)
(2)
(3)
(4)
调查人数 (5)
患病人数 (6)
50~
354
…
…
241
…
60~
251
…
…
315
…
70~
130
…
…
175
…
80 及以上
41
…
…
58
…
合计
第一节 分类变量的频数分布及其统计指标
二、常用的相对数指标 1.比率
构成比 同一某事一物组各成组部成分部的分观的观察察单位单数位总数100%
问: 结合例3.1谈谈构成比与频率的区别。
表3-1 某单位高血压患病情况
年龄(岁) (1) 20~ 40~ 50-60 合计
检查人数 (2) 2000 1500 500 4000
时发病率的分子是新发生的事件数,分母是人时
数(观察人数乘以时间)的总和,多用于大人群 长时间随访的资料。
速率
某事件发生的观察单位数
(可能发生某事件的观察单位数时间)
K
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
人年发病率
观察期间内某疾病新发病例数
(每个观察单位数 观察年数)
K
发病率
病型
(1) 普通型 重型 合计
表 5-5 按式(5-10)用直接法计算标准化治愈率(%)
甲疗法
乙疗法
标准治
疗人数 原治愈率 预期治愈数 原治愈率 预期治愈数
(Ni) (2)
(pi)
(Nipi)
(pi)
(3) (4)= (2)(3) (5)
(Nipi) (6) = (2)(5)
400
60.0
240
65.0
1.00 1000
5
0.50
10000 190 1.90 10000 455 4.55
观察的对象是否同质,研究的方法(如检测手段、抽样
方法)是否相同,观察的时间是否一致等;被比较的总体
是否具有可比性。
→对相对数的统计推断
第二节 标准化法及其应用
一、标准化法的基本思想
例如表3-2两种疗法的治愈率比较。
工龄 (年) <3 ≥3 合计
人数
表 3.2 甲厂 患病人数
甲、乙两厂同工种工人某病的患病率
乙厂
患病率(%)
人数 患病人数
患病率(%)
400
12
3.0
100
18
18.0
500
30
6.0
100
2
2.0
400
40
10.0
500
42
8.4
第二节 标准化法及其应用
一、标准化法的基本思想
要正确比较两厂的合计患病率,必须先将两 组工人的工龄构成按照统一标准进行校正,然 后计算出校正后的标准化患病率再进行比较。 这种用统一的内部构成,然后计算标准化率的 方法,称为标准化法。
例3-1 某医生研究了慢性阻塞性肺病(COPD)病人的吸 烟情况,自1998~2000年收治COPD病人356人,其中 231人有三十年及以上的经常吸烟史(日平均1支以上),在 本院其它科室收治的同年龄组段的非COPD病人(无其它呼 吸系统疾患)479人,其中有三十年及以上的经常吸烟史的 183人,试计算并比较两组病人的吸烟率。
一、常用的相对数指标
三种类型:
比率 速率 比
第一节 分类变量的频数分布及其统计指标
二、常用的相对数指标 1.比率
频表示事物内部某个组成部分所占的比重,包 括:频率指标和构成比指标。
频率
发生某现象的观察单位 数 可能发生某现象的观察 单位总数
K
分子是分母的一部分;无量纲,在0~1范围内取值;K
是比例基数,可取100%,1000‰、10万/10万等,根据 习惯用法来决定。
第二节 标准化法及其应用
一、标准化法的基本思想
标准化法的基本思想是:采用某影响因素 的统一标准构成,对内部构成不同的各人群 率进行调整,以消除人口构成不同对人群总 率的影响,使标准化率具有可比性。
常用计算方法: 直接法 间接法
第二节 标准化法及其应用
二、标准化率的计算
根据已有资料的条件,采用不同的方法计算标准化率 如:对死亡率的年龄构成标准化
2.标准化率已不再反映当地的实际水平,它只表示相互 比较的几组资料间的相对水平。
3.两样本标准化率为样本值,若了解两样本标准化率之 间的差别是否有统计学意义,应进行假设检验。
第三节 动态数列及其分析指标
表3-9 某大学1992-2002年本科专业招生动态变化
年份 (1)
1992 1993 1994 1995 1996 1997 1998 1998 2000 2001 2002
患病人数 患者构成比 患病率 (3) %(4) %(5)
140
33.3
7.0
180
42.9
12.0
100
23.8
20.0
420
100.0
10.5
第一节 定性变量的分布特征
二、常用的相对数指标
1.比率
男 81.6%
不详
女
1.5%
16.9%
中国累积报告的HIV感染者按性别分布图
1985 — 2001.6
作为两者的“共同标准”。这种方法适用于直接法。 3.另外选用一个通用的或便于比较的标准作为两者的
“共同标准”,如采用全国、全省或全地区的数据作为 标准。
第二节 标准化法及其应用
二、标准化率的计算
计算标准化率的步骤: 1.根据对比资料所具备的条件选用直接法或间
接法。 2.选定标准构成。 3.选择公式计算标准化率
第二节 标准化法及其应用
病型 普通型 重型 合计
病人数 300 100 400
表 5-4 甲疗法 治愈数
180 35 215
甲、乙两种疗法治疗某病的治愈率比较
乙疗法
治愈率(%) 病人数 治愈数
60.0
100
65
35.0
300
125
53.8
400
190
治愈率(%) 65.0 41.7 47.5
第二节 标准化法及其应用
170
1310
190
1580
270
1750
170
1800
50
2000
200
发展速度% 定基比 环比 (6) (7) 100.0 100.0 107.1 107.1 114.3 106.7 116.7 102.1 122.6 105.1 126.7 103.3 131.2 103.6 137.6 104.9 141.7 102.9 142.9 100.8 147.6 103.3
776
322
41.5
789
335
患病率(%) (7) … … … …
42.5
第二节 标准化法及其应用
年龄组
(岁)
(1)
50~ 60~ 70~ 80 及以上 合计
表 5-8
标准患病率
Pi
(2)
21.3 46.1 65.5 71.7 42.1
按式(5-12 )用间接法计算标准化患病率(%)
城市
农村
人口数
预期患病人数人口数来自预期患病人数ni
(3)
ni Pi
(4)=(2)(3)
ni
(5)
ni Pi
(6)=(2)(5)
354
75
251
116
130
85
41
29
776
305
241
51
315
145
175
115
58
42
789
353
第二节 标准化法及其应用
三、应用标准化时的注意事项
1.标准化法只适用于某因素两组内部构成不同,并有可 能影响两组总率比较的情况。
该年新发某病的病例数 同年内能发生某病的平 均人口数
K
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
例 在某医院的院内感染调查中,5031个病人共 观察了127859人日(例均25.4日),其中有 596人在医院发生感染,求医院感染率。
医院感染率=596/127859=0.0047人/人日 意味着平均每天有0.47%的病人将在医院获得感染。
全国出生人口性别比为117。
第一节 定性变量的分布特征
二、常用的相对数指标