分类资料的统计描述
分类资料的统计描述

第六章 分类资料的统计描述一、教学大纲要求(一)掌握内容 1. 绝对数。
2. 相对数常用指标:率、构成比、比。
3. 应用相对数的注意事项。
4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。
(二)熟悉内容1. 标准化率的计算。
2. 动态数列及其分析指标。
二、教学内容精要(一) 绝对数绝对数是各分类结果的合计频数,反映总量和规模。
如某地的人口数、发病人数、死亡人数等。
绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。
(二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。
常用相对数的意义及计算见表6-1。
表6-1 常用相对数的意义及计算常用相对数概念表示方式 计算公式 举例率(rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率(‰)等单位时间内的发病率、患病率,如年(季)发病率、时点患病率等构成比(proportion )又称构成指标,说明某一事物内部各组成部分所占的比重或分布 百分数疾病或死亡的顺位、位次或所占比重比(ratio )又称相对比,是A 、B 两个有关指标之比,说明A 是B 的若干倍或百分之几倍数或分数①对比指标,如男:女=106.04:100 ②关系指标,如医护人员:病床数=1.64③计划完成指标,如完成计划的130.5%%100⨯=单位总数可能发生某现象的观察数发生某现象的观察单位率%100⨯=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比(三) 应用相对数时应注意的问题1. 计算相对数的分母一般不宜过小。
2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。
分类资料的统计分析

分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。
常见的分类资料有性别(男、女)、学历(小学、初中、高中、大学)、职业(医生、教师、律师等)。
分类资料中每个分类称为一类或一组,根据组别统计频数或百分比可以揭示不同分类间的差异和关系。
二、方法1.频数与频率分析:通过统计每个类别的个数,得到各类别的频数和频率(频次比),并绘制柱状图、饼图等图表,直观地展示不同类别的占比情况。
2.极差分析:对于有序分类资料,比如学历,可以计算最高和最低值的差距,该差距称为极差。
极差分析衡量了不同类别之间的距离,有助于比较不同类别在一些变量上的差异。
3.交叉分析:用于分析两个或多个分类资料之间的关系。
通过交叉表格(列联表)和卡方检验,可以计算出各类别之间的关联度,判断不同分类是否相互关联。
4.分类资料的描述性统计分析:主要包括计算百分比、计算平均数、计算方差等统计指标。
通过这些指标,可以对不同类别的分布情况进行综合分析。
三、实践应用1.人口统计学:年龄、性别、婚姻状况等是人口统计学中常见的分类资料。
通过对这些资料的统计分析,可以了解人口结构、人口变动趋势等,为制定人口政策提供参考。
2.市场调研:对于市场调研中收集到的消费者分类资料,可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为,帮助企业制定更加精准的销售策略。
3.教育评估:对学生的学历、家庭背景等进行统计分析,可以了解学生群体的整体素质水平、教育资源配置情况等,为教育政策制定和学校招生计划提供依据。
4.健康管理:对医疗数据中患者的病种、治疗效果等分类资料进行统计分析,可以评估不同病种的流行趋势、治疗效果、药物副作用等,为医疗决策提供参考。
总之,分类资料的统计分析是统计学中的重要内容,通过对分类资料的频数、频率、交叉分析等方法进行利用,可以揭示分类之间的差异、关系和趋势,为各个领域的决策者和研究者提供参考依据。
分类资料的统计描述

本卷须知
1.标准不同得到的标化值不同 2.内部各小组比较时,可不标化 3.标化后的数值不再反映实际水平。
2024/10/29
22
第四节 动态数列(自学)
• 概念:按照一定的时间顺序,将某事物的统计指标依 次排列起来,以便于观察和比较该事物在时间上的开 展变化趋势。
• 常用指标: • 1.绝对增长量:说明事物在一定时期内所增长的绝对
1.选择标准:任意一组、两组之和、有代表性的人口 2.计算标准化率p' : 直接法: 标准组年龄别人口数时:p' = Ni pi /N 标准组年龄别人口构成时: p' = 〔Ni / N〕 pi 间接法: p' = P r / ni pi = P SMR
计算标准化率的符号
年龄组
1 2 3
标准组
人口数 死亡数 死亡率
标准化法(Standardization method)
标准化的原因: 当两组资料进行比较时,如果其内部不同小
组率有明显差异,而且各小组内部构成也明显不 同 ,直接比较不合理,需要进行标准化后再进行 比较。
标准化的方法: 按照统一标准进行校正,然后进行比较.
标准化率的计算 〔常用于人口年龄构成的标准化〕
概念:是指某种现象在一定条件下,实际发生的观察单位数 与可能发生该现象的总观察单位数之比,用以说明某种现 象发生的频率大小或强度。
计算公式: 发生某种现象的观察单位数 可能发生某种现象的观察单位数 100%〔1000‰…〕
例如:发病率、患病率、死亡率、病死率等。 注意:不受其它指标的影响;各率相互独立,其之和不为1
主要内容
第一节、相对数 第二节、应用相对数的本卷须知 第三节、标准化法 第四节、动态数列及其分析指标
分类资料统计描述

相对比
概念:简称比(ratio),是两个有关联的指标的比值,用以说明 一个指标是另一指标的几倍或几分之几。
甲指标 相对比 (或× 100%) 乙指标
• 分类: 关系指标:有关的非同类事物指标之比,如医护人员数与 病床数之比 对比指标:同类事物两个指标之比,如出生性别比
例5.4 为了解新生儿的锌的营养状况,分别测量某
34.4
N i p2i
(6)=(2) (5) 20 40
200(N )
60( Ni pi )
60( Ni pi )
新疗法组的标准化病死率 p1
60 100% 30.0% 200 60 100% 30.0% 200
一般疗法组的标准化病死率 p2
甲、乙两地各年龄组人口数和死亡率(‰)
用直接法计算标准化死亡率(‰)
年龄组 (岁) 0 5 20 40 60 合计 标准人口 构成比 (Ni/N) 0.141 0.188 0.543 0.104 0.024 1.0000 甲 地 原死亡率 pi 57.2 3.6 5.3 12.1 40.0 16.19 分配 死亡率 (Ni/N)pi 8.07 0.68 2.88 1.26 0.96 13.85 (p’) 乙 地 原死亡率 pi 72.9 4.6 7.2 14.2 46.0 13.90 分配 死亡率 (Ni/N)pi 10.28 0.86 3.91 1.48 1.10 17.63 (p’)
描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
8.5.1分类变量资料资料的统计描述

♦ 1.计算相对数时分母不宜过小
例2:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。 请问该说法是否正确?
♦ 2.分析时不能以构成比代替率
♦ 3.注意资料的可以性
用率或构成比进行比较时,必须注 意资料的可比性,即除了要比较的因素 外,其他可能影响研究结果的因素(如 时间、年龄、职业、地区、民族、风俗 习惯、经济水平等内部构成)要尽可能 的相同。
一、常用相对数
例1:甲小学有534人,乙小学为313人, 经 检查发现, 甲学校患龋齿者57人, 乙学校 患龋齿人数33人。 问那所学校发现患龋齿的强度高?
相对数:是指两个有联系的指标之比。
常用的相对数有率、构成比和相对比。
(一)率(频率指标)
(二)构成比(构成指标)
(三)相对比(比)
比 A B
♦ 4.正确计算平均率
例3 某班有男生50人,女生20人,男生英语四级 通过率为80%,女生四级通过率为100%,请问该 班四级通过率为多少?
• 答案A:90%。 • 答案B:85.7%
♦ 5.样本率或构成比的比较应做假 设检验
样本率或构成比是抽样得到的,存 在抽样误差,进行比较时不能仅凭表面数 值大小直接下结论,应做假设检验
2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
分类资料的统计描述,二项分布(上机)

应用标准化法的注意事项
标准化率不代表真实的死亡(或患病、发病)率水 平,仅限于相互间的比较。
两样本标化率的比较同样需做假设检验 当被标化组各年龄组人口数过少,年龄别死亡率
波动较大时,宜用采用间接标化法。 当所比较的两组内部各分组率的变化呈现交叉或
非平行变化趋势时,不宜采用标准化法。
例1
定义变量 年龄组group、平均人口数people、循环系统死 亡人数death
➢ 相同时期率的比较 ➢ 不同时期率的动态比较
分别将分子分母合计求合计率或平均率 可比性:非处理因素、内部构成 样本率或构成比比较时应作假设检验
标准化法
基本思想:采用统一的标准构成,以消除混 杂因素的影响,使算得的标准化率具有可比 性。 直接标化法 间接标化法
直接标化法
适用条件:已知被标化组的年龄别死亡率
0,1,…,n)的概率为
k e
P(X k) k!
则称服X从参数为 的Poisson分布,记为X~P( )。
服从Poisson分布的三个条件
平稳性 x的取值与观察单位的位置无关,只与观察单位的大小有关
独立增量性(无后效性) 在某个观察单位上x的取值与其他各观察单位上x的取值无关
普通性 在充分小的观察单位上x的取值最多为1
间发生率。 选入numeric expression,填入1,30,
0.1 ok
Poisson分布概念
Poisson分布是描述当试验中成功的概率 很小,而试
验的次数n很大的小概率事件的一种离散型随机分布。 主要描述在单位时间(空间)内稀有事件的发生数。 如果随机变量X的可能取值为 非负整数0,1,…且X=k (k=
Poisson分布性质
比(ratio):两个有关指标之比,通常用倍数 或分数表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7. 在比较相对数时应注意可比性
影响率或构成比的因素很多,除了研究因素(即 比较的因素)外,其余的影响因素即非研究因素应尽 可能相同或相近,即在相同条件下比较才有意义。
分析时应注意非研究因素在比较各组的分布或
内部构成是否相同。如分析不同车间工人高血压病 患病规律,应考虑工人的年龄、工龄、工种、病期、 病程、病型,以及环境与治疗条件等因素在不同车 间是否相同。又如比较两个地区死亡率时,应考虑 两个地区的年龄、性别构成是否不同。
② 患病率(prevalence rate)
指某一时点或时期内,可能发生某病的一定人群中,现患的病 人数。常用于慢性疾病,表示在一定人群中流行的规律或水平。
某病现患病例数 患病率= —该—时—点—受—检—人—口—数–× k
2、构成比(proportion) 说明某一事物内部各组成部分所占的比重,用百分数表示。
人口构成不同,各年龄组死亡数也不同。甲地总死 亡率高于乙地是因为混杂因素年龄的干扰,只有消 除其影响,才能正确的反映死亡率的真实情况。通 常采用标准化法,如采取统一的标准人口年龄构成 进行“调整”使之标准化,使具有可比性。
推而广之,在比较两人群出生率、患病率和病死
率等时,也要考虑人群的性别、年龄构成的标准化; 两组治愈率的比较,应考虑病情轻重、病程长短的标 准化;率的标准化思想也可以用于均数的标准化,如 两组平均治愈天数的比较,也应考虑病型、病程、病 期等的标准化。
2. 标准化率的计算
计算标准化率的数据符号
年龄组
被标准化组
标准组
人口数 死亡数 死亡率 人口数 死亡数 死亡率
1
n1
r1
p1
N1
R1
P1
2
n2
r2
p2
N2
R2
P2
… … … … … … …
k
nk
rk
pk
Nk
Rk
Pk
合计 n
r
p
N
R
P
直接法标化率 已知标准组年龄别人口数:
p'
Ni pi
N
已知标准组年龄别人口构成:
1993
584
8
1.37
8.8
--
1994
571
10
1.75
11.0
1.28
1995
714
12
1.68
13.2
1.23
1996
748
16
2.14
17.6
1.56
1997
942
21
2.23
23.0
1.63
1998
1095
24
2.19
26.4
1.60
合计
4654
91
1.96
100.0
--
二、应用相对数应注意的问题
某市1980年和1990年五种传染病发病情况
疾病
痢疾 肝炎 流脑 麻疹 腮腺炎 合计
1980
病例数 构成比(%)
3604 49.39
1203 16.49
698
9.56
890
12.20
902
12.36
7297 100.00
1990
病例数 构成比(%)
2032 37.92
1143 21.33
542
10.11
年龄组
甲地
乙地
人口数 死亡率 人口数 死亡率
0~
9300
57.2
4800
72.9
5~
12200
3.6
6600
4.6
20 ~ 19000
5.3
35300
7.2
40 ~
7600
12.1
2800
14.2
60 ~
1900
40.0
500
46.0
合计 50000 16.19 50000 13.90
比较甲、乙两地总死亡率时,因两地各年龄组
某化工厂慢性气管炎患者与专业工龄的关系
工龄(年) 检查人数 患者数
1~
340
17
5~
254
30
10 ~
432
73
15 ~
136
27
合计
1162
147
百分比 11.56 20.41 49.66 18.37 100.00
患病率 5.00 11.81 16.90 19.85 12.65
4. 不能用构成比的动态分析代替率的动态分析
常用的构成比指标有三种:
(1) 对比指标:指两个同类事物某种指标(绝对数、 两个率或其他同类指标)的比。
(2) 关系指标:指两个有关的、但非同类事物的 数量的比。
(3) 计划完成指标:说明计划完成的程度,常用 实际数达到计划数的百分之几或几倍表示。
1993-1998年某地损伤与中毒病死率(%),构成比(%)及相对比 年度 发病人数 病死人数 病死率 构成比 相对比
分类资料的统计描述
一、常用的相对数
1、率(rate):某种现象发生的频率或强度 发生某种现象的观察单位数
率= ———————————————— × k 可能发生某种现象的观察单位总数
① 发病率 ( incidence rate ) 该时期新发生的某病病例数
发病率= ————————————————————— × k 一定时期内可能发生某病的人群(平均人口数)
某一组成部分的观察单位数 构成比= ————————————————— × 100%
同一事物各组成部分的观察单位总数 3、比(ratio)
亦称相对比,为A、B两个相关指标之比。说明A是B的几倍 或几分之几,常用倍数或分数表示。
比 A B
A与B可以性质相同,也可不同 A与B可以是绝对数,也可是相对数。
767
14.31
875
16.33
5359 100.00
5、不能混淆发病率与患病率
A
A B
B C D
D
E 1.1
疾病发生和存在的模式
12.31
A:观察期内发生并结果(治愈或死亡)
B:观察期内发生并转入下一观察期
C:发病后治愈,又发生同一疾病
D、E:观察期前发病,未愈进入本观察期
6. 对样本率(或构成比)的比较应遵循随机 抽样原则,并做假设检验
三、标准化法(Standardization method)
1. 标准化法的意义和思想
当两组或多组率比较,其内部各小组的率明显不 同,且各小组观察例数的构成比,诸如年龄、性别、 工龄、病情轻重、病程长短等也明显不同时,则不能 直接比较两组或多组的总率,得出结论。
甲、乙两地各年龄组人口数及死亡率(%)
1. 计算相对数的分母不宜过小 观察单位足够多时,计算的相对数才比较稳定。
观察单位过少,则偶然性大、可靠性差。一般当例数 较少如少于30例时,以绝对数表示为好。如必须用率 表示,应列出率的可信区间。
2. 对观察单位数不等的几个率,不能直接 相加求其总率
3. 分析时不能以构成比代替率
构成比只能说明事物内部各组成部分所占的比 重,并不能说明某现象发生的频率或强度。二者概 念和计算方法不同,所得结论也不同。在应用容易 发生的错误往往是指标选择错误(通常是应计算频率 指标而选择了构成比);或用构成比指标得出频率指 标的结论。