分类资料的统计描述
分类资料的统计描述

第六章 分类资料的统计描述一、教学大纲要求(一)掌握内容 1. 绝对数。
2. 相对数常用指标:率、构成比、比。
3. 应用相对数的注意事项。
4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。
(二)熟悉内容1. 标准化率的计算。
2. 动态数列及其分析指标。
二、教学内容精要(一) 绝对数绝对数是各分类结果的合计频数,反映总量和规模。
如某地的人口数、发病人数、死亡人数等。
绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。
(二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。
常用相对数的意义及计算见表6-1。
表6-1 常用相对数的意义及计算常用相对数概念表示方式 计算公式 举例率(rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率(‰)等单位时间内的发病率、患病率,如年(季)发病率、时点患病率等构成比(proportion )又称构成指标,说明某一事物内部各组成部分所占的比重或分布 百分数疾病或死亡的顺位、位次或所占比重比(ratio )又称相对比,是A 、B 两个有关指标之比,说明A 是B 的若干倍或百分之几倍数或分数①对比指标,如男:女=106.04:100 ②关系指标,如医护人员:病床数=1.64③计划完成指标,如完成计划的130.5%%100⨯=单位总数可能发生某现象的观察数发生某现象的观察单位率%100⨯=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比(三) 应用相对数时应注意的问题1. 计算相对数的分母一般不宜过小。
2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。
分类资料的统计分析

分类资料的统计分析一、概念分类资料是指观测对象按照其中一种特征进行分类或分组的数据。
常见的分类资料有性别(男、女)、学历(小学、初中、高中、大学)、职业(医生、教师、律师等)。
分类资料中每个分类称为一类或一组,根据组别统计频数或百分比可以揭示不同分类间的差异和关系。
二、方法1.频数与频率分析:通过统计每个类别的个数,得到各类别的频数和频率(频次比),并绘制柱状图、饼图等图表,直观地展示不同类别的占比情况。
2.极差分析:对于有序分类资料,比如学历,可以计算最高和最低值的差距,该差距称为极差。
极差分析衡量了不同类别之间的距离,有助于比较不同类别在一些变量上的差异。
3.交叉分析:用于分析两个或多个分类资料之间的关系。
通过交叉表格(列联表)和卡方检验,可以计算出各类别之间的关联度,判断不同分类是否相互关联。
4.分类资料的描述性统计分析:主要包括计算百分比、计算平均数、计算方差等统计指标。
通过这些指标,可以对不同类别的分布情况进行综合分析。
三、实践应用1.人口统计学:年龄、性别、婚姻状况等是人口统计学中常见的分类资料。
通过对这些资料的统计分析,可以了解人口结构、人口变动趋势等,为制定人口政策提供参考。
2.市场调研:对于市场调研中收集到的消费者分类资料,可以通过频数分析和交叉分析揭示不同人群的消费偏好和购买行为,帮助企业制定更加精准的销售策略。
3.教育评估:对学生的学历、家庭背景等进行统计分析,可以了解学生群体的整体素质水平、教育资源配置情况等,为教育政策制定和学校招生计划提供依据。
4.健康管理:对医疗数据中患者的病种、治疗效果等分类资料进行统计分析,可以评估不同病种的流行趋势、治疗效果、药物副作用等,为医疗决策提供参考。
总之,分类资料的统计分析是统计学中的重要内容,通过对分类资料的频数、频率、交叉分析等方法进行利用,可以揭示分类之间的差异、关系和趋势,为各个领域的决策者和研究者提供参考依据。
分类资料的统计描述

本卷须知
1.标准不同得到的标化值不同 2.内部各小组比较时,可不标化 3.标化后的数值不再反映实际水平。
2024/10/29
22
第四节 动态数列(自学)
• 概念:按照一定的时间顺序,将某事物的统计指标依 次排列起来,以便于观察和比较该事物在时间上的开 展变化趋势。
• 常用指标: • 1.绝对增长量:说明事物在一定时期内所增长的绝对
1.选择标准:任意一组、两组之和、有代表性的人口 2.计算标准化率p' : 直接法: 标准组年龄别人口数时:p' = Ni pi /N 标准组年龄别人口构成时: p' = 〔Ni / N〕 pi 间接法: p' = P r / ni pi = P SMR
计算标准化率的符号
年龄组
1 2 3
标准组
人口数 死亡数 死亡率
标准化法(Standardization method)
标准化的原因: 当两组资料进行比较时,如果其内部不同小
组率有明显差异,而且各小组内部构成也明显不 同 ,直接比较不合理,需要进行标准化后再进行 比较。
标准化的方法: 按照统一标准进行校正,然后进行比较.
标准化率的计算 〔常用于人口年龄构成的标准化〕
概念:是指某种现象在一定条件下,实际发生的观察单位数 与可能发生该现象的总观察单位数之比,用以说明某种现 象发生的频率大小或强度。
计算公式: 发生某种现象的观察单位数 可能发生某种现象的观察单位数 100%〔1000‰…〕
例如:发病率、患病率、死亡率、病死率等。 注意:不受其它指标的影响;各率相互独立,其之和不为1
主要内容
第一节、相对数 第二节、应用相对数的本卷须知 第三节、标准化法 第四节、动态数列及其分析指标
分类资料统计描述

相对比
概念:简称比(ratio),是两个有关联的指标的比值,用以说明 一个指标是另一指标的几倍或几分之几。
甲指标 相对比 (或× 100%) 乙指标
• 分类: 关系指标:有关的非同类事物指标之比,如医护人员数与 病床数之比 对比指标:同类事物两个指标之比,如出生性别比
例5.4 为了解新生儿的锌的营养状况,分别测量某
34.4
N i p2i
(6)=(2) (5) 20 40
200(N )
60( Ni pi )
60( Ni pi )
新疗法组的标准化病死率 p1
60 100% 30.0% 200 60 100% 30.0% 200
一般疗法组的标准化病死率 p2
甲、乙两地各年龄组人口数和死亡率(‰)
用直接法计算标准化死亡率(‰)
年龄组 (岁) 0 5 20 40 60 合计 标准人口 构成比 (Ni/N) 0.141 0.188 0.543 0.104 0.024 1.0000 甲 地 原死亡率 pi 57.2 3.6 5.3 12.1 40.0 16.19 分配 死亡率 (Ni/N)pi 8.07 0.68 2.88 1.26 0.96 13.85 (p’) 乙 地 原死亡率 pi 72.9 4.6 7.2 14.2 46.0 13.90 分配 死亡率 (Ni/N)pi 10.28 0.86 3.91 1.48 1.10 17.63 (p’)
描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
8.5.1分类变量资料资料的统计描述

♦ 1.计算相对数时分母不宜过小
例2:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。 请问该说法是否正确?
♦ 2.分析时不能以构成比代替率
♦ 3.注意资料的可以性
用率或构成比进行比较时,必须注 意资料的可比性,即除了要比较的因素 外,其他可能影响研究结果的因素(如 时间、年龄、职业、地区、民族、风俗 习惯、经济水平等内部构成)要尽可能 的相同。
一、常用相对数
例1:甲小学有534人,乙小学为313人, 经 检查发现, 甲学校患龋齿者57人, 乙学校 患龋齿人数33人。 问那所学校发现患龋齿的强度高?
相对数:是指两个有联系的指标之比。
常用的相对数有率、构成比和相对比。
(一)率(频率指标)
(二)构成比(构成指标)
(三)相对比(比)
比 A B
♦ 4.正确计算平均率
例3 某班有男生50人,女生20人,男生英语四级 通过率为80%,女生四级通过率为100%,请问该 班四级通过率为多少?
• 答案A:90%。 • 答案B:85.7%
♦ 5.样本率或构成比的比较应做假 设检验
样本率或构成比是抽样得到的,存 在抽样误差,进行比较时不能仅凭表面数 值大小直接下结论,应做假设检验
2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
分类资料的统计描述,二项分布(上机)

应用标准化法的注意事项
标准化率不代表真实的死亡(或患病、发病)率水 平,仅限于相互间的比较。
两样本标化率的比较同样需做假设检验 当被标化组各年龄组人口数过少,年龄别死亡率
波动较大时,宜用采用间接标化法。 当所比较的两组内部各分组率的变化呈现交叉或
非平行变化趋势时,不宜采用标准化法。
例1
定义变量 年龄组group、平均人口数people、循环系统死 亡人数death
➢ 相同时期率的比较 ➢ 不同时期率的动态比较
分别将分子分母合计求合计率或平均率 可比性:非处理因素、内部构成 样本率或构成比比较时应作假设检验
标准化法
基本思想:采用统一的标准构成,以消除混 杂因素的影响,使算得的标准化率具有可比 性。 直接标化法 间接标化法
直接标化法
适用条件:已知被标化组的年龄别死亡率
0,1,…,n)的概率为
k e
P(X k) k!
则称服X从参数为 的Poisson分布,记为X~P( )。
服从Poisson分布的三个条件
平稳性 x的取值与观察单位的位置无关,只与观察单位的大小有关
独立增量性(无后效性) 在某个观察单位上x的取值与其他各观察单位上x的取值无关
普通性 在充分小的观察单位上x的取值最多为1
间发生率。 选入numeric expression,填入1,30,
0.1 ok
Poisson分布概念
Poisson分布是描述当试验中成功的概率 很小,而试
验的次数n很大的小概率事件的一种离散型随机分布。 主要描述在单位时间(空间)内稀有事件的发生数。 如果随机变量X的可能取值为 非负整数0,1,…且X=k (k=
Poisson分布性质
比(ratio):两个有关指标之比,通常用倍数 或分数表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
2.75
2. 统计表的种类
根据分组标目的复杂程度,统计表可大致分为简单表 和复合表。
简单表(simple table):只按一个特征或标志分组。
复合表(combinative table) :按两个或两个以上特 征或标志结合起来分组。
3)构成比的分子中的个体一定是分母中的一部分,而比的分子中 的个体不一定是分母中的一部分;构成比是同一类事物的数值 比,比可以是任意两个数值比。
例 某县2018年各年龄组恶性肿瘤死亡情况统计。
表 某县2018年恶性肿瘤死亡统计
年龄组 (1)
人口数 死亡数 构成比(%) 死亡率(1/10万)
(2) (3)
增长量和累计增长量 发展速度和增长速度 平均发展速度和平均增长速度
三、应用注意事项
1、不能以构成比代替率。
2、计算相对数的分母不宜过小。小则直接叙述。
3、进行率的对比分析时,应注意资料可比性。
如比较疗效时,比较组间应病情轻重相同,
性别影响,应按性别分组后再作比较。也可
借助率的标准化方法进行比较
4、正确求平均率/合计率。
(4)
(5)
0~
356980
11
1.5
3.1
15~
232505
22
3.0
9.5
30~
205032 142
19.6
69.3
50~
121882 443
61.1
363.5
≥70
20047 107
14.8
533.8
合计 936446 725
100.0
77.4
流行病学研究中经常用到的相对数
相对危险度 RR P1 P2
P' (N1P1 N2P2 L Nk Pk ) / N ( NiPi ) / N
医学常用统计指标
人口统计指标 : 人口数、人口构成 、人口生育、人口死亡、人 口寿命等指标
疾病统计指标 发病率、患病率、治愈率、生存率、疾病构成 比等
第四节 统计表与统计图
统计表(statistical table)——数据代 替文字描述,便于统计结果的精确、简洁的表 达和对比分析
比数比 OR Odds1 P1 1 P1 Odds2 P2 1 P2
二、动态数列(dynamic series)
动态数列是指一组按照时间顺序排列起来的统计 指标,包括绝对数、相对数、平均数等,它们可 以用来观察和比较事物在时间上的变化和发展趋 势。
常用的动态数列分析指标有:
p1,p2,L ,pk
表示结构的比例表示事物内部某一构成部分在事物 整体中所占的比重,也称作构成比。常以百分数表 示,所以也称作百分比。
其中
pi
第i个类别的观察单位数 k个类别的观察单位总数
100%
p1 p2 L pk 100%
例如
抑郁障碍 恶劣心境障碍 轻度抑郁障碍 重度抑郁障碍
比例:是一种特定形式的比, 分子和分母都是绝对数,
且分子必须是分母的一部分。
例如
考试及格率
考试及格人数 参加考试人数
100%
比例没有量纲, 并且有0≤比例≤1。根据不同的医学 研究目的,比率可分为结构比例与频率两种。
表示分布结构的比例
当比例的分母部分可划分为k 个类别时,用每个类别 的绝对数作为分子计算比例,如
统计图(statistical chart)——用图形 代替数据,获得直观、形象的效果
一、 统计表
1. 统计表的结构 2. 统计表的种类 3. 不良统计表的修改举例
1. 统计表的结构
统计表由以下几个部分组成: ①标题、②标目、③线条、④数字、⑤备注
表2-9 某省某工厂 1994、1998年四项检测指标异常检出率
分类资料的统计描述
一、常用相对数指标 二、动态数列 三、应用注意事项 四、率的标准化 五、医学常用统计指标
一、常用相对数(relative number)指标
比(ratio):
是A、B两个有关指标之比,说明A是B的若干倍 或百分之几,通常用倍数或分数表示。
如:男:女 医生:护士 教师:学生
常用相对数(relative number)指标
例:酒依赖患病比例 68 100% 2.96%
2300
常用相对数(relative number)指标
率(rate)是一个具有时期概念的指标,用于说明在某 一时段内某现象或事件发生的频率或强度。
描述某事件在某时期内的发生(频)率: 率 某时期内发生某事件的观察单位数 该时期开始时暴露的观察单位数
描述某现象在观察单位时间内发生的(速)率或强度
率
发生某事件的观察单位数
观察单位×观察时间
比、比例和率的区别
1)比例中的构成比表示某事物内部各部分所占的比例或比重,比 例中的频率是表明某现象发生的频率或概率,但比例均与观察 时间单位无关;
2)累积发生率表示某事件在一定时期发生的频率,与观察时期的 长短有关;表示某事件发生的速率(强度)的率与观察时期的 长短无关,与观察时间的单位有关。例如,婴儿死亡率与观察 时间单位有关,但男女性结构比与观察时间单位无关。
检测
1994年
指标 受检人 异常人 检出率(%)
数
数
血压 519
55
10.16
心率 519
44
0.48
1998年 受检人数 异常人数 检出率
(%)
582
38
6.52
582
39
6.70
:TTT5(19麝香草酚36浊度试验6).9,4 :GPT(5谷82丙转氨酶)2。3
3.95
TT(T丁建生51等9. 中国卫2生0 统计 1939.98;516(3):166 ) 582
例: 若P1=x1/n1 P2=x2/n2 P3=x3/n3
P=(x1+ x2+ x3)/(n1+ n2+ n3) (正确)
P=(P1+ P2+ P3)/ 3
(错误)
四、率的标准化(standardization)
率的标准化是为了在比较两个不同人群的患 病率、发病率、死亡率等资料时,消除其内 部构成(如年龄、性别、工龄、病程长短等) 不同而不能直接比较的所产生的影响。
合计
患病人数 12 36
100.00
表示某现象发生频率的比例
说明某现象发生的频率或强度,公式为:
频率
某现象实际发生的观察单位数 可能发生该现象的观察单位总数
比例基数
比例基数可取100%、1000‰、10000/万或100000/10万。