分类变量资料的统计描述
分类资料的统计描述

第六章 分类资料的统计描述一、教学大纲要求(一)掌握内容 1. 绝对数。
2. 相对数常用指标:率、构成比、比。
3. 应用相对数的注意事项。
4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。
(二)熟悉内容1. 标准化率的计算。
2. 动态数列及其分析指标。
二、教学内容精要(一) 绝对数绝对数是各分类结果的合计频数,反映总量和规模。
如某地的人口数、发病人数、死亡人数等。
绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。
(二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。
常用相对数的意义及计算见表6-1。
表6-1 常用相对数的意义及计算常用相对数概念表示方式 计算公式 举例率(rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率(‰)等单位时间内的发病率、患病率,如年(季)发病率、时点患病率等构成比(proportion )又称构成指标,说明某一事物内部各组成部分所占的比重或分布 百分数疾病或死亡的顺位、位次或所占比重比(ratio )又称相对比,是A 、B 两个有关指标之比,说明A 是B 的若干倍或百分之几倍数或分数①对比指标,如男:女=106.04:100 ②关系指标,如医护人员:病床数=1.64③计划完成指标,如完成计划的130.5%%100⨯=单位总数可能发生某现象的观察数发生某现象的观察单位率%100⨯=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比(三) 应用相对数时应注意的问题1. 计算相对数的分母一般不宜过小。
2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。
统计方法学部分对于连续变量和分类变量的描述

统计方法学部分对于连续变量和分类变量的描述全文共四篇示例,供读者参考第一篇示例:统计方法学是一门重要的学科,可应用于各个领域,包括医学、经济、社会科学等。
在统计学中,变量是一个基本概念,分为连续变量和分类变量。
这两种类型的变量在统计分析中有着不同的特点和分析方法。
连续变量是指可以取任意值的变量,通常用于度量某种属性或特征。
比如身高、体重、温度等都是连续变量。
在统计学中,对于连续变量的分析通常采用如均值、标准差、中位数等描述性统计量来描述数据的分布特征。
对于连续变量的变量间关系,通常采用相关分析、回归分析等方法进行研究。
在实际应用中,连续变量和分类变量经常同时存在,统计分析方法的选择需要考虑到变量的属性和研究目的。
对于同时包含连续变量和分类变量的数据,通常可以采用方差分析、多元回归等方法进行综合分析。
除了描述性统计和假设检验之外,统计方法学还有着更多的高级方法可以应用于连续变量和分类变量的分析。
比如聚类分析、主成分分析等多元统计方法可以帮助我们从复杂的数据中提取出有用的信息,发现变量之间的潜在关系。
统计方法学部分对于连续变量和分类变量的描述是统计学的基础,通过对数据的深入分析和挖掘,我们可以更好地理解变量之间的关系,为决策和预测提供更有力的支持。
希望本文能够帮助读者更好地理解统计方法学在连续变量和分类变量分析中的应用和意义。
第二篇示例:统计方法学是一门研究数据收集、分析和解释的学科,其中包含了多种方法用于处理连续变量和分类变量。
在统计方法学中,连续变量和分类变量是两种常见的数据类型,它们在统计分析中具有各自的特点和处理方法。
连续变量是指可以在一定区间内取任意值的变量,通常是测量得出的结果,例如身高、体重、收入等。
连续变量具有无限个可能值,可以是小数或整数,其取值范围是连续的,没有间断。
在统计分析中,对连续变量的处理通常包括描述统计和推断统计两个方面。
对于连续变量的描述统计,常见的方法包括均值、中位数、众数、标准差、极差等。
描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
6.分类变量的统计描述

某一事物各组成部分的个体数 构成比 = —————————————— × 100% 同一事物各组成部分的个体总数
医学统计学
DR. 朱彩华
3. 相对比 (Relative ratio) ratio)
医学统计学
DR. 朱彩华
如:
麻疹病人
甲地 乙地 200 240
哪个地方发病严重? 哪个地方发病严重?
易感者
甲地 乙地 1000 2000
哪个地方发病严重? 哪个地方发病严重?
医学统计学
DR. 朱彩华
甲地麻疹发病率: 甲地麻疹发病率: 200/1000 × 100% = 20% 乙地麻疹发病率: 乙地麻疹发病率: 240/2000 × 100% = 12% 一、相对数的作用 1、反映某现象当时当地的实际水平; 反映某现象当时当地的实际水平; 2、便于不同资料之间的比较。 便于不同资料之间的比较。
即得年龄标准化死亡(或发病)率。 医学统计学 DR. 朱彩华
P72表7-8,其基本操作用的是第1种方法:
各年龄组标准人( 栏 各年龄组标准人(口)数(2栏) 各年龄组的预期死亡数( 、 栏 各年龄组的预期死亡数(4、6栏) 两地标化率: 两地标化率: 甲县: 甲县 p´ = 6146 / 6152992 ×10000/10万 万 = 99.9 /10万 /10万 乙县: 乙县 p´ = 5245 / 6152992 ×10000/10万 万 = 85.2 /10万 /10万 医学统计学 DR. 朱彩华
22.3
医学统计学
DR. 朱彩华
四、率的标准化
分类变量的描述性统计讲解

相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
第三讲 分类变量的统计描述
分类变量的整理(1)
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
OR=odds1/odds2=ad/bc
病人
表3-2 COPD病人与非病人的吸烟情况资料
有吸烟史
无吸烟史
合计
231
125
356
非病人
183
296
479
合计
414
421
835
例3-4 采用例3-1的资料,将基本数据用表3-2表示,试 计算优势与优势比。
病人有吸烟史的优势
odds1
231/ 356 125/ 356
科室 标准组出院
甲院
乙院
病 人 构 成 比 原 治 愈 率 (%) 分 配 治 愈 率 (%) 原 治 愈 率 (%) 分 配 治 愈 率 (%)
Ni/N
pi
⑴
⑵
⑶
(Ni/N)pi
pi
⑷ =⑵ ⑶
⑸
(Ni/N)pi ⑹ =⑵ ⑸
内科
0.2792
妇科
0.2907
8.5.1分类变量资料资料的统计描述

♦ 1.计算相对数时分母不宜过小
例2:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。 请问该说法是否正确?
♦ 2.分析时不能以构成比代替率
♦ 3.注意资料的可以性
用率或构成比进行比较时,必须注 意资料的可比性,即除了要比较的因素 外,其他可能影响研究结果的因素(如 时间、年龄、职业、地区、民族、风俗 习惯、经济水平等内部构成)要尽可能 的相同。
一、常用相对数
例1:甲小学有534人,乙小学为313人, 经 检查发现, 甲学校患龋齿者57人, 乙学校 患龋齿人数33人。 问那所学校发现患龋齿的强度高?
相对数:是指两个有联系的指标之比。
常用的相对数有率、构成比和相对比。
(一)率(频率指标)
(二)构成比(构成指标)
(三)相对比(比)
比 A B
♦ 4.正确计算平均率
例3 某班有男生50人,女生20人,男生英语四级 通过率为80%,女生四级通过率为100%,请问该 班四级通过率为多少?
• 答案A:90%。 • 答案B:85.7%
♦ 5.样本率或构成比的比较应做假 设检验
样本率或构成比是抽样得到的,存 在抽样误差,进行比较时不能仅凭表面数 值大小直接下结论,应做假设检验
2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
第6章 分类变量的统计描述与参数估计

6.1.2 多个分类变量的联合描述 分类变量的联合描述使用列联表; 列联表是因分类变量的各类别交叉而成的复合频 数表,被称为行×列表; 列联表的分析结果直观、易比较; 应用列联表进行变量的交叉分析是数据分析报告 中分析结果显示的主要方式之一; 列联表分二维表和多维表(或n维表); 单元格内可给出原始频数、行与列百分比和总百 分比。
(3)率(Rate) 率是一个具有时间、速度、强度含义 的概念或指标,用于说明某个时期内某个 事件发生的频率或强度,其计算公式为: 某事件的发生率=观察期内发生某事件的对 象数/该时期开始时的观察对象数
相对数在使用时应当注意适用条件: 样本量较大时相对数比较稳定; 基数不同相对数不能直接相加求和。
第6章 分类变量的统计描述 与参数估计
2013.10
离散变量是把取值范围为有限个数或者是 一个数列构成的变量。 分类变量是表示分类情况的离散变量。 根据类别的有序性,分类变量可分为有序 分类变量(Ordinal Variable)和无序分类 变量(Nominal Variable),这两类变量 在统计描述上没有差别。
(2)构成比(Proportion) 构成比是把观察对象分为k个部分,其中 某一个/多个部分的例数占总例数的比例。它 描述某个事物内部各构成部分所占的比重,其 计算公式为: 构成比=某一组成部分的样本数/总样本数 构成比的分子必须是分母的一部分,所以 其取值0-1,百分比是一个标准的构成比,而 累计频率则是构成比概念的直接延伸。
6.1 指标体系概述
6.1.1 单个分类变量的统计描述 1.频数分布 频数(绝对频数)是指本类别出现的次数; 百分比(构成比)是指本类别出现的次数占 总次数的百分比,即本类别出现次数/总次 数×100%。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人数)×比例基数(K) 比例基数(K) :100%、1000‰、10000/万、100000/10万等
2、不能以构成比代替率。 3、正确计算合计率和平均率。 4、相对数的比较应具有可比性。 5. 比较样本率(或构成比)时应做假设检验
二 应用相对数的注意事项
2、不能以构成比代替率
某地各年龄组中老年人白内障患病情况统计
年龄组 受检人数 患者数
⑴
⑵
⑶
40~
560
68
50~
441
129
60~
296
135
70~
可见,乙地流行性感冒发病比甲地严重,这就使 我们对两地发病情况有了更深入地了解。
相对数是两个有联系的指标之比,说 明事物发生情况的相对水平,便于对分类变量资料 进行分析和比较。
相对数的常用指标
➢率(rate) ➢构成比(proportion) ➢相对比(relative ratio)
相对数的常用指标
三日疟
17
17.5
17
34.0
合计
97
100.0
50
100.0
特点:1.各构成部分的构成比之和为100% 2.某一部分所占比重的增(减),其他部分会 相应的减(增),此消彼长。
相对数的常用指标
➢ 相对比(relative ratio):简称比,是甲乙两个有关 指标之比,说明甲是乙的若干倍或百分之几,通常用倍 数或分数表示。
如:发病率、死亡率、发生率、阳性率、患病率等
例1:某地1980年的人口数为56万,麻疹发生数 为411人,则:
麻疹发病率=411/560000×10000/万=7.3/万
➢计算率时,应注意分母和时间的确定。分母 只包括可能会发生某事件的观察单位,尤其 在计算某病的发生率时,不可能会发生的单 位应予以排除。如在计算传染病发病率时, 分母不应包括已经患过该传染病或因接种疫 苗而获得免疫力的人群,即应只包括易感人 群。
149
97
≥80
22
19
合计 1468
448
患者构成比 (%)⑷
15.18 28.79 30.13 21.65 4.24
100.00
患病率(%) ⑸=(3)/(2) 12.14 29.25 45.61 65.10 86.36
30.52
率与构成比
区别点
率
构成比
概念
发生的频率 各组成部分所占的
或强度
比重
相对比= 甲指标/乙指标(或×100%)
如:男:女、医生:护士、教师:学生
相对比(relative ratio)
1.两类个体数之比 R = 甲类发生的例数/乙类发生的例数
例:我国1990年第4次人口普查总人数中, 男性为584949922人,女性为548732579 人,试计算男女性别比。
性别比=1.066 或 106.6:100
分类变量资料的统计描述
万州疾控中心 陈春蓉
统计分析 设检验
统计描述 参数估计
统计推断 假
主要内容
一 相对数的意义及常用指标 二 应用相对数的注意事项 三 率的标准化法
学习要求
1.掌握相对数的概念、常用指标及 应用
2.理解率的标准化法的基本思想; 学会运用标化率解决实际问题
如:某年甲、乙两地流行性感冒流行,甲地
总人口数30000人、乙地总人口数15000人;
甲地发病1500人,乙地发病1200人。
➢ 发病人数是绝对数,它说明两地流行性感冒实际 发生的绝对水平。
➢ 仅使用绝对数还不能对两地疾病发生的严重程度 进行深入的分析比较。如果要比较两地发病的严 重程度,需要考虑该地的总人口数。
甲地流行性感冒发病率=1500/30000×100%=5% 乙地流行性感冒发病率=1200/15000×100%=8%
精品课件
区 甲 乙 丙 合计
某年某市三个区的肠道传染病发病率
人口数
发病数 发病率(‰)
98740
503
5.09
75135
264
3.51
118730
466
3.92
292605
1233
4.21
注意:计算合计发病率时,不能直接将几个率相加求 得,应以肠道传染病总的发病人数除以总人数。
相对数的常用指标
➢ 构成比(proportion):又称构成指标,是指某一事物 内部某一组成部分的观察单位数与该事物观察单位总数 之比,即比例。说明某一事物内部各组成部分所占的比 重,也叫百分比。
2. 根据分子分母的关系,相对数可分为 (1)关系指标:指两个有关系的非同类事物的比
。 如:医护人员数:病床数 (2)对比指标:指同类事物的两个指标之比,如
甲乙两地恶性肿瘤之比。 相对比的分子和分母不一定有相同的量纲。 如:体质指数=体重/身高2(kg/m2)
二 应用相对数的注意事项
1、计算相对数的分母不宜过小,即大数原则。小 则直接叙述。(大样本原则)
2.两个率之比
R = P1/P2
例:某市区肺癌病死率1957年为7.7/10万,1972 年为32.4/10万,用相对比反映两年肺癌病死 率的变化。 相对比=7.7/32.4×100%=23.77% 或 相对比=32.4/7.7=4.2
相对比特点
1. 甲、乙两个指标可以是相对数、也可以是绝对数, 可性质相同也可性质不同。
某年某市三个区的肠道传染病发病率
区
人口数
发病数 发病率(‰)
甲
98740
503
5.09
乙
75135
264
3.51
丙
118730
466
3.92
合计
292605
1233
4.21
注意:计算合计率或平均发病率,不能直接将几个 率相加求得,应以肠道传染病总的发病人数除以总 人数。
资料获得
较难
容易
分母
观察单位总数
各部分之和
特点
合计率不一定为 合计为100%,相互
100%,互相独立
影响
3、正确计算合计率或平均率。
例: 若P1=x1/n1 P3=x3/n3
P2=x2/n2
(正确)
P=(x1+ x2+ x3)/ (n1+ n2+ n3))
P=(P1+ P2+ P3)/3
(错ቤተ መጻሕፍቲ ባይዱ)
精品课件
构成比=(事物内部某组成部分观察单位数/同一 事物各组成部分观察单位总数)×100%
如:教研室16人,中高级职称有4人,占25%。
表 某地1955年和1956年疟疾的构成
类别
1955 发病人数 构成比(%)
1956 发病人数 构成比(%)
恶性疟
68
70.1
21
42.0
间日疟
12
12.4
12
24.0