第1讲 分类变量的描述统计(1)
最新第十六章分类变量的统计介绍教学讲义PPT课件

医学统计学
第十六章 分类变量的统计分析 主讲:黄志碧
第一节 常用的相对数
对分类变量进行统计描述常采用相对数。
收集到的分类资料,首先表现为绝对数。 绝对数说明事物发生的实际水平,是进行统 计分析的基础,但不便于事物进行深入地分 析比较。
一、率
率(Rate)又称频率指标,是指在一定 时间内发生某现象的观察单位数与可能 发生该现象的总观察单位数之比。它说 明某现象发生的频率或强度。
率
发生某现象的观察单位数 可能发生该现象的观察单位总数
K
K为比例基数,可以是百分率(%)、千分率 (‰)、万分率(1/万)或十万分率(1/10万), 可根据习惯或使计算出的率保持一、二位整数。
习惯用法:
人口出生率、死亡率、自然增长率、婴 儿死亡率等采用千分率;
肿瘤的死亡率采用十万分率。
注意
计算率时,注意分母和时间。只有可 能发生某事件的观察单位才能做分母。时 间一般以年为间期,也有月、周等。
总
体
抽样误差
抽样
p
样 本
p
统计推断
1、率的抽样误差
在率的抽样研究中,由于总体中存在个 体变异,所以由抽样得到的样本率(P)与
总体率( )之间存在差异,这种差异称
抽样误差。 在抽样研究中,抽样误差是不可避免
的,但可以用统计方法计算或估计其大小。
总体均数=
标准差=σ
n , p1
n , p2 …
n , pn
医院
有转移
无转移
甲医院 710/755=0.940 45/755=0.060
乙医院 83/383=0.2167 300/383=0.7833
5、率或构成比的比较要做假设检验。
统计学课件-分类变量的统计描述

第三節 分類資料常用統計圖
2003 我国年部分县死因构成%
疾病
构成%
恶性肿瘤
25.28%
脑血管病
23.75%
呼吸系病
18.72%
心脏病
12.03%
损伤及中毒
5.69%
其它疾病
14.53%
圓圖
其它疾病 14.53%
0.0 1948 1952 1956 1960 1964 1968 年份
某地1950~1966年结核与伤寒死亡率(1/10万)
率標準化法的基本思想就是採用統一 的標準人口構成,以消除人口構成不 同對人群總率的影響,使算得標準化 率具有可比性
二、標準化率的計算
直接法和間接法 根據資料的情況選擇
(一)直接法計算標化率
條件(1)已知實際人群的年齡別率。
(2)選擇標準人群的年齡組人口數或構成比
淋巴节转 移 (1)
无
标准人 口数 (2)
(6)=(2) (5)
9300
582
4800
300
12200
48
6600
26
19000
124
35300
230
7600
97
2800
36
1900
78
500
21
50000
929
50000
613
甲地標化死亡率P’=15.42 (1/10萬) 0.91=14.03/10萬 乙地標化死亡率P’=15.42 (1/10萬) 1.11=17.12/10萬
三、標準的選擇
進行標準化法計算, 首先要選一個’’標 準” , 如標準人口數, 標準人口構成比或 標準化率等。
3 分类变量资料的统计描述

《实用医学统计学与SAS应用》在线开放课程分类变量资料的统计描述1主要内容概念常用的相对数应用注意事项总结1. 概念:什么是分类变量资料?•分类变量资料又称定性资料、计数资料,它的测量或观察的结果表现为某种属性或者类别。
怎样描述分类变量资料?在医学研究中清点分类资料得到的数据被称为绝对数。
绝对数是研究某客观事物或某现象本质的基本信息,但不便于相互之间进行比较。
例如2017年5月甲小学学生手足口病发病人数为50人,而同期乙小学学生发病人数为40人,但是不能据此认为甲小学的学生手足口病发病情况比乙小学严重,因为该年两个小学的学生人数不一定相等。
因此,根据绝对数提供的资料计算相应的相对数指标,以便进行统计学描述及比较。
2.常用相对数相对数的定义相对数(relative number):两个有联系的指标之比。
医学研究中常用于描述分类资料的相对数包括率、构成比及相对比等统计指标。
(1).率率(rate )是说明某现象发生的频率或强度的指标,其计算为:k =⨯某段时间内实际发生某现象的观察单位数率同时期内可能发生某现象的观察单位数k 为比例基数,可以是100%,也可以是1000‰、100000/10万。
例1 某市2013年平均人口数为6 538 372人,其中男性年中平均人口为3 215 645,因恶性肿瘤而死亡的人数有15 783人,女性平均人口为3 322 727,因恶性肿瘤而死亡的人数有12 235人,试分析该市2013年男性以及女性的恶性肿瘤死亡的严重程度。
157********/10490.82/103215645⨯=万万12235100000/10368.22/103322727⨯=万万男性:女性:(2).构成比构成比(proportion)表示事物内部各组成部分所占的比重,常以百分数表示,因此又称为百分比。
构成比的计算方法如下:100 该事物内部某一组成部分的观察单位数构成比=%某事物内部各组成部分的观察单位总数事物中某部分的构成比大,说明事物中以该部分的频数为多。
class520111017分类变量的统计描述

编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
已知1998到2002年我国某地区的医护人 员数为4721、4833、5162、5884和6997人。
猜一猜:搜集该资料的目的?
利用该资料可以说明什么问题? 利用该资料可以计算什么指标?
动态数列
我们一步一步地算:列表计算,excel
已知
年份 医护 人员数 指 标
*数值变量资料可转化为分类变量资料进行分析
分类变量资料或计数资料的表达
体检资料:文字-数量化 性别: 个体:男性/女性
群体/汇总:男性受检者人数 女性受检者人数
总人数
实际数
实际数
把研究对象按某特征进行分类后,由原 始数据直接汇总得到的某个或各个类别的人 数或研究单位数。
*实际数和相对数都是对汇总数据的群体指 标
ቤተ መጻሕፍቲ ባይዱ
收缩压 sbp
舒张压 dbp
心电图:
超声诊断:
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
分类变量的描述性统计-医学统计学课件

描述性统计的常用指标有哪些?
1 频数
2 百分比
统计每个类别的观察次数, 反映各类别在样本中的分 布。
计算每个类别在样本中的 所占比例,用于比较不同 类别的相对频率。
3 累计百分比
计算每个类别及其前面所 有类别的累计频率,描述 数据的积累情况。
如何绘制频数表?
频数表是一种统计表格,用于展示各类别的频数和频率。通过表格形式,可 以清晰地展示数据的分布情况,方便比较和分析。
如何绘制条形图?
条形图是一种可视化方法,用长条的长度代表各类别的频数或频率,直观地展示各类别之间的差异,便于观察 和理解数据的分布情况。
堆叠条形图
展示多个分类变量在不同分组中的频数或频率,比 较各类别在不同分组中的差异。
簇状条形图
将多个分类变量的频数或频率放在同一条形图中, 直观地比较各类别之间的差异。
分类变量的描述性统计医学统计学课件
本课件介绍分类变量的描述性统计方法,包括常用指标和可视化方法,以及 如何进行多个变量的比较和分析。通过本课件,您将更好地理解医学统计学 中的数据分析方法。
什么是分类变量?
分类变量是指变量的取值分属于有限个类别,例如血型、性别和疾病类型等。通过描述性统计方法,我们可以 对分类变量进行分析和解释。
如何使用交叉表进行分析?
交叉表是一种用于统计分析的工具,将两个或多个分类变量的取值组合在一起,展示各类别之间的频数和频率。 通过交叉表分析,可以更深入地了解分类变量之间的关系。
如何进行卡方检验?
卡方检验是一种统计方法,用于分析两个分类变量之间的关联性。通过计算 观察频数与期望频数的差异,判断两个变量之间是否存在显著的关联。
如何进行列联表分析?
医学统计学课件:分类资料的统计描述

交叉表是一种更为复杂的表格形式 ,可以展示两个或多个分类变量之 间的关系,进一步分析变量之间的 关联。
分层资料的统计描述
分层平均数
对于分层资料,可以使用分层平 均数来描述各层内数据的平均水 平,通过比较不同层的平均数,
可以了解各层之间的差异。
层间方差
层间方差是用来衡量不同层次间 的变异程度,通过计算和比较层 间方差,可以了解各层次之间的
辅助决策制定
准确的分类资料统计描述 能够为决策制定提供有力 支持,帮助决策者了解情 况、制定合理方案。
分类资料统计描述的应用场景
临床研究
在临床研究中,分类资料 统计描述常用于分析患者 的疾病分布、治疗反应等 。
流行病学
流行病学中,分类资料统 计描述用于分析疾病的地 区分布、人群特征等。
公共卫生
公共卫生领域中,分类资 料统计描述用于监测和评 估公共卫生状况、健康问 题分布等。
动态数的计算与解读
动态数的计算
动态数是用来描述某一指标在不同时间点上的变化情况,通常通过将某一指标在 不同时间点的数值进行对比来计算。例如,某医院某年的治愈率与前一年的治愈 率之比。
动态数的解读
动态数的值越大,说明该指标的变化趋势越明显;反之,则越小。动态数可以用 来预测未来的发展趋势,以及评估政策或措施的效果。
相对数与动态数的应用场景
相对数在医学研究中应用广泛,如比较不同地区、不同时间 、不同人群的发病率、患病率、死亡率等指标,以了解疾病 在特定人群中的分布和发生情况。
动态数在医学监测和流行病学研究中应用较多,如监测某种 疾病的发病率、死亡率等指标的变化趋势,以及评估干预措 施的效果等。
04
统计图表在分类资料中的应用
在制作箱线图时,应将数据按照数值 大小进行排序,并使用合适的横轴和 纵轴尺度。
分类变量的统计分析课件

k
某病死亡率
(疾病别死亡率
)=
某年因某病死亡人数 同年平均人口数
k
某年龄组死亡率 (年龄别死亡率 )=同某年年同某年年龄龄组组平死均亡人人口数数 k
某死因构成比= 因某类死因死亡人数 总死亡人数
100%
某病病死率=
观察期间因某病死亡人 同时期某病患病人数
数
100%
治愈率= 治愈病人数 接受治疗病人数
75.0%(90/120)。
2 值的大小反映了实际数与理论数的相差情况,若无
效假设 H0成立,则理论数和实际数相差不应该太大,较大
的 2 值出现的概率较小。故根据资料计算的 2 值越大,
就越有理由推翻无效假设 H0 。
T nRnC RC n
TRC 为第R行第C列格子的理论数 nR 为R行的合计数 nC 为第C列的合计数
A乡血吸虫病患病人数 A乡的检查人数
= 17 10000 / 万=22.97 / 万 7400
A乡的血吸虫病患病率是22.97/万。
常用相对数指标:
发病率= 某时期内某病新病例数 同时期平均人口数
k
患病率=
观察期间患某病的新旧 病例数 同时期平均人口数
k
感染率= 感染某病原体人数 受检人数
k
死亡率= 某年死亡总人数 同年平均人口数
pi
Nipi
5.0 500
0.5 50
- 1100
- 550
标化吸烟率
5.50
2.75
医科大学学生标化吸烟率 p ’ =1100/20000=5.50% 工业大学学生标化吸烟率 p ’ =550/20000=2.75%
此标化率是合理的,这才反映了真实情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南京大学金陵学院
22
1.3 两个分类变量的关系
我们也可以做它的累积频数分布图
图1.2 累积频数分布图
Statistics: principle and application
南京大学金陵学院
11
1.2 频数分布表
3.图形展示
想获得更生动的展示,可以使用统计图。利用统计图表现统计数据,能更加 鲜明、一目了然、形象具体地显示现象之间的相互关系。分类数据的展示主 要有点图(dotplot)、条形图(bar chart)和饼图(pie chart),点图和条形图本质 上是相同的。 [Note]所有分布图的横轴是变量的取值,纵轴是频数或频率。
当我们把一个变量某一取值的相对频数限制在另一变量某一取值的条件下以后,我们称之为条件相
对频数(conditional relative frequency)。如在所有南京的女性顾客中,完全赞成的占34.44%。这里的条 件就是南京,然后我们关心南京范围内赞成的比例有多少。
Statistics: principle and application 南京大学金陵学院 19
4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。 下表展现了不同城市的女性对新款夏装的接受态度的调查数据表 表1.3 列联表
对新款夏装的态度 非常喜 欢 城 市 南京 上海 苏州 杭州 北京 Column Total Statistics: principle and application 52 35 96 21 31 235 有点 喜欢 58 48 28 41 48 223
1
知识结构图
一维频数分布表 点图 单变量分类数据 条形图 帕累托图 饼图 累积频数分布图 分类变量 列联表(二维表) 对比条形图
双变量分类数据
条件相对频数图 两个变量的关系(独立) 辛普生悖论(潜在变量)
Statistics: principle and application
南京大学金陵学院
2
主要内容
南京大学金陵学院
13
1.2 频数分布表
(3)帕累托图
帕累托图就是把普通条形图中每个变量的取值出现的频数从左到右、从大到小排列。
图1.5 饮料的帕累托图
帕累托图表明,该商店主要销售的饮料为可口可乐和旭日升冰茶。
Statistics: principle and application
南京大学金陵学院
14
1.2 频数分布表
(4)饼图
图1.6 饮料的饼图
饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要 用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
Statistics: principle and application
南京大学金陵学院
15
1.2 频数分布表
Statistics: principle and application
南京大学金陵学院
17
1.2 频数分布表
(2) 对比条形图(Double bar chart)
图1.7 对比条形图
通过对比条形图中我们可以知道不同态度的消费者在各个城市中的对比,也可以 知道相同城市的不同态度消费者数量的对比。
第1讲 分类变量的描述统计
描述统计主要分为分类变量(categorical variables)的描述统 计和数值型变量(quantitative variables)的描述统计,本讲 先讨论分类变量的描述统计。
Statistics: principle and application
南京大学金陵学院
南京大学金陵学院
7
1.2 频数分布表
表1.1是一家超市某天50名顾客购买饮料品牌的频数分布表 表1.1 频数分布表
品牌名称 百事可乐 频数 9 频率 0.18 百分比频数 18%
汇源果汁
可口可乐 露露
6
15 9
0.12
0.3 0.18
12%
30% 18%
旭日升冰茶
11
0.22
22%
Statistics: principle and application
1.2 频数分布表
(4)用条件相对频数表示的对比条形图
图1.8 上海与南京的对比条形图
Statistics: principle and application 南京大学金陵学院 20
1.3 两个分类变量的关系
1.列联表中两个变量间的关系分为独立(independent)和不独立(not independent)(即相关)两种。 如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这 个两个变量是独立的,这表明这些变量之间没有关联。 世纪海难泰坦尼克号沉没事件中乘客性别和是否生还的列联表如下:
Statistics: principle and application 南京大学金陵学院 18
1.2 频数分布表
(3)列联表的百分数 列联表有两种百分数:一、用列联表中的数据除以最后一列的数据得到行百 分数(row percent)。例如,在南京顾客中,非常喜欢的比例(行百分数)为 52/151=34.44%;二、用列联表中的数据除以最后一行的数据得到列百分数 (column percent),例如,在非常喜欢的顾客中,南京顾客的占比(列百分数) 为52/235=22.13%。
图1.1变量的类型 Statistics: principle and application 南京大学金陵学院 5
1.1 变量的类型
变量主要有如下两种类型:
1.分类变量(Categorical variables) 表现为不同的类别 如“性别”、“企业所属的行业”、“学生所在的学院” 等 分类变量可以分为不可排序的(“性别”)和可以排序的(“产品等级”) 分类变量的观察结果就是分类数据(categorical data) 2.数值型变量(Quantitative variables) 可以用阿拉伯数据来记录其观察结果 如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的 点数” 数值型变量的观察结果称为数值型数据 (metric data)
1.1 变量的类型 1.2 频数分布表 1.3 两个分类变量的关系
Statistics: principle and application
南京大学金陵学院
3
学习目标及重难点
【学习目标】: 1.用频数分布表描述数据的分布 2.用点图、条形图等图形来展示数据 3.用列联表分析两个分类变量之间的关系 【重难点】: 1.掌握用条件相对频数表示的对比条形图 2.两个分类变量是否独立
Statistics: principle and application
南京大学金陵学院
9
1.2 频数分布表
表1.2是住房满意度调查的累积频数分布表
表1.2 累积频数分布表
某城市家庭对住房状况评价的频数分布 回答类别 向上累积 频数 24 百分比频数% 8 累积频数 24 累积百分比% 8 向下累积 累积频数 300 累积百分比% 100
既不反对
也不喜欢 25 40 13 50 45 173
有点不 喜欢 12 21 7 23 19 82
完全不 喜欢 3 9 10 18 10 50
不知 道 1 2 0 3 3 9
Row Total 151 155 154 156 156 772 南京大学金陵学院 16
1.2 频数分布表
(1)列联表 由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各 个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。 比如上表中的“南京”这一行的数字52,表明有52名南京女性顾客非常喜欢 新夏装的款式。构成列联表的变量都是分类变量。一个 r 行 c 列的列联表称 为 r×c 列联表,一般的把2×2的二维列联表又称为交叉表(cross table)。 上表还展示了每一行人数的总和及每一列的总和,分别放在最后一列和最 后一行中。实际上,最后一行就是对新款夏装态度的频数分布。列联表的最 后一列反应的是变量“城市”的频数分布。在统计上就把列联表的这两部分 数据称为对应变量的边缘分布(marginal distribution)。
南京大学金陵学院
8
1.2 频数分布表
对于另一种可排序的分类数据,我们还可以做累积频数表 (cumulative frequency table)。 累积方法有两种:一种是从类别顺序的开始一方向最后一方累积 频数,称为“向上累积”;一种是从类别顺序的最后一方向开始 一方累计频数,称为“向下累积”。 累积频数(Cumulative frequency):各类别频数的逐级累加 累积频率(Cumulative percentage):各类别频率(百分比)的逐级 累加
这个关系要对所有的单元格都成立。例如,是男性并且生还的期望数量应该是
2201 P (男性,生还)=
1731 711 559.17 2201
而是男性并且生还的实际观测值为 367人,说明性别和生还与否之间是有关系的。我们在后面 的章节中会对这个问题作更进一步的讨论。
Statistics: principle and application