第3章 分类资料的统计描述
统计学基础第三章统计整理

第三章统计整理【教学目的】1. 深刻理解统计分组的作用,并且能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学重点】1. 能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学难点】1. 运用分配数列对原始数据进行系统整理2. 制作统计表,运用计算机绘制统计图【教学时数】教学学时为8 课时【教学内容参考】第一节统计整理的意义一、统计整理的意义统计整理,就是根据统计研究的目的和任务的要求,对统计调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化,从而得到表现总体特征的综合统计资料的工作过程。
对于已整理过的初级资料进行再整理,也属于统计整理。
统计调查取得的各种原始资料是分散的、不系统的,只能表明各个被调查单位的具体情况,反映事物的表面现象或一个侧面,不能说明事物的总体情况与全貌。
因此,只有对这些资料进行加工、整理,才能认识事物的总体及其内部联系。
例如,工业企业普查中,所调查的每个工业企业资料,只能说明每个工业企业的经济类型、注册资本、职工人数、工业总产值、工业增加值、实现利税等具体情况。
必须通过对所有资料进行分组、汇总等加工处理后,才能得到全国工业企业的综合情况,从而分析工业企业的构成、经营状况等,达到对全国工业企业的全面的、系统的认识。
统计整理是统计调查的继续,也是统计分析的前提,它在统计研究中起着承前启后的作用。
因此,资料整理得是否正确,直接决定着整个统计研究任务的完成,不恰当的加工整理,不完善的整理方法,往往使调查得来的丰富、完备的资料失去价值。
因此,必须十分重视统计整理工作。
二、统计整理的步骤统计整理的基本步骤是:(一)对原始资料进行审查。
1. 审查被调查单位的资料是否齐全;2. 应审查数据是否准确。
审查的办法主要有:①逻辑审查:主要是从定性角度审查数据是否符合逻辑,内容是否合理,各项目或数量之间有无相互矛盾的现象。
《统计描述》课件

05
统计描述的注意事项
数据来源的可靠性
01 确保数据来源的可靠性和权威性,避免使用不可 靠的数据源。
02 在数据收集过程中,应遵循科学的方法和程序, 确保数据的准确性和客观性。
02 对于网络数据,需要注意数据的来源和可信度, 避免使用虚假或错误的数据。
数据的异常值处理
在数据分析前,需要对异常值进 行识别和处理。
《统计描述》ppt课 件 (2)
目录
• 统计描述概述 • 数据收集与整理 • 数值型数据的统计描述 • 分类数据的统计描述 • 统计描述的注意事项
01
统计描述概述
定义与目的
定义
统计描述是对数据进行整理、归纳和总结,以简明的方 式呈现数据的基本特征和规律。
目的
帮助人们更好地理解数据,为进一步的数据分析提供基 础。
03
数值型数据的统计描述
平均数
01 平均数
表示一组数据的总体“平 均水平”的统计量。
03 计算方法
将一组数据加起来,然后
除以这组数据的个数。
02 分类
算术平均数、调和平均数
、几何平均数等。
04 应用场景
分析数据集中各数值的一
般水平,如工资、成绩等。Βιβλιοθήκη 中位数和众数中位数
将一组数据从小到大排列 后,位于中间位置的数。
根据实际情况,可以采用不同的 方法处理异常值,如删除、替换 或保留异常值并对其进行合理的
解释。
处理异常值时应保持客观和科学 ,避免主观臆断或随意处理。
数据的可视化呈现
数据可视化是统计描述的重要 部分,通过图表、图像等形式 呈现数据。
选择合适的图表类型,如柱状 图、折线图、饼图等,以便更 直观地展示数据的特点和趋势 。
统计教程-分类资料统计描述

分类资料统计描述对分类变量资料进行统计描述的一般步骤,是先对观察测量得到的变量值(即观察值)进行分类汇总(即“计数”)得到分类资料频数表(属于绝对数指标),再在此基础上计算相对数指标(即两个指标之比)才能对分类变量资料进行正确的描述。
一、常用的相对数指标1. 比又称相对比,其基本计算公式为:比=A/B,说明A为B的若干倍或百分之几。
A、B可为绝对数、相对数或平均数。
如某市某年I区的急性传染病发病数为2433人,II区的急性传染病发病数为3033人,则II区与I区急性传染病发生数之比为3033/2433=1.25。
2. 构成比又称构成指标。
其计算公式为:构成比=(某一组成部分的观察单位数/(同一事物各组成部分的观察单位总数)*100%。
构成比用来说明事物内部各组成部分所占比重或分布。
如上例中若全市的急性传染病发病数为12884人,则I区占全市急性传染病发病数的比重为2433/12884*100%=18.9%3.率又称频率指标,计算公式为:率=(发生某现象的观察单位数)/可能发生某现象的观察单位数)*K,k为100%,万/万等。
率用来说明某现象发生的频率或强度。
如上例I区的年平均人口数为636723人,则I区该年急性传染病发病率=(2433/636723)*100000/10万=382/10万。
二、应用相对数时应注意的问题1. 计算相对数时,分母不宜过小。
2. 构成比和率不能相互混淆。
两者的区别如下:构成比 率概念 说明事物内部各组成部分所占比重或分布说明某现象发生的频率或强度合计 必为100% 分率不能直接相加改变 任一部分比重增减会影响其他部分 某一分率改变对其他无影响3. 求平均数或总率时,分子、分母应分别相加;4. 注意资料同质性、可比性;5. 样本率或构成比的比较应建立在随机抽样的基础上,并要作假设检验。
三、动态数列1. 概念:动态数列是一系列按时间顺序排列的统计指标(可以是绝对数、相对数或平均数),用以说明事物在时间上的变化和趋势。
2-3分类资料的统计描述PPT课件

*以A地区为基数
相对数应用时的注意事项
计算相对数时,观察单位数应足够多; 分析时不能以构成比代替率; 计算平均率时也要严格遵守率的计算公式; 相对数比较时要注意可比性。
例题
某产院拟分析畸形儿于母亲分娩年龄的关系,检查了新生儿4470例, 畸形儿116例,得以下资料,据此得出结论:母亲年龄在24-29岁时,畸形 儿最多,占总数的92.2%,因此在24-29岁分娩,风险最大。
247.3
有
793 0.6338
502.6
0.5060
401.3
合计 1138
-
770.9
-
648.5
思考题
1. 对率进行标准化的目的是( ) ⑴使率更客观地反映实际水平 ⑵消除研究因素在对比组间的差异 ⑶消除内部构成差异造成的干扰,使对比总率间具有可比性 ⑷消除内部构成差异的干扰,使对比分率(小组率)间具有可比性 2. 甲乙两地的冠心病粗死亡率为40/10万,按年龄构成标化后,甲 地标化率为45/10万;乙地为38/10万,因此可认为( ) (1)甲地年龄别人口构成较乙地年轻; (2)乙地年龄别人口构成较甲地年轻; (3)甲地冠心病诊断比乙地准确; (4)甲地年轻人患冠心病较乙地多。
地区编号
调查人数
患病人数
患病率 (%)
A
9777
685
7.01
B
11410
632
5.54
C
12181
698
5.73
D
10391
541
5.21
E
10511
627
5.97
合计
54270
3183
5.87
构成比 (%) 21.52 19.86 21.92 17.00 19.70 100.00
分类资料的统计描述课件

病床周转次数=报告期出院人数/平均开放病床数 床位周转次数是指在一定时期内每张床位的病人
出院人数,其数值的大小与收治病人的病种和病情密切 相关。收治慢性病人和病情重的科室病床周转次数较慢 。 床位周转次数、病床使用率和出院者平均住院日三个 指标,是医院工作效率与管理状况的晴雨表。医院管理部 门往往以这“三个指标”制定标准值作为奖惩各临床专科
k
某病死亡率 (疾病别死亡率 )=某同 年年 因平 某均 病人 死口 亡数 人数 k
某年龄组死亡率 (年龄别死亡率 )=同某年年同某年年龄龄组组平死均亡人人口数数 k
新生儿死亡率=同年28天以内死亡数/同年活产总数×1000‰
③疾病统计指标:
发病率= 某时期内某病新病例数 同时期平均人口数
血型(A,B,O,AB)
变
量有
有程度差异的多类属 文化程度(初中、 等级资料
序 多项分类 性(又称等级资料) 高中、大学...) 半定量资料
第一节 分类资料的统计描述
一、分类资料的频数分布表
对于无序分类资料,编制频数分布表的办法就是直接 统计出每一个类别的频数,以及计算的频率、累计频数和 累计频率,然后将它们列在一个表格中。
率
实际发生某现象的观察 单位数 可能发生该现象的观察 单位总数
K
K 为比例基数,如100%、1000‰等。比例基数的选择主
要依习惯而定或使计算结果能保留1~2位整数。
例题:
例:某学者对肿瘤诊断的新指标细胞内端粒酶活性表达 情况进行研究,资料如下表,试计算端粒酶在不同肺癌 病理组织中活性表达的阳性率。
下面各率中那个率最能反映疾病对人群的威胁程度
分类资料的统计描述

本卷须知
1.标准不同得到的标化值不同 2.内部各小组比较时,可不标化 3.标化后的数值不再反映实际水平。
2024/10/29
22
第四节 动态数列(自学)
• 概念:按照一定的时间顺序,将某事物的统计指标依 次排列起来,以便于观察和比较该事物在时间上的开 展变化趋势。
• 常用指标: • 1.绝对增长量:说明事物在一定时期内所增长的绝对
1.选择标准:任意一组、两组之和、有代表性的人口 2.计算标准化率p' : 直接法: 标准组年龄别人口数时:p' = Ni pi /N 标准组年龄别人口构成时: p' = 〔Ni / N〕 pi 间接法: p' = P r / ni pi = P SMR
计算标准化率的符号
年龄组
1 2 3
标准组
人口数 死亡数 死亡率
标准化法(Standardization method)
标准化的原因: 当两组资料进行比较时,如果其内部不同小
组率有明显差异,而且各小组内部构成也明显不 同 ,直接比较不合理,需要进行标准化后再进行 比较。
标准化的方法: 按照统一标准进行校正,然后进行比较.
标准化率的计算 〔常用于人口年龄构成的标准化〕
概念:是指某种现象在一定条件下,实际发生的观察单位数 与可能发生该现象的总观察单位数之比,用以说明某种现 象发生的频率大小或强度。
计算公式: 发生某种现象的观察单位数 可能发生某种现象的观察单位数 100%〔1000‰…〕
例如:发病率、患病率、死亡率、病死率等。 注意:不受其它指标的影响;各率相互独立,其之和不为1
主要内容
第一节、相对数 第二节、应用相对数的本卷须知 第三节、标准化法 第四节、动态数列及其分析指标
分类资料的统计描述.ppt

r P SMR ni Pi
SMR为标准化死亡比
甲地的标化死亡率 p =15.42 ‰*(845/929)=14.03 ‰
乙地的标化死亡率 p =15.42 ‰*(697/613)=17.58 ‰
23
应用标准化法应注意的问题
满足以下两个条件才使用标化率 1)欲比较的人群内部的年龄分布不同; 2)每个人群内部年龄别死亡率也不同。如果不计算标化 率,而分别比较各组的率,也能得到正确结论,只是不 能比较总率。
16
不同年龄组人口构成的对死亡率影响
例:某山区进行医疗防治工作检查,发现在 1975 年有 5000 人,该年的死亡人数 为 40 人,死亡率为 8.0‰,在 1985 年有 7500 人,该年的死亡人数为 63 人,死 亡率为 8.4‰。即 85 年的死亡率高于 75 年死亡率,研究人员进一步计算各个年 龄组的死亡率如下: 年龄 <15 岁 15-60 岁 60 以上 合计 75 年人口数与死亡人数 人口数 死亡人数 死亡率 1000 10 10‰ 3000 15 5‰ 1000 15 15‰ 5000 40 8.0‰ 85 年人口数与死亡人数 人口数 死亡人数 死亡率 2000 16 8‰ 3000 12 4‰ 2500 35 14‰ 7500 63 8.4‰
8
相对数方法---构成比proportion
当比例中的分母是一个随机抽样的结果时,常 常称这种比例为构成比(proportion)
例如:2001年某医院死亡者中5种疾病死亡各自所 占的比重。如:5种疾病死亡人数为520人,其中有 110名因慢性白血病而死亡,占所有死亡人数的比例 为21.15%,即:死于慢性白血病的构成比为 21.15%。 注意:这种构成比上升不能理解为这种病的死亡率增 高,因为其他死因的比例下降,就会导致慢性白血病 的构成比上升。
分类资料的统计描述及参数估计(预防医学)课件

绘制坐标轴
确定横轴和纵轴的范围,并标记 刻度。
绘制直方图
用长方形表示频数,并合理设计观测值分组统计计数并计算 出频率和频率累计值。
绘制多边形
用折线连接频率累计值的各个 点,形成频率多边形。
图形解读
通过观察多边形的走势来描述 数据的分布。
饼图
用于显示各类别的占比情况。
雷达图
展示多个分类变量在不同维度 上的指标比较。
组距的选择
1
根据数据范围选择组距
更广泛的数据范围需要更大的组距。
根据数据分布选择组距
2
数据分布越分散,组距越大。
3
根据数据显示效果选择组距
组距过小或过大都会影响数据的展示效 果。
直方图的绘制
计算频率
将观测值分组统计计数。
分类资料的统计描述及参 数估计(预防医学)课件
课程包括分类资料的概念、分类方法、数据整理方法、图形表示方法、组距 选择以及直方图、频率多边形、核密度图和箱线图的绘制。
分类资料的概念
什么是分类资料?
解释分类资料的含义和使用场景。
分类资料的类型
介绍名义变量和有序变量的区别以及实际应用。
分类资料的分类方法
频数表
展示分类资料的频数和百分比。
条形图
用条形表示各类别的频数。
饼图
用扇形表示各类别的百分比。
分类资料的数据整理方法
1 数据编码
将分类资料转化为数字以便进行统计分析。
2 数据输入
将编码后的数据输入计算机或统计软件。
3 异常值处理
探索和处理分类资料中的异常值。
分类资料的图形表示方法
条形图
用于比较各类别的频数或百分 比。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3-1)
表 3-2 第 7 栏“0~”的患病率为 1820/60030=3.03%,由第 2、3 栏的数据算得,依次 类推,可算得“20~” 、 “40~”和“60~”岁组的患病率分别为 7.94%、10.90%和 21.36%。 比例基数可以取 100%或 1000‰100 000/10 万等。 比例基数的选择主要根据习惯用法或 使计算的率有适当位数的整数,而且整数不太大;小数位数保留 1~2 位即可。 3.特点 例 3-3 南华大学某医师在研究乳腺癌与 C-erbB-2 表达的关系时,数据显示:55 例特征 表现为肿块的其 C-erbB-2 阳性表达率为 69.1%,19 例乳腺癌 X 线特征表现为局限浸润致密 影的其 C-erbB-2 阳性表达率为 73.7%,17 例乳腺癌 X 线特征表现为单纯钙化的其 C-erbB-2 阳性表达率为 82.4%,三者之间差异无统计学意义( 2 =1.162,P=0.559) 。 表 3-3 乳腺癌 X 线直接征象与 C-erbB-2 表达的关系
C-erbB-2 影像表现 例数 阳性 肿块 局限浸润致密影 单纯钙化 合计 55 19 17 91 38 14 14 66 阳性率(%) 69.1 73.7 82.4 72.5
100.00
80.00
阳 性 率
60.00
乳腺癌 X 线直接征象与 C-erbB-2 表达的关系 从表 3-2、表 3-3 和图 3-2 看出,率有以下两个特点: (1) 一般合计率或总率不等于 100%。 (2) 某一部分的分率改变不影响其它分率的变化。
25
18%
21%
0~岁 20~岁 40~岁 60~岁
患病率(%)
20 15 10 5
26% 35%
0 0~ 20~ 40~ 60~ 年龄组(岁)
A 图 3-1
B 某年某地不同年龄组某病的患病情况比较
一、率(rate)
27
1.意义 率( rate)是说明某现象发生的频率或强度,又称为频率指标。 2.计算公式
第二节
动态数列
例 3-5 某县医院 1995~2005 年门诊就诊人数的统计数据见表 3-5,试作动态分析。
表 3-5
年份 (1) 1995 符号 (2) a0 门诊就诊 人数 (3) 4700
某县医院 1995-2005 年门诊就诊人数动态变化
绝对增长量 累计 (4) — 逐年 (5) — 发展速度(%) 定基比 (6) 100.0 环比 (7) 100.0 增长速度(%) 定基比 (8) — 环比 (9) —
表 3-2
年龄组(岁) (1) 0~ 20~ 40~ 60~ 合计 调查人数 (2) 60030 38013 20260 7120 125423
某年某地不同年龄组某病ቤተ መጻሕፍቲ ባይዱ患病情况比较
患病人数 (3) 1820 3019 2208 1521 8568 患病构成比(%) (4) 21.24 35.24 25.77 17.75 100.00 与 0~之比 (5) 1.00 1.66 1.21 0.84 — 患病率(%) (6)=(3)/(2) 3.03 7.94 10.90 21.36 6.83
25%
25%
20%
20%
20%
25% 25%
40%
内科
外科
妇产科
2000 年
其它科
内科
外科
2005 年
妇产科
其它科
图 3-3
某县医院 2000 年和 2005 年病床数比较
例表 3-4 中各个科室的病床构成比等于各个科室数除以合计病床数乘 100%,如 2000 年内 科病床构成比=100÷ 400× 100%=25.0%, 其余依次类推, 各科室病床数构成比总和等于 100%。 在 2005 年,由于外科病床数增加 100 张,外科病床数构成比从 25.0%增加为 40.0%,其余 科室的病床数没有改变, 但构成比从 25.0%下降为 20.0%, 因要保持总病床构成比为 100.0%。
30
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10
5000 5300 5400 5650 5820 6010 6280 6450 6500 6700
300 600 700 950 1120 1310 1580 1750 1800 2000
三、相对比(relative ratio)
1.意义 相对比(relative ratio)是表示两个有关事物指标之比,常以百分数和倍数 表示,用以说明一个指标是另一个指标的几倍或百分之几。 2. 计算公式
相对比
甲指标 (或 100%) 乙指标
(3-3)
式中甲、乙指标可以是相对数、 绝对数、平均数。 如果甲指标大于乙指标,用倍数表示; 如果甲指标小于乙指标,用百分数表示。 例表 3-3 中,试验组和对照组有效率相对比为 95.2%÷ 82.2%=1.2 倍。 3. 特点 (1) 甲乙两个指标的性质可相同也可不同。 (2) 甲乙两个指标可以是绝对数、相对数或平均数。 4. 应用 在医疗卫生工作和科学研究的分析中应用也非常广泛, 如性别比、 人口密度、 医生(护士)床位比等。
与 0~之比 (5) 1.00 1.66 1.21 0.84 —
【分析】该结论不正确。原因是以患病构成比代替患病率来说明问题。上表第 4 栏是 每一组患病人数除以总患病人数得到的;第 5 栏是定基比,以“0~”岁组的患病构成比作 基数,每组患病构成比与之相比。从第 4 栏和第 5 栏可以看出,患病构成比是随着年龄的增 加而增大, “20~”岁组达到最高峰(达 35.24%) ,以后随着年龄的增加而逐渐减少, “60~” 岁组最低, 但这并不能说明 “20~” 岁组的患病情况最为严重, 见图 3-1 (A) , 只能说明 “20~” 岁组患病构成比重最大。 要说明患病的严重程度, 需要用患病率来比较。 在表 3-1 的基础上, 用患病人数除以调查人数计算出患病率,见表 3-2 第 6 栏和图 3-1(B) 。从患病率可以看出, 患病率是随着年龄的增加而增大, “60~”岁组患病最严重,原因是疾病免疫力或抵抗力是 随着年龄的增加而减少。因此,该医师用患病构成比来代替患病率分析是错误的。
图 3-2
28
( % )
40.00
82.4 69.1 73.7
20.00
0.00 肿块 局部浸润致密影 单纯钙化
影像表现
4. 应用 在医疗卫生工作和科学研究的分析中应用非常广泛,如患病率、发病率、死 亡率、病死率、阳性率、治愈率、有效率等。
二、构成比(proportion)
1. 意义 构成比( proportion)是表示某事物内部各组成部分所占的比重或分布,常 以百分数表示。 2. 计算公式
表 3-1 某年某地不同年龄组某病的患病情况比较
26
年龄组(岁) (1) 0~ 20~ 40~ 60~ 合计
调查人数 (2) 60030 38013 20260 7120 125423
患病人数 (3) 1820 3019 2208 1521 8568
患病构成比(%) (4) 21.24 35.24 25.77 17.75 100.00
【知识点 3-2】 1.率是说明某现象发生的频率或强度。某一分率改变不影响其它分率 变化。 2.构成比是表示某事物内部各组成部分所占的比重或分布。某一部分构 成比的改变将影响其它构成比的变化。 3.相对比表示两个有关事物指标之比,用以说明一个指标是另一个指标 的几倍或几分之几。两个指标可以是绝对数、相对数或平均数。
构成比 事物内部某一组成部分的观察单位数 100% 该事物各构成部分的观察单位总数
(3-2)
表 3-1 第 4 栏的患病构成比是由第 3 栏算得的,其中“0~”占全部患病人数的比重为 1820/8568× 100%=21.24%,依次类推,可算得“20~” 、 “40~”‖和“60~”所占的比重分别为 35.24%、25.77%和 17.75%。 例 3-4 某县医院 2000 年各科病床数均为 100 张病床, 2005 年各科病床数如 2005 年外 科病床增加了 100 张病床,见表 3-4 和图 3-3。 表 3-4 某县医院 2000 年和 2005 年各科病床数比较
·第三章
分类资料的统计描述
名人名言
吾志所向,一往无前;愈挫愈奋,再接再励。孙中山
第一节
常用相对数
例 3-1 某医生调查甲乙两中学初中三年级学生的近视眼患病情况,结果甲校近视眼患 者为 100 人,乙校近视眼患者 60 人,甲校比乙校多 40 人,由此得出甲校近视眼患病情况比 乙校严重。你认为该结论是否正确?为什么? 【问题 3-1】 1.这是什么资料? 2.该医生分析结论是否正确?为什么? 3.如何正确分析比较? 【分析】(1) 近视眼患病人数是按患病与未患病分类,属于二分类资料,即计数资料。 (2) 该医生分析结论不正确。因为患病人数是根据患病与未患病分组直接清点各组所得数据 即绝对数,可以说明某现象在一定条件下的规模和实际水平,但不能互相比较,因基数(或 调查人数) 未知。 (3) 若要比较两校近视眼患病严重程度, 还需要考虑两校被调查的学生数, 计算两校学生近视眼患病率后才能比较。 近视眼患病率是近视眼患病人数除以调查人数所得 的比值,是一种相对数。相对数(relative number)是分类资料的描述性统计指标,是两个 有联系指标之比。常用相对数有率、构成比、相对比和动态数列,对比的两个指标可以是绝 对数、相对数、平均数等,性质可以相同,也可以不同。假如调查了甲校 400 人,乙校 200 人, 则甲校近视眼患病率为 100/400×100%=25%, 乙校近视眼患病率为 60/200×100%=30%, 可见乙校近视眼患病率高于甲校。 【知识点 3-1】 1.绝对数是分类资料整理中,根据资料的类别直接清点各组所得 的数据。 2.相对数是分类资料的描述性统计指标,是两个有联系指标之比。 常用相对数有率、构成比、相对比和动态数列。 3.对比的两个指标可以是绝对数、相对数、平均数等,性质可以 相同,也可以不同。 例 3-2 某年某地不同年龄组某病的患病情况见表 3-1,某医师由此认为“20~”年龄 组的患病情况最为严重。该结论是否正确?为什么?