定量资料的统计描述
第二章--定量资料的统计描述

分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
(精选)定量资料统计描述

因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。
定量资料数据的统计描述

f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
定量资料的统计描述

•定量资料的统计分析定量资料的统计描述主要内容•频数分布表•集中趋势指标•离散趋势指标•频数/频率分布表(frequency distribution table•频数:将定量资料的变量值进行分组,则某组段所包含的变量值的个数称为频数,以f表示。
频率是频数在总例数中所占的百分比。
•频数表(频率表):表示各组段及它们对应的频数(频率)的表格称为频数表或频数分布表。
频数分布表格•编制频数表的步骤1.求全距(R)。
R=最大值-最小值=84.3-64.3=20(g/L)2.确定组数和组距。
频数表一般设8-15组。
各组段的起点和终点分别称为下限和上限。
组距为相邻两组段的下限差。
组距i=R/组数≈R/10.本例w=20/10=2(g/L)3.确定组段值。
原始数据表第一组段应包含最小值,最末组段应包含最大值并写出其下限和上限值。
4.列出频数表。
采用划记法或计算机汇总。
•编制频数表的意义:•⑴由频数表可以看出频数分布的两个重要特征:集中趋势和离散趋势。
•⑵可以根据频数分布的不同类型,选择适当的统计方法,进行计算与分析。
频数分布的两个特征:①集中趋势(central tendency):变量值集中位置。
②离散(/中)趋势(tendency of dispersion):变量值围绕集中位置的分布情况。
离“中心”位置越远,频数越小;且围绕“中心”左右对称。
频数分布的类型:对称分布例题直方图偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏态)。
偏态分布图示频数表的用途:1. 揭示资料的分布特征和分布类型2. 发现特大值和特小值3. 由组中值近似代表原始数据,便于手工计算集中趋势指标与离散趋势指标。
•集中趋势指标•平均数(average)•描述一组性质相同的观察值的集中趋势、中心位置或平均水平的指标•平均数是一组数据典型或有代表性的值。
•常用平均数的种类有:•算术均数•几何均数•中位数• 众数*• 调和均数*• 一、算术均数(arithmetic mean )1.适用资料:算术均数简称为均数(mean ),适用于正态分布或近似正态分布资料。
定量资料的统计描述

例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
《定量资料数据的统计描述》教案

《定量资料数据的统计描述》教案标题:定量资料数据的统计描述教案一、教学目标1.理解什么是定量资料数据的统计描述。
2.掌握常见的统计描述方法:集中趋势与离散程度。
3.能够应用统计描述方法对实际问题进行分析和讨论。
二、教学内容1.定量资料数据的统计描述的定义和意义。
2.集中趋势的统计描述方法:平均数、中位数、众数。
3.离散程度的统计描述方法:极差、四分位数、方差、标准差。
4.实例分析和练习。
三、教学步骤步骤一:导入(10分钟)1.向学生介绍定量资料数据的统计描述的概念和意义。
2.引导学生思考:为什么我们需要对数据进行统计描述?步骤二:集中趋势的统计描述(20分钟)1.介绍平均数的概念和计算方法。
2.分享实际应用平均数的例子,并提示其局限性。
3.介绍中位数的概念和计算方法。
4.引导学生分析什么情况下使用中位数比平均数更合适。
5.介绍众数的概念和计算方法,并解释其应用场景。
步骤三:离散程度的统计描述(25分钟)1.介绍极差的概念和计算方法。
2.引导学生思考四分位数的意义和计算方法,并分享实际应用的例子。
3.介绍方差的概念和计算方法。
4.介绍标准差的概念和计算方法,并解释其在数据分析中的重要性。
5.引导学生讨论方差和标准差的应用场景。
步骤四:综合分析和应用(25分钟)1.提供实际问题或案例,并引导学生运用所学内容进行分析和讨论。
2.给予学生时间思考和解答问题。
3.分享学生的分析和答案,并引导学生进行互动讨论。
步骤五:总结和拓展(10分钟)1.回顾本节课学习的内容和重点,确保学生对定量资料数据的统计描述有所掌握。
2.提示学生可以进一步了解其他统计描述方法,如箱线图等。
3.激发学生对数据分析和统计描述的兴趣,引导学生向实际问题应用所学方法。
四、教学评估1.教师针对学生的学习情况进行同步评估,包括学生积极参与讨论、能够正确运用统计描述方法等。
2.可以布置课后作业,要求学生分析和描述给定的数据集。
五、教学资源1.PPT或黑板/白板2.实际数据案例3.学生练习题和课后作业六、教学延伸1.引导学生自行寻找相关的应用案例进行研究和分析。
定量资料的统计描述

x i
i 1
N
2
N
S
x X
n i 1 i
2
n 1
xi xi i 1 i 1 n 1
n 2 n
2
n
步骤如下:
R=160.8-129.4=31.4。
组段数=10;组距=R/10=3.14≈30(cm);按要
求确定每一组段上下限。
分组统计每一组段的频数,编制频数表。
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用 符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
2
x
i 1
N
i
2
N
S2
x X
n i 1 i
2
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示, 样本标准差用S表示。计算公式分别为:
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
定量资料的统计描述

1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LOREM IPSUM DOLOR
主要内容
频数分布 集中趋势 离散趋势
被平均
中国人公共假期每年已有115天; 中国全国家庭平均住房面积116.4㎡; 北京平均月薪9227元; 中国男性平均身高174.2厘米; 中国人平均生育1.18个孩子; 中国家庭资产平均为121.69万元,城市家庭平均为
( kg )原始 数据如下, 试编制频数
表。
25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2 31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5 36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8 27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2 37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4
有些离散型数据的描述要参照分类资料处理,如龋齿个数、 流产次数、尿失禁次数、交通事故死亡人数。
分类资料
分类资料、也称为定性资料、计数资料,是将观察 单位按某种属性分组计数的定性观察结果。
分类资料的变量值只能代表事物的某些属性或分类, 表现为无不相容的类别或属性。
各观察单位之间没有量的区别,但有质的不同。
整数作为第一组的下限,但是第一组的下限值一般 不能等于最小值; 各组段既不重叠,也不能留空隙; 最后一个组段应该包括最大值,并且封口。
计算各组段的频数、 频率
本例最小值为20.1,故取20为第一组的下限。 第二组下限即20+3=23,余类推。 最后一个组段为50~53,包括最大值51.2。 列表划记,统计各组段频数。 计算频率与累计频率。
等级资料的各个类别之间存在着大小和程度上的不 同,但是不能精确地测量相邻的两个变量值之间的 差别。
疗效:痊愈、有效、无效和恶化; 文化程度:小学、中学、大学和研究生; 抑郁症的程度:轻度、中度和重度。
随机变量和研究资 料的类型
收缩压
脉搏数 产次
文化程度 ABO血型
定量 定性 等级 连续型 离散型 资料 资料 资料 资料 资料
定量资料的各个观察值之间有量的区别,没有性质 的不同。
连续型资料和离散型 资料
连续型资料(continuous data)
任何两个连续型数据之间都有无穷多个数据; 只要测量仪器足够精确,连续型数据可以精确到小数点后
无限位。
离散型资料(discrete data)
是一种计数(count data),只能是0和正整数,不会是 负数,也没有小数点,如心率、血小板数。
150名12岁男童体重(kg)频数分布表
组段
20~ 23~ 26~ 29~ 32~ 35~ 38~ 41~ 44~ 47~ 50~53 合计
分类资料
二分类资料
如男或女;阳性或阴性;生存或死亡等。
多分类资料
无序多分类资料
血型:A型、B型、O型和AB型; 肺癌类型:腺癌、鳞癌、未分化癌、类癌等。
有序多分类资料:即等级资料
等级资料
等级资料、也称为有序多分类资料,是介于定量资 料和定性资料之间的半定量观察结果。
247.60万元,农村家庭平均为37.70万元。变量和研 Nhomakorabea资料的类 型
数值变量、定量资料、计量资料
分类变量、定性资料、计数资料
顺序变量、有序分类变量、等级资料
定量资料
定量资料是指每个观察单位某个变量用测量或其他 定量方法观察结果,一般有计量单位。
定量资料、数值资料、计量资料(measurement data,quantitative data,numeric data)
频数分布表
当观察值很多时,直接从原始数据很难得出概括的 印象,为了解资料的分布特征,可通过资料的整理, 编制频数分布表,来显示数据分布的范围、数据最 集中的区间和分布的形态。
定量资料的频数分布 表
编制频数表就是把资料的取值范围分割成若干个互 不相交的组段,统计每个组段内的观察值个数作为 对应的频数,由各个组段的范围及其频数构成最基 本的频数分布表。
本例初步确定为10个组。
按极差大小决定组段 数和组距
相邻组段下限值之差称为组距,一般分组时取组距 相等。
组距≈极差/组数,常取整数作组距,以方便资料的 整理汇总。
本例组距=31.1/10= 3.11≈3。
确定组段的上下限
每个组段的起点称“下限”,终点称“上限”; 第一组段必须包括最小值,一般取略小于最小值的
找出最大值和最小值, 计算极差。
极差(R)也叫全距,它是一组变量值中最大值与 最小值之差。
最大值为51.2kg, 最小值为20.1kg, 极差R=51.2-20.1=31.1kg。
按极差大小决定组段 数和组距
经验划分:组段数的多少一般根据观察单位的多少 来确定,过多或过少均不能更好地反映资料的分布 特征,以能够反映频数分布的特点为宜,一般分为 8~15组。