第二章 定量数据的统计描述
第二章 定量资料的统计描述 1-4节

fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
卫生统计学第二章定量资料的统计描述

正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
【统计学】04 第二章 定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
定量数据的统计描述

样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
医学统计学2. 定量数据的统计描述

S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8
统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
医学统计学(执医)

第一章绪论1.双盲指研究者、受试者及所有与试验相关的人员在整个试验过程中都不知道受试者所接受的是何种处理。
第二章定量数据的统计描述1.平均数是描述一组观察值集中趋势或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。
平均数有多种,常用的有算术均数、几何均数和中位数等。
2.算术均数简称为均数,用于说明一组观察值的平均水平或集中趋势,是描述定量数据的一种最常用的方法。
3.医学研究中有一类比较特殊的资料,如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等,其数据特点是观察值间按倍数关系变化,对此可以计算几何均数以描述其平均水平;有些明显呈偏态分布的资料经过对数变换后呈对称分布,也可以采用几何均数描述其平均水平。
4.在频数分布呈明显偏态或频数分布的两端无确定数值时,描述其集中趋势或平均水平是中位数。
5.百分位数可以用来描述资料的观察值序列在某百分位置的水平。
6.衡量变异程度大小的指标有多种,但大体可以分为两类:一类是按间距计算,有极差和四分位数间距;另一类则按平均差距计算,有方差、标准差和变异系数等。
7.极差也称作全距,即观测值中最大值和最小值之差,用符号R表示,是变异指标中最简单的一种。
极差只是简略地说明一组数据的波动范围。
8.四分位数间距的特点是它不像极差容易受到极端值的影响,但仍未用到每一个具体的观测值,其主要用于描述明显偏态分布资料的变异特征,并常常结合统计图应用。
9.方差与正态分布的形状有明确的关系,它与均数结合能够完整地概括一个正态分布。
在实际中,标准差或方差是使用最多的变异指标。
10.在我们需要对均数相差较大或单位不同的几组观察值的变异程度进行比较,这时直接使用标准差就不再适宜。
这种情况下可以使用变异系数。
第三章正态分布与医学参考值范围1.正态分布是单峰分布,以X=μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。
2.正态分布完全由两个参数μ和σ决定,μ是位置参数,描述正态分布的平均水平,决定着正态曲线在X轴上的位置;σ是形状参数,描述正态分布的变异程度,决定着正态曲线的分布形状。
第2章定量资料的统计描述-PPT课件

175~ 17
200~
9
225~
7
250~
6
275~
5
300~
3
325~350 6
累计频数 ∑f
39 106 170 233 278 308 325 334 341 347 352 355 361
累计频率
10.8 29.4 47.1 64.5 77.0 85.3 90.0 92.5 94.5 96.1 97.5 98.3 100.0
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4. 归组计数,整理成表
用计算机或手工划记法汇总,得到各组段观察 单位个数,绘制成频数分布表。
表2-1 2006年某市120名10岁男孩身高(cm)的频数表
身高 (1)
频数 (2)
频率(%) (3)
累计频数 累计频率(%)
4
3.3
8
6.7
16
13.3
28
23.3
45
37.5
66
55.0
86
71.7
100
83.3
110
91.7
116
96.7
119
99.2
120
100.0
—
—
(二)频数分布表的用途
1. 揭示频数分布特征 2. 揭示频数分布类型 3. 便于发现特大或特小的可疑值 4. 便于进一步计算统计指标和进行统
计分析
【问题2-1】 该资料为何种类型资料? 如何对该资料进行描述?
第一节 频数表和频数图 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布及其应用
频数表和频数图
由于个体变异的存在,医学研究中某指标在各个 体上的观察结果不是恒定不变的,但也不是杂乱 无章的,而是有一定规律的,呈一定的分布 (distribution)。
偏态分布(skewed distribution):集中位 置偏向一侧,两侧频数分布不对称。 正偏态(positive skew) 负偏态(negative skew)
20
对称分布
频 数
10
30
频 数
20
10
0 0.0
0 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75
大家好
第二章 定量数据的统计描述
【例2-1】2006年某市120名10岁男孩的身高(cm)资料如下
135.4 139.8 144.0 147.3 146.3 142.5 138.1 143.6 141.6 152.6 132.1 144.7 143.6 146.8 144.2 141.3 137.5 142.8 140.6 150.4 145.9 140.2 144.5 148.2 146.4 142.4 138.5 148.9 146.2 155.4 134.2 139.2 143.5 141.6 143.5 142.3 148.9 143.6 141.5 151.1 132.5 138.7 149.6 146.9 148.7 141.5 137.8 142.7 144.6 151.8 136.4 140.0 144.3 147.5 145.6 142.5 138.5 143.7 149.5 153.6 130.2 138.9 143.7 146.5 138.8 141.7 136.9 142.0 140.5 150.3 135.7 145.7 144.2 147.8 145.8 142.6 138.6 143.8 141.3 153.9 133.4 139.6 143.7 147.5 144.8 148.0 137.4 142.1 140.8 141.8 134.5 139.4 142.9 147.5 144.7 141.8 136.9 143.5 140.7 151.4 145.6 147.3 143.9 141.9 151.6 145.6 148.9 144.3 139.1 145.8 145.6 145.3 147.6 148.6 145.5 137.3 146.5 140.3 148.4 136.5
将原始数据按照一定的标准划分为若干个组,合 计各组的频数,得到频数分布表;也可再将频数 表绘制成频数分布图。
一、频数分布表
频数(frequency):一组资料中各观察值或不
同组段内观察值出现的频繁程度(次数)。
频数分布表(frequency table):由变量值及
其频数编制而成的表。
(一)频数表的编制
1. 求极差(range): 极差又称全距,是指全部观察值中最 大值与最小值之差,用符号R表示。 R=xmax-xmin
R 1 5 5 .4 1 3 0 .2 2 5 .2 c m
2. 确定组数和组距
(1) 根据样本含量的大小及研究目的确定组数: 一般设8~15个组。 (n<50,5~8;n>50, 9~15)。
(4)
(5)
130~
1
132~
3
134~
4
136~
8
138~
12
140~
17
142~
21
144~
20
146~
14
148~
10
150~
6
152~
3
154~156
1
合计
120
0.8 2.5 3.3 6.7 10.0 14.2 17.5 16.7 11.7 8.3 5.0 2.5 0.8
100.0
1
0.8
血 清 总 胆 固 醇 (mmol/L)
人数
正(右)偏态
12
频 10 负(左)偏态
数
8
6
4
250.0
500.0
750.0
抗体滴度
1000.0
1250.0
2
Std. Dev = 10.75
Mean = 27.1
0 0.0
5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0
(2)确定组距(class interval):相邻两个组 段下限之差为组距,一般采用等距分组。 i=R/组数,为了方便资料整理汇总,组距 一般取整数。
i 2 5 .21 0 2 .5 2 2 .0 0 c m
3. 确定组段
组段起点称为下限(lower limit) 组段终点称为上限(upper limit) 注意:第一组段必须包含最小值,最后一个组
N = 91.00
2.5 7.5 12.5 17.5 22.5 27.5 32.5 37(μg/ml)
二、频数分布图
频数分布图(graph of frequency)是以变 量值为横坐标、频数(或频率)为纵坐标 (不等距分组时以频率/组距=频率密度为 纵坐标),以每个等宽的距形面积表示每 组的频数(或频率)。
频数分布的两个特征 集中趋势(central tendency):指一组数 据向某个位置聚集或集中的倾向。 离散趋势(dispersion tendency):指一组 数据的分散性或变异度。
频数分布的类型 对称分布(symmetric distribution) :集中 位置在中间,左右两侧频数基本对称。