卫生统计学第7版方积乾主编课件第二章定量资料的统计描述新选

合集下载

2018精选版卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述-精心整理

2018精选版卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述-精心整理

8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μ mol/L)
6~
8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μ mol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
努力
30 25 20
数据如下。试编制血清铁含量的频率分布表。
努力
频率表的编制步骤如下:
1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最 大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (μmmo/L)。
2. 确定组段数与组距(class interval)
靠近的整数作为组距,本例取i=2。
6~ 8~ 10~ 12~ 14~ 16 ~ 18 ~ 20 ~ 22 ~ 24 ~ 26 ~ 28~30
1 3 6 8 12 20 27 18 12 8 4 1
120
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
100.00
最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后
一个组段可包括其上限值,如本例28~30。 4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
努力
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布 组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5)
检查次数 (1) 0 1 2 3 4 5 >5 频数 (2) 4 7 11 13 26 23 12 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 累计频数 (4) 4 11 22 35 61 84 96 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0

医学统计学课件第二章 定量资料的统计描述

医学统计学课件第二章  定量资料的统计描述

第四节
正态分布
一、正态分布的概念和特征
正态分布(normal distribution ):也 称高斯分布,是医学和生物学最常见的连续性 分布。如身高、体重、红细胞数、血红蛋白等。
图2-1 120名12岁健康男孩身高的频数分布
图2-2 频数分布逐渐接近正态分布示意
㈠ 正态分布的函数和图形
第二章 定量资料的统计描述
目 录
第一节 频数分布表
第二节 集中趋势的描述 第三节 离散趋势的描述
第四节 正态分布
学习要求
1.掌握频数分布表的编制步骤和方法 2.熟悉频数分布表的用途 3.掌握集中趋势、离散趋势的概念,适用条件和计
算方法 4.掌握正态分布的概念,意义和特点;正态曲线下 面积的分布规律
159.99 33.46 / 7 S . 0.089 7 1
2
加权法-标准差计算实例:

对表2-4资料用加x=17168,∑fx2 =2460040, 代入公式
2460040 17168 / 120 S 5.70(cm) 120 1
算术均数 (arithmetic mean): 简称均数。
适用条件:对称分布或近似对称分布的资料。
以希腊字母μ---总体均数(population mean)
以英文字母 ---样本均数(sample mean)
计算方法
1. 直接法:用于观察值个数不多时
X X n
2.加权法(weighting method):用于变量 值个数较多时
适用条件:对于变量值呈倍数关系或呈对 数正态分布(正偏态分布),如抗体效价及抗体 滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。

卫生统计学 第二章 定量资料的统计描述

卫生统计学 第二章 定量资料的统计描述

9
30
25
频 率
20
15 (%) 10
5
0
0
1
2
3
4
5
〉5
产前检查次数
图2-1 某地96名孕妇产前检查次数频率分布
二、连续型定量变量的频率分布
(一)频率分布表 例2-2 :抽样调查某地120名18岁~35岁健 康男性居民血清铁含量(μmol/L)见P12, 试编制频率分布表。
11
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52

最新统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案资料

最新统计学方积乾 第七版 第二章  定量资料的统计描述课后练习题答案资料

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。

统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。

对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。

应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x x L x iP L n x f f P u P u P u =+?==+?==+?==+?S离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。

故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布Group Frequency Percent Cumulative Percent49.0- 1 .8 .850.0- 4 3.3 4.251.0- 8 6.7 10.852.0- 6 5.0 15.853.0- 19 15.8 31.754.0- 18 15.0 46.755.0- 14 11.7 58.356.0- 26 21.7 80.057.0- 10 8.3 88.358.0- 9 7.5 95.859.0- 4 3.3 99.261.0-62.0 1 .8 100.0Total 120 100.0(2)(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L x i P L n f f P x P P ==+?==+?==+?=+?S2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。

医学统计学课件:02_统计描述(定量定性)

医学统计学课件:02_统计描述(定量定性)

中位数(median,M)
将一组观察值从小到大按顺序排列,居于中心位置 的数值。在全部观察值中有半数的值比M大,另有半数 的值比M小。 适用于当大部分观测值比较集中,少数观测值偏向 一侧时;或资料分布情况不清楚时;或数据的最大值
(最小值)无准确测量数据时。如传染病的潜伏期。任
何分布的定量数据均可用中位数描述其分布的集中趋势, 使用范围广。
2003年4月22日全国SARS发病人数频数表
发病地区 北京 山西 广东 河北 内蒙 天津 广西 其他省市 频数 105 16 14 6 3 2 1 0 频率/% 71.4 10.9 9.5 4.1 2.0 1.4 0.7 0.0 累积频数 105 121 135 141 144 146 14移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
f i lg X i f1 lg X 1 f 2 lg X 2 f n lg X n 1 lg G lg f f i i
1
频数表资料的几何均数
抗体滴度 ⑴
人数,f ⑵
滴度倒数,X ⑶
lgX ⑷
f· lgX ⑸
累积频率/%
71.4 82.3 91.8 95.9 98.0 99.3 100.0 100.0
合计
147
100.0
某药物疗效的频数表
治疗效果 治愈 频数 65 频率/% 43.3 累积频数 65

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

统计学方积乾 第七版 第二章  定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。

统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。

对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。

应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。

故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
27
五、医学正常值范围的估计
定义:又称参考值范围,是指特定健康人群的解剖、 生理、生化等各种数据的波动范围。习惯上是确定包 括95%的人的界值。
单双侧:根据指标的实际用途,有的指标有上下界值, 过高过低均属异常;某些指标过高为异常,只需确定 上限;某些指标过低为异常,只需确定下限。
估计的方法: 1、正态分布法
计五算、:医C学V(156.41 cm , 171.27 cm ) =10107名3.18岁女大学生身高均数的计算
频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。 应用:原始数据分布不对称,经对数转换后呈对称分布的资料。
29
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
32
思考题:
1976年美国8岁男孩的平均身高 为146厘米,标准差为8厘米,估计 在该研究中有%多少的男孩平均身 高在138与154之间?又有多少在
130到162之间?
33
4
100名18岁女大学生身高均数的计算
身高组段 频数 f 组中值 X
f·X
(1)
(2)
(3)
(4)
154~
2
155
310
156~
4
157
628
158~
11
159
1749
160~
13
161
2093
162~
22
163
3586
164~
19
165
3135
166~
15
167
2505
168~
9
169
1521

卫生统计学第7版方积乾主编课件第二章定量资料的统计描述

卫生统计学第7版方积乾主编课件第二章定量资料的统计描述

2020/6/24
11
正偏态(右偏态)
负偏态(左偏态)
2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理
2020/6/24
12
第二节 描述集中趋势的统计指标
医学定量资料中,描述集中趋势的统计指标主要有 算术均数、几何均数和中位数。 一、算术均数(arithmetic mean)
本例
X X 31.26 3.9075 (U/L) n8
2020/6/24
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
X fX 0 fX 0
f
n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 X fX 0 2228 18.57 (μmmo/L) f 120
2020/6/24
2
统计描述是用统计图表、统计指标来描述资料的分布 规律及其数量特征的。
第一节 频率分布表与频率分布图
医学研究资料变量值的个数较多时,对个变量值出现的 频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。
2020/6/24
2020/6/24
5
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
2020/6/24
6
频率表的编制步骤如下:
1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最 大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (μmmo/L)。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简称均数。均数适用于对称分布或近似对称分布的资
料。习惯上以希腊字母 表示总体均数(population
mean),以表示样本均数X (sample mean)。常用计 算方法有直接法和频率表法(亦称加权法)。
2020/6/15
13
1.直接法
X X n
例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP) 含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试 求其算术均数。
1.直接法
G nX 1X 2X 3X n
对数的形式为 G l g 1 lg X 1 lg X 2 lg X n l g 1 lg X
n
n
2020/6/15
17
例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
2020/6/15
33
一、极差和四分位数间距 1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最 小值之差。R值大,离散度就大;R值小,离散度就小。
A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8
极差的特点是计算简单,但只考虑最大值和最小值, 容易受个别极端值的影响,且不能反映组内其他变量值的 离散情况。另外,当调查例数增多时,遇到较大或较小变 量值的机会就大,极差就可能增大。
36~
48~ M 60~
小时
72~
84~
96~
108~
2020/6/15
29
1.百分位数
பைடு நூலகம்
百分位数(percentile,P)是一种位置指标,以Px表示。百 分位数是将频数等分为一百的分位数。一组观察值从小到
大按顺序排列,理论上有x%的变量值比Px小,有(100- x)% 的 变 量 值 比 Px 大 。 故 P50 分 位 数 也 就 是 中 位 数 , 即 P50=M 。百分位数的计算公式为
本例从累计频率看,M位于48~组段,即L=48,i=12,fm=11, ΣfL=19,
2020/6/15 M L fim (n 2 fL ) 4 8 1 1(5 2 1 2 0 1) 95.5 4(5 小时) 28
频数
12 10
n 2
f
L
i fm
(
n 2
fL )
8
6
ΣfL
4
fm
2
0 12~
24~
140
滴度倒数
2020/6/15
22
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
2020/6/15
23
三、中位数及百分位数
1.中位数(median , M)
将一组变量值从小到大按顺序排列,位次居中的变量值 称为中位数。在全部变量值中,大于和小于中位数的变量值 的个数相等。
用中位数表示平均水平主要适用于:①变量值中出现个别 特小或特大的数值;②资料的分布呈明显偏态,即大部分的 变量值偏向一侧;③变量值分布一端或两端无确定数值,只 有小于或大于某个数值;④资料的分布不清。
血清铁含量(μmol/L)
血清铁含量(μmol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
2020/6/15
9
频数
30 25 20 15 10 5 0
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μmol/L)
2-2 120名健康成年男子血清铁含量(μmmo/L)分布
P75又称为上四分位数(upper quartile ); P25又称为下四分 位数(lower quartile )。
3
一、离散型定量变量的频率分布
例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-1 1998年某地96名孕妇产前检查次数频率分布
2020/6/15
4
离散型定量变量的频率分布图可用直条图表达,以等 宽直条的高度表示各组频率的多少
频率(%)
30
25
20
15
10
5
0
0
1
2
3
4
5
>5
Px Lfix (nx%fL)
式中L为Px所在组段的下限,i为该组段的组距,fx为该组段
的频数,ΣfL为小于L的各组段累计频数。
2020/6/15
30
如 试求表2-5资料中百分位数P25、P75 。
由表2-5累计频数栏可见P25在“36~”组段,L=36,i=12,
fx=11, ΣfL=8,代入公式得
累计频率找出M所在的组段,然后按下式计算。
ML fim(n2fL)
式中L为中位数所在组段的下限,i为该组段的组距,fm为 该组段的频数,ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5, 试计算潜伏期的中位数。
2020/6/15
27
表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表
2020/6/15
34
2.四分位数间距(quartile interval,Q)
极差的不稳定主要受两端值的影响,如将两端数据各去掉 一部分,这样所得的数据就比较稳定了。例如两端各去掉25
%,取中间50%的数据的极差,这样可先计算P25和P75,求 出P75与P25之差,即为四分位数间距。
Q= P75-P25
2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距 用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠 近的整数作为组距,本例取i=2。
3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称 为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的 整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括 最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后 一个组段可包括其上限值,如本例28~30。
4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
2020/6/15
7
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布
2020/6/15
8
概率密度(%)
概率密度(%)
12
10
12
8
10
6
8
4
6
4
2
2
0
0
6~ 8~ 6~10~8~ 1120~~ 121~4~14~161~6~ 1188~~20~20~22~ 2224~~ 262~4~28~26~ 28~
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:①变量值中不能有0;②不能同时有
正值和负值;③若全是负值,计算时可先把负号去掉,得出 结果后再加上负号。
2020/6/15
20
2020/6/15
21
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
本例先求平均滴度的倒数
G 71 3 6 3 2 6 2 6 4 1 4 2 58 1 62 4
G l 1 g l1 g l6 3 g l2 3 g l2 6 g l4 6 g l4 1 g l 2 5 g 8 1 l 1 g 1 2 .8 0 6
7
7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。
本例
XX31.263.9075(U/L) n8
2020/6/15
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
XfX0 fX0 f n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 XfX0 222818.57(μmmo/L) f 120
述一组资料在某百分位置上的水平;②用于确定正常值范围;
③计算四分位数间距。
2020/6/15
31
四、众数( mode)
一组数据中出现次数最多的数值,叫众数。众数在频率 分布表中是频数最多的那一组的组中值,有时众数在一组 数中有好几个或者没有众数。
例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4 的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42 和54。
P 25 3 61 1(2 1 5 02% 58)4.9 0(1小时)
同 理 可 知 P75 在 “ 72 ~ ” 组 段 , L=72 , i=12, ΣfL=74P ,代75 入7 公式 21 得5(2 5 0 7% 53)7 7.2 3(小时)
fx=5,
百分位数的使用条件同中位数一样。主要用途为:①描
本例n=9,为奇数 MX91X56.36
2
如果n=10例,生存时间为69.6,则中位数为
M ( X 1 0 X 1 1 ) 0 /2 ( X 5 X 6 ) /2 ( 6 . 6 3 6 . 6 ) / 5 2 6 . 6 4 22
2020/6/15
26
(2)频率表法 当例数较多时,先将变量值从小到大编制 频率表,并分别计算累计频数和累计频率(见表2-5)。先从
2020/6/15
18
2.频率表法:当资料中相同变量值的个数f(即频数) 较多时,可通过频率表法计算几何均数,公式为
Glg1flfgX
表2-4 52例慢性肝炎患者的 HBsAg滴度资料
相关文档
最新文档