卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述学习资料
卫生统计 第二章定量变量的统计描述

【教学内容】一、频数分布表与频数分布图(Frequency / Frequency distribution)二、描述平均水平统计指标(Description of central tendency)算术均数:对称分布几何均数:测定值按等比级数变化中位数:不规则分布练习1data ex1_1;input x@@;cards;112 120 130 118 123 135 125 117;proc means;/*调用means过程*/var x;/*指定作统计计算的变量*/run;~Ps:对N个数、均数、标准偏差、最小值、最大值练习2例10:抽样调查某地120名18岁~35岁健康男性居民血清铁含量(umol/L),数据如下。
表四,试计算均数、标准差、标准误、最小值、最大值、极差和变异系数。
表四 120名18岁~35岁健康男性居民血清铁含量频数分布--------------------------------------------------------------------- 含量( umol/L )组中值频数6~ 7 18 ~ 9 310 ~ 11 612 ~ 13 814 ~ 15 1216 ~ 17 2018 ~ 19 2720 ~ 21 1822 ~ 23 1224 ~ 25 826 ~ 27 428~30 29 1--------------------------------------------------------------------data a10; input x f;cards;7 19 311 613 815 1217 2019 2721 1823 1225 827 429 1;proc means n nmiss mean std stderr min max range cv;means后面的变量为SAS专用的统计量,是属于过程的可选项var x;freq f;/*指定频数变量*/run;期望下列之一: ;alpha, chartype, CLASSDATA, CLM, COMPLETETYPES, CSS, CV, DATA, DESCEND, DESCENDING,DESCENDTYPES, EXCLNPWGT, EXCLNPWGTS, EXCLUSIVE, FW, IDMIN, KURTOSIS, LCLM, MAX, MAXDEC, MEAN, MEDIAN, MIN, MISSING,N, NDEC, NMISS, NONOBS, NOPRINT, NOTRAP, NWAY, ORDER, P1, P10, P25, P5, P50, P75, P90, P95, P99, PCTLDEF, PRINT,PRINTALL, PRINTALLTYPES, PRINTIDS, PRINTIDVARS, PROBT, Q1, Q3, QMARKERS, QMETHOD, QNTLDEF, QRANGE, RANGE, SKEWNESS, STDDEV, STDERR, SUM, SUMSIZE, SUMWGT, T, UCLM, USS, VAR, VARDEF.ERROR 202-322: 该选项或参数不可识别,将被忽略。
2 定量资料的统计描述1-2PPT课件

2923 3103 3061 3222 3056 3076 3128 3104 3050 3050 3004 3066 3100 3159 3054
累计频率(%)
2
3
2.94
3
2.94
3
7
6.86
10
9.80
4
16
15.69
26
25.49
5
33
32.35
59
57.84
6
24
23.53
83
81.37
7
14
13.73
97
95.10
8
4
3.92
101
99.02
9
1
0.98
102
100.00
合计
102
100.00
—
—
离散型定量变量频数表
• 取值为某实数范围区间的特定值 • 以变量取值为分组标志,并列出相应频数
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布
完成次数 频数f 频率(%) 累计频数
累计频率(%)
2
3
2.94
3
2.94
3
7
6.86
10
4
16
15.69
26
9.80 25.49 分布范围
5
33
32.35
59
57.84 集中组段
6
24
23.53
83
7
14
13.73
97
81.37 频数分布形 95.10 式是否对称
内容提要
第一节 频数分布表与频数分布图 第二节 集中位置的描述 第三节 离散程度的描述
最新统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案资料

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x x L x iP L n x f f P u P u P u =+?==+?==+?==+?S离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布Group Frequency Percent Cumulative Percent49.0- 1 .8 .850.0- 4 3.3 4.251.0- 8 6.7 10.852.0- 6 5.0 15.853.0- 19 15.8 31.754.0- 18 15.0 46.755.0- 14 11.7 58.356.0- 26 21.7 80.057.0- 10 8.3 88.358.0- 9 7.5 95.859.0- 4 3.3 99.261.0-62.0 1 .8 100.0Total 120 100.0(2)(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L x i P L n f f P x P P ==+?==+?==+?=+?S2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
第1-2章 绪论及定量资料描述

什么是统计学(statistics)?
内容:收集、分析、解释和表达数据 统计学:处理数据中变异性的科学与艺术 目的:求得可靠的结果 统计学的现实地位:合作、审稿、基金申 请(NIH)、药物开发与申报(FDA)、 卫生决策
统计学的若干概念
1. 总体与样本 总体(population): 大同小异的对象全体。 目标总体(target population): 试图下结论的某 个总体. 例如,英国成年男子为目标总体 研究总体 (study population) : 资料来源的较 小的总体. 例如,1951年英国全部注册医生 需要谨慎 : 就研究总体所下的结论未必适用于 目标总体。
(2)定量变量 (i) 离散型变量 只能取整数值。 例如,手术病人数; 新生儿数 (ii) 连续型变量 可以取实数轴上的任何数值。 由测量而得到的大多属于连续型变量 例如,血压、身高、体重等 “连续” : 指该变量可以在实数轴上连续变动。
变通:红细胞记数也视为连续型变量。 (一个、两个、三个之间的差别并不重要)
1 X (4.20 6.43 2.08 3.45 2.26 4.04 5.42 3.38) 3.9075 8
对于偏峰分布资料算术均数不 能较好地反映分布的集中趋势。
16 14 12
频率密度(%)
10 8 6 4 2 0 2.5 4.5 6.5 8.5 10.5 12.5 14.5 16.5 18.5 20.5
2.同质与变异 同质性(homogeneity) 共性,大同小异 变异(variation) 个体间差异,多样性 没有同质性就构不成一个总体; 总体内没有变异性就无需统计学。
统计学的任务: 在变异的背景上 描述同一总体的同质性, 揭示不同总体的异质性 (heterogeneity)。
雷静卫生统计学-第二章 定量资料的统计描述一 24页PPT文档

或
G l g 1(lX g1 lX g2 . .l.X gn)l g 1( lX g)
n
n
· 频率表法:相同观察值的个数较多时
G l 1 g (f1lX g 1f2lX g 2 . .fk .lX g k l 1 g ( flX g)
f1f2 ..f.k.
f
08.09.2019
西安医学院公共卫生系
(2)应用于: · 等比资料如抗体的平均滴度、平均发展
速度人口的几何增长(增长速度);或用于 对数正态分布资料。
**注意 · 观察值不能有零 · 观察值不能同时有正值和负值
同一组资料几何均数小于均数
08.09.2019
西安医学院公共卫生系
3.中位数 中位数(median,M)是将一组观察值从小 到大排列,位次居中的观察值。 百分位数(percentile),位置指标,Px,将 总体或样本的全部观察值分为两部分, 理论上有x%的观察值比它小,有 (100-x)%的观察值比它大。 P50分位数即是中位数
合计
频数 1 4 4 10 9 6 3 2 0 1
40
08.09.2019
西安医学院公共卫生系
频率分布表(图)的用途:
作为陈述资料的形式,反映资料的分布类型; 对称分布 偏态分布 正偏态 负偏态
描述分布的两个特征:集中趋势、离散趋势 便于发现可疑值,及时查正; 便于以后的计算指标及统计分析; 当样本含量较大时,可用频率作为概率的估计值。
08.09.2019
西安医学院公共卫生系
★频率表法:频率表资料或相同观察值较多时
X fX0 f
式中,X0与f分别为频数表资料中各组段 的组中值和相应组段的频数(或相同观察值与 其对应的频数)。
医学统计学课件:02_统计描述(定量定性)

为什么引入相对数?
-----绝对数的局限性 Example: 有效100人。结论:B法优于A法!
某病用A法治疗100人,有效80人;B法治疗150人,
相对数的概念
两个有联系的(数值)指标之比。它表示两 者的对比水平,常以百分数或倍数表示。
同类指标的比值,如: 人口的性比例=男性人数/女性人数、医护比等。 非同类指标的比值,如:医护人员/床位数。
是一样的,但是三组的分布不一样 ,也就是离散程度不同。因此,要 全面把握数据的分布特点,不仅需 要了解数据的集中位置,还要了解 数据的离散状况。
描述计量资料要从两个方面进行:平均水平(集中趋势) 变异程度(离散趋势)
极差(Range) 全距
优点:简便 缺点:1. 只利用了两个极端值 2.样本量大,R也会大 3.不稳定
135 150
73.6
90.0 100.0
140名成年男子红细胞数
频数表的编制步骤
(1)求全距(range,R):即最大值与最小值之差; 本例极差: R=5.95-3.82=2.13 (2) 决定组数和组距:组数通常取10-15个组,组距为全距的十
分之一, 再略加调整;
本例 i= R /10=2.13/10=0.213≈0.20 (3) 列出组段:第一组段必须包括最小值,最后一个组段必须包 含最大值; (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段 的频数。
18 16 14
25
12
病例数
10 8 6 4 2 0 12 24 36 48 60 72 84 96 108 120 潜伏期(h)
20 15
人数
10 5 0 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL)
医学统计学- 统计 02 定量资料的统计描述

5.12 5.13 4.58 … … … … … 4.24 5.45 4.32
4.84 4.91 5.14 … … … … … 4.04 5.14 5.46
┊
┊
┊
5.39 5.27 6.18 … … … … … 4.43 4.02 5.86
5.12 5.36 3.86 … … … … … 4.11 3.29 4.18
75.00
100~
39
270
87.66
125~
21
291
94.48
150~
12
303
98.38
175~
5
合计
308
308
100.00
—
—
M
P50
L
i fx
(n x%
f
L
)
50
25 95
(308
50%
81)
69.21(mmol
/
L)
P75
L
i fx
(n x%
fL
)
75
25 55
(308
于描述抗体的平均滴度等。
2. 计算方法: (1) 直接法—观察单位较少
G n x1x2...xn
lg G lg(x1x2...xn ) lg x1 lg x2 ... lg xn lg xi
公式:
n
n
n
G lg1(
lg
xi
)
lg 10 n
xi
n
例题 某地 5 例微丝蚴血症患者治疗 7 年后用间接荧光抗 体试验测得其抗体滴度分别为 1:10,1:20,1:40,1:40, 1:160,求抗体的平均滴度。 解:平均指标选用几何均数(观察值呈倍数关系) 首先取观察值的倒数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.直接法
G nX 1X 2X 3X n
对数的形式为 G l g 1 lg X 1 lg X 2 lg X n l g 1 lg X
n
n
2020/4/12
17
例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
本例
XX31.263.9075(U/L) n8
2020/4/12
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
XfX0 fX0 f n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 XfX0 222818.57(μmmo/L) f 120
简称均数。均数适用于对称分布或近似对称分布的资
料。习惯上以希腊字母 表示总体均数(population
mean),以表示样本均数X (sample mean)。常用计 算方法有直接法和频率表法(亦称加权法)。
2020/4/12
13
1.直接法
X X n
例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP) 含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试 求其算术均数。
第二章 定量资料 的统计描述
2020/4/12
1
[学习要求] 了解:应用SAS程序编制频率表的方法和means、 univariate过程对定量资料的描述。 熟悉:定量资料频率表的编制方法和用途。 掌握:算术均数、几何均数、中位数的计算方法和使 用条件;四分位间距、方差、标准差、变异系数的计 算方法和使用条件。
如用直接法计算, X =18.61(μmmo/L)
2020/4/12
15
表2-3 频数表法计算均数
2020/4/12
16
二、几何均数(geometric mean,G)
几何均数使用于原始变量不呈对称分布,但对变量经对数 转换后呈对称分布的资料,又称对数正态分布资料。常见于 正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌 计数等。计算公式亦可用直接法和频数表法。
2020/4/12
2
一、离散型定量变量的频率分布
例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-1 1998年某地96名孕妇产前检查次数频率分布
2020/4/12
4
离散型定量变量的频率分布图可用直条图表达,以等 宽直条的高度表示各组频率的多少
频率(%)
30
25
20
15
10
血清铁含量(μmol/L)
血清铁含量(μmol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
2020/4/12
9
频数
30 25 20 15 10 5 0
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μmol/L)
2-2 120名健康成年男子血清铁含量(μmmo/L)分布
2020/4/12
18
2.频率表法:当资料中相同变量值的个数f(即频数) 较多时,可通过频率表法计算几何均数,公式为
Glg1flfgX
表2-4 52例慢性肝炎患者的 HBsAg滴度资料
2020/4/12
19
本例Σf lgX= 108.06977 , Σf=52,代入公式得 Glg 1 10 .086 97 lg 1 7 2.078 13 1 .794705 52
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:①变量值中不能有0;②不能同时有
3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称 为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的 整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括 最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后 一个组段可包括其上限值,如本例28~30。
1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最 大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (μmmo/L)。
2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距 用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠 近的整数作为组距,本例取i=2。
本例先求平均滴度的倒数
G 71 3 6 3 2 6 2 6 4 1 4 2 58 1 62 4
G l 1 g l1 g l6 3 g l2 3 g l2 6 g l4 6 g l4 1 g l 2 5 g 8 1 l 1 g 1 2 .8 0 6
7
7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。
2020/4/12
10
三、频率分布表(图)的用途
1.揭示资料的分布类型
2020/4/12
11
正偏态(右偏态)
负偏态(左偏态)
2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理
2020/4/12
12
第二节 描述集中趋势的统计指标
医学定量资料中,描述集中趋势的统计指标主要有 算术均数、几何均数和中位数。 一、算术均数(arithmetic mean)
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
2020/4/12
5
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
2020/4/12
6
频率表的编制步骤如下:
4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
2020/4/12
7
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布
2020/4/12
8
概率密度(%)
概率密度(%)
12
10
12
8
10
6
8
4
6
4
2
2
0
0
6~ 8~ 6~10~8~ 1120~~ 121~4~14~161~6~ 1188~~20~20~22~ 2224~~ 262~4~28~26~ 28~