第一章医学统计学基本概念与常用统计描述指标
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
丙实验 对照组 治疗组
15
5
20
19
1
20
30
10
40
38
2
40
45
15
60
57
3
60
75.0 95.0
75.0 95.0
75.0 95.0
甲实验中,c2=1.765,P>0.05,两个有效率之间的差别 无显著性意义;
乙实验中,2=6.275, 0.01< P < 0.05,两个有效率之 间的差别有显著性意义;
=71.62(次/分)
(二)几何均数 (geometric mean, G)
适用于原始数据分布不对称,但经对数转换后 呈对称分布的资料。
G n X1X 2 L
Xn
lg1( 1 n
n i 1
lg
Xi)
G lg1( fi lg Xi ) fi
例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑 制抗体滴度,结果如表所示,求几何均数。
描述离散程度的指标:
– 极差、四分位数间距、方差、标准差及变异 系数。
(一) 极差(全距,range, R)
为一组同质观察值中最大值与最小值之差。 甲组 R=34-26=8 乙组 R=36-24=12 甲组数据分布较乙组集中。
优点:计算简单
缺点:
1.没有充分利用样本信息,只考虑最大值与最小 值之差异,不能反映组内其它观察值的变异度。
丙实验中,2=9.412,P < 0.01,两个有效率之间的差 别有极显著性意义。
第三节 统计学中的几个 基本概念
1.总体与样本(population and sample)
根据研究目的确定的同质观察单位的全体称为总 体。
从总体中随机抽取、进行研究的一部分个体所组 成的集合,称为样本。
要保证样本的可靠性、代表性。
例 某医生发明了一种新的治疗某病的疗法(治疗组),用现在公
用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗
效分别为P1=75%与P2=95 % ,问:能认为这两个有效率之间的差别 有显著性意义吗?
假设的3批实验结果
例数
组别
疗效: 有效
无效
合计
有效率(%)
甲实验 对照组 治疗组
乙实验 对照组 治疗组
对于原始数据和频数分布表资料,分别用下列两式计算中位数。
(X n/2+X(n/2+1) )/2 M=
X(n+1)/2
(n为偶数) (n为奇数)
M
LM
iM fM
(n 2
fL)
其中, LM :中位数所在组下限; iM :中位数所在组的组距; fM :中位数所在组的频数;
fL :中位数所在组前一组的累计频数。
累计频数 (4) 2 7 19 34 59 85 104 119 129 130
累计频率(%) (5) 1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23
100.00
(二) 频数表的用途
可以揭示资料的分布类型和分布特征,以便于 选用相应的统计分析方法。
血铅含量
频数
累计频数
nX%=200×95%=190
(mol/L) 0~
0.24~ 0.48~
(1) 6 48 43
(2) 6 54 97
0.24 X95% 1.69 4 (190 188)
1.81(mol / L)
0.72~
36
133
0.97~ 1.21~ 1.45~
28
161
故某地正常人血铅含量95%的
–SAS • Statistical Analysis System
作用; 统计工作的步骤。
第二节 统计工作的步骤
研究设计(research design)
– 调查设计、实验设计
资料收集(data collection) 统计分析(statistical analysis)
–统计描述(statistical description) –统计推断(statistical inference)
G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031L 1 2.7093 )
fi
40
lg1(67.1282) 48 40
G 1: 48
(三)中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
(五)变异系数(coefficient of variation, CV)
CV S 100% X
1.用于比较度量衡单位不同的多组资料的变异度。 2.比较均数相差悬殊的多组资料的变异度。
例 某地不同年龄组男子身高(cm)的变异程度
年龄组 3~3.5岁 30~35岁
人数 100 100
均数 96.1 170.2
便于进一步计算指标和统计处理。 便于发现某些特大或特小的可疑值。
二、 集中趋势(central tendency)的描述
三种平均数(average)
–算术均数(arithmetic mean) –几何均数(geometric mean) –中位数(median)
(一)算术均数( arithmetic mean,X )
例2-4 表2.3
含量( g/L ) (1)
0~ 4~ 8~ 12~ 16~ 20~ 24~ 28~ 合计
107正常人的尿铅含量(g/L)的中位数计算表
频数f (2)
14 22 29 18 15
6 1 2 107
累计频数 f
(3)
14 36 65 83 98 104 105 107
累计频率 % (4)
13
174
单侧正常值范围的上限为 1.81
Biblioteka Baidu
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
i
X p% L f p (np% fL )
其中, LX :第X百分位数所在组下限; iX :第X百分位数所在组的组距; fX :第X百分位数所在组的频数;
fL :第X百分位数所在组前一组的累计频数。
例 某地200例正常成人血铅含量的频数分布如表所示,请计 算出血铅含量的95%正常值范围。
200例正常成人血铅含量的频数分布表 解:即求P95。
抗体滴度
1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512
人数 f
1 4 5 8 11 6 4 1
滴度倒数 X
4 8 16 32 64 128 256 512
lgX
0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
4.参数和统计量(parameter and statistic) 总体的指标统称为参数,样本指标称为统计量。
5.概率(probability)
概率是描述随机事件发生的可能性大小的数值,常用P表示。 随机事件概率的大小在0与1之间,即0P 1。
习惯上将P 0.05,称为小概率事件。
型6
定 量
统
资
简称均数,适合于表达呈正态分布资料的平均 水平。
直接法:
n
X X1 ··· X n i1 X i
n
n
例2-2:X = 81+70+66+···+69 =71.69(次/分) 13
加权法:
X fi Xi fi
例: X =
57.52+60.55+63.512+···+84.51 130
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
显然,Q1=P25、Q2=P50=M、Q3=P75
2.百分位数(percentile)的计算公式 对连续型变量频数表资料,按下式计算第X百分位数PX:
(Xi )2
2 i1
N
n
(Xi X )2
S 2 i1 n 1
n - 1称为自由度
(四)标准差 (standard deviation)
n
(Xi )2
i1
N
n
(Xi X )2
S i1
X 2 ( X )2 / n
n 1
n 1
加权法:
S fX 2 ( fX )2 / f f 1
脉搏组段 (1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85 合计
频数 (2)
2 5 12 15 25 26 19 15 10 1 130
频率(%) (3) 1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77
第一节 医学统计学在医学科学中的 地位和作用
医学统计学(Medicine Statistics )
– 是应用概率论和数理统计的基本原理和方法,结合医学实际 阐述统计设计的基本原理和步骤,研究资料或信息的收集、 整理与分析的一门学科。
是统计学在医学上的应用; 理论基础是概率论和数理统计;
–SPSS • Statistical Package for Social Sciences • Statistical Product and Service Solutions
2.样本含量越大,抽到较大或较小观察值的可能 性越大,则极差可能越大,因此,样本含量悬殊 时不宜用极差比较分布的离散度。
所以,一般不用极差来反映离散程度。
(二) 四分位数间距 (quartile interval, Q)
1.分位数的概念
分位数是一种位置指标,一个特定的分位数将任何一 个频数曲线下的面积分为两部分。
标准差 变异系数
3.1
3.2%
5.0
2.9%
四、 正态分布 (normal distribution)
(一) 编制频数表的步骤
求极差
– R=84-57=27(次/分)
划分组段
– 确定组数:较大样本时,一般取10组左右。 – 确定组距:极差/组数=27/10=2.7≈3(次/分) – 确定各组段的上下限:上限=下限+组距
统计各组段内的数据频数,编制频数表
表2.1 130名健康成年男子脉搏(次/分)的频数分布表
计
料
资
料
的 类
分 类
资
料
如身高(cm)、体重(kg)等。
二
无 序 分
项 如阳性与阴性、 分 治愈与未愈。 类
类
多
( 有等 序级
项 如血型为A、B、AB、 分 O型。 类
分资
如治疗结果为治愈、显效、
类料 )
好转、无效四级。
第四节 数值变量的描述性统计
统计图表; 统计指标。
一、 频数分布 (frequency distribution)
医学统计学 (Medicine Statistics)
南京大学医学院范怡梅
第一章 医学统计学基本概念与常用统 计描述指标
统计学(statistics): “The science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable results.”
例2-10 据书中表2.3资料求四分位数间距Q。
4 (107 25% 14)=6.32 (g/L) P25= 4+ 22
P75= 12+
4 (107 75% 18
65)=15.39 (g/L)
Q= P75 - P25=15.39-6.32=9.07 (g/L)
(三)方差 (variance)
n
2.同质与变异(homogeneity and variation)
统计研究的是有变异的事物,统计分析的任务就 是在同质分组的基础上,通过对变异所呈现出来 的统计规律性的研究,透过偶然现象,揭示同质 事物的本质特征和规律。
3.抽样误差(sampling error) 因抽样产生的样本与样本,样本与总体相应统 计指标之间的差异,称为抽样误差。 抽样误差的大小主要取决于观察单位间变异程 度的大小和样本含量的多少。
13.08 33.64 60.75 77.57 91.59 97.20 98.13 100.00
4
M=8+
(107/2 - 36) = 10.41(g/L)
29
三、 离散趋势(tendency of dispersion)的描述
例:设有三组同年龄、同性别儿童体重(kg) 数据如下:
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
15
5
20
19
1
20
30
10
40
38
2
40
45
15
60
57
3
60
75.0 95.0
75.0 95.0
75.0 95.0
甲实验中,c2=1.765,P>0.05,两个有效率之间的差别 无显著性意义;
乙实验中,2=6.275, 0.01< P < 0.05,两个有效率之 间的差别有显著性意义;
=71.62(次/分)
(二)几何均数 (geometric mean, G)
适用于原始数据分布不对称,但经对数转换后 呈对称分布的资料。
G n X1X 2 L
Xn
lg1( 1 n
n i 1
lg
Xi)
G lg1( fi lg Xi ) fi
例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑 制抗体滴度,结果如表所示,求几何均数。
描述离散程度的指标:
– 极差、四分位数间距、方差、标准差及变异 系数。
(一) 极差(全距,range, R)
为一组同质观察值中最大值与最小值之差。 甲组 R=34-26=8 乙组 R=36-24=12 甲组数据分布较乙组集中。
优点:计算简单
缺点:
1.没有充分利用样本信息,只考虑最大值与最小 值之差异,不能反映组内其它观察值的变异度。
丙实验中,2=9.412,P < 0.01,两个有效率之间的差 别有极显著性意义。
第三节 统计学中的几个 基本概念
1.总体与样本(population and sample)
根据研究目的确定的同质观察单位的全体称为总 体。
从总体中随机抽取、进行研究的一部分个体所组 成的集合,称为样本。
要保证样本的可靠性、代表性。
例 某医生发明了一种新的治疗某病的疗法(治疗组),用现在公
用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗
效分别为P1=75%与P2=95 % ,问:能认为这两个有效率之间的差别 有显著性意义吗?
假设的3批实验结果
例数
组别
疗效: 有效
无效
合计
有效率(%)
甲实验 对照组 治疗组
乙实验 对照组 治疗组
对于原始数据和频数分布表资料,分别用下列两式计算中位数。
(X n/2+X(n/2+1) )/2 M=
X(n+1)/2
(n为偶数) (n为奇数)
M
LM
iM fM
(n 2
fL)
其中, LM :中位数所在组下限; iM :中位数所在组的组距; fM :中位数所在组的频数;
fL :中位数所在组前一组的累计频数。
累计频数 (4) 2 7 19 34 59 85 104 119 129 130
累计频率(%) (5) 1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23
100.00
(二) 频数表的用途
可以揭示资料的分布类型和分布特征,以便于 选用相应的统计分析方法。
血铅含量
频数
累计频数
nX%=200×95%=190
(mol/L) 0~
0.24~ 0.48~
(1) 6 48 43
(2) 6 54 97
0.24 X95% 1.69 4 (190 188)
1.81(mol / L)
0.72~
36
133
0.97~ 1.21~ 1.45~
28
161
故某地正常人血铅含量95%的
–SAS • Statistical Analysis System
作用; 统计工作的步骤。
第二节 统计工作的步骤
研究设计(research design)
– 调查设计、实验设计
资料收集(data collection) 统计分析(statistical analysis)
–统计描述(statistical description) –统计推断(statistical inference)
G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031L 1 2.7093 )
fi
40
lg1(67.1282) 48 40
G 1: 48
(三)中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
(五)变异系数(coefficient of variation, CV)
CV S 100% X
1.用于比较度量衡单位不同的多组资料的变异度。 2.比较均数相差悬殊的多组资料的变异度。
例 某地不同年龄组男子身高(cm)的变异程度
年龄组 3~3.5岁 30~35岁
人数 100 100
均数 96.1 170.2
便于进一步计算指标和统计处理。 便于发现某些特大或特小的可疑值。
二、 集中趋势(central tendency)的描述
三种平均数(average)
–算术均数(arithmetic mean) –几何均数(geometric mean) –中位数(median)
(一)算术均数( arithmetic mean,X )
例2-4 表2.3
含量( g/L ) (1)
0~ 4~ 8~ 12~ 16~ 20~ 24~ 28~ 合计
107正常人的尿铅含量(g/L)的中位数计算表
频数f (2)
14 22 29 18 15
6 1 2 107
累计频数 f
(3)
14 36 65 83 98 104 105 107
累计频率 % (4)
13
174
单侧正常值范围的上限为 1.81
Biblioteka Baidu
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
i
X p% L f p (np% fL )
其中, LX :第X百分位数所在组下限; iX :第X百分位数所在组的组距; fX :第X百分位数所在组的频数;
fL :第X百分位数所在组前一组的累计频数。
例 某地200例正常成人血铅含量的频数分布如表所示,请计 算出血铅含量的95%正常值范围。
200例正常成人血铅含量的频数分布表 解:即求P95。
抗体滴度
1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512
人数 f
1 4 5 8 11 6 4 1
滴度倒数 X
4 8 16 32 64 128 256 512
lgX
0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
4.参数和统计量(parameter and statistic) 总体的指标统称为参数,样本指标称为统计量。
5.概率(probability)
概率是描述随机事件发生的可能性大小的数值,常用P表示。 随机事件概率的大小在0与1之间,即0P 1。
习惯上将P 0.05,称为小概率事件。
型6
定 量
统
资
简称均数,适合于表达呈正态分布资料的平均 水平。
直接法:
n
X X1 ··· X n i1 X i
n
n
例2-2:X = 81+70+66+···+69 =71.69(次/分) 13
加权法:
X fi Xi fi
例: X =
57.52+60.55+63.512+···+84.51 130
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
显然,Q1=P25、Q2=P50=M、Q3=P75
2.百分位数(percentile)的计算公式 对连续型变量频数表资料,按下式计算第X百分位数PX:
(Xi )2
2 i1
N
n
(Xi X )2
S 2 i1 n 1
n - 1称为自由度
(四)标准差 (standard deviation)
n
(Xi )2
i1
N
n
(Xi X )2
S i1
X 2 ( X )2 / n
n 1
n 1
加权法:
S fX 2 ( fX )2 / f f 1
脉搏组段 (1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85 合计
频数 (2)
2 5 12 15 25 26 19 15 10 1 130
频率(%) (3) 1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77
第一节 医学统计学在医学科学中的 地位和作用
医学统计学(Medicine Statistics )
– 是应用概率论和数理统计的基本原理和方法,结合医学实际 阐述统计设计的基本原理和步骤,研究资料或信息的收集、 整理与分析的一门学科。
是统计学在医学上的应用; 理论基础是概率论和数理统计;
–SPSS • Statistical Package for Social Sciences • Statistical Product and Service Solutions
2.样本含量越大,抽到较大或较小观察值的可能 性越大,则极差可能越大,因此,样本含量悬殊 时不宜用极差比较分布的离散度。
所以,一般不用极差来反映离散程度。
(二) 四分位数间距 (quartile interval, Q)
1.分位数的概念
分位数是一种位置指标,一个特定的分位数将任何一 个频数曲线下的面积分为两部分。
标准差 变异系数
3.1
3.2%
5.0
2.9%
四、 正态分布 (normal distribution)
(一) 编制频数表的步骤
求极差
– R=84-57=27(次/分)
划分组段
– 确定组数:较大样本时,一般取10组左右。 – 确定组距:极差/组数=27/10=2.7≈3(次/分) – 确定各组段的上下限:上限=下限+组距
统计各组段内的数据频数,编制频数表
表2.1 130名健康成年男子脉搏(次/分)的频数分布表
计
料
资
料
的 类
分 类
资
料
如身高(cm)、体重(kg)等。
二
无 序 分
项 如阳性与阴性、 分 治愈与未愈。 类
类
多
( 有等 序级
项 如血型为A、B、AB、 分 O型。 类
分资
如治疗结果为治愈、显效、
类料 )
好转、无效四级。
第四节 数值变量的描述性统计
统计图表; 统计指标。
一、 频数分布 (frequency distribution)
医学统计学 (Medicine Statistics)
南京大学医学院范怡梅
第一章 医学统计学基本概念与常用统 计描述指标
统计学(statistics): “The science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable results.”
例2-10 据书中表2.3资料求四分位数间距Q。
4 (107 25% 14)=6.32 (g/L) P25= 4+ 22
P75= 12+
4 (107 75% 18
65)=15.39 (g/L)
Q= P75 - P25=15.39-6.32=9.07 (g/L)
(三)方差 (variance)
n
2.同质与变异(homogeneity and variation)
统计研究的是有变异的事物,统计分析的任务就 是在同质分组的基础上,通过对变异所呈现出来 的统计规律性的研究,透过偶然现象,揭示同质 事物的本质特征和规律。
3.抽样误差(sampling error) 因抽样产生的样本与样本,样本与总体相应统 计指标之间的差异,称为抽样误差。 抽样误差的大小主要取决于观察单位间变异程 度的大小和样本含量的多少。
13.08 33.64 60.75 77.57 91.59 97.20 98.13 100.00
4
M=8+
(107/2 - 36) = 10.41(g/L)
29
三、 离散趋势(tendency of dispersion)的描述
例:设有三组同年龄、同性别儿童体重(kg) 数据如下:
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34