计量资料的统计分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四章
统计描述
第一节
频数分布
一、计量资料的频数分布表
例1 某年某市120名12岁健康男孩身高测量资料
142.3 134.5 145.2 151.1 141.2 143.5 134.7 150.8 125.9 160.9 134.7 129.4 156.6 148.8 141.8 144.0 141.5 139.2 147.3 144.5 132.7 154.2 138.5 142.5 142.7 134.4 146.8 145.4 148.8 144.7 138.1 137.1 152.9 137.9 138.9 141.2 145.7 148.8 135.1 146.2 140.1 139.3 140.2 147.1 147.9 139.9 137.7 148.9 138.2 137.9 150.3 143.3 150.6 141.9 137.4 142.9 141.8 149.7 138.5 154.0 141.6 151.3 133.1 156.3 139.5 147.8 145.1 134.9 141.4 147.5 139.6 147.7 142.5 140.8 142.7 141.9 146.4 140.5 145.8 143.6 140.9 136.9 143.5 152.3 130.5 149.8 143.9 140.7 143.8 138.9 147.9 142.3 141.4 148.1 142.9 146.6 132.1 143.6 142.4 145.9 150.0 148.9 146.7 143.3 146.7 144.0 146.5 139.2 135.5 149.0 139.6 144.4 142.1 142.4 143.4 140.2 138.7 134.4 145.4 139.9
•整理频数分布
计算各组段频数、累计频数和累计频率。
表1 120名12岁健康男孩身高的频数分布表组
125~ 129~ 133~
段
划
记
频
1 4 9
数
137~
141~ 145~
正正正正
28
35 27
149~
153~ 157~16 1
11
4 1 120
合
计
35 30 25 20 15 10 5 0 1 4 9 28
见P72第五章第四、五节
正态分布
(normal distribution)
一、正态分布的概念
正态分布是一种连续性随机变量常见而重要的分布。
二、正态分布的特征
1、在直角坐标的横轴（X轴）上方呈钟型曲线，以X=μ为对称轴左右完全对称，但与X轴永不相交； 2、在X=μ处有最大值；X越远离μ，曲线位置越低； 3、取决于两个重要参数表示方式： μ ：位置参数； σ：形状参数表示方式：Ｎ（ μ ，σ 2）
9.00%，即有99.00%的变量值分布在此范围内；
四、正态分布的应用
估计医学正常值范围； • 正常值范围的含义 • 正常值范围的计算公式 x ±us 质量控制 • x ±2s 上、下警戒值 • x ±3s 上、下控制值表5 常用的u界值表
正常值范围（%） 80 90 95 99 单侧 0.842 1.282 1.645 2.326 双侧 1.282 1.645 1.96 2.576
•计算变异系数
当两组变量值单位不同，或两均数相差较大时，不能
直接用标准差比较其变异程度，需要用变异系数做比较。
•估计变量值的频数分布 •计算标准误
5、变异系数（coefficient of variation, CV）
含义
计算例1：某地20岁男子身高均数为166.06cm，标准差为 4.95cm，体重均数为53.72kg，标准差为4.96kg，试比较身高与体重的变异程度。例2：该地新生男婴的平均身高为50cm，标准差为 3.0cm，试比较该地20岁男子与新生男婴的变异程度。
加权法变量值较多或频数表资料。
表1 120名12岁健康男孩身高的频数分布表组
125~
段
组中值（X0）
127
频数（f）
1
fx
127
129~
133~ 137~
131
135 139
4
9 28
524
1215 3892
141~
145~ 149~
143
147 151
35
27 11
5005
3969 1661
含义集中趋势是指计量资料中，所有观察值的中
心位置。反映一组同质变量值的平均数量水平。
常用指标算术平均数、几何平均数、中位数
1、算术均数（arithmetic mean）
简称均数（mean），用x及μ表示。
适用范围变量值呈对称分布，尤其是正态分布的计量资料
计算方法
直接法变量值个数不多，直接相加除以变量值个数。
153~
157~161
155
159
4
1 120
620
159 17172
合
计
2、几何均数（geometric mean, G）
适用范围
•变量值呈对数对称分布
•等比级数资料
计算方法
直接法变量值个数不多，直接将其乘积开n次方。
加权法变量值较多或频数表资料。
表4 100名患者抗体滴度的频数分布表
式中：是百分位数，L是所在组段的下限，i是该组段的组距，fp是该组段的频数，n是总频数，∑fl是该组段以前的各组段的累计频数。
四分位数（quartile）
四分位间距（quartile range, Q）
含义统计学将3个特殊的分位数X25%、 X50%、
称为四分位数。 X25%：记为Q1，称作第一四分位数； X50% ：记为Q2，称作第二四分位数； X75% ：记为Q3，称作第三四分位数；
35 27
125～ 129～ 133～ 137～ 141～ 145～
11 4 1
149～ 153～ 157～161
二、计数资料和等级资料的频数分布表
1、计数资料的频数分布表
表2 100名大学生性别的频数分布表
性别频数频率（%）累计频数
累计频率（%）
男
女合计
40
60 100
40.0
60.0 100.0
是一个度量相对离散程度的指标。
例1：身高体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2：新生儿 CV = 3/50 × 100%= 6%
第六章
参数估计
几种重要的连续性随机变量分布：
正态分布标准正态分布 t分布
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇，对应于不同参数其位置和形状均不相同，为应用方便，可进行变量转换：
u
X

式中的u值称为标准正态变量，其频数曲线图即为标准正
态分布（ u分布），一般的正态分布N(μ,σ2)即转化为标准正态分布N(0,1)。其面积分布可直接查表。
缺点将变量值的单位进行了平方。
4、标准差（standard deviation, SD）
用σ 和s表示。
计算方法
• 直接法
• 加权法
标准差反映变量值变异程度的大小，。
标准差的应用
• 表示一组变量值变异程度标准差越大，说明变量值的变
异程度越大，即变量值围绕均数的分布较离散，均数的代表性较差；标准差越小，表示变量值的变异程度越小，即变量值围绕均数的分布较密集，均数的代表性较好。
40
100
40.0
100.0
—
—
2、等级资料的频数分布表
表3 100名大学生性别的频数分布表
视力等级频数频率（%）累计频数
累计频率（%）
差
中良合计
8
12 10 30
26.67
40.00 33.33 100.00
8
20 30
26.67
66.67 100.00
—
—
三、频数分布表的作用
1、揭示资料的频数分布特征与类型
2、百分位数（percentile）
含义又是一个位置指标，用Xp%。它表示在按照升序排列
的数列中，其左侧（即小于Xp%侧）的观察值个数在整个样
本中所占百分比为p%，其右侧（即大于Xp%侧）的观察值个数在整个样本中所占百分比为（100-p）%
计算
X p%
i L (np% f L ) fp
t 分布
(t- distribution) 一、t 分布的概念
由于样本均数服从总体均数为μ 、总体标准差σ 为的正
X ），将其转换
态分布N(μ,σ2) ，因此可同样进行u变换（为u分布N(0,12) 。
X
实际工作中，由于 X 未知，用 S X 替代，则（ X ）不再服从标准正态分布，而服从t分布。
SX
X X t , n 1 SX S/ n
t 分布
(t- distribution)
二、t分布的图形与特征
1、t 分布是一簇对称的、均数为 0 的单峰分布曲线；
2、当自由度不同时，曲线的形状不同；
3、越小，则t值越分散， t 分布的峰部越矮而尾部翘得
越高；随着增大，t 分布曲线越来越接近于标准正态分布曲
三、正态分布的面积规律
正态分布曲线下面积分布规律
μ± σ 范围内的面积占正态分布曲线下总面积的
68.27%，即有68.27%的变量值分布在此范围内；
μ± 1.96σ 范围内的面积占正态分布曲线下总面积的
95.00% ，即有95.00%的变量值分布在此范围内；
μ±2.58 σ 范围内的面积占正态分布曲线下总面积的9
（1）频数分布的特征
集中趋势反映变量值平均的数量水平。离散趋势反映变量值相互之间变异的程度。（2）频数分布的类型对称分布集中位置居中，左右两侧的频数基本一致。非对称分布集中位置偏向一侧，左右两侧频数不一致。 2、观察离群值便于发现一些特大、特小的可疑值。
第二节
计量资料的统计描述
一、集中趋势的描述
抗体滴度人数（f）滴度倒数（x） lgx flgx
1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
•找出全距
即最大值与最小值之差。
全距（R）= 160.9－125.9 = 35
•确定组距
•划分组段
为相邻两组段最小值之差。通常以R的1/10进行估计。
组距（i）= 全距（R）/10 = 35/10 = 3.5 可取i =4。
每个组段应有一个起始值作为组下限和一个终止值作为组上限；第一个组段应包括最小值，最后一个组段应包括最大值；组段数一般取8~15个；为避免相邻两组段界限互相包含，除最末一个组段外，其余组段只写下限。
X75%统
并且将与差值称为四分位间距（quartile range, Q）
计算 Q= Q3﹣ Q1
3、方差（variance）
用σ 2和s2表示。离均差的和离均差的平方和
方差
方差反映变量值变异程度的大小，方差越大，说明变量值的变异程度越大；方差越小，说明变异程度越小。
优点
全面考虑了一组变量值中的每一个数据。
合
计
100
120.7119
3、中位数（median, M）
一组按大小顺序排列的变量值，位次居中的数值即中位数。适用范围
•变量值呈偏态分布 •分布类型不清 •变量值的一端（或两端）无确定数值—开口型资料
计算方法直接法变量值个数不多。频数表法变量值个数较多，先整理频数表。
二、离散趋势的描述
线，当 →∞时， t 分布逼近标准正态பைடு நூலகம்布。
三、 t分布的界值
第一节
抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
抽样误差的概念
由抽样而引起的样本均数与总体均数之间的差别。（抽样研究中不可避免，有两种表现形式）
样本均数的抽样分布
从一个正态的总体中进行随机抽样：各样本均数未必等于总体均数；各样本均数间存在差异；样本均数的频数分布仍是以总体均数为中心的正态分布；样本均数的变异范围较原变量的变异范围小；随着样本量的增大，样本均数的变异范围逐渐缩小。
含义离散趋势是指计量资料所有观察值偏离中
心位置的程度，反映一组同质变量值相互之间参
差不齐的程度，即离散度或变异度。
常用指标全距、方差、标准差、变异系数。
1、全距（range, R）
又称极差，是一组变量值中最大值与最小值的差。
优点缺点
计算简单仅考虑了资料的最大值和最小值，不能反映
组内其它数据的变异程度。