3.统计描述(离散趋势的描述)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

者:
1 2 3 4 5 6 7 8 9
117 118 119 120
40 40 42 45 住院天数: 1 2 2 2 3 3 4 4 5 120 99% 118.8 ,带有小数,取整后trunc(118.8)= 118
P9 9 X ( tru n c (1 1 8 .8 ) 1) X (1 1 9 ) 4 2 ( 天 )
7
例2-10 某地118名链球菌咽喉炎患者的潜伏期 频数表见表2-5第(1)、(2)栏,试分别求中位数 及第25、第75百分位数。
表 2-5
天 (1) 12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~ 数
f 人数
118 名链球菌咽喉炎患者的潜伏期
累计频数 (3) 4 21 53 77 95 107 112 116 118 累计频率(%) (4) 3.4 17.8 44.9 65.3 80.5 90.7 94.9 98.3 100.0

X
( X )2

e
2 2
dX
34
图2-7 正态曲线面积分布示意图
35
1 ① X 轴与正态曲线所夹面积恒等于 或100% ;
②区间 的面积为68.27%
③区间 1.96 的面积为 95.00% ,
④区间 2.58 的面积为 99.00% 。见图2 7 。

2
(X ) N
1. 方差(variance)是离均差平方和的均数,反映一 组数据的平均离散水平。
由于在实际工作中,往往得到的样本资料,总体均数是未知 的,所以只能用样本均数 作为的估计值,即用 代替 ,用样本例数n代替N。但按公式计算的结果通常 比实际的 低。所以用n-1来代替n进行校正。得到样本方 差 总体方差 离均差平方和SS
25 下四分位数: QL P
P 100
P75
P50


75 上四分位数: QU P
比全距稳定;可用于一端或两端无确切数 值的偏态资料。 未考虑每一个观察值。
P25
P0
三、方差与标准差



全距和四分位数间距都未全面考虑观察值的变异 情况,为了克服该缺点,需计算总体中每个观察 值x与总体均数的差值(x-),称为离均差。 由于∑(x-)=0,不能反映变异的大小,而用 离均差平方和 ∑(x-)2(sum of deviation from mean)反映。同时还要考虑到观察值个数N 的影响,用其均数,即得到总体的方差,用2表 示。 公式为: 2
8
(2) 4 17 32 24 18 12 5 4 2
12 118 M P50 48 ( 53) 51 (天) 24 2

12 P25 36 (118 25% 21) 39.2 (天) 32
12 P75 60 (118 75% 77) 67.7 (天) 18
(3)正态分布有两个参数,即位置参数 和形态参数 。若固
X 轴平行移动,其形状不变(见图 2-5) 定 ,改变 值,曲线沿着 。
若固定 , 越小,曲线越陡峭;反之, 越大,曲线越平坦(见图 2-6) 。


0.5 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4
正态分布位置变换图
32
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
σ =0.5
σ =1 σ =2
正态分布位置变换图
33
(4)正态曲线下的面积分布有一定的规律。

对公式(2-17)积分 :
1 F(X ) 2



一、全距(Range)

全距,用R表示:即一组变量值最大值与最 小值之差,亦称极差。对于书中例8.1数据, 有
R=5.59–3.60 =1.99(mol/L)
R越大,变异度越大;R越小,变异度越小。
简单,但仅利用了两端点值,稳定性差。
二、四分位数间距(quartile range)

四分位数间距,用Q表示,若将一组资 料分为四等份,上四分位数和下四分位 数之差就是Q: Q=P75-P25
2.26 CV2 100% 10.14% 22.29 S
S
25
应用二:均数相差较大时
年龄组 3-3.5 岁 30-35 岁 某地区不同年龄男子身高(cm)的变异程度 人数 均数 标准差 CV(%) 100 100 96.1 170.2 3.1 5.0 3.2 0.3
26
四、正态分布
则称X 服从正态分布,记作X 体方差。
N ( , 2 ) ,
30
2.正态分布的特征
X 轴永不相交,且以 (1)在直角坐标上方呈钟型曲线,两端与
X
为对称轴,左右完全对称。
(2)在X 处, f ( X ) 取最大值,其值为 f ( ) 1 2 X ; 越远 离 , f ( X ) 值越小。
人 数
血糖(mol/L)
图 某地区2002年55~58岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图
27
正态分布
正态分布:又称为Gauss分布(Gaussian
distribution)。

设想当原始数据的频数分布图的观 察人数逐渐增加且组段不断分细时,图 2-4 中的直条就不断变窄,其顶端则逐 渐接近于一条光滑的曲线。这条曲线形 态呈钟形,两头低、中间高,左右对称, 近似于数学上的正态分布。在处理资料 时,我们就把它看成是正态分布。
离散趋势的描述
离散趋势的概念 离散趋势描述的指标 各指标的计算及意义
1
(二)百分位数


百分位数(percentile)是一种位置指 PX 来表示。 标,用 一个百分位数 PX 将全部变量值分为两部 X% 分,在不包含 PX 的全部变量值中有 (100 X )% 变量值比它 的变量值比它小, 大。
例:某地7岁男孩身高的均数为123.10 cm, 标准差为4.71cm;体重均数为22.29kg, 标准差为2.26kg, 比较其变异度?
应用一:观察指标单位不同
某地7岁男孩身高的均数为123.10cm,标准差为 4.71;体重均数为22.59kg,标准差为2.26kg,试比较 其变异度?
4.71 CV1 100% 3.83% 123.10
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 3 3 8 23 24 3.70 3.90 4.10 4.30 4.50 11.10 11.70 32.80 98.90 108.00
f i xi2
41.07 45.63 134.48 425.27 486.00
4.60~
4.80~ 5.00~ 5.20~
请求出M,75%,95%的值及算术均数的值
10
三 离散趋势的描述

反映集中趋势的指标(平均数),表示一组观察值 的平均水及集中特性,并可作为总体的一个代表值 加以应用。但是它没有表达其所代表的总体中各个 个体之间的差异。 统计学中把个体间的差异称为变异性(variation)。 所谓变异性是指在同质条件下的观察单位,其同一 标志的数据间的差异性。用以描述一组数值变量资 料观察值之间参差不齐的程度,即离散程度或变异 度的指标,称为离散指标或变异指标。
样本方差
自由度
2.标准差(standard deviation)

方差可以比较全面地反映变量值的变异情 况,但其方差的单位是原单位的平方,故 引入标准差的概念。 标准差:将方差开平方,恢复成原度量单 位,得到总体的标准差和样本标准差S。

3. 总体标准差 用σ表示
离均差平方和SS
公 式:

样本标准差用 所以最常用。 公 式:
2.频数表法

公式:
iX PX LX (nX % f L ) fX
为总例数。
式中 LX 、 iX 和 f X 分别为第X 百分位数所在组段 的下限、组距和频数,
f L 为小于 LX 各组段的累计频数,n
6
1 当 X % 50% 时,公式(2-9)即为中位数的计算公式 2
i50 n M P50 L50 ( fL ) f50 2
29
注意:一组数据是否真正符合正态分布,还 需进行相关的检验(见以后内容)!!
正态分布的概念和特征

1.正态分布曲线的数学函数表达式 如果随机变量 X 的分布服从概率密度函数
1 f (X ) e 2
( X )2 2 2
X
2 X 的总体均数, 为 为总
2
1.直接计算法


设有 x 个原始数据从小到大排列,第 x 百分位数的计算公式为: nX % 为带有小数位时: 当
PX X [trunc( nX %)1]

当nX % 为 整数时:
1 PX X X ( nX %) ( nX % 1) 2
3
例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名 患者的住院天数从小到大的排列如下,试求第5百分位数
表示 ,其度量单位与均数一致,
标准差的公式还可以写成 :
利用频数表计算标准差的公式为:
例 对以下数据: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72, 用直接法计算标准差。
例 利用表中的数据和频数表法计算标准差。 f i xi 血糖(mol/L)组段 频数( fi ) 组中值( x ) i
25
20 12 10
4.70
4.90 5.10 5.30
117.50
98.00 61.20 53.00
552.25
480.20 312.12 280.90
5.40~5.60
合计
4
132
5.50
22.00
614.20
121.00
2878.92
四、变异系数
变异系数(coefficient of variation,CV) 常 用于比较度量单位不同或均数相差悬殊的两 组(或多组)资料的变异程度。
9
思考题:
某地120名正常成人血清铜含水量umol/L频数表
组段 9.0~ 10.0~ 11.0~ 12.0~ 13.0~ 14.0~ 15.0~ 16.0~ 17.0~ 18.0~ 19.0-20.0 合计 频数f 3 4 12 13 17 22 18 13 11 5 2 120 频率% 2.5 3.3 10.0 10.8 14.2 18.3 15.0 10.8 9.2 4.2 1.7 100 累积频数fc 3 7 19 32 49 71 89 102 113 118 120 累积频率pc% 2.5 5.8 15.8 26.6 40.8 59.1 74.1 84.5 94.1 98.3 100.0
五 二、标准正态分布
正态分布是一个分布族,对应于不同的参数 和 会产生不同位置、 不同形状的正态分布。
为了应用方便,令 :
X u
1 (u) e 2
u 2 2

u
即将 X
N ( , 2 ) 的正态分布转化为u
N (0,1)
的标准正态
u 分布(standard normal distribution),式中的 称为标准正态变量,其
来自百度文库

和第99百分位数。
者: 1
2 3 4 5 6 7 8 9
117 118 119 120
1 2 住院天数:
2 2 3 3 4 4 5
40
40
42
45
n=120,120X5%=6,为整数:
1 1 P5 X (6) X (7) (3 4) 3.5(天 ) 2 2

例2-9 对某医院细菌性痢疾治愈者的住院天数统计,名 患者的住院天数从小到大的排列如下,试求第5百分位数 和第99百分位数。

例:设甲、乙、丙三人,采每人的耳垂血,然后作红 细胞计数,每人数5个计数盘,得结果如下(万/mm3) 盘编号 甲 乙 丙
580 560 540 520 500 480 460 440 420
1
2 3 4 5 合计
560 540 500 460 440
2500
520 510 500 490 480
2500
510 505 500 495 490
2500
均数
500
500
500

乙 丙
常用统计指标:

全距或极差(range) 四分位数间距(quartile interval) 方差和标准差(variance&standard deviation) 变异系数(CV coefficient of variation)
相关文档
最新文档