第二章离散趋势

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

优点:简单明了
如上述三组数据中:



甲组数据的极差 R=34-26=8 乙组数据的极差 R=36-24=12 丙组数据的极差 R=34-26=8 甲组、丙组数据分布较乙组集中。 甲组与丙组的离散程度相同?
二、四分位间距(Quartile range )

百分位数(Percentile) 以Px表示,是一种位置指标。它是指把全 部数据由小到大排列后处于第X百分位置的数 值。Px将总体或样本的全部观察值分为两部 分,理论上有x%的观察值比它小,有(100 -x)%的观察值比他大。
2 5 12 15 25 26 19 15 10 1 N=∑f 130
115.0 302.5 762.0 997.5 1737.5 1885.0 1434.5 1177.5 815.0 84.5 ∑fX 9311.0∑fX2
பைடு நூலகம்
6612.5 18301.3 48387.0 66333.8 120756.3 136662.5 108304.8 92433.8 66422.5 7140.3 671354.5
平均数与变异度的关系

平均数表示的集中性 变异度表示的离散性
– 变异度越小,平均数对各变量值的代表性越好 – 变异度越大,平均数对各变量值的代表性越差
正确应用(1)



算数均数:适用于单峰对称分布资料; 几何均数:适合于作对数变换后单峰对称分布资料; 中位数和百分位数:适用于任何分布的资料; 中位数和百分位数在样本含量较少时不稳定,越靠两端越不 稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳定性, 但不如均数精确。 因此,当资料适合计算均数或几何均数时,不宜用中位数表 示其平均水平。 不同质的资料应考虑分别计算平均数。

例2-16 通过十省调查得知,农村刚满周岁的 女童体重均数为8.42kg,标准差为0.98kg;身 高均数为72.4cm,标准差为3.0cm。试计算周 岁女童身高与体重的变异系数。
变异指标小结
极差较粗,适合于任何分布 标准差与均数的单位相同,最常用,适合于近似正态 分布 变异系数主要用于单位不同或均数相差悬殊资料 均数和标准差描述正态分布资料的特征 中位数和四分位数间距描述偏态分布资料的特征
样本方差S
2
( ∑X X ) n 1
2
X X =
2
2
n
n 1
方差(variance)


方差越大,观察值的变异就越大 适用条件:对称分布、正态分布 特点:它反映的是所有观察值的变异情况 单位:原变量单位的平方
四、标准差 (standard deviation)
671354.5 9311.02 /130 S 5.89(次/分) 130 1
标准差


适用条件:对称分布、正态分布资料 意义:全面反映了一组观察值的变异程度.(越大说明 围绕均数越离散,反之说明较集中在均数周围,均数代 表性越好) 应用: 表示变量值的离散程度。均数相近,度量衡单位相同的条
件下,标准差越大则变异程度越大。
结合均数描述正态分布特征 计算变异系数、标准误
标准差


例2-1
三组同龄男孩的身高值(cm)

甲组 90 95 100 105 110 乙组 96 98 100 102 104 丙组 96 99 100 101 104
x 100
100 100
R 20 8 8
例 利用下表中的数据和频数表法计算标准差。
脉搏组段 (1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85 合 计 组中值(Xi) (2) 频数, f i (3)
fi X i
f i X i2
(4)
(5)
57.5 60.5 63.5 66.5 69.5 72.5 75.5 78.5 81.5 84.5
样本方差S
2
( ∑X X ) n 1
2

X 2 X n
2
n 1
样本方差为什么要除以(n-1)
与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任 何条件的限制,则n个数据可取任意值,称为有n个自由度 。若受到k个条件的限制,就只有(n-k)个自由度了。 计算标准差时, n个变量值本身有n个自由度。但受到样 本均数的限制,任何一个“离均差”均可以用另外的(n -1)个“离均差”表示,所以只有(n-1)个独立的“ 离均差”。因此只有(n-1)个自由度。
例如,某零件的真实长度为a,现用甲、乙两台仪器 各测量10次,将测量结果X用坐标上的点表示如图:

测量结果的均 值都是 a

a


甲仪器测量结果

a
乙仪器测量结果
较好
若让你就上述结果评价一下两台仪器的优劣,你认为 哪台仪器好一些呢? 因为乙仪器的测量结果集中在均值附近
正确应用(2)



标准差的基本内容是离均差,它显示一组变量值与其均 数的间距,故标准差直接地、总结地、平均地描述了变 量值的离散程度。 在同质的前提下,标准差大表示变量值的离散程度大, 即变量值的分布分散、不整齐、波动较大;反之,标准 差小表示变量值的离散程度小,即变量值的分布集中、 整齐、波动较小。 变异系数派生于标准差,其应用价值在于排除了平均水 平的影响,并消除了单位。
描述离散趋势的统计指标

极差(Range) 四分位间距(Quartile range ) 方差(Variance) 标准差(Standard Deviation) 变异系数(Coefficient of Variation)
一、极差(Range)
符号:R 计算:R=最大值-最小值 R反映的是观察值变异的范围大小。 适用条件:任何资料 极差反映个体变异的范围,R大,变异度就大。 缺点:易受特大、特小值影响,不稳定;除最大、最 小值,不能反映其他数据的变异度;样本量越大极差 就会越大。
离散趋势的概念:
描述一群变量值分布特征时,除用平均数表示其 集中位置外,还要说明变量值的分散或变异情况。说 明变异情况的特征值称变异指标。
变异指标又称离散指标。它用于描述一群计量资 料变量值之间参差不齐的程度,即离散程度或变异程 度。
离散趋势统计指标
例2-11 试观察三组数据的离散状况。A组:26,28,30, 32,34;B组:24,27,30,33,36;C组:26,29, 30,31,34。将三组数据分别点在直线上,如图2-4所 示。
正正正 正正正 正正正正 正正正 正正正 正正 正 正
3 1.7~1.8 25 160 100.0 (98.1~100) 合计 160 P75=1.3+0.1x[(160x75%-110)/17]=1.36
P =0.9+0.1x[(160x25%-37)/17]=0.92
四分位数间距 quantile range
X

适用条件:①观察指标单位不同,如身高、体重 ②同单位资料,但均数相差悬殊
变异系数的两个特点及相应的用途
没有单位
– –
反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度
不受平均水平的影响
– –
反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度
1.单位不同时组间变异程度的比较
标准差 (standard deviation)即方差的正平方根;其 单位与原变量X的单位相同。 计算 2 2 ( ( x X) x ) S 直接法: n 1 N 加权法(频数表):
频数表样本标准差S
fX fX f f 1
2 2
计量资料的统计描述
离散趋势的描述
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable.
ON AVERAGE
!
离散趋势的描述
累计频数 f (4) 3 12 24 37 54 72 92 110 127 140 149 157
累计百分率
1.9 (0~1.9) 7.5 (1.9~7.5) 15.0 (7.5~15.0) 23.1 (15.2~23.1) 33.8 (23.1~33.8) 45.0 (33.8~45.0) 57.5 (45.0~57.5) 68.8 (57.5~68.8) 79.4 (68.8~79.4) 87.5 (79.4~87.5) 93.1 (87.5~93.1) 98.1 (93.1~98.1)

某地7岁年龄组男童身高与体重
指标 身高(cm) 体重(kg)

x
123.10 22.29
S 4.71 x 2.26
CV(%) 3.83 10.14
结论: 7岁年龄组男童身高与体重值指标比较,体 重指标的变异大于身高指标。
2.比较组单位相同,但均数相差悬殊的组间变异程
度比较
某地不同年龄组男童身高(cm) 年龄组 S CV% X 1-2月 56.3 2.1 3.73 5-6月 66.5 2.2 3.31 3-3.5岁 96.1 3.1 3.22 5-5.5岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。 绝对变异受平均水平的影响 相对变异排除了平均水平的影响
甲、乙两门炮同时向一目标射击10发炮弹,其落点距目标 的位置如图:

中心


中心

乙炮
甲炮射击结果
乙炮射击结果
你认为哪门炮射击效果好一些呢?
因为乙炮的弹着点较集中在中心附近 .
离散趋势的描述

可见平均数只反映平均水平,还需用变异指标 来反映离散度,两者结合起来才能全面说明一 组变量值的分布特征。
P75
P50(中位数) P25 P0(min)
X%
(100 X )%
PX
组段 (1) 0.5~ 0.6~ 0.7~ 0.8~ 0.9~ 1.0~ 1.1~ 1.2~ 1.3~ 1.4~ 1.5~ 1.6~ 正 正正 正正
划记 (2)
频数,f (3) 3 9 12 13 17 18 20 18 17 13 9 8
三、 方差 (variance)
方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。 表示一组数据的平均离散情况。 离均差和 ( X - ) 0 ∑
离均差平方和(sum of square ) SS l xx ∑ X - ) 2 ( ( X - )2 总体方差 2 ∑ N
2 5 12 15 25 26 19 15 10 1 130
1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77
2 7 19 34 59 85 104 119 129 130
1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00

符号: Q QU~QL (中间一半观察值的极差) 计算 :Q=P75-P25 Q越大说明数据间的变异越大。 适用条件:可用于任何资料,主要用于偏态资料 特点:比极差要稳定 常与中位数一起,描述不对称分布资料的特征。
例 试求下列频数表数据的四分位数间距。
脉搏组段 (1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85 合 计 频数 (2) 频率 (3) 累积频数 (4) 累积频率 (5)
S x 7.91 3.16 2.92


标准差的意义: 反映一组变量值平均相差的水平,单位相同时,S越小,表示 数据的变异程度越小,同时表示该组均数的代表性越大。
五、变异系数 ( coefficient of variation)


描述相对离散程度的指标 符号: CV(没有单位) 计算: CV S 100%
计算
Px 所在组段下限值 (n x% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n x% f L ) Px L i fm
中位数是特殊的百分位数,即第50百分位数P50
百分位数示意图
100% 80% 60% 40% 20% 0% 0
P100(max)
相关文档
最新文档