集中和离散趋势

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

小结
集中－离散
众数－异众比例中位数－极差四分位数－四分位差平均数－方差、标准差、标准误、离散系数选用哪组测度指标要根据掌握的数据的类型和分析目的来确定

小结
表1 不同层次数据的集中趋势测量指标众数分定类变量值类定序连定距变量值续组中值定比计算中位数平均数
0
1
2
3
4
5
6
7
8
9 10
A、B两组学生成绩
6 方差和标准差
方差（Variance）

各变量值与其平均数离差平方的平均数
图示变量值平均数变量值到均值的距离
标准差（Standard
deviation，S.D.）
方差的平方根标准差越大，变量值越分散，平均数解释力越低

方差的计算公式
总体方差
2
样本方差
Βιβλιοθήκη Baidu
2 ( X X ) i i 1
N
N
2 ( x x ) i i 1 n
s2
n 1
自由度
概念

一组数据中可以自由取值的个数当样本数据的个数为n时，若样本均值 x 确定后，只有n－1个数据可以自由取值，其中必有一个数据不能自由取值，所以自由度为n－1
人数 17,339,000 1,702,000 1,547,000 1,309,000 1,249,000
语种菲律宾语波兰语韩语越南语葡萄牙语
人数 843,000 723,000 626,000 507,000 430,000
资料来源：U. S. Bureau of the Census, Statistical Abstract of the United States: 1997, 117th edition (Washington, DC: GPO,1997)
1
3
3 4 5 6 7 8 9
Q
3
10
R=10 R=10
Q=2
Q=6
5 平均数/均值（Mean）
是统计数据高低相互抵消的结果是集中趋势的最主要的测度指标适用于定距数据和定比数据，不适用于定类
和定序数据
例3
例题
甲班：19、20、21、22、23 乙班：17、18、19、23、23、32 中位数：甲班：21 乙班：21
x x n
中间位置的值
出现频数最多的值
中位数众数
定序数据定距数据定比数据所有数据
如果存在极端值，该方法是一个理想选择比较适合定类数据
否
否
平均数、中位数、众数的比较
M0 Me X

X Me M0

M0 Me X

对称分布
左偏分布

右偏分布
M 0－众数 M e－中位数 X －平均数

K n(n 1) ( xi x )4 3[ ( xi x )2 ]2 (n 1) (n 1)(n 2)(n 3)s 4

分组
K
4 ( M x ) fi i i 1
k
ns
4
3
峰度系数
K=0，数据服从标准正态分布 K>O，数据呈尖峰分布 K<0，数据呈平峰分布

( x x) 2
83.3

123.8 50.8 17.0 0.8
192.5 97.5 47.3
s2
2 ( x x ) n 1
87.6
s s2 9.4
x 1353 169.1 x＝
n 8
( x x) 0
2 ( x x ) 612.9
各变量值与其均值的离差平方和最小
2 ( X X ) 最小 i i 1 N
这表明X是描述现象集中趋势的最佳代表值
缺陷
易受极端值的影响开口式分组条件下计算加权均值，假设性比
较大，也会影响均值的代表性
几何平均数（Geometric mean）
通常用于计算比率平均或速度平均公式
G

N
X
i 1
N
i
若将变量值取对数，几何平均数就变成均值形式
l og X l ogG N
i
例4

某人持有一种股票，2003～2006年每年的收益率分别为 4.5%、2.0%、3.5%、5.4%。计算四年内的平均收益率。
GM 4 1.0451.021.0351.054 1.0384
表2 学生来源地
单位：人人数 1 1 3 1 1 1 省份江西山东陕西云南浙江总计人数 4 2 1 2 1 19
微弱
没有总计
0
0 18
V=33.3%
V=78.9%
3 中位数（Median）

概念：一个分布的中间点案例和计算步骤两个组同学年龄甲组：19、20、23、22、21 乙组：17、23、18、19、32、23 排序
十分位数
箱线图

用途

可表示一组数据的最大值、上四分位数、中位数、下四分位数、最小值
120
考试成绩（分）
100 80 60 40 20 0 英语统计
图1 11位同学的英语和统计成绩的箱线图
比较不同受教育程度成人收入分布的箱线图
200000
个人收入（美元）
150000 100000 50000 0 只有高中毕业曾读大学学士学位受教育程度更高学位

0 10＋6 24＋9 83 ＋12 68＋15 34 10＋24＋83 ＋68＋34 10.1（年）
三个重要的数学性质
各个变量值之和是均值的n倍（共n个数据）各个变量值与均值的离差之和为零
(X
i 1
N
i
X) 0
这表明各个变量值与平其均数的离差 Xi X 有正有负，但离差通求过和可以完全抵消。
单位：人
表2 学生来源地
单位：人省份北京广西人数 1 1 省份江西山东人数 4 2
程度
强烈中等微弱没有总计
人数
12 6 0 0 18
贵州
河北河南湖北
3
1 1 1
陕西
云南浙江总计
1
2 1 19
异众比例（Variation ratio）
定义
非众数组的频数占总频数的比例公式
月工资（元） 820-860 860-900 900-940 940-980 980-1020 合计
众数出现的可能性
单众数
频数英语分数频数德语分数
双众数
多众数
频数日语分数频数
无众数
俄语分数
2 异众比例（Variation ratio）
众数的代表性
表1 学生自我评定生存欲望情况

X F
i 1 k i
k
i
F
i 1
i
加权算术平均数（Weighted mean）
计算平均受教育年限
数据：某公司员工：未上学10人，小学24人，初中83人，高中68人，大专及以上34人。解：
X 1 F1 X 2 F2 X K FK X F1 F2 FK
例2 方差计算步骤
表3 A组同学身高
序号 1 2 3 4 5 6 7 8 身高 160 158 162 165 170 183 179 176
－
xx
160-169.1= －9.1 158-169.1= －11.1 162-169.1= －7.1 165-169.1= －4.1 170-169.1= 0.9 183-169.1= 13.9 179-169.1= 9.9 176-169.1= 6.9

简单算术平均数：
甲班：21 乙班：22

算术平均数（Arithmetic mean）
定义
全部数据的算术平均公式简单算术均值

X1 X 2 X N X N

X
i 1
N
i
N

加权算术均值
X F X 2 F2 X K FK X 1 1 F1 F2 FK

分组
SK
(M
i 1
k
i
x )3 f i
ns 3
偏态系数
SK=0，数据分布是对称的 SK>0，数据分布是右偏的 SK<0，数据分布是左偏的 SK的绝对值越大，说明偏斜的程度越大
右偏/正偏
左偏/负偏
峰度及其测度
峰度（kurtosis）
与标准正态相比数据分布是平峰还是尖峰的特征度量值：峰度系数k 未分组
图2 美国不同受教育程度的成人收入情况
注：每一个箱线图的两端，是分布的5%和95%的点。
4 极差/全距（range）
中位数的代表性 A
12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
B 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
M=5 R=4
是否还有其他可能？
三、数据分布形状的描述
偏态峰度
偏态及其测度
偏态（skewness）
数据分布的不对称性判断方向：可用众数、中位数、均值三者之间的大小关系大致判断数据分布是对称、左偏还是右偏测度偏斜程度：偏态系数未分组 n ( x i x ) 3

SK ( n 1)(n 2) s 3

7 标准误
s S .E . n
8离散系数/变异系数
概念
一组数据的标准差与其均值之比公式 s

us
x
主要用于比较不同样本数据的离散程度离散系数↑，数据的离散程度↑ 离散系数↓，数据的离散程度↓ 例题 A组： 9.600/36.0=0.267 B组： 9.013/29.5=0.306
(1.0384-1)×100=3.84%
EXCEL：＝X^(1/N) =POWER(X,1/N)
平均数的代表性
A、B两组成绩，孰好孰坏？
A 5 4 5 B 9 2 7
A 8 6
5 4 3 2 1 0 B
XA 5

XB 5

5
5 4 6 5 6 5
2
2 9 2 5 3 9
4 2 0 0 1 2 3 4 5 6 7 8 9 10
定量数据的众数
频数最大的变量值即众数
表2 社会学生的年龄分布
年龄（岁） 19 20 21 22 23 总计人数（人） 3 8 6 1 1 19
例1
某企业一车间有30名职工，他们的工资收入情况
如下表所示，请计算工资众数
表4 30名职工工资收入的频数分布表
职工人数 3 7 13 5 2 30
中间位置的变量值
奇数：a n / 2 an an 偶数：
2 2 1
简单算术平均数
加权算术平均数
几何平均数
2
平均数、中位数、众数的优缺点
集中趋势平均数
x
x
n
定义
适用范围定距数据定比数据
数量一个一个无、一个多个
是否计入所有数值是否
是否受极值影响是否
优点和不足绝大部分情况下使用
甲组：19、20、21、22、23 乙组：17、18、19、23、23、32
找到中间位置的值
奇数为中间位置的值偶数为中间两个数的平均值甲班：21 乙班：21
分位数
中位数

50%的数大于这个数，50%的数小于这个数
四分位数

下四分位数：25%的数小于这个数上四分位数：75%的数小于这个数例：75%的财富集中在25%的人手中

Vr
f f 表示变量值的总频数，
i
f f f
i i
m
fm 1 fi
m
表示众数组的频数
取值范围：〔0，1〕异众比例↑，众数代表性↓ 异众比例↓，众数代表性↑

例1 计算异众比例
表1 学生自我评定生存欲望情况
单位：人程度强烈中等人数 12 6 省份北京广西贵州河北河南湖北
M=5 R=8
极差（range）是变量观测值中最大值与最小值之差
R＝max(xi ) min(xi )
极差的代表性
极端值的影响
10，20，30，80 10，20，30，40
R=70 R=30
极差的代表性
生育孩子数目 0 A组 B组
Q
1
1 2
Q
四分位差（quartile Q deviation） Q=Q3－Q1
三、峰度、偏度
四、数据标准化
1 众数（Mode）
概念：一组数据中出现次数最多的变量值
特别注意：变量值可能是定类、定序、定距、定比中的任意一种！变量值可能是数值，也可能是字符！
定类数据的众数
频数最大的变量值即众数
表1 在美国名列前10位的外国语种
单位：人
语种西班牙语法语德语意大利语汉语
人
性
大多数人坚持走自己选择的路，但很少的人
坚持追随自己选择的目标。
两湾似蹙非蹙罥烟眉，一双似喜非喜含情目。
两湾似蹙非蹙罥烟眉，一双似泣非泣含露目。
第三章数据的集中和离散趋势
一、集中趋势
1 众数 2 中位数、分位数 3 平均数（算术、几何、加权）
二、离散趋势
异众比例全距（极差）、分位差方差、标准差、标准误、离散系数/变异系数