第4章 数据分布特征的测度
统计学习题答案 4~9章

统计学
第4章 数据分布特征的测度
4.1 一家汽车零售店的10名销售人员5月份销售的汽 车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求: (1)计算汽车销售量的众数、中位数和平均数; M 0 10,M e 10,x 9.6, (2)根据定义公式计算四分位数;QL 5.5,QU 12, (3)计算销售量的标准差;
n ( xi x )3 1.08
(4)计算偏态系数和峰态系数;
(n 1)(n 2) s 4 2 2 n(n 1) ( xi x ) 3[ ( xi x ) ] (n 1)
3
(n 1)(n 2)(n 3)s
4
0.77
(5)对网民年龄的分布特征进行综合分析。 样本数据的均值为24岁,但标准差较大,说明网民 年龄之间差异较大.
0
30
60
经管类 核心课程
统计学
第3章 数据的整理与显示
3.1 为评价家电行业售后服务的质量,随机抽取了由 100家庭构成的一个样本。服务质量的等级分别 表示为:A.好;B.较好;C.一般;D.较差;E.差。 调查结果如下表:
B E C C A D C B A E
D
A B C D B
A
D A B A E
SK 0.203,K 0.688
600以上
合计
11
120
(2) 计算分布的偏态系数和峰态系数。
经管类 核心课程
统计学
第4章 数据分布特征的测度
4.7 为研究少年儿童的成长发育状况,某研究所的 一位调查人员在某城市抽取100名7~17岁的少 年儿童作为样本,另一位调查人员则抽取了 1000名7~17岁的少年儿童作为样本。请回答下 面的问题,并解释其原因。 (1)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童的平均身高较大?或者这两组样本的 平均身高相同? (2)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童身高的标准差较大?或者这两组样本 的标准差相同?
第四章 数据分布特征度量

220-230 230-240 合计
4 5 120
115 120 -
9 5 -
二、定序数据:中位数/四分位数
2. 四分位数(Quartile) 一组数据排序后处于25%、75%位臵上的变量值
25% 25% 25% 25%
QL
QM
QU
四分位数的计算 数据排序 确定四分位数位臵(n/4、 3n/4 ) 确定该位臵上的数值(QL、QU)
1. 极差(全距) 一组数据的最大值与最小值之差 特点 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布
7 8 9 10
计算公式: R = max(xi) - min(xi)
7 8 9 10
2. 平均差(平均绝对离差 ) 各变量值与其平均数离差绝对值的平均数 计算公式 n xi x 简单平均差
可看作是均值的一种变形
X
i 1
n i 1
n
i
1 lg G (lg x1 lg x2 lg xn ) n
lg x
n
i
几何平均法的含义 从最初水平 a0 出发,每期按平均发展速度发展, 经过 n 期后将达到最末期水平 an 只与序列的最初观察值 a0 和最末观察值 an 有关
§4.2
离散趋势的度量
离散趋势 不同类型的数据有不同的 离散程度测度指标 常用测度指标: 异众比率 四分位差 方差和标准差 离散系数
§4.2 离散趋势的度量
一、定类数据:异众比率
非众数组的频数占总频数的比例 特点 用来衡量众数对一组数据的代表程度 主要用于定类数据 计算公式 k fi f m f Vr i 1 k 1 k m fi fi
统计学-数据分布特征

2
描述集中趋势的统计
一、平均数
平均数:
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在 易受极端值的影响
用于数值型数据,不能用于品质型数据
4
一、平均数
5
平均数的计算公式
6
二、中位数和分位数
(一)中位数 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响
14
15
例:某城市居民关注广告类型的频数分布
16
例:甲城市家庭对住房状况评价的分布频数
17
四、各度量值的比较
18
四、各度量值的比较
19
四、各度量值的比较
20
各度量值适用的数据类型
21
4.2离散程度的度量
22
4.2离散程度的度量
离散程度 数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离 中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
50
51
一、偏态及其测度
52
二、峰态及其测度
53
例:
54
55
56
57
用Excel计算描述统计量
58
用Excel计算描述统计量 72页习题2
59
60
61
62
63
作业1:
64
65
作业2:
66
答案:
67
68
对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 用于对变量的标准化处理
40
标准分数的性质
41
例:
第四章 数据分布特征的测度

第四章数据分布特征的测度教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。
变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。
通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。
教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。
难点是不同条件下平均指标和变异指标的计算。
统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。
为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。
对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。
这三个方面分别反映了数据分布特征的不同侧面。
第一节集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
测度集中趋势也就是寻找数据一般水平的代表值或中心值。
低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。
一、分类数据:众数(M o)众数是指一组数据中出现次数最多的变量值。
•出现次数最多的变量值•不受极端值的影响•一组数据可能没有众数或有几个众数•主要用于分类数据,也可用于顺序数据和数值型数据从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
第四章数据分布特征的度量 (1)

第四章思考与习题一、思考题1.什么是集中趋势?测度集中趋势常用指标有哪些?2.算术均值.众数和中位数有何关系?3.什么是几何平均数?其适用场合是什么?4.什么叫离散趋势?测度离散趋势常用指标有哪些?5.为什么要计算离散系数?二、练习题(一)填空题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势离散程度偏斜和峰度__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。
2.在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:,则其众数为,中位数为。
3.算术均值有两个重要数学性质:各变量值与其算术均值的__________等于零;各变量值与其算术均值的__________等于最小值。
4.简单算术均值是__________的特例。
4.几何均值主要用于计算__________的平均。
5.在一组数据分布中,当算术均值大于中位数大于众数时属于________分布;当算术均值小于中位数小于众数时属于________分布。
6.__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。
7.为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。
8.偏态是对数据分布__________或__________的测度;而峰度是对数据分布_________的测度。
(二)判断题1.众数的大小只取决于众数组与相邻组次数的多少。
()2.当总体单位数n为奇数时,中位数=(n+1)/2。
()3.根据组距分组数据计算的均值是一个近似值。
()4.若已知甲企业工资的标准差小于乙企业,则可断言:甲企业平均工资的代表性好于乙企业。
()5.标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,也没有改变一个数据在该组数据中的位置,只是使该组数据的均值为0,标准差为1。
第四章数据特征测度平均指标

m1 m2 mn
1 x1
m1
1 x2
m2
1 xn
mn
m 1 m x
调和平均数
(例题分析)
【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三 种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据
蔬菜 名称
甲 乙 丙
批发价格(元) xi
1.20 0.50 0.80
成交额(元) mi=xi fi 18000 12500 6400
分组资料: (x x)2 f 为最小。
这两个性质是进行趋势预测、回归预测、 建立数学模型的重要数学理论依据。
算术平均数(均值,mean ) 小结
1. 集中趋势的最常用测度值 2. 一组数据的均衡点所在(重心) 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺
f 1 f 2 fn
i 1 n
fi
i 1
简写为:
x
xf f
分组资料时,各组变量值应用组中值M代替。
加权算术平均数
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下
甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8
乙组: 考试成绩(x): 0 20 100
2.平均指标可以反映现象总体的综合特征 3.平均指标经常用来进行同类现象在不同空间
、不同时间条件下的对比分析
二、平均指标的类别及计算
算术平均数(Mean) 均 值(Mean) 调和平均数(Harmonic mean)
几何平均数(Geometric mean) 中位数 (Median)
众 数 (Mode)
值 x及各组的标志总和 m 即 xf 时,可采用加权调和
数据分布特征的测度.

n
0 8 20 1 100 1 12(分) 10
均值的数学性质
1. 各变量值与均值的离差之和等于零
(x x) 0
i 1 n i
n
2. 各变量值与均值的离差平方和最小
(x x)
i 1 i
2
min
二、调和平均数 (倒数平均数 Harmonic mean)
甲 乙 丙
15 20 30
试指出那个厂的总平均成本高,其原因何在?
练习3: 计算某地区工业企业产值平均计划完成程度
计划完成%
90以下 90——100 100——110 110——120 120以上 合计
企业数(个)
7 22 57 26 3 115
计划产值(万元)
140 310 1650 710 40 2850
均值(mean)
1.
2. 3. 4. 5.
集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺 序数据
一、算术平均数(Arithmetic mean)
(一)简单算术平均数
X X N
i
例:有5名工人生产的零件数分别为:15、16、17、18、 19,平均零件数为多少?
xf xA Ax x x f A nA n
例:计算某车间工人平均工资(单项式)
某班组工人平均工资的计算(单项式数列)
工资(x) 500 530
740 860 1020 合计
工人数(f) 2 4
8 5 1 20
工资总额(xf) 1000 2120
5920 4300 1020 14360
第四章数据分布特征的测度

第四章数据分布特征的测度一、选择题1.一组数据中出现频数最多的变量值称为()。
A.众数B.中位数C.四分位数D.均值2.下列关于众数的叙述,不正确的是()。
A.一组数据可能存在多个众数B.众数主要适用于分类数据C.一组数据的众数是唯一的D.众数不受极端值的影响3.一组数据排序后处于中间位置上的变量值称为()。
A.众数B.中位数C.四分位数D.均值4.一组数据排序后处于25%和75%位置上的值称为()。
A.众数 B.中位数C.四分位数D.均值5.非众数组的频数占总额数的比率称为()。
A.异众比率B.离散系数C.平均差D.标准差6.如果一个数据的标准分数是-2,表明该数据()。
A.比平均数高出2个标准差B.比平均数低2个标准差C.等于2倍的平均数D.等于2倍的标准差7.比较两组数据的离散程度最适合的统计量是()。
A.极差B.平均差C.标准差D.离散系数8.偏度系数测度了数据分布的非对称性程度。
如果一组数据的分布是对称的,则偏度系数()。
A.等于0 B.等于1 C.大于0 D.大于1 9.某专家小组成员的年龄分别为29,45,35,43,45,58,他们的年龄中位数为()。
A.45 B.40 C.44 D.3910.某居民小区准备建一个娱乐活动场所,为此,随机抽取了80户居民进行调查,其中表示赞成的有59户,表示中立的有12户,表示反对的有9户。
该组数据的中位数是()。
A.赞成B.59 C.中立D.1211.对于右偏分布,均值、中位数和众数之间的关系是()。
A .均值>中位数>众数B .中位数>均值>众数C .众数>中位数>均值D .众数>均值>中位数12.某班学生的大学英语平均成绩是70分,标准差是10分。
如果已知该班学生的考试分数为对称分布,可以判断成绩在60分~80分之间的学生大约占( )。
A .95%B .89%C .68%D .99%13.当一组数据中有一项为零时,不能计算( )。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
例:某地区3000家农户的年收入情
况资料如下:
年收入额(元)
农户数 (户)
向上累计户 数(户)
向下累计户 数(户)
5000—6000 240
240
3000
6000—7000 480
720
2760
7000—8000 1050
1770
2280
8000—9000 600
2370
1230
9000—10000 270
xi fi
i 1 n
fi
n
xi (
i 1
fi )
n
fi
例:某机械厂180个工人对某种零件i1的生产情况资i1
料如下:
日产量
工人人数 日总产量
(件)
(人)
(件)
15
10
150
16
20
320
17
30
510
18
50
900
19
40
760
20
30
600
合计作者:哈尔滨工程大1学80朱建新
3240
22
几何平均数
X 8.3
4 6 8 10 12
作者:哈尔滨工程大学 朱建新
33
样本方差公式
Sample Variance Formula
n
(xi x)2
S 2 i1
n1
分母是(n - 1)。如果 是总体方差就用N
( x1
x)2
(
x2
x)2 n1
(xn
...
x)2
作者:哈尔滨工程大学 朱建新
34
样本标准差公式
➢ 表现了标准差相对于均值的比率
➢ 用来比较两组或多组计量单位不同的数 据的变异程度
➢ 公式
CV S 100% X
作者:哈尔滨工程大学 朱建新
36
➢§1 概述 ➢§2 集中趋势的测度 ➢§3 离散趋势的测度 ➢§4 偏态和峰度趋势的测度
作者:哈尔滨工程大学 朱建新
37
一、偏态(Skewness)趋势及其测度
➢ 度量数据的离散程度Measure of Dispersion ➢ 为第三和第一四分位数之差
四分位间距 Q 3 Q1
➢ 包括排序数据处于中间位置50%的观测值 ➢ 不受极值影响
作者:哈尔滨工程大学 朱建新
32
方差和标准差
Variance & Standard Deviation
➢ 度量数据的离散程度Measures of Dispersion ➢ 是最为常用的变异程度的度量 ➢ 涉及数据的分布状况 ➢ 表示全部观测值相对于均值的平均变异程度
2850
360
11000—12000 120
2970
150
12000—13000 30
3000
30
合计
3000
——
作者:哈尔滨工程大学 朱建新
—— 17
四分位数 Quartiles
➢ 用于度量数据的非集中趋势Noncentral ➢ 把排序数据等分为四个区间Quarters
25% 25% 25% 25%
Sample Standard Deviation
S S2
n
(xi x)2
i1 n1
标准差为方差的平方根
( x1 x)2 ( x2 x)2 ( xn x)2 n1
作者:哈尔滨工程大学 朱建新
35
变异系数 Coefficient of Variation
➢ 度量相对离散程度 (Measure of Relative Dispersion)
作者:哈尔滨工程大学 朱建新
30
全 距(极差)Range
➢ 度量数据的离散程度Measure of Dispersion ➢ 最大和最小观测值之差
全距 Xmax Xmin
➢ 不考虑数据如何分布取决于数据的极端值
7 8 9 10
7 8 9 10
作者:哈尔滨工程大学 朱建新
31
四分位间距
Interquartile Range
➢ Q3。 third quartile, 第三四分位数是处于 3(n+1)/4位置上的观测值。75%的观测值 比第三四分位数小。
作者:哈尔滨工程大学 朱建新
19
均 值 (平均数)
(arithmetic) Mean
➢ 用于度量数据的集中趋势Central Tendency
➢ 是最常见的集中趋势的度量
Q1
Q2
Q3
➢ 第i个四分位数的位置
Qi位置
i (n 1) 4
作者:哈尔滨工程大学 朱建新
18
四分位数 Quartiles
➢ Q1,first quartile, 第一四分位数是处于 (n+1)/4 位置上的观测值。 25%的观测 值比第一四分位数小。
➢ Q2,second quartile, 第二四分位数就是 中位数。处于2(n+1)/4 =(n+1)/2的位置 上。50%的观测值比中位数小。
G 4 0.95 0.92 0.90 0.85 0.9043 90.43 00
作者:哈尔滨工程大学 朱建新
24
算术平均数、中位数、众数的关系
1.对称分布(钟型分布)
Y轴
Mo XMe
作者:哈尔滨工程大学 朱建新
25
算术平均数、中位数、众数的关系
2.右偏分布(正偏分布)
Mo Me X
作者:哈尔滨工程大学 朱建新
geometric mean
➢ 常用于计算百分比、比率、指数、增 长率等指标的平均数
➢ 几何平均数 算术平均数 ➢ 公式(要求 Xi > 0 )
g n X1 X2 Xn
作者:哈尔滨工程大学 朱建新
23ห้องสมุดไป่ตู้
例:某机械厂有毛坯车间、粗加工车间、精加工车 间、装配车间四个流水连续作业的车间。本月份毛 坯车间制品合格率为95%,粗加工车间为92%,精 加工车间为90%,装配车间为85%。求该企业平均 车间产品合格率。
n
n
例:某机械厂某生产小组6个工人生产某种零件的日产 量(件)分别为15、16、17、18、19、20。则平均日 产量为
x 15 16 17 18 19 20 105 (17.件5 )
6
6
作者:哈尔滨工程大学 朱建新
21
分组数列——加权算术平均数 n
x
x1 f1 x2 f 2 xn f n f1 f2 fn
应用统计学 Applied Statistics
第4章 数据分布特征的测度
➢ §1 概述 ➢ §2 集中趋势的测度 ➢ §3 离散趋势的测度 ➢ §4 偏态和峰度趋势的测度
作者:哈尔滨工程大学 朱建新
2
概述
数值数据的特征
集中趋势
离散趋势
分布形状
均值 中位数 众数
全距 四分位差 方差 标准差 变异系数
26
算术平均数、中位数、众数的关系
2.左偏分布(负偏分布)
X Me Mo
作者:哈尔滨工程大学 朱建新
27
箱线图
Box-and-Whisker Plot
用5个度量值概括表述数据特征: Graphical Display of Data Using 5-Number Summary
最小值、第一四分位、中位数、第三四分位、最大值
n
(X i X )3 fi
a3 i1
n
3
fi
i 1
当 a3 0负偏或左偏 a3 0对称 a3 0正偏或右偏
作者:哈尔滨工程大学 朱建新
38
二、峰度(Kurtosis)趋势及其测度
K
(Xi X)4 fi
a4 i1
n
3
4 fi
i 1
a4 0 尖峰分布
a4 0 平峰分布
作者:哈尔滨工程大学 朱建新
2640
630
10000—11000 210
2850
360
11000—12000 120
2970
150
12000—13000 30
3000
30
合计
3000
——
作者:哈尔滨工程大学 朱建新
—— 11
集中趋势的测度
三、位置平均数
1.中位数 是一组数据按从小到大排序后,处于中 间位置上的变量值。
中位数是一个位置代表值,它主要用于测 度定序数据的集中趋势。
作者:哈尔滨工程大学 朱建新
12
中位数 Median
根据未分组资料确定中位数
➢ 为排序序列的中间值
如果 n 是奇数, 即为排序序列居中位置的 观测值
如果 n 是偶数, 则为排序序列两个居中位
置的观测值的均值
➢ 中位数在序列中的位置: 位置 n 1
➢ 不受数据极端值的影响
2
作者:哈尔滨工程大学 朱建新
13
中位数 Median
根据分组资料确定中位数
①单项分组资料
ⅰ计算中位数位置 ( f )
2
ⅱ将分组数列的次数进行向上或向下累计
ⅲ选择第一个大于或等于 f
的组即为中位数所在组2 ⅳ对应的标志值为中位数
作者:哈尔滨工程大学 朱建新
14
中位数 Median
根据分组资料确定中位数
②组距分组资料
d
f
2
偏态 峰度
作者:哈尔滨工程大学 朱建新
3
➢ §1 概述 ➢ §2 集中趋势的测度 ➢ §3 离散趋势的测度 ➢ §4 偏态和峰度趋势的测度
作者:哈尔滨工程大学 朱建新
4
集中趋势的测度