第4章 数据分布特征的测度
统计学习题答案 4~9章

统计学
第4章 数据分布特征的测度
4.1 一家汽车零售店的10名销售人员5月份销售的汽 车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求: (1)计算汽车销售量的众数、中位数和平均数; M 0 10,M e 10,x 9.6, (2)根据定义公式计算四分位数;QL 5.5,QU 12, (3)计算销售量的标准差;
n ( xi x )3 1.08
(4)计算偏态系数和峰态系数;
(n 1)(n 2) s 4 2 2 n(n 1) ( xi x ) 3[ ( xi x ) ] (n 1)
3
(n 1)(n 2)(n 3)s
4
0.77
(5)对网民年龄的分布特征进行综合分析。 样本数据的均值为24岁,但标准差较大,说明网民 年龄之间差异较大.
0
30
60
经管类 核心课程
统计学
第3章 数据的整理与显示
3.1 为评价家电行业售后服务的质量,随机抽取了由 100家庭构成的一个样本。服务质量的等级分别 表示为:A.好;B.较好;C.一般;D.较差;E.差。 调查结果如下表:
B E C C A D C B A E
D
A B C D B
A
D A B A E
SK 0.203,K 0.688
600以上
合计
11
120
(2) 计算分布的偏态系数和峰态系数。
经管类 核心课程
统计学
第4章 数据分布特征的测度
4.7 为研究少年儿童的成长发育状况,某研究所的 一位调查人员在某城市抽取100名7~17岁的少 年儿童作为样本,另一位调查人员则抽取了 1000名7~17岁的少年儿童作为样本。请回答下 面的问题,并解释其原因。 (1)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童的平均身高较大?或者这两组样本的 平均身高相同? (2)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童身高的标准差较大?或者这两组样本 的标准差相同?
第四章 数据分布特征度量

220-230 230-240 合计
4 5 120
115 120 -
9 5 -
二、定序数据:中位数/四分位数
2. 四分位数(Quartile) 一组数据排序后处于25%、75%位臵上的变量值
25% 25% 25% 25%
QL
QM
QU
四分位数的计算 数据排序 确定四分位数位臵(n/4、 3n/4 ) 确定该位臵上的数值(QL、QU)
1. 极差(全距) 一组数据的最大值与最小值之差 特点 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布
7 8 9 10
计算公式: R = max(xi) - min(xi)
7 8 9 10
2. 平均差(平均绝对离差 ) 各变量值与其平均数离差绝对值的平均数 计算公式 n xi x 简单平均差
可看作是均值的一种变形
X
i 1
n i 1
n
i
1 lg G (lg x1 lg x2 lg xn ) n
lg x
n
i
几何平均法的含义 从最初水平 a0 出发,每期按平均发展速度发展, 经过 n 期后将达到最末期水平 an 只与序列的最初观察值 a0 和最末观察值 an 有关
§4.2
离散趋势的度量
离散趋势 不同类型的数据有不同的 离散程度测度指标 常用测度指标: 异众比率 四分位差 方差和标准差 离散系数
§4.2 离散趋势的度量
一、定类数据:异众比率
非众数组的频数占总频数的比例 特点 用来衡量众数对一组数据的代表程度 主要用于定类数据 计算公式 k fi f m f Vr i 1 k 1 k m fi fi
统计学-数据分布特征

2
描述集中趋势的统计
一、平均数
平均数:
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在 易受极端值的影响
用于数值型数据,不能用于品质型数据
4
一、平均数
5
平均数的计算公式
6
二、中位数和分位数
(一)中位数 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响
14
15
例:某城市居民关注广告类型的频数分布
16
例:甲城市家庭对住房状况评价的分布频数
17
四、各度量值的比较
18
四、各度量值的比较
19
四、各度量值的比较
20
各度量值适用的数据类型
21
4.2离散程度的度量
22
4.2离散程度的度量
离散程度 数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离 中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
50
51
一、偏态及其测度
52
二、峰态及其测度
53
例:
54
55
56
57
用Excel计算描述统计量
58
用Excel计算描述统计量 72页习题2
59
60
61
62
63
作业1:
64
65
作业2:
66
答案:
67
68
对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 用于对变量的标准化处理
40
标准分数的性质
41
例:
第四章数据分布特征的度量 (1)

第四章思考与习题一、思考题1.什么是集中趋势?测度集中趋势常用指标有哪些?2.算术均值.众数和中位数有何关系?3.什么是几何平均数?其适用场合是什么?4.什么叫离散趋势?测度离散趋势常用指标有哪些?5.为什么要计算离散系数?二、练习题(一)填空题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势离散程度偏斜和峰度__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。
2.在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:,则其众数为,中位数为。
3.算术均值有两个重要数学性质:各变量值与其算术均值的__________等于零;各变量值与其算术均值的__________等于最小值。
4.简单算术均值是__________的特例。
4.几何均值主要用于计算__________的平均。
5.在一组数据分布中,当算术均值大于中位数大于众数时属于________分布;当算术均值小于中位数小于众数时属于________分布。
6.__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。
7.为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。
8.偏态是对数据分布__________或__________的测度;而峰度是对数据分布_________的测度。
(二)判断题1.众数的大小只取决于众数组与相邻组次数的多少。
()2.当总体单位数n为奇数时,中位数=(n+1)/2。
()3.根据组距分组数据计算的均值是一个近似值。
()4.若已知甲企业工资的标准差小于乙企业,则可断言:甲企业平均工资的代表性好于乙企业。
()5.标准分数只是将原始数据进行线性变换,没有改变该组数据分布的形状,也没有改变一个数据在该组数据中的位置,只是使该组数据的均值为0,标准差为1。
统计学基础复习提纲复习内容统计数据数据搜集

统计学基础复习提纲复习内容:第一章:统计数据;第二章;数据搜集;第四章:数据分布特征的测度;第五章:抽样与参数估计;第六章:假设检验;第七章:相关与回归分析;第八章:时间序列分析和预测:第九章:指数。
重点内容:第一章统计和数据(1)统计的概念和应用(2)统计数据类型:分类数据、顺序数据、数值型数据;观测数据和实验数据;截面和时间序列数据。
(3)统计中的基本概念:总体与样本;参数与统计量;变量。
第二章数据搜集(1)数据来源:直接来源和间接来源(2)调查设计:调查方案设计和调查问卷设计(3)统计数据质量第四章数据分布特征的测度(1)集中趋势的测度:平均数;中位数和分位数;众数(2)离散程度的度量:极差和四分位差;平均差;方程和标准差;离散系数(3)偏态与峰态度量:偏态系数;峰态系数第五、六章参数估计与假设检验(1)参数估计的基本原理:点估计与区间估计(2)总体均值的区间估计和总体比率的区间估计(3)样本容量的确定(4)假设检验的基本原理:原假设与备择假设;两类错误与显著性水平;检验统计量与拒绝域。
(5)总体均值的检验:大样本检验方法;小样本检验方法。
第七章相关与回归分析(1)变量间关系度量:相关关系的描述和测度;散点图与离散系数。
(2)一元线性回归:一元线性回归模型;参数的最小二乘估计;回归方程的拟合优度;显著性检验。
(3)利用回归房产进行估计和预测第八章时间序列分析与预测(1)时间序列的分解和描述:图形描述;增长率分析(2)预测方法的选择和估计(3)平稳序列的预测:移动平均法;指数平滑法(4)趋势序列的预测:线性趋势预测;非线性趋势预测平均数:x 二2 4 10 11| 14 151096 9.610(2-9.6)2(4-9.6)2 川(15-9.6)2n -110-12、一家公司在招收职员时,首先要进行两项能力测试。
在A 测试中,其平均分数是100分, 标准差是15分;在B 项测试中,其平均数是 400分,标准分数是50分。
数据分布特征的测度.

n
0 8 20 1 100 1 12(分) 10
均值的数学性质
1. 各变量值与均值的离差之和等于零
(x x) 0
i 1 n i
n
2. 各变量值与均值的离差平方和最小
(x x)
i 1 i
2
min
二、调和平均数 (倒数平均数 Harmonic mean)
甲 乙 丙
15 20 30
试指出那个厂的总平均成本高,其原因何在?
练习3: 计算某地区工业企业产值平均计划完成程度
计划完成%
90以下 90——100 100——110 110——120 120以上 合计
企业数(个)
7 22 57 26 3 115
计划产值(万元)
140 310 1650 710 40 2850
均值(mean)
1.
2. 3. 4. 5.
集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺 序数据
一、算术平均数(Arithmetic mean)
(一)简单算术平均数
X X N
i
例:有5名工人生产的零件数分别为:15、16、17、18、 19,平均零件数为多少?
xf xA Ax x x f A nA n
例:计算某车间工人平均工资(单项式)
某班组工人平均工资的计算(单项式数列)
工资(x) 500 530
740 860 1020 合计
工人数(f) 2 4
8 5 1 20
工资总额(xf) 1000 2120
5920 4300 1020 14360
第四章数据分布特征的测度

第四章数据分布特征的测度一、选择题1.一组数据中出现频数最多的变量值称为()。
A.众数B.中位数C.四分位数D.均值2.下列关于众数的叙述,不正确的是()。
A.一组数据可能存在多个众数B.众数主要适用于分类数据C.一组数据的众数是唯一的D.众数不受极端值的影响3.一组数据排序后处于中间位置上的变量值称为()。
A.众数B.中位数C.四分位数D.均值4.一组数据排序后处于25%和75%位置上的值称为()。
A.众数 B.中位数C.四分位数D.均值5.非众数组的频数占总额数的比率称为()。
A.异众比率B.离散系数C.平均差D.标准差6.如果一个数据的标准分数是-2,表明该数据()。
A.比平均数高出2个标准差B.比平均数低2个标准差C.等于2倍的平均数D.等于2倍的标准差7.比较两组数据的离散程度最适合的统计量是()。
A.极差B.平均差C.标准差D.离散系数8.偏度系数测度了数据分布的非对称性程度。
如果一组数据的分布是对称的,则偏度系数()。
A.等于0 B.等于1 C.大于0 D.大于1 9.某专家小组成员的年龄分别为29,45,35,43,45,58,他们的年龄中位数为()。
A.45 B.40 C.44 D.3910.某居民小区准备建一个娱乐活动场所,为此,随机抽取了80户居民进行调查,其中表示赞成的有59户,表示中立的有12户,表示反对的有9户。
该组数据的中位数是()。
A.赞成B.59 C.中立D.1211.对于右偏分布,均值、中位数和众数之间的关系是()。
A .均值>中位数>众数B .中位数>均值>众数C .众数>中位数>均值D .众数>均值>中位数12.某班学生的大学英语平均成绩是70分,标准差是10分。
如果已知该班学生的考试分数为对称分布,可以判断成绩在60分~80分之间的学生大约占( )。
A .95%B .89%C .68%D .99%13.当一组数据中有一项为零时,不能计算( )。
管理统计学第04章 描述统计中的测度

-1
-2
1
x 5
1
x1
2 2 2
x2
2
x3 x4
2 2
x5
x6
( x x ) 1 0 (2) 3 1 (1) 0
( x x ) 1 0 (2) 3 1 (1) 16
2
第4 章
第2节 集中趋势的测度
2 集中趋势统计平均指标
第4 章
第2节 集中趋势的测度
2 集中趋势统计平均指标
均值(数学性质)
各变量值与均值的离差之和等于零
(X
i 1 n i 1
n
i
X) 0
i
各变量值与均值的离差平方和最小
(X
X ) min
2
第4 章
离差的概念
第2节 集中趋势的测度
2 集中趋势统计平均指标
8 7 6 5 4 3 2 -1 3
2 集中趋势统计平均指标
例:市场上早、中、晚蔬菜的价格分别是:早晨0.67公斤/元,中午0.5公斤/元,晚上0.4公斤 /元。 现在,我们分别按四种方法购买蔬菜,分别计算蔬菜的平均价格(不管用什么方法购买, 平均价格都应该等于花费的现金除以所购买蔬菜的数量)。
第4 章
第2节 集中趋势的测度
2 集中趋势统计平均指标
数据集中区 变量x
x
简单算术平均数和加权算术平均数。
一组数据的总和除以这组数据的项数所得的结果,最常用的数值平均数,容易受极端值的影响,有
第4 章
第2节 集中趋势的测度
2 集中趋势统计平均指标
简单算术平均数把每项数据直接加总后除以它们的项数,通常用于对未分组的数据计算算术平
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 数据分布特征的测度§1概述§2 集中趋势的测度一、集中趋势的含义(一)集中趋势的概念集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
(二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数1.概念众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。
主要用于测度定类型数据的集中趋势。
2.单项分组数列)max(0i f x M例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。
表4-1 某城市居民关注广告类型的频数分布=0M 商品广告3.组距分组数列①确定众数组——频数最多的组 ②计算众数值图4-1 众数值计算示意图可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即X L M +=0因为211∆+∆+=∆y x x d y x x 211211)(∆+∆∆=+∆+∆∆=所以 d L M 2110∆+∆∆+=(下限公式)同理,可得上限公式: d U M 2120∆+∆∆-=例:某地区3000家农户的年收入情况资料如下:解:57048010501=-=∆; 45060010502=-=∆ 所以 7559100045057057070000=⨯++=M (元)三、位置平均数1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。
中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。
2.根据未分组资料确定中位数①按标志值大小进行排列得),,,(21n x x x Λ;②计算中间位置)21(+=n ; ③计算中位数具体数值。
标志值个数为奇数时 )21(+=n e x M 标志值个数为偶数时2)22()2(++=n n e x x M3.根据分组资料确定中位数 ①单项分组资料ⅰ计算中位数位置)2(∑=f ;ⅱ将分组数列的次数进行向上或向下累计;ⅲ选择第一个大于或等于2∑f 的组即为中位数所在组;ⅳ对应的标志值为中位数。
②组距分组资料ⅰ、ⅱ、ⅲ同单项分组资料; ⅳ计算中位数值:图4-2 中位数值计算示意图设标志值次数在一组内为均匀分布的,运用插值法,得m m e f S f d L M 12--=-∑ 整理得下限公式:d f S f L M mm e ⨯-+=-∑12 上限公式:d f S fU M mm e ⨯--=+∑12 例:某地区3000家农户的年收入情况资料如下:7743100010507000=⨯+=e M (元)2.四分位数四分位数(Quartile )也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据,处在分位点上的数值就是四分位数。
①下四分位数l Q ②中位数m Q ③上四分位数u Q3.十分位数和百分位数①十分位数(Decile )是通过九个点将全部数据等分为十部分,其中每部分包含10%的数据,处在分位点上的数值就是十分位数。
②百分位数(Percentile )是通过99个点将全部数据等分为100部分,其中每部分包含1%的数据,处在分位点上的数值就是百分位数。
四、均值1.算术平均数算术平均数(Arithmetic mean )是全部数据的算术平均,是集中趋势的最主要测度值,用X 表示。
①未分组数列——简单算术平均数nxnx x x x ni in ∑==+++=121Λ例:某机械厂某生产小组6个工人生产某种零件的日产量(件)分别为15、16、17、18、19、20。
则平均日产量为5.1761056201918171615==+++++=x (件)②分组数列——加权算术平均数∑∑∑∑======++++++=ni ni iii n i ini iinnn ff x ff xf f f f x f x f x x 1111212211)(ΛΛ例:某机械厂180个工人对某种零件的生产情况资料如下:180180==x (件) ⅰ标志值的选择——在组距分组数列中以组中值为标志值例:某机械厂180个职工的工资资料如下:7.63015009460008181===∑∑==i ii iiff xx (元) ⅱ权数的选择——i i f x 要有实际意义例:某管理局下属10家企业1995年的产量计划完成情况资料如下:000000000010210112021103100495=⨯+⨯+⨯+⨯=x000000000025.1111205012040110201001095=⨯+⨯+⨯+⨯=x③算术平均数的性质ⅰ各变量值与算术平均数的离差之和等于零;0)(1=-∑=Ni iX Xⅱ各变量值与其算术平均数的离差平方和最小;∑∑==-=-Ni i Ni iA X X X1212)()(2.调和平均数调和平均数(Harmonic mean )是均值的另一种表现形式,它是标志值倒数的算术平均数的倒数,用H 表示。
①未分组数列——简单调和平均数∑==+++=ni inx n x x x nH 1211111Λ②分组数列——加权调和平均数∑∑===++++++=ni ii ni inn nx m mx m x m x m m m m H 11221121ΛΛ例:某工厂本月购进某材料四批,每批价格以及采购金额如下:02.411219500004141===∑∑==i ii i ix m mH (元) 3.几何平均数几何平均数(Geometric mean )是N 个变量值乘积的N 次方根,是标志值对数的算术平均数的反对数,用G 表示。
①未分组数列——简单几何平均数nni i n n xx x x G ∏===121Λ例:某机械厂有毛坯车间、粗加工车间、精加工车间、装配车间四个流水连续作业的车间。
本月份毛坯车间制品合格率为95%,粗加工车间为92%,精加工车间为90%,装配车间为85%。
求该企业平均车间产品合格率。
00443.909043.085.090.092.095.0==⨯⨯⨯=G②分组数列——加权几何平均数)(1)(2112121∑===∏=+++ni i i n n f ni f i f f f f nf f x x x x G ΛΛ例:某银行某年实行保值储蓄,各月的利率分配为:有4个月为3%,2个月为5%,2个月为8%,3个月为10%,1个月为15%。
求该银行的平均月利率。
0682.115.110.108.105.103.11322413224=⨯⨯⨯⨯=++++G 所以,月平均利率为1.0682-1=0.0682=6.82% 五、算术平均数、中位数、众数的关系1.对称分布(钟型分布)eo M X M ==2.右偏分布(正偏分布)e o3.左偏分布(负偏分布)oe M M X <<§2 离散趋势的度量一、全距 Range1、概念全距是指总体各单位标志值中最大值与最小值之差,又称极差。
2、计算[1] 未分组数列:全距=)m in()m ax (i i x x - [2] 单项分组数列:全距=1x x n -[3] 组距分组数列:全距=最上组的上限-最下组的下限 3、优缺点[1] 优点:计算简便、易于了解。
[2] 缺点:方法粗略,易受极端数值的影响,因而测定的结果往往不能充分反映现象的实际离散程度。
二、四分位差 Quartile deviationL U D Q Q Q -=三、平均差 Mean deviation (..D A )1、概念平均差是各单位标志值与算术平均数的离差绝对值的算术平均数。
2、简单算术平均差——未分组资料n xx D A n i i ∑=-=1..7005==x (元) 12052001000100200..=++++=D A (元) 3、加权平均差——分组数列∑∑==-=n i in i ii ff x x D A 11.. 四、方差(2σ)和标准差(σ)1、概念标准差又叫均方根差,是采用平方的方法来消除离差的正负号。
2、简单标准差nx x n i i ∑=-=12)(σ 如上例,14152001000)100()200(22222≈+++-+-=σ(元) 3、加权标准差∑∑==-=n i ini i iff x x 112)(σ 五、标准化值 Standard scoreσXX Z i i -=六、标志变异系数(离散系数)Coefficient of variation1、平均差系数00..100..⨯=xD A D A ν 2、标准差系数00..100⨯=x D A σν§3 偏态与峰度趋势的测度一、偏态(Skewness )趋势及其测度∑∑==-=n i ini ii f f X X a 13133)(σ 当⎪⎩⎪⎨⎧<=<正偏或右偏对称负偏或左偏000333a a a二、峰度(Kurtosis )趋势及其测度3)(14144--=∑∑==n i iK i ii f f X X a σ 04>a 尖峰分布04<a 平峰分布。