第三章 统计数据分布的特征
统计学第三章理解练习知识题

第三章数据分布特征的描述一、填空题3.1.1 是指一组数据向其中心值靠拢的倾向。
3.1.2 加权算术平均数受两个重要因素的影响,一个是;另一个是各组变量值出现的。
3.1.3 计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用。
3.1.4 计算比率的平均数时,如果已知比率及其基本计算式的分子资料,则采用。
3.1.5 是计算平均比率或平均发展速度最适用的一种方法。
3.1.6 是指一组数据中出现次数最多的变量值。
3.1.7 是指将按大小顺序排列的一组数据划分为四等分的三个变量值。
3.1.8 是指将按大小顺序排列的一组数据划分为10等分的9个变量值。
3.1.9 在数据分布呈时,算术平均数、众数和中位数三者相等。
3.1.10 是指非众数组的频数占总频数的比率。
3.1.11 上四分位数与下四分位数之差的简单算术平均数称为。
3.1.12 各个变量值与其算术平均数离差的绝对值的平均数称为。
3.1.13 总体方差是各个数据与其的离差平方的平均数,通常以2 表示。
3.1.14 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的一种方法。
3.1.15 是指用标准差的三次方除三阶中心矩计算偏态系数的一种方法。
二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内。
)3.2.1 先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称为 ( )A .数值平均数B .位置平均数C .离散系数 3.2.2算术平均数反映的是数据分布的什么特征( )A .集中趋势B .离散趋势C .偏态趋势3.2.3 根据算术平均数的性质,下列表达式正确的是 ( )A .0)(=∑-f x xB .0x x f C .2()0x x f3.2.4 如果分布数列中各变量值呈几何级数变化或频率分布极不对称,计算平均数的常用方法是( )A .算术平均法B .几何平均法C .调和平均法3.2.5 用各组的组中值代表其实际数据计算算术平均数时,通常假定 ( )A .各组数据在组内是均匀分布的B .各组次数相等C .各组数据之间没有差异3.2.6 当数据分布为右偏分布时,算术平均数与中位数、众数的关系表现为 ( ) A .o e M M x << B .e o x M M << C .o e x M M <<3.2.7 离散程度测度指标中,受极端值影响最大的是 ( )A .平均差B .标准差C .全距3.2.8 平均差与标准差的主要区别在于 ( ) A .说明问题的角度不同 B .对离差的数学处理方法不同 C .计算对象不同 3.2.9标准差系数消除了( )A .总体单位数多少的影响B .平均数大小和计量单位的影响C .离散程度的影响3.2.10 直接使用标准差比较分析两个同类总体平均数的代表性,其前提条件是 ( )A.两个总体的标准差应该相等B.两个总体的平均数应该相等C.两个总体的离差平方和应该相等3.2.11 下列指标中,实际应用最广泛的离散程度测度指标是()A.平均差B.标准差C.离散系数3.2.12 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的()A.偏斜程度B.离散程度C.集中程度三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内。
旅游统计学 教学课件 ppt 作者 张珊 第3章 旅游统计数据分布特征的描述

n
1 X
1 X
在加权的情况下: Xh
f 1 X f
• 小王登山,上山的速度是每小时4km, 到达山顶后原路返回,速度为每小时 6km,设山路长9km,小王的平均速度 为()km/h。(湖南2009)
– – – – A.5 B.4.8 C.4.6 D.4.4 答案:B
• 地铁检修车沿地铁线路匀速前进,每6 分钟有一列地铁从后面追上,每2分钟 有一列地铁迎面开来。假设两个方向的 发车间隔和列车速度相同,则发车间隔 是()分钟。(广东2009)
按日产量分组 工人数f (千克) (人 ) 10 60 以下 60 – 70 19 70 – 80 50 80 – 90 36 90 – 100 27 100 – 110 14 8 110 以上 164 合 计
平均日产量 X Xf f
组中值X (千克) 55 65 75 85 95 105 115 -
– – – – A.2 B.3 C.4 D.5
答案:B
• 有人沿地铁线路匀速前进,每12分钟有 一列地铁从后面追上,每4分钟有一列 地铁迎面开来。假设两个方向的发车间 隔和列车速度相同,则发车间隔是() 分钟。(黑龙江2010)
– – – – A.2 B.4 C.6 D.8
答案:C
• 一艘游轮从甲港口顺水航行至乙港口需 7小时,从乙港口逆水航行至佳港口需9 小时。问如果在静水条件下,游轮从甲 港口航行至乙港口需要多少小时()。 (浙江2011)
大,平均数受该组的影响就越大。反之亦然。
例 将上例资料略作修改:
按日产量分 组(件) 工人数(f) 各组日产量 (件)
12 13 16 17
合计
2 1 3 2 8
数据分布特征的描述

2019/9/1
版权所有 BY 统计学课程组
15
算术平均数的性质
2019/9/1
版权所有 BY 统计学课程组
16
算术平均数(均值)特征:
1. 集中趋势的最常用测度值; 2. 一组数据的均衡点所在; 3. 易受极端值的影响; 4. 由组距分组资料计算的均值有近似值性质; 5、用于数值型数据,不能用于分类数据和顺
(CM) (人)
152
1
154
2
155
2
156
4
157
1
158
2
159
2
160 12
161
7
162
8
163
4
2019/9/1
身高 人数
(CM) (人)
164
3
165
8
166
5
167
3
168
7
169
1
170
5
171
2
172
3
174
1
总计 83
版权所有 BY 统计学课程组
STAT
众数
32
注意:
众数不仅适用于测度顺序数据和 数值型数据的集中趋势,而且适用 于测度不能计算平均数的分类数据 的集中趋势。
2019/9/1
版权所有 BY 统计学课程组
3
数据分布的特征:
一、集中趋势:反映数据向其中心靠拢或 聚集
程度;
二、离中趋势;数据远离中心的趋势(又称离散
程度);
三、偏态和峰态;偏态是对数据分布对称性的度
量;峰度是指数据分布的平峰或尖峰程度
数据分布特征的描述

该项活动中,每月都有数据统计及分析以用来进 行该项活动旳调整与实施。
如:有一组有关病人进入“救济”活动旳时间长 度旳数据:
67个样本:时间长度从1天到185天。
除了对该组数据进行频数方面旳描述和分析外, 下面旳统计措施在描述数据分布特征及分析方面也很 主要:
均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天
X Me Mo 当分布右偏时(阐明存在极端大旳值)
X Me Mo
3、在偏斜度适度旳情况下,不论是左偏还是右偏,中位数
与算术平均数之差约等于众数与算术平均数之差旳1/3,即有如
下经验公式:
Me
X
1 3 (M O
X)
众数、中位数和均值旳应用场合
• 众数、中位数和均值都是对数据集中趋势旳测度,
1、均值由全部数据计算,包括了全部数据旳信息,具有良 好旳数学性质,当数据接近对称分布时,具有很好旳代表性; 但对于偏态分布,其代表性较差。
Graduates Monthly Graduates Monthly Graduates Monthly
Salary($)
Salary($)
Salary($)
1
2350
5
2255
9
2440
2
2450
6
2210
10
2852
3
2550
7
2390
11
2428
4
2380
8
2630
12
2380
未分组时旳算术平均值为:2440
一、均值(Mean)
均值就是一组数据旳平均值(average value),用来测 度中心位置(central location)。
统计学第3章数据分布特征描述

3.分析现象之间的依存关系。 如研究劳动者文化程度与收入的关系。
4.(数值)平均指标是推断统计中的重要 统计量,是进行统计推断的基础。
几种常见的位置特征数
N
MH
N
i 1
1
1 xi
wi
wi
i 1
N
i 1
1 xi
wi
N
wi
i 1
MH
1 N1
N N1
i1 xi i1 xi
N
k0:几何平均数 加权
N
M G i 1w i x 1 w 1x2 w 2 xN w N
简单
M G N x 1x 2 x N
fi
i1
i 1(xifi)254 674 58 012 1110 % 01.7 1%
n(xifi) i1 xi
1 2% 6 56 1 4% 0 75 1 4% 2 80 10350
(四)几何平均数(Geometric mean)
简单几何平均数— n个变量值连乘积的n次方根。
n(xi x)2 min
i1
性质(3)证明:
(三)调和平均数(Harmonic mean)
调和平均数,也称倒数平均数。 各变量值倒数(1/xi)的算术平均数的倒数。 计算公式为:
n
xHx11m1x12m12... x1nmn
m1m2... mn
m1m2 ... mn
与单项式分组资料一样,采用加权算术平均数计算。
统计第三章练习题

第三章 数据分布特征的描述(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了( )。
①总体变量值分布的集中趋势 ②总体分布的离散特征 ③总体单位的集中趋势 ④总体变动趋势 2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
①接近于变量值大的一方 ②接近于变量值小的一方 ③不受权数的影响 ④无法判断4.权数对于平均数的影响作用取决于( )。
①总体单位总量 ②各组的次数多少 ③各组标志值的大小 ④各组次数在总体单位总量中的比重 5.由组距变量数列计算算术平均数时,用组中值代表组内标志值的一般水平,有一个假定条件,即( )。
①各组的次数必须相等 ②各组标志值必须相等 ③各组标志值在本组内呈均匀分布 ④各组必须是封闭组 6.如果次数分布中,各个标志值扩大为原来的2倍,各组次数都减小为原来的1/2,则算术平均数( )。
①增加到原来的21 ②稳定不变 ③减少到原来的21④扩大为原来的2倍 7.已知某市场某种蔬菜早市、午市、晚市的每公斤价格,在早市、午市、晚市的销售额基本相同的情况下,计算平均价格可采取的平均数形式是( )。
①简单算术平均数 ②加权算术平均数③简单调和平均数 ④加权调和平均数8.凡是变量值的连乘积等于总比率或总速度的现象,要计算其平均比率或平均速度都可以采用( )。
①算术平均法 ②调和平均法 ③几何平均法 ④中位数法 9.四分位差排除了数列两端各( )单位标志值的影响。
①10% ②15% ③25% ④ 35% 10.如果一组变量值中有一项为零,则不能计算( )。
①算术平均数 ②调和平均数 ③众数 ④中位数11.在掌握了各组单位成本和各组产量资料时,计算平均单位成本所使用的方法应是( )。
数据分布特征的统计描述

x xx1x2...xn
n
n
均值,即算术平均数
x 标志值或变量值
见49页例题
20
2、加权法:分组且各组标志值出现的次数 (权数 f )不相等时,公式:
x xfx1f1x2f2...xnfn
f
f1f2...fn
x 为标志值,又称变量值; f 为各组标志值出现的次数
返回本节首页
21
某厂工人生产情况
第三章 数据分布特征的统计描述
除了统计图和统计表之外,还可以用少量 的特征值(代表值)对数据分布的数量规 律进行精确、简洁的描述。
1
离中趋势:即反映各数据远离中心值的程度 因为即使现象的集中趋势相同,其离中趋势 也可能不同。
离中趋势 (分散程度)
两个不同的曲线表示两个不同的总体,它们的 集中趋势相同但离中趋势不同。
“150个企业的平均计划完成百分数” 就是“150个企 业总的计划完成百分数”。
企业总计划完成百分数 = 总实际数 / 总计划数
计划完成 百分数% 105~110 110~120 120~130
合计
企业 数n 30 70 50 150
计划产值 f
5700 20500 22500 48700
x
xf
% 实际值
m 1m x
46
举例:
某蔬菜单价早中晚分别为0.5、0.4、 0.25(元/斤) (1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格
47
(1)问:用调和平均。先求早、中、晚购买的斤 数。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤)
概率与数理统计第3章数据分布特征描述

第 3 章数据分布特点的描绘[引例 ]依据国家统计局对全国31 个省(自治区、直辖市)7.4 万户乡村居民家庭和 6.6 万户城镇居民家庭的抽样检查,2011 年城乡居民收入增添状况以下1:2011 年全国乡村居民人均纯收入6977 元,比上年增添1058 元,增添 17.9%。
剔除价钱因素影响,实质增添11.4%,增速同比提升0.5 个百分点。
此中,人均薪资性收入2963 元,同比增添532 元,增添 21.9%。
薪资性收入对整年乡村居民增收的贡献率达50.3%。
薪资性收入占乡村居民纯收入的比重达42.5%,同比提升 1.4 个百分点。
2011 年乡村居民人均纯收入中位数为 6194 元,比上年增添 995 元,增添 19.1%。
乡村居民人均纯收入中位数比人均纯收入低 783 元,但增速高 1.2 个百分点。
2011 年城镇居民人均总收入23979 元,此中,人均可支配收入21810 元,比上年增添2701 元,增添14.1%。
剔除价钱因素影响,城镇居民人均可支配收入实质增添8.4%,增速同比提升0.6 个百分点。
2011 年城镇居民人均可支配收入中位数为19118 元,比上年增添2279 元,增添13.5%。
城镇居民人均可支配收入中位数比人均可支配收入低2692 元,增速低 0.6 个百分点。
主假如受最低薪资标准、城镇居民基本养老金和离退休金以及最低生活保障标准提升影响,城镇低收入户收入增速较高;同时高收入户也保持了较快的增添速度,因此中等收入户增速相对较慢。
2011 年城镇居民人均可支配收入与乡村居民人均纯收入之比为:1,2010 年该收入比为 3.23:1。
本章小结1.总量指标是说明现象总规模和总水平的数值,又称为绝对数。
绝对数的计量单位有实物单位和价值量单位。
按反应整体内容不一样,总量指标可分为整体单位总量和整体标记总量;按反应的时间状况不一样,总量指标可分为期间指标和时点指标。
2.将两个有联系的数值对照获得的比率称为相对数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数 f
3 5 8 14 10 6 4 50
xi f i
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0
例题2:某银行为250户企业贷款情况如下,计算平均每 个企业贷款额。
贷款额 (万元) 贷款户数 组中值 比重%
fi
12 56 85 64 15 45 75
第三章 统计数据分布的特征
1、集中趋势分析 2、离中趋势分析 3、分布偏态与峰度的测度
数据描述的数值方法
数据描述的数值方法
集中趋势
均 值
离散程度
极差 四分位距
分布的形状
偏 态 峰 度
中位数 众 数
方差和标准差 离散系数
2.2 分布集中趋势的测度
众数 中位数 分位数 均值 几何平均数 切尾均值
( xi x) 4 f i
i 1 k
K
ns
4
3
峰度系数的含义
峰度系数K<0,与正 态分布相比该分布一 般为扁平、瘦尾,肩 部较胖。
扁平分布
均值和方差 相同的正态 分布
尖峰分布
峰度系数K>0,与正 态分布相比该分布一 般为尖峰、肥尾,肩 部较瘦。
向下累积 频数
50 47 42 34 20 10 4
频率
100 94 84 68 40 20 8
合计
50
100
例题2:某省某年电信职工收入调查资料如表。计算M 0和 M e 按月收入额分组 调查职工人数 向上累积次数 向下累积次数
1000以下 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500以上 合计 40 90 110 105 70 50 35 500 40 130 240 345 415 465 500 — 500 460 370 260 155 85 35 —
i i 1
n
2
样本方差用(n-1)去除,从数学角度看是
因为它是总体方差σ2的无偏估计量。
n 1
k
分组数据
2
i 1
K
( X i X )2 fi
s2
i 1
( xi x ) 2 f i
k
f
i 1
K
i
f
i 1
i
1
标准差(例子)
某工会随机调查了5名工人上月的加班时间 如下表,平均加班时间为13小时。计算数 据的标准差。
加班小时 数 13 18 12 15 7 合计 绝对离 差 0 5 1 2 6 14 离差平方 0 25 1 4 36 66
s
66 4.06 5 1
4 离散系数(Coefficient of Variation)
标准差与其相应的均值之比,表示为百分 数。 s V (总体) 或 v (样本) X x
M o M e 2( M e x )
__
M o 3M e 2 x
__
众数、中位数、均值的应用场合
众数、中位数均不受极值影响。 所以,对于偏态分布,代表性比均值好。 当数据呈对称分布或接近对称分布,选均 值。 当数据呈偏态分布,应选众数或中位数。
•
众数的实际应用
集市贸易的商品价格,选择最普遍成交价格 即可。 也是衡量品质数据位置的重要量度。如:下 表 矿泉水品牌 次数
20550
12.42 6.60
82.2
调和平均数
各变量值的倒数的平均数。又称倒数平均 数。 n x 1 简单调和平均数
x
例题:书77页例3-2 加权调和平均数 x m m为权数 例题:见书78页例
m x
几何平均数
用于计算比率或速度的平均。 在计算社会经济现象时应用较多。 公式: N
R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计 算。 特点:受极端值的影响。
2,5,6,7,8,9,10,12,15,16,20
全距=?
2 平均差
总体各单位标志值与其均值的离差的绝对 值的算术平均数。 公式: xx
A.D. n
A.D.
xx f f
例题:见书91页例题3-12
f f 1 M0 L i ( f f 1 ) ( f f 1 )
2 中位数(Median)
一组数据按大小顺序排列后,处在数列中 点位置的数值。 特点:
对一组数据是唯一的。 不受极端值的影响。
根据原始数据计算中位数
n为奇数时等于第(n+1)/2个数。
集中趋势
集中趋势:一组数据向其中 心值靠拢的倾向和程度。 集中趋势测度:寻找数据水 平的代表值或中心值。
1 众数(Mode)
一组数据中出现次数最多的变量值。 主要特点:
不受极端值的影响。 有的数据无众数或有多个众数。
众数的不惟一性
无众数
众数
众数 1
众数2
众数(M0)
如何找出众数? 未分组数据:出现次数最多的变量值。 分组数据: 等距分组的众数计算公式
( x x ) 0
缺点:
易受极端值的影响。
张村有个张千万, 九个邻居穷光蛋; 统计平均算资产, 个个都是张百万。
例题1:计算 按零件数分组
105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计
x
i
组中值 xi
107.5 112.5 117.5 122.5 127.5 132.5 137.5
例题1:计算 M 0 和 M e
频率 向上累积 按零件数 频数 分组 (人) (%) 频数 频率
105-110 110-115 115-120 120-125 125-130 130-135 135-140
3 5 8 14 10 6 4 6 10 16 28 20 12 8 3 8 16 30 40 46 50 6 16 32 60 80 92 100
九龙矿泉 南湖矿泉 17 20
大峡谷
农夫山泉 河源矿泉
5
60 25
2 分布离散程度的测度
反映各变量值远离其中心值的程度(离散 程度),从另一个侧面说明了集中趋势测 度值的代表程度。 常用指标:
全距(极差) 平均差 方差和标准差 离散系数
1 全距(Range)
全距也称极差,是一组数据的最大值与最 小值之差。
离散系数:
经理人员: 工人:
50000 v 100% 10% 500000
虽然经理人员收入的绝对离散程度远远大于工人,但经理 人员收入的相对离散程度小于工人。
5000 v 100% 15.625% 32000
3.3 分布偏态与峰度的测度
偏态 峰态
左偏分布
扁平分布
正态分布
右偏分布
xi
fi
4.8 22.4 34 25.6
fi
xi f i
180 2520 6374 6720
fi xi f i
0.72 10.08 25.50 26.88
30以下
30-60 60-90 90-120
105
120-150 150以上
合计
23 10
250
135 165
9.2 4
100
3105 1650
尖峰分布
1
偏态及其测定(Skewness)
数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏 斜程度)的测度。
偏态系数有多种计算方法,
( xi x)3 f i
i 1 k
SK
ns3
偏态系数的含义
数据向左边 延伸得更多
左偏分布(也称负偏分布): 偏态系数 SK< 0;偏态系数的 绝对值越大,偏斜越严重
Me X
(
N 1 ) 2
n为偶数时等于第n/2和n/2+1个数的平均值
1 Me X N X N ( 1) 2 (2) 2
1,2 ,5,9 ,11
中位数 =5
1,2 ,5 , 9,11,18
中位数=(5+9)/2=7
中位数(Me)
分组数据
N S m1 Me L 2 i fm
13 15 12 19 18 5 10 6 12 12 9 7 15 17 13 11 7 7 12 12
该组数据算术平均数等于 (13+18+ … +12)/20=11.6(小时)。
加权算术平均数(例子)
在前面的例子中,假设我们只得到了分 人数 组中值 xf 组后的资料: 分组
5-10 10-15 15-20 合计 6 9 5 20 7.5 12.5 17.5 45 112.5 87.5 245
该组数据算术平均数等于 245/20=12.25(小时)。
关于计算结果的说明
根据原始数据和分组资料计算的结果一般 不会完全相等,根据分组数据只能得到近 似结果。 只有各组数据在组内呈对称或均匀分布时, 根据分组资料的计算结果才会与原始数据 的计算结果一致。
算术平均数的性质
1、所有的定量数据都有算术平均数。 2、计算算术平均数时使用了所有数据。 3、各变量值与均值的离差之和等于零。
特点:
反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差悬殊, 离散系数可能比标准差等绝对指标更有意义。
离散系数:例子
对30名经理人员的调查表明年平均收入=$500,000, 标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准 差 = $5,000。