应用统计学第3章SYJ

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
1.算术平均数
算术平均数也称均值,是社会经济统计中广泛应用的一种综合性指标, 它反映同类现象在特定条件下所达到的平均水平,是总体数量分布的一个重 要特征。
(1)基本公式:
算术平均数
总体单位标志总量 总体单位总数
3
(2)算术平均数的计算
(1)简单算术平均数
x
1 n
n
xi
i 1
n —总体单位总数;xi —第 i 个单位的标志值。 (2)加权算术平均数
55
解:Σf/2 = 27.5,中位数在“15-25”的组中,
Me
L
1 2
f Sm1 d
fm
15 27.5 8 10 20
24.75
9
3.众数
——是总体中出现次数最多的标志值,记为M 0。 众数明确反映了数据分布的集中趋势,也是一种 位置平均数,不受极端数据的影响。但并非所有 数据集合都有众数,也可能存在多个众数。
2 1 fi
(xi X )2 fi
1
fi
(xi X )2 fi
S2
1 fi 1
(xi X )2 fi
S
1 fi
1 (xi
X
)2
fi
33
未分组数据方差和标准差的计算
方差和标准差的手工计算非常烦琐,只要求掌握以下两 种方法。
⑴使用计算器的统计功能(SD或STAT功能) ⑵使用 Excel 的统计函数 ①VARP(<区域或数组1>,<区域或数组2>,…)
中位数是一种位置平均数,不受极端数据的影响。 当统计资料中含有异常的或极端的数据时,中位数 比算术平均数更具有代表性。
比如有 5 笔付款:9元,10元,10元,11元,60 元.
付款的均值为 20 元,显然这并不是一个很好的 代表值,而中位数 Me = 10 元则更能代表平均每笔 的付款数。
6
(1) 使用 Excel 的统计函数返回未分组数据的中位数
功能:返回不同nthquart的四分位数。
如果nthquart等于 0
1
函数QUARTILE的返回值 最小值
第一四分位数(第25 个百分点值)
2
中位数(第 50个百分点值)
3
第三四分位数(第 75 个百分点值)
4
最大值
20
6.五数汇总和箱线图
五数汇总包括最小值、第一分位数、中位数、第 三分位数和最大值这样五个数据,即
QD = QU - QL
4. 反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性
29
3.平均差
平均差是各数据与其均值离差绝对值的算术 平均数,通常记为A.D。
A.D
1 N
|
Xi
X
|
平均差越大,反映数据间的差异越大。
但由于使用了绝对值,其数学性质很差,因而 很少使用。
0
X (Me,M0) x
M0 Me X
x
X Me M0 x
14
补充习题
补充题3:某地区私营企业注册资金分组资料如下, 求该地区私营企业注册资金的平均数、中位数和 众数。
注册资金 (万元)
50以下
50~100
100~150 150~200 200~250 250以上
企业数 20
35
42
26
15
5
15
箱线图(亦称箱须图)提供了基于五数汇总的几何图形
数 ?据?集?
1
X 最小
Q1
Me
Q3
X 最大
30
35
40
45
50
wk.baidu.com
?

21
箱线图和四种不同类型分布图的联系
a)钟形分布 c)右偏分布
b)左偏分布
d)矩形分布 22
7.几何平均数
当统计资料是各时期的发展速度等前后期的两 两比环数据,要求每时期的平均发展速度时,就需 要使用几何平均数。
• 规则1 如果结果是整数,四分位数等于那个整数位置的数据。例如,如 果样本容量为,第一分位数等于第(7+1)/4=2个数据。
• 规则2 如果结果是半数(如2.5,3.5等),四分位数等于相邻有序数据 的平均数。例如,样本容量,第一分位数是第(9+1)/4=2.5个数据,即 是原有序数中第二个和第三个数据之间的平均值。
可以使用 Excel 统计函数中的 MEDIAN 函数返回 未分组数据的中位数。 格式:MEDIAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的中位数。
7
(2)分组数据中位数的确定
对于分组数据的统计资料,中位数要用插值法来估算。
(1)计算各组的累计频数; (2)确定中位数所在的组 ——是累计频数首次包含中位数位次Σf /2的组。
x xi fi fi
xi —第 i 组的代表值(组中值或该组变量值); f i —第 i 组的频数。
4
使用 Excel 函数求加权算术平均数
利用 Excel“数学和三角函数”中的AVERAGE 函数可以 方便地计算出一组或多组数据的算术平均数。
语法规则: 格式:AVERAGE (<区域1>,<区域2>,…) 功能:返回返回所有参数的算术平均数。
30
4.方差和标准差
方差和标准差是应用得最为广泛的变异指标。标 准差是方差的算术平方根,也称均方差或根方差。
应注意总体方差、标准差与样本方差、标准差是 有区别的。
(1) 总体方差和总体标准差
总体方差是各总体数据与其均值离差平方的均值,
记为 2,总体标准差记为。
2
1 N
(Xi
X
)2
1 N
(
Xi
X
)2
Me
L
f
/ 2 Sm1 fm
d
100
71.5 55 42
50
119 .64(万元)
众数组为“100~150”的组,
M0
L 1 1 2
d
100
42 35
50 115 .22
(42 35) (42 26)
(万元)
16
5.四分位数 (概念要点)
1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值
利用 Excel“数学和三角函数”中的SUMPRODUCT 函数 可以方便地计算出分组数据的加权算术平均数。
语法规则: 格式:SUMPRODUCT(<区域1>,<区域2>,…) 功能:返回两个或多个区域中对应元素乘积之和。
5
2.中位数
将总体各单位标志值按由小到大的顺序排列后处 于中间位置的标志值称为中位数,记为Me .
第3章 统计数据的描述度量
本章主要介绍以下 3类综合统计指标: 度量中心(集中)趋势的平均指标 度量离散程度(变异性)的指标 度量偏斜程度的指标 度量两种数值变量关系的指标
1
§3.1 度量集中趋势的指标
常用的这类指标有以下五种:算术平均数、中位 数、众数、四分位数、几何平均数,除此之外本 节还将介绍五数汇总和箱线图。
• 规则3 如果结果既不是整数又不是半数,结果取最接近的整数,并选数 据。例如,如果样本容量,第一分位数等于(10+1)/4=2.75个数据。取 2.75 为3,使用原有序数中的第三个数据。
18
数值型未分组数据的四分位数 (7个数据的算例)
原始数据: 排 序: 位 置:
23 21 30 32 28 25 26 21 23 25 26 28 30 32 12 3 4567
几何平均数是 n 个数连乘积的 n 次方根。
(1) 简单几何平均数
xG n x1 x2 xn
(2) 加权几何平均数
xG
f
x f1 1
x2f2
xnfn
f i — 各比率出现的频数
23
例:某公司原料成本随时间增长的情况如下表
1992 1993
成本
200 228
年增长率(%)
14
求原料成本的平均年增长率。
10 22.37
(20 6) (20 15)
13
4.算术平均数、中位数和众数间的关系
1.频数分布呈完全对
f
称的单峰分布,算术
平均数、中位数和众 数三者相同。
0
2.频数分布为右偏态 时, f
众数小于中位数,算术平
均数大于中位数。
0
3.频数分布为左偏态时, f 众数大于中位数,算术平 均数小于中位数。
Me
L
1 2
f fm
Sm1
d
其中:L — 中位数所在组的下限; Sm-1 — 中位数所在组前一组的累计频数; fm — 中位数所在组的频数; d — 中位数所在组的组距。
8
例:计算下表数据的中位数
分组
各组频数
累计频数
0-5
2
2
5-15
6
8
15-25
20
28
25-35
15
43
35-45
8
51
>45
4
在某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商 在进行生产和存货决策时,更感兴趣的是最普遍 的尺寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也 要用到众数。
10
(1) 未分组数据众数的确定
在数据量很大的时候,可以使用 Excel 统计函数中 的 MODE 函数返回众数。
1994 239.4
5
解一: xG 3 1.141.051.02 1.0688 解二: xG 3 244.2 / 200 1.0688 年平均增长率 = 1.0688 - 1 = 6.88%
1995 244.2
2
24
(3)使用 Excel 求几何平均数
可以使用 Excel 统计函数中的 GEOMEAN 函数返 回几何平均数。 语法规则: 格式:GEOMEAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的几何平均数。
QL位置
=
N+1 4
=
7+1 4
=2
3(N+1) 3(7+1) QU位置 = 4 = 4 = 6
QL= 23
QU = 30
19
使用Excel统计函数中的QUARTILE函数
在数据量很大的时候,可以使用Excel统计函数中的 QUARTILE函数返回四分位数,语法规则如下:
格式:QUARTILE (数据集, 第nthquart分位数)
补充题3 答案
注册资金(万元) 企业数
50以下
20
50~100
35
100~150
42
150~200
26
200~250
15
250以上
5
累计企业数 20 55 97 123 138 143
组中值 25 75 125 175 225 275
x xi fi 123 .6(万元) fi
Σf/2=143/2=71.5,中位数所在组为“100~150”的组,
Δ1— 众数组与前一组的频数之差 Δ2 — 众数组与后一组的频数之差 d — 众数组的组距
d L 众数
12
例:计算下表数据的众数
分组 0-5 5-15 15-25 25-35 35-45 >45
各组频数 2 6 20 15 8 4
解:众数组是“15-25”的组,则
M
0
L
1 1 2
d
15
20 6
道森公司和克拉克公司是道格拉斯公司的两家供货 商。两家供货商都表示大约需要10个工作日交付定 货。下表是两家供应商定货交付时间的历史数据。 今后道格拉斯公司应选择哪家供应商供货?
道森公司:
克拉克公司:
交货天数 次数
交货天数
次数
9
2
7
1
10
6
8
2
11
2
9
3
10
4
11
3
12
2
13
1
27
1.极差
极差也称全距,是一组数据的最大值和最小值 之差,通常记为R。显然,一组数据的差异越大,其 极差也越大。
格式:MODE(<区域或数组1>,<区域或数组2>,…) 功能:返回所有参数中数据的众数。
11
(2) 分组数据众数的确定
对于分组数据的统计资料,众数也要用插值法来估算。 (1)确定众数所在的组
对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算
M
0
L
1 1 2
d
其中:
Δ1
Δ2
L — 众数组的下限
极差是最简单的变异指标,它广泛应用于产品 质量管理中控制质量的差异,一旦发现超过控制范 围,就采取措施加以纠正,以保证产品质量的稳定。
但极差有很大的局限性,它仅考虑了两个极端 的数据,没有利用其余数据的信息,因而是一种比 较粗糙的变异指标。
28
2.四分位差
1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差
31
•(2) 样本方差与样本标准差
样本方差记为 S 2,样本标准差记为 S,在推
断统计中,它们分别是总体方差和标准差的优良
估计。
S
2
1 n 1
(Xi
X
)2
S
1 n 1(Xi
X
)2
其中:n 为样本容量,Xi 为样本观察值 X 为样本均值。
32
•分组数据的方差与标准差
如果得到的是分组的频数分布数据,则方差与 标准差的计算公式如下:
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
4. 可用于定序数据,也可用于数值型数据, 但不能用于定类数据
17
四分位数位置的确定
公式:
下四分位数(QL)位置
=
N+1 4
3(N+1) 上四分位数(QU)位置 = 4
对于四分位数的计算学术界没有一致认同的方法,通常可根据以下规则计 算四分位数
25
§3.2 度量离散程度的指标
要分析总体的分布规律,仅了解中心趋势指标是不 够的,还需要了解数据的离散程度或差异状况。几个总 体可以有相同的均值,但取值情况却可以相差很大。
频 数
x
x
变异指标就是用来表示数据离散程度特征的。变异 指标主要有:极差、平均差、标准差和变异系数。
26
【案例】道格拉斯公司应如何选择供应商
相关文档
最新文档