第三章:统计数据分布特征的描述
数据分布特征的描述

2019/9/1
版权所有 BY 统计学课程组
15
算术平均数的性质
2019/9/1
版权所有 BY 统计学课程组
16
算术平均数(均值)特征:
1. 集中趋势的最常用测度值; 2. 一组数据的均衡点所在; 3. 易受极端值的影响; 4. 由组距分组资料计算的均值有近似值性质; 5、用于数值型数据,不能用于分类数据和顺
(CM) (人)
152
1
154
2
155
2
156
4
157
1
158
2
159
2
160 12
161
7
162
8
163
4
2019/9/1
身高 人数
(CM) (人)
164
3
165
8
166
5
167
3
168
7
169
1
170
5
171
2
172
3
174
1
总计 83
版权所有 BY 统计学课程组
STAT
众数
32
注意:
众数不仅适用于测度顺序数据和 数值型数据的集中趋势,而且适用 于测度不能计算平均数的分类数据 的集中趋势。
2019/9/1
版权所有 BY 统计学课程组
3
数据分布的特征:
一、集中趋势:反映数据向其中心靠拢或 聚集
程度;
二、离中趋势;数据远离中心的趋势(又称离散
程度);
三、偏态和峰态;偏态是对数据分布对称性的度
量;峰度是指数据分布的平峰或尖峰程度
数据分布特征的描述

该项活动中,每月都有数据统计及分析以用来进 行该项活动旳调整与实施。
如:有一组有关病人进入“救济”活动旳时间长 度旳数据:
67个样本:时间长度从1天到185天。
除了对该组数据进行频数方面旳描述和分析外, 下面旳统计措施在描述数据分布特征及分析方面也很 主要:
均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天
X Me Mo 当分布右偏时(阐明存在极端大旳值)
X Me Mo
3、在偏斜度适度旳情况下,不论是左偏还是右偏,中位数
与算术平均数之差约等于众数与算术平均数之差旳1/3,即有如
下经验公式:
Me
X
1 3 (M O
X)
众数、中位数和均值旳应用场合
• 众数、中位数和均值都是对数据集中趋势旳测度,
1、均值由全部数据计算,包括了全部数据旳信息,具有良 好旳数学性质,当数据接近对称分布时,具有很好旳代表性; 但对于偏态分布,其代表性较差。
Graduates Monthly Graduates Monthly Graduates Monthly
Salary($)
Salary($)
Salary($)
1
2350
5
2255
9
2440
2
2450
6
2210
10
2852
3
2550
7
2390
11
2428
4
2380
8
2630
12
2380
未分组时旳算术平均值为:2440
一、均值(Mean)
均值就是一组数据旳平均值(average value),用来测 度中心位置(central location)。
统计第三章练习题

第三章 数据分布特征的描述(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了( )。
①总体变量值分布的集中趋势 ②总体分布的离散特征 ③总体单位的集中趋势 ④总体变动趋势 2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
①接近于变量值大的一方 ②接近于变量值小的一方 ③不受权数的影响 ④无法判断4.权数对于平均数的影响作用取决于( )。
①总体单位总量 ②各组的次数多少 ③各组标志值的大小 ④各组次数在总体单位总量中的比重 5.由组距变量数列计算算术平均数时,用组中值代表组内标志值的一般水平,有一个假定条件,即( )。
①各组的次数必须相等 ②各组标志值必须相等 ③各组标志值在本组内呈均匀分布 ④各组必须是封闭组 6.如果次数分布中,各个标志值扩大为原来的2倍,各组次数都减小为原来的1/2,则算术平均数( )。
①增加到原来的21 ②稳定不变 ③减少到原来的21④扩大为原来的2倍 7.已知某市场某种蔬菜早市、午市、晚市的每公斤价格,在早市、午市、晚市的销售额基本相同的情况下,计算平均价格可采取的平均数形式是( )。
①简单算术平均数 ②加权算术平均数③简单调和平均数 ④加权调和平均数8.凡是变量值的连乘积等于总比率或总速度的现象,要计算其平均比率或平均速度都可以采用( )。
①算术平均法 ②调和平均法 ③几何平均法 ④中位数法 9.四分位差排除了数列两端各( )单位标志值的影响。
①10% ②15% ③25% ④ 35% 10.如果一组变量值中有一项为零,则不能计算( )。
①算术平均数 ②调和平均数 ③众数 ④中位数11.在掌握了各组单位成本和各组产量资料时,计算平均单位成本所使用的方法应是( )。
概率与数理统计第3章数据分布特征的描述

概率与数理统计第3章数据分布特征的描述概率与数理统计是一门关于随机现象的描述和分析的学科。
在实际问题中,我们经常需要对数据进行分析和描述,以便更好地理解数据的特征和规律。
第三章主要介绍了数据分布的特征描述,包括中心位置度量、离散程度度量和分布形状度量。
首先是中心位置度量,它用来描述数据集的平均水平。
一般来说,我们关心的是数据集的平均值和中位数。
平均值是数据的加权平均,它能够反映数据集的集中趋势。
平均值的计算公式是:```平均值=总和/观测数```中位数是按照数据的大小顺序排列后,处于中间位置的观测值。
中位数的计算方法是:```如果数据集的观测数为奇数,中位数为第(n+1)/2个观测值如果数据集的观测数为偶数,中位数为第n/2和(n/2+1)个观测值的平均值```其次是离散程度度量,它用来描述数据集的变异程度。
我们常用的度量指标有极差、方差和标准差。
极差是数据集中最大观测值与最小观测值之间的差距,它反映了数据的全局离散程度。
方差是每个观测值与数据集平均值的差的平方的平均值,它度量了数据的局部离散程度。
标准差是方差的平方根,它与方差具有相同的单位,能够更好地反映数据的离散程度。
最后是分布形状度量,它用来描述数据分布的偏度和峰度。
偏度是描述数据分布对称性的度量,正偏表示数据集的右尾较重,负偏表示数据集的左尾较重。
峰度是描述数据分布峰态的度量,正峰表示数据集的峰部较陡,负峰表示数据集的峰部较平。
偏度和峰度能够帮助我们了解数据分布的形态特征,从而判断数据集是否服从其中一种特定的分布。
在实际应用中,我们可以通过对数据集进行描述统计分析来了解数据的特征。
通过计算平均值、中位数、方差、标准差、偏度和峰度等指标,我们能够更好地理解数据的分布情况。
此外,我们还可以通过绘制直方图、箱线图、概率密度函数等图形来展示数据的分布特征,进一步加深对数据的认识。
总之,数据分布特征的描述是概率与数理统计中重要的内容之一、通过中心位置度量、离散程度度量和分布形状度量,我们能够充分了解数据的平均水平、变异程度和形态特征,为进一步的数据分析和决策提供有力的支持。
第3章统计学数据分布特征的描述

第3章统计学数据分布特征的描述统计学是一门研究收集、分析和解释数据的学科。
在统计学中,数据分布特征的描述是指通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
数据的集中趋势描述了数据的平均水平或中心。
常用的统计量有平均值、中位数和众数。
平均值是将所有观测值相加然后除以观测值的总数,它能够反映数据的总体平均水平。
然而,当数据包含异常值时,平均值的计算结果可能会受到影响。
因此,中位数和众数在这种情况下被认为是更稳健的集中趋势度量。
中位数是将数据按大小排序,然后找出中间位置的观测值。
众数是数据中出现次数最多的观测值。
数据的离散程度描述了数据的变异程度或分散程度。
常用的统计量有方差、标准差和四分位差。
方差是观测值与均值之间差异的平方的平均值,它反映了数据的总体离散程度。
标准差是方差的平方根,用于衡量数据的波动性。
四分位差是数据的上四分位数和下四分位数之差,它描述了数据的中间50%的变异程度。
数据的分布形态描述了数据的形状和对称性。
常用的分布形态有正态分布、偏态分布和峰态分布。
正态分布是最常见的分布形态,其特点是对称、钟形曲线。
偏态分布是指数据分布不对称的情况,主要分为正偏态和负偏态。
正偏态分布意味着数据的尾部偏向右侧,负偏态分布则意味着数据的尾部偏向左侧。
峰态分布用于描述数据的峰值的尖锐程度,主要分为正态分布、高峰态和低峰态。
除了统计量,还可以使用图表来对数据分布特征进行描述。
常用的图表包括直方图、箱线图和散点图。
直方图是通过将数据分组并在坐标轴上绘制各组的频率或相对频率来展示数据的分布形态。
箱线图通过绘制数据的分位数和异常值来展示数据的中位数、四分位数和离群观测值。
散点图用于展示两个变量之间的关系,特别适用于发现变量之间的相关性和异常值。
综上所述,统计学中的数据分布特征描述是通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
这些描述能够帮助我们更好地理解数据,并对数据进行分析和解释。
统计学第3章数据分布特征描述

xi fi i1
xf
f1 f2 ... fn
n
fi
f
x x f
i 1
f
举例
表3-3 节能灯泡使用寿命数据
使用寿命 组中 数量 (小时) 值x f
xf
频率 f /Σf
xf/Σf
1000以下 900 2 1800 0.020 18
1000-1200 1100 8 8800 0.080 88
n(xi x) 0
i1
(3)各变量值与算术平均数的离差平方之总和最小。 (从全 部数据看,算术平均数最接近所有变量值)
n(xi x)2 min
i1
性质(3)证明:
(三)调和平均数(Harmonic mean)
➢ 调和平均数,也称倒数平均数。 ➢ 各变量值倒数(1/xi)的算术平均数的倒数。 ➢ 计算公式为:
➢由一组数据的总和(总体标志总量)除以 该组数据的项数(总体单位总量)得到; 算术平均数=总体标志总量/总体单位总量
➢是最常用的数值平均数;
➢根据掌握资料不同,其有多种计算公式。
1.简单算术平均数 ➢对未分组数据,采用简单算术平均数公式。即 把各项数据直接加总,然后除以总项数。 ➢计算公式:
N
xi x i1
例如,改变教师职称结构,而不改变各种职 称教师课时费标准,会改变平均课时费水平。
权数实质
➢权数的实质在于其结构,即结构比例形式(比重 权数)。
➢其更能清晰表明权数之权衡轻重的作用。
权数形式有2种:
➢ 绝对数形式
Mp
➢ 结构比例形式
k
N
xik wi
i 1
N
wi
i 1
k
N
i 1
数据分布特征的统计描述

x xx1x2...xn
n
n
均值,即算术平均数
x 标志值或变量值
见49页例题
20
2、加权法:分组且各组标志值出现的次数 (权数 f )不相等时,公式:
x xfx1f1x2f2...xnfn
f
f1f2...fn
x 为标志值,又称变量值; f 为各组标志值出现的次数
返回本节首页
21
某厂工人生产情况
第三章 数据分布特征的统计描述
除了统计图和统计表之外,还可以用少量 的特征值(代表值)对数据分布的数量规 律进行精确、简洁的描述。
1
离中趋势:即反映各数据远离中心值的程度 因为即使现象的集中趋势相同,其离中趋势 也可能不同。
离中趋势 (分散程度)
两个不同的曲线表示两个不同的总体,它们的 集中趋势相同但离中趋势不同。
“150个企业的平均计划完成百分数” 就是“150个企 业总的计划完成百分数”。
企业总计划完成百分数 = 总实际数 / 总计划数
计划完成 百分数% 105~110 110~120 120~130
合计
企业 数n 30 70 50 150
计划产值 f
5700 20500 22500 48700
x
xf
% 实际值
m 1m x
46
举例:
某蔬菜单价早中晚分别为0.5、0.4、 0.25(元/斤) (1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格
47
(1)问:用调和平均。先求早、中、晚购买的斤 数。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤)
概率与数理统计第3章数据分布特征描述

第 3 章数据分布特点的描绘[引例 ]依据国家统计局对全国31 个省(自治区、直辖市)7.4 万户乡村居民家庭和 6.6 万户城镇居民家庭的抽样检查,2011 年城乡居民收入增添状况以下1:2011 年全国乡村居民人均纯收入6977 元,比上年增添1058 元,增添 17.9%。
剔除价钱因素影响,实质增添11.4%,增速同比提升0.5 个百分点。
此中,人均薪资性收入2963 元,同比增添532 元,增添 21.9%。
薪资性收入对整年乡村居民增收的贡献率达50.3%。
薪资性收入占乡村居民纯收入的比重达42.5%,同比提升 1.4 个百分点。
2011 年乡村居民人均纯收入中位数为 6194 元,比上年增添 995 元,增添 19.1%。
乡村居民人均纯收入中位数比人均纯收入低 783 元,但增速高 1.2 个百分点。
2011 年城镇居民人均总收入23979 元,此中,人均可支配收入21810 元,比上年增添2701 元,增添14.1%。
剔除价钱因素影响,城镇居民人均可支配收入实质增添8.4%,增速同比提升0.6 个百分点。
2011 年城镇居民人均可支配收入中位数为19118 元,比上年增添2279 元,增添13.5%。
城镇居民人均可支配收入中位数比人均可支配收入低2692 元,增速低 0.6 个百分点。
主假如受最低薪资标准、城镇居民基本养老金和离退休金以及最低生活保障标准提升影响,城镇低收入户收入增速较高;同时高收入户也保持了较快的增添速度,因此中等收入户增速相对较慢。
2011 年城镇居民人均可支配收入与乡村居民人均纯收入之比为:1,2010 年该收入比为 3.23:1。
本章小结1.总量指标是说明现象总规模和总水平的数值,又称为绝对数。
绝对数的计量单位有实物单位和价值量单位。
按反应整体内容不一样,总量指标可分为整体单位总量和整体标记总量;按反应的时间状况不一样,总量指标可分为期间指标和时点指标。
2.将两个有联系的数值对照获得的比率称为相对数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
二、位置平均数 (一)、中数 1、定义:指位于一组数据中较大的一半与
较小的一半中间位置的那个数值。
2、性质:
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
3、计算 (1)原始数据:
3
246.49
112.5
5
114.49
117.5
8
32.49
122.5
14
0.49
127.5
10
18.49
132.5
6
86.49
137.5
4
204.49
—
50
—
(Xi- X )2Fi
739.47 572.45 259.92
6.86 184.90 518.94 817.96 3100.5
K
( X i X )2 Fi
1689.25 0.956 1766.7339
结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯 收入的分布为右偏分布,即收入较少的家庭占据多数,而收入 较高的家庭则占少数,而且偏斜的程度较大
黔南民族师范学院管理科学系
管理类专业基础课程
《管理统计学》
二、峰度系数
(一) 原始数据
K
X
i
X
4
4 i1 N x 4
1. 众数的值与相邻两组频数的分布有关
2. 相邻两组的频数相等时,众数组的组中值
即为众数
Mo
3. 相邻两组的频数不相等时,众数采用下 列近似公式计算
M0
L
(
f
f f1 f1) ( f
f 1 )
i
Mo
4. 该公式假定众数组的频数在众数组内均匀分布 Mo
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(一)原始数据: (二)分组数据:
K
Xi X
3 i
3 i1 N x3
K X i X 3 Fi
3 i1 N x3
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
解释: 1.偏态系数=0为对称分布 2.偏态系数> 0为右偏分布 3.偏态系数< 0为左偏分布
黔南民族师范学院管理科学系
五、标准差 (一)概念:为离差平方的算术平均数的平
方根。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(二)标准差的计算
1、未分组数据:
x
N
(Xi X )2
i 1
N
2、分组数据:
x
K
( X i X )2 Fi
i 1
K
Fi
i 1
黔南民族师范学院管理科学系
管理类专业基础课程
《管理统计学》
标准差计算例
【例】根据第三章表中的数据,计算工人日加工零件数的标准差
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
某车间50名工人日加工零件标准差计算表
组中值(Xi)
频数(Fi)
(Xi- X )2
107.5
管理类专业基础课程 《管理统计学》
(二)、几种差异量数的比较 1、极差 2、四分位差 3、平均差 4、标准差
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
第3节:数据分布的偏度和峰度的描述
偏态
峰度
左偏分布 右偏分布
扁平分布
与标准正态 分布比较!
尖峰分布
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
管理类专业基础课程 《管理统计学》
第三章:统计数据分布特征的描述
第1节:分布集中趋势的测度:集中量 第2节:分布离散程度的测度:差异量 第3节:分布偏度和峰度的测度:偏态量与
峰态量 第4节:数据地位的测度:标准化值
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
数据分布的特征
集中趋势 (位置)
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(二)加权算术平均数 1、计算公式:
K
X
X1F1 X 2 F2 X N FN F1 F2 FN
X i Fi
i1 K
Fi
i1
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
2、用途: (1)分组数据求平均数。 (2)需要权重的现象求平均数。
一个众数:
659855 多于一个众数:
25 28 28 36 42 42
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(2)分组数据: 方法一:观察法 方法二:皮尔逊经验法(当频数分布为正态
或近似正态分布时)
黔南民族师范学院管理科学系
管理类专业基础课程
《管理统计学》
方法二:金氏插补法
户数比重(%) Fi
2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94
(Xi- X ) Fi3
-154.64 -336.46 -144.87 -11.84
0.18 23.16 89.02 171.43 250.72 320.74 1481.81
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
众数、中位数和均值的关系
均值 = 中位数 = 众数
众数 中位数 均值
均值 中位数 众数
对称分布
正偏分布
负偏分布
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(二)几种平均数的比较 优良统计量应具备的六个条件: ①感应灵敏。 ②确定严密。 ③意义简单明确。 ④计算简易。 ⑤易于代数处理。 ⑥受抽样影响小。
x i1 K
Fi
i 1
3100.5 7.8( 7 个) 50
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(三)标准差的用途 ◆广泛用于表明数据的离散程度或离中趋势。 ◆标准差是进行相关分析和统计推断的必须
量数。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(四)离散系数
(二)计算 1、原始数据:
Q1: 1 N 4
Q3: 3 N 4
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
2、分组数据:
Q1 L
N 4
n1 i
fm
Q3
L
3N 4
n1
fm
i
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(三)四分位差的用途: 与中数配合使用,描述一组数据分布中中间
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
二、四分位差
(一)概念:分位:百分位、四分位,即数 据所处的位置。一组按大小顺序排列的数 据中,中间50%的数据的极差的一半。或 第一四分位与第三四分位数之差的一半。
QD =( Q3 – Q1)/2
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(三)几何平均数 1、有关发展速度的几个概念 (1)、发展速度 (2)、增长速度
2、几何平均数的计算公式:
N
G N a1 a2 aN N ai iห้องสมุดไป่ตู้1
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
简化公式:
G N xn x1
据不清楚时。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(二)众数 1、定义:指一组数据中出现次数最多的那
一个数值。 2、众数的求法: (1)未分组数据:出现次数最多者。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
众数的不唯一性
无众数: 10 5 9 12 6 8
管理类专业基础课程 《管理统计学》
根据上表数据计算得
K
X X i • i1
Fi
K
21.42(9 百元)
Fi
K
Xi •
i 1
Fi
K
Fi
12.08(9 百元)
i 1
i 1
将计算结果代入公式得
K
11
3
i 1
Xi X
N 3
3 Fi
X i 21.4293 Fi
i 1
1 12.0893
3、众数的用途: (1)用于分类数据集中趋势的度量。 (2)用于数值型数据中需要快速而粗略地
寻找代表值时。 (3)用于粗略地估计频数分布的形态。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
三、几种平均数的比较 (一)算术平均数、中数、众数的关系 1、正态分布时: 2、正偏态分布时: 3、负偏态分布时:
公式:
原始数据:
分组数据:
N
(Xi X )2
x 2 i1
N
K
( X i X )2 Fi
x 2 i1 K
Fi
i 1
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
(二)方差应用:主要用于推断统计中多个 平均数差异的比较。
黔南民族师范学院管理科学系
管理类专业基础课程 《管理统计学》
AD i1 K
Fi
i 1