第3章统计数据的描述度量

合集下载

《统计学》-单薇主编-第3章 数据特征的度量

《统计学》-单薇主编-第3章 数据特征的度量

统计学
STATISTICS
3.1.1 均值
(mean)
1. 集中程度的最常用测度值 2. 一组数据的均衡点所在 3. 易受极端值的影响
4. 用于数值型数据,不能用于分类数据和顺 序数据
2 -5
统计学
STATISTICS
简单均值
(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
4. 各变量值与中位数的离差绝对值之和最小,即
n
xi Me min
2 - 16
i1
统计学
STATISTICS
中位数
(位置的确定)
未分组数据: 中位数位 n置 1 2
分组数据: 中位数位置n 2
2 - 17
统计学
STATISTICS
数值型数据的中位数
(5个数据算例)
【例】 5个工人日产量
原始数据: 3 8 5 4 9 排 序: 3 4 5 8 9
G 41.0 5 % 4 1.0 1 % 2 1.2 5 % 5 1.0 9 % 1 1 8 .07 % 87
2 - 15
统计学
STATISTICS
3.1.4 中位数
(median)
1. 排序后处于中间位置上的值
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
中位数是将统计分布从中间分成面积(即数
据个数)相等的两部分,与中位数性质相 似的还有四分位数(quartile)、十分位数 (decile)、和百分位数(percentile)。 显然,四分位数就是将数据分布4等分的三 个数值,其中中间的四分位数就是中位数。 十分位数和百分位数分别是将数据分布10 等分和100等分的数值。

数据分布特征的三个统计描述维度

数据分布特征的三个统计描述维度

数据分布特征的三个统计描述维度现如今生活处处有数据,而我们接触到的数据可以分为连续型数据或者离散型数据。

连续数据的取值范围是可以取连续值的区间,即连续值可以是区间内的任意值,一般都有度量单位。

离散数据的范围由有限数量的值或序列组成。

对数据集使用合适的描述性指标,可以帮助我们探索庞大无序的数据背后隐藏的事实。

描述数据集的三个维度是指对数据集中趋势的描述、对数据分散程度的描述和对数据分布形式的描述。

一、集中趋势描述1.算术平均数 Arithmetic Mean:所有数值的和除以数值的个数。

用于描述一组数据在数量上的平均水平。

计算公式:优缺点:算术平均数是能够充分运用已有信息的代表性数值,每个数值大小的改变都会引起其变化。

也因此容易受极值的影响,并且会掩盖数据的差异性。

示例:最近更新了2018年度深圳在岗职工的月平均工资,达到了9309元。

这就是一个算术平均值的实际应用。

还是要保持进步,争当排头兵而非吊车尾呀。

2.几何平均数 Geometric Mean:对各数值的连乘积开项数次方根。

一般用于当总成果为各个阶段(环节)的连乘积时,求各个阶段(环节)的一般成果。

计算公式:优缺点:几何平均数受极端值的影响比均值小。

但仅适用于具有等比或近似等比关系的数据。

示例:连续作业的车间求产品的平均次品率。

一个产品的生产由三个环节组成。

每个环节都会产生一定的次品。

次品率依次为5%、2%、6%,求这个产品的平均次品率。

因为每个环节都是依次发生的,需要完成上一个环节的合格产品才能进入下一个环节,所以每个环节的不良率是一个产品关系。

依照上式结果可知,该产品整个生产环节的平均次品率为3.91%。

3.中位数 Median:将数值从小到大依次排列,最中间的数值为中位数。

若数值个数为奇数个时,为中间位置的数值;若数值个数为偶数个时,为中间两个数的算术平均数。

优缺点:不受极值影响,通过丢失一些信息来换取指数的稳定性。

但对极值缺乏敏感性,样本量较小时中位数不稳定。

第三章描述性统计分析

第三章描述性统计分析

描述性统计分析指标

统计量可分为两类


一类表示数据的中心位置,例如均值、中位数、众 数等 一类表示数据的离散程度,例如方差、标准差、极 差等用来衡量个体偏离中心的程度。
描述单变量分布的三种方式

用数字呈现一个变量的分布 用表格呈现一个变量的分布 用图形呈现一个变量的分布
Frequencies

在交叉列联表中,除了频数外还引进了各种百分 比。例如表中第一行中的33.3%, 33.3%, 33.3 %分别是高级工程师3人中各学历人数所占的比例 ,称为行百分比(Row percentage),一行的百 分比总和为100%;表中第一列的25.0%,25.0% ,50.0%分别是本科学历4人中各职称人数所占的 比例,称为列百分比(Column percentage), 一列的列百分比总和为100%,表中的6.3%,6.3 %,12.5%等分别是总人数16人中各交叉组中人 数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为 100%。
例子

假设我们有以下的三组观测值:

观测A:11,12,13,16,16,17,18,21 观测B:14,15,15,15,16,16,16,17 观测C:11,11,11,12,19,20,20,20

这三组观测值的均值都是15.5,那么这三组数 据是否相似呢?
离散趋势
离散趋势的描述
本科 职称 高 级工 程师 Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total 1 33.3% 25.0% 6.3% 1 25.0% 25.0% 6.3% 2 33.3% 50.0% 12.5% 0 .0% .0% .0% 4 25.0% 100.0% 25.0%

统计学:从数据到结论(人大吴喜之老

统计学:从数据到结论(人大吴喜之老

高三男生身 高
170
160
150
§3.1.1 定量变量的图表示:3.茎叶图
• 在直方图和盒形图中,很难恢复数据 的原貌。而另一种图:茎叶图(stemand-leaf plots)可以恢复数据 • 以地区1高三男生身高为例(图3.3), 茎叶图既展示了分布形状又有原始数 据。它象一片带有茎的叶子。茎为较 大位数的数字,叶为较小位数的数字。
§3.2 如何用少量数字来概括数据?
• 概括统计量经常对应于总体 的无法观测到的某些参数。 • 这时,统计量可作为这些参 数的估计。一些统计量还可 以用来检验样本和假设的总 体是否一致。
§3.2 如何用少量数字来概括数据?
• 注:一些统计量前面有时加 上“样本”二字,以区别于 总体的同名参数。如“样本 均值”和“样本标准差”, 以区别于总体均值和总体标 准差;但在不会混淆时可以 只说“均值”和“标准差”。
40
-3 -2 -1 0 x 1 2 3
80
60
20
40
0
0
-3
20
60
80
-2
-1
0 y
1
2
3
图 3.7 两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半
§3.2.3 数据的标准得分
• 假定两个水平类似的班级(一 班和二班)上同一门课, • 但是由于两个任课老师的评分 标准不同,使得两个班成绩的 均值和标准差都不一样(数据: grade.txt)。
30
40
直方图
20
10
0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0

统计学(第四版)期末复习资料

统计学(第四版)期末复习资料

第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。

2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。

3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。

4.分类数据:只能归于某一类别的非数字型数据。

5.顺序数据:只能归于某一有序类别的非数字型数据。

6.数值型数据:按数字尺度测量的观察值。

7.总体:包含所研究的全部个体(数据)的集合。

8.样本:从总体中抽取的一部分元素的集合。

9.参数:用来描述总体特征的概括性数字度量。

10.变量:说明现象某种特征的概念。

11.分类变量:说明事物类别的一个名称。

12.顺序变量:说明事物有序类别的一个名称。

13.数值型变量:说明事物数字特征的一个名称。

14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。

17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。

18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。

20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。

1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。

操作简便,时效快,成本低,专业要求不很高。

概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。

提出精度要求。

2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。

第三章数据的特征量及统计分析

第三章数据的特征量及统计分析

X g 10
几何平均数的应用
lg பைடு நூலகம் ( ) N
——计算入学人数增加率、学校经费增加率、阅读能力提高 率等。
例:某市6年中小学教师的学历达标率分别为40%、52%、65%、 72%、78%、86%,计算该市小学教师6年学历平均达标率。
解:
lg 0.40 lg 0.52 lg 0.65 lg 0.72 lg 0.78 lg 0.86 lg G 0.1975 6
2、四分位距( QD)——内距或四分位差
四分位数:把所有数据由小到大排列并分成四等份,处于三 个分割点位置的数值就是四分位数。 分别记为: • 第一四分位数 (Q1),即第25百分位数( P25 ),又称“较 小四分位数” 。 • 第二四分位数 (Q2),即第50百分位数( P50 ),又称“中 位数” 。 • 第三四分位数 (Q3),即第75百分位数( P75 ),又称“较 大四分位数” 。 • 四分位距(QD)=(Q3-Q1)/2
大样本标准差:s 小样本标准差:s
X

2
N
频数分布表计算标准差:
X
2
X

2
X
n
1 N

N
f i(mi X )2
X
n 1


f i mi2
(
f i mi N
)2
标准差的性质
(1)标准差的大小受变量影响,如变量间变异大, 求得的标准差也大,反之则小。 (2)计算时,各变量同时加上或减去一个常数,其数值 不变 (3)各变量同时乘以或除以一个常数a,所得标准差是原 来标准差的a倍或1/a倍。
2.几何平均数
——N个数据连乘积的N次方根,符号为

统计学第四版答案

统计学第四版答案

请举出统计应用的几个例子:1、用统计识别作者:对于存在争议的论文,通过统计量推出作者2、用统计量得到一个重要发现:在不同海域鳗鱼脊椎骨数量变化不大,推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的3、挑战者航天飞机失事预测请举出应用统计的几个领域:1、在企业发展战略中的应用2、在产品质量管理中的应用3、在市场研究中的应用④在财务分析中的应用⑤在经济预测中的应用你怎么理解统计的研究内容:1、统计学研究的基本内容包括统计对象、统计方法和统计规律。

2、统计对象就是统计研究的课题,称谓统计总体。

3、统计研究方法主要有大量观察法、数量分析法、抽样推断法、实验法等。

④统计规律就是通过大量观察和综合分析所揭示的用数量指标反映的客观现象的本质特征和发展规律。

举例说明分类变量、顺序变量和数值变量:分类变量:表现为不同类别的变量称为分类变量,如“性别”表现为“男”或“女”,“企业所属的行业”表现为“制造业”、“零售业”、“旅游业”等,“学生所在的学院”可能是“商学院”、“法学院”等顺序变量:如果类别有一定的顺序,这样的分类变量称为顺序变量,如考试成绩按等级分为优、良、中、及格、不及格,一个人对事物的态度分为赞成、中立、反对。

这里的“考试成绩等级”、“态度”等就是顺序变量。

数值变量:可以用数字记录其观察结果,这样的变量称为数值变量,如“企业销售额”、“生活费支出”、“掷一枚骰子出现的点数”。

定性数据和定量数据的图示方法各有哪些:1、定性数据的图示:条形图、帕累托图、饼图、环形图2、定量数据的图示:a、分组数据看分布:直方图b、未分组数据看分布:茎叶图、箱线图、垂线图、误差图c、两个变量间的关系:散点图d、比较多个样本的相似性:雷达图和轮廓图直方图与条形图有何区别:1、条形图中的每一个矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距。

2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

统计学知识点(前四章)

统计学知识点(前四章)

统计学知识点(前四章)第1章导论1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。

2.按数据分析方法分类:↗描述统计—数据收集、处理、汇总、图表描述↘推断统计—利用样本数据推断总体特征3.统计数据是对现象进行测量的结果。

4.按照计量尺度的不同,将统计数据分为分类数据、顺序数据和数值型数据。

1)分类数据:对事物分类的结果,用文字表述,数据表现为类别(男女);2)顺序数据:有序的类别,如,一等品二等品、小学初中高中、同意;3)数值型数据:按数字尺度测量的观察值,具体的数值。

5.数据的计量尺度:1)定/分类尺度:数据表现为类别,按照事物的属性平行的分类,计量层次最低,具有“=”或“≠”的数学特性;2)定/顺序尺度:数据表现为有序的类别,具有“>”或“<”的数学特性;3)定距/间隔尺度:数据表现为数字,没有绝对零点;4)定比/比率尺度:数据表现为数字,有绝对零点。

3、4统称数值型数据。

6.定性/品质数据:分类数据和顺序数据统称。

定量/数量数据:数值型数据。

7.按照数据的收集方法:观测数据和实验数据。

按时间状况:截面数据和时间序列数据。

(统计数据的分类)8.总体:是包含所研究的全部个体(数据)的集合。

组成总体的每个元素成为个体。

按包含数目是否可数,分为有限总体和无限总体。

9.样本:是从总体中抽取的一部分元素的集合。

构成样本的元素的数目成为样本量。

抽样的目的是为了根据样本提供的信息推断总体的特征。

10.参数:是用来描述总体特征的概括性数字度量。

是研究者想要了解的总体的某种特征值,如,总体平均数μ、总体标准差σ。

11.统计量:是用来描述样本特征的概括性数字度量。

是根据样本数据计算出来的量,如,样本平均数χ 、样本标准差s。

12.变量:是说明现象某种特征的概念。

如,商品销售额、受教育程度。

变量的具体值称为变量值,比如商品的销售额可以是20万、30万。

13.变量的分类——分类变量:性别、行业;顺序变量:产品等级、受教育程度;数值型变量:↗离散型变量:产品数量、企业数(取值以整数位断开)↘连续性变量:年龄、温度、零件尺寸(取值连续不断)随机变量和非随机变量,经验变量和理论变量第2章数据的搜集1.数据的来源:间接来源和直接来源2.间接来源的数据:对原信息重新加工、整理,数据可以取自系统外部或内部。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
算术平均数的主要局限:易受极值影响
16
使用 Excel 函数求算术平均数
利用 Excel“公式”-“其它函数”-“统计”中的
AVERAGE 函数可以方便地计算出一组或多组数据的
算术平均数。
x

1 n
n
xi
i 1
语法规则:
格式:AVERAGE(<区域或数组1>,<区域或数组2>,…)
例:利用某汽车公司各销售点的销售数据,求平均销 售量。
k

X = wi Xi
i1
14
(2)加权算术平均数
X
Xi fi fi
wi X i
15
统计推断和统计分析几乎都离不开算术平均数: 用它作为一组资料集中趋势的测度量, 它是一组
数据的重心, 是数据规律性的反映 它又是对所提供信息运用最充分的指标, 最灵敏,
最适合代数方法处理, 具有优良的数学性质.
25% 25% 25% 25%
QL
QM
QU
上四分位数又称75百分位数(75 pecentile,有75 %的观测值小于它),下四分位数为25百分位数 (25 pecentile,有25%的观测值小于它)。
k百分位数(k-pecentile)意味着有k%的观测值 小于它。如果令a=k%,则k百分位数也称为a分 位数(a-quantile)。
1. 集中趋势的测度值之一 2. 不受极端值的影响 3. 可用于定序数据,也可用于数值型数据,
但不能用于定类数据
44
四分位数位置的确定
未分组数据:
下四分位数(QL)位置 = 上四分位数(QU)位置 =
第3章 统计数据的描述度量
1
本章主要介绍以下综合统计指标:
数据特征的描述
集中趋势
离中趋势
分布形状
均值 中位数 众数 其他指标
区域 方差 标准差 变异系数 其他指标
偏度 峰度
如何用少量数字来概括数据?
平均人数:1118.93 最大人数:3230 最小人数:148
除图表外,还可用少量所谓汇总统计量或概括统计量 (summary statistic)来描述定量变量的数据。
50
119 .64(万元)
众数组为“100~150”的组,
M0
L 1 1 2
d
100

42 35
50
(42 35) (42 26)
115 .22
(万元)
41
5.四分位数
上下四分位数(或分别称为第 一四分位数和第三四分位数, first quantile, third quantile) 则分别位于(按大小排列的) 数据的上下四分之一的地方。
f i — 各比率出现的频数
19
几何平均数的主要用途: 对比率进行平均 测定生产或经济变量时间序列的平均增长率 当观测值中有一项为0或负值时,不宜计算几何平均数
20
例:某公司原料成本随时间增长的情况如下表
1992 1993
成本
200 228
年增长率(%)
14
求原料成本的平均年增长率。
1994 239.4
22
3.中位数(median)
将总体各单位标志值 按由小到大的顺序排 列后,处于中间位置 的标志值称为中位数, 记为Me ,Med或Mdn。
23
中位数是一种位置平均数,不受极端数据的影响。 当统计资料中含有异常的或极端的数据时,中位 数比算术平均数更具有代表性。
5 笔付款:9元,10元,10元,11元,60元 均值= 20 元,不是一个很好的代表值, 中位数= 10 元,更能代表平均每笔的付款数。
中位数是位置平均数,不易受极端值的影响,是较 稳健的集中趋势度量指标。因此, 许多国家的政府发 布的个人所得和人口年龄的平均值,往往用中位数。 中位数的不足之处: 中位数的确定只与中间位置的1或2个数值有关,忽 略了其他数值的大小,缺乏敏感性,且不适合代数 运算。
29
4.众数(mode)
众数是一组资料中出现次数最多的标志值,记为M o。 众数明确反映了数据分布的集中趋势,也是一种位 置平均数,不受极端数据的影响。但并非所有数据 集合都有众数,也可能一组数据存在多个众数。
35
一般而言, 遇到资料中有较多的数值向某一数值集中的情况, 或者是资料按品质标志分组时,宜采用众数: 为掌握某日某集市上某种商品的价格水平, 用该日市场
上该商品的最普遍成交价来代表该商品的价格水平, 这 种价格就是众数; 若某班学生的统计学考试成绩有70%都是80分, 那么用80 这个众数就可以很好的说明该班学生的统计学考试成绩; 经济系教师的血型以A型居多,则以众数血型A作为集 中趋势最恰当。
这些数字从样本数据中得来,是样本的函数。任何样 本的函数,只要不包含总体的未知参数,都称为统计 量(statistic)。样本的随机性决定统计量的随机性(统 计量也是随机变量)
统计量的作用:
估计总体参数。许多情况下,样本统计量的值反 映了无法观测到的总体参数的大小
用来检验样本和假设的总体是否一致
30
在某些情况下,众数是一个较好的代表值: 服装行业中,生产商、批发商和零售商在进行生
产和存货决策时; 当要了解大多数家庭的收入状况时。
31
(1) 未分组数据众数的确定 在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。 格式:MODE(<区域或数组1>,<区域或数组2>,…) 功能:返回所有参数中数据的众数。
35
55
75
100~150
42
97
125
150~200
26
123
175
200~250
15
138
225
250以上
5
143
275
x

xifi fi
123.6(万元)
Σf/2=143/2=71.5,中位数所在组为“100~150”的组,
Me

L


f
/ 2 Sm1 fm
d
100

71.5 55 42
n
(xi X ) 0
i1
① 均值是各数值的重心 ② 以平均值猜测所有的数值,所产生的误差最小
11
n
(xi X )2 min
i1
12
3)与众数和中位数相比,平均数受抽样的影响较小 某研究机构欲调查某地区人均寿命,从中抽取1个样 本(100人),计算年龄平均数、众数和中位数。然 后再抽取第2个样本,计算其年龄平均数、众数和中 位数。多次抽取(如200次)就得到了200个平均数、 众数和中位数。 平均数非常集中,中位数和众数的分布更分散。
18
2.几何平均数
当统计资料是各时期的发展速度等前后期的两两 环比数据,要求每时期的平均发展速度时,就需 要使用几何平均数。
几何平均数是 n 个数连乘积的 n 次方根。
(1) 简单几何平均数
xG n x1 x2 xn
(2) 加权几何平均数
xG
f
x f1 1
x2f2
xnfn
13
4)K组资料,各组的项数和均值分别为( f1, X1 ),
(
f2,
X2 ),…,(
fk ,
X
),则K组资料总平均数
k
X f1X1 f2 X 2 ... fk X k = k
f1 f2 ... fk
i1
fi Xi
k
fi
i1
k

wi fi
fi
i1
8
(2)算术平均数的计算
(1)简单算术平均数
X

1 n
n i1
xi
n :总体单位总数; xi :第 i 个单位的标志值。
9
算术平均数的特征 统计特征: 算术平均数是同质总体各数据偶然性、随机性特征互 相抵消后的稳定数值,反映了数据集中的特征
10
数学特征: 1) 任一组数据的各项数值与其均值之差( 离差) 的代数 和为零:
36
算术平均数、中位数和众数间的关系
1.频数分布呈完全对称的
f
单峰分布,算术平均数、
中位数和众数三者相同。
0
X (Me,M0) x
2.频数分布为右偏态 时, 众数小于中位数,算术平 均数大于中位数。
3.频数分布为左偏态时, 众数大于中位数,算术平 均数小于中位数。
f
0
M0 Me X
x
f
0
X Me M0 x
注意:一些统计量前面有时加上“样本”二字,以 区别于总体的同名参数
样本均值 总体均值
样本标准差 总体标准差
§3.1 度量集中趋势的指标
常用的集中趋势度量指标: 算术平均数 几何平均数 中位数 众数 四分位数
7
1.算术平均数
(1)基本公式:
算术平均数

总体单位标志总量 总体单位总数
32
(2) 分组数据众数的确定
对于分组数据的统计资料,众数也要用插值法来估算。 (1)确定众数所在的组
对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算
M0

L

1 1 2
d
其中:
Δ1
Δ2
L — 众数组的下限
Δ1— 众数组与前一组的频数之差 Δ2 — 众数组与后一组的频数之差 d — 众数组的组距
Me L
f 2 Sm1 d fm
其中:L — 中位数所在组的下限;
Sm-1 — 中位数所在组前一组的累计频数; fm — 中位数所在组的频数; d — 中位数所在组的组距。
相关文档
最新文档