第三讲描述统计之常用统计参数

合集下载

教育与心理统计学第二章常用统计参数考研笔记-精品

第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征，便于我们对数据分布状况进行更好的代表性的描述，也有利于我们更好地了解数据的特点。

常见的统计参数包括三类：集中量数、差异量数、地位量数（相对量数X相关量数。

描述统计的指标通常有五类。

第一类集中量数：用于表示数据的集中趋势，是评定一组数据是否有代表性的综合指标，比如平均数、中数、众数等。

概述［不背］第二类差异量数：用于表示数据的离散趋势，是说明一组数据分散程度的指标，比如方差、标准差、差异系数等。

第三类地位量数：是反映个体观测数据在团体中所处位置的量数，比如百分位数、百分等级和标准分数等。

第四类相关量数：用于表示数据间的相互关系，是说明数据间关联程度的指标，比如积差相关、肯德尔和谐系数、①相关等。

第五类：是反映数据的分布形状，比如偏态量和峰度等（不作介绍I第一节集中量数（一）集中量数的定义（种类、作用）［湖南12名］描述数据集中趋势的统计量数称为集中量数。

集中量数能反映大量数据向某一点集中的情况。

常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等，它们的作用都是用于度量次数分布的集中趋势。

（二）算术平均数（平均数、均数）（一级）简述算术平均数的定义和优缺点。

（1）平均数的含义算术平均数可简称为平均数或均数，符号可记为M。

算术平均数即数据总和除以数据个数，即所有观察值的总和与总频数之比。

只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数，才全称为算术平均数。

如果平均数是由变量计算的,就用相应的变量表示，如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数，在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标，是真值的最佳估计值。

（2）平均数的优缺点简述算术平均数的使用特点［含优缺点］算术平均数优点①反应灵敏。

观测数据中任1可一个数值或大或小的变化，甚至细微的变化，在计算平均数时，都能反映出来。

统计主要指标解释

统计主要指标解释1.平均值：平均值是指一组数据的总和除以数据的个数，用于衡量数据的集中趋势。

平均值通常用于描述均衡的情况，但在存在异常值或极端值的情况下，可能会被这些值的影响而偏离。

2.中位数：中位数是指将一组数据按大小排序后，位于中间位置的数值。

中位数通常用于描述数据的中间位置，对于存在异常值或偏斜分布的情况，中位数通常比平均值更具有代表性。

3.方差：方差是指一组数据与其平均值之间的差异程度的平均值。

方差用于度量数据的离散程度，数值越大表示数据越分散，反之，数值越小表示数据越集中。

4.标准差：标准差是方差的平方根，用于度量数据的离散程度。

标准差通常与平均值一起使用，可以帮助我们了解数据分布的范围和形态。

5.相关系数：相关系数用于度量两个变量之间的线性关系强度和方向。

相关系数的取值范围通常为-1到1，其中1表示完全正相关，-1表示完全负相关，0表示无相关性。

6.百分位数：百分位数是指在一组排序的数据中，小于一些特定百分比的数值。

百分位数常用于描述数据分布的位置和范围，如第25百分位数表示有25%的数据小于该值。

7.偏度：偏度是指数据分布的偏斜程度，描述了数据分布曲线的对称性。

正偏表示数据分布向右偏离平均值，负偏表示数据分布向左偏离平均值，偏度值为0表示数据分布对称。

8.峰度：峰度是指数据分布曲线的陡峭程度，描述了数据分布的尖峰或平缓程度。

较高的峰度表示数据分布的尖峰较高且集中，较低的峰度表示数据分布较为平缓。

9.回归系数：回归系数用于建立一个自变量与因变量之间的数学关系。

回归系数可以帮助我们预测和解释因变量对自变量的影响程度。

10.显著性水平：显著性水平是指在统计假设检验中，判断观察结果是否显著不同于假设的程度。

常见的显著性水平有0.05和0.01，表示观察结果与假设的差异发生的可能性低于5%或1%。

这些统计主要指标可以帮助我们理解和解释数据，从而更好地推断和预测现象和问题。

使用这些指标，我们可以得出关于数据的结论，并为决策提供支持。

统计学原理——统计数据的描述综合指标

(不惟一性)
STAT
•无众数原始数据: 10 5 9 12 6 8
一个众数原始数据:
659855
多于一个众数原始数据: 25 28 28 36 42 42
3-27
中位数
(median)
STAT
1. 排序后处于中间位置上的值
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据
2. 2009年我国人口密度=132256/960 ≈138人／平方公里 3. 2008年中国国内生产总值为300670亿元，人口约为13.28亿人，人均GDP：
22640元人民币，2008年底汇率：1美元---6.8346元人民币，人均GDP：约为3313美元
3-21
练习：某公司所属三个厂近两年产量完
相对指标 (类型)
STAT
1. 计划完成相对指标
2. 结构相对指标 3. 比较相对指标 4. 动态相对指标 5. 强度相对指标
3-8
计划完成相对指标 (计算式)
STAT
实际完成数
计划完成程度相对指标= 计划任务数
×100%
分子、分母不互换，一般用百分数表示。
3-9
计划完成相对指标 (例题1)
例1.某企业某年计划规定工业总产值为5 091万元(按现行价格计算)，实际达到 5 178万元(按现行价格计算)，则该企业该年度的工业总产值计划完成程度为：
2
2
中位数 960 1080 1020 2
3-31
案例应用
STAT
• 国外某地的计程车较少，一位统计学者在该地的某街角等候计程车，眼看来了几部计程车都载客而过，这位统计学者开始怀疑这个城市到底有几部计程车，以致於不够应用。於是他开始记下载客而过的计程车车号，依次如下：

统计学参数概念

统计学参数概念
统计学参数是用来描述数据分布特征的量，用于对数据进行分析和比较。

常用的统计学参数包括：
1. 均值：一组数据的总和除以数据的个数，代表数据的中心趋势。

2. 方差：各个数据与均值的差的平方和的平均数，代表数据的离散程度。

3. 标准差：方差的平方根，代表数据离散程度的大小。

4. 中位数：把数据按大小排列，位于中间位置的值，代表数据的中等水平。

5. 众数：在一组数据中出现次数最多的值，代表数据的普遍趋势。

6. 偏度：描述数据分布偏斜程度的统计量，取值为负表示左偏，取值为正表示右偏。

7. 峰度：描述数据分布峰部陡峭或平坦程度的统计量，取值为负表示峰部平坦，取值为正表示峰部陡峭。

以上是常用的统计学参数，不同的参数可以用来描述数据的不同特征和趋势。

在数据分析中，常常需要结合使用多个参数来全面了解数据的情况和特征。

统计学课件(第三章数据描述的综合指标)

企业可以通过总量指标来了解市场需求和竞争状况，制定营销策略。
研究分析
学者和研究机构可以通过总量指标来分析社会经济问题，提出解决方案。
03
相对指标
定义与计算方法
相对指标
是用来反映社会经济现象数量特征的相对水平、相互关系和变异程度的指标。
计算方法
相对指标通常采用两个数值的比值来计算，如比例、比率、动态相对数、计划完成程度相对数等。
04
平均指标
定义与计算方法
定义
平均指标是用来反映数据集中趋势的统计指标，它通过把所有数据加起来并除以数据的个数来计算。
计算方法
平均指标的计算方法包括算术平均数、调和平均数、几何平均数等。其中，算术平均数是最常用的一种，其计算公式为 $overline{x} = frac{1}{n}sum_{i=1}^{n} x_i$，其中 $n$ 是数据的个数，$x_i$ 是每一个数据。
相对指标的分类
结构相对数
反映总体内部各组或各部分之间数量对比关系的相对指标，如各产业在国民生产总值中的
比重。
比例相对数
反映总体中不同部分数量对比关系的相对指标，如男女人口比例。
强度相对数
反映一个现象的平均水平或单位水平的相对指标，如人均国内生产总值。
动态相对数
反映某一现象在不同时间上数量变化程度的相对指标，如经
平均指标的分类
数值平均数
包括算术平均数、调和平均数和几何平均数等，它们分别以不同的方式对数据进行加权和处理。
位置平均数
包括中位数和众数，它们用来反映数据分布的中心位置或集中趋势。
平均指标的应用
描述数据的集中趋势
通过计算平均指标，可以了解一组数据的中心趋势，即数据向哪个值集中或偏移。

主要统计指标解释

主要统计指标解释
常见的统计指标包括：平均数、极差、方差、标准差、百分位数（分
位数）、原值比、比值比、变异系数、可变性指数、相对变异系数、负偏
差率、偏差率、均方根误差、离散系数、卡方值等。

1、平均数：又称为算术平均数，是由样本容量大小的确定，将样本
中所有的观测值加总后，除以样本容量大小，可以得到该样本的平均数。

客观反映样本中的综合水平，可以有效地衡量一组数据的中心位置。

2、极差：极差是一组数据中最大值与最小值之差，是统计学术语，
亦可称为极端差、极端距离、最大最小距离、极大极小差甚至最大最小差。

反映数据的变化幅度，其值越大就表明样本值变化越大，样本中的离散程
度越大。

3、方差：方差是用来衡量一组观测值分散程度的统计量，与标准差
的关系是：标准差是求方差的算数平方根。

也可以说，具有相同方差的不
同组数据，其标准差相等，而且它们都具有不同的方差。

4、标准差：标准差是方差的算数平方根，又称标准偏差，是测量总
体数据离散程度的参数，表示的是总体数据变异的幅度和程度。

标准差取
决于样本大小，越小的样本，它的标准差就越大，反之，越大的样本，它
的标准差就越小。

5、百分位数（分位数）：百分位数又称分位数。

描述分类变量资料的主要统计指标

描述分类变量资料的主要统计指标在描述统计中，经常要描述两个变量之间的关系，这就是指标。

描述分类变量资料的主要统计指标有：平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。

一、全距n。

平均数在统计学上指全部观察单位的算术平均数，即众数、中位数和方差的算术平均数。

它反映了各个变量在总体中所占的比例。

用公式表示为n=AV。

例如：成人牙齿脱落率调查，共调查成人2046人，其中有根以上完全不能保留者占4.5%，按标准脱落百分数计算，每根牙齿应脱落2%。

则该项调查结果的全距是2.5%。

全距愈小说明变量在总体中所占的比例愈大，代表性愈强。

二、方差 1。

方差又称离散系数或变异系数。

由于各个观察单位所得的资料是来自不同的变量，因而这些资料都是不可比的。

但在抽样调查时，要使各个单位取得同样的结论，在对总体进行分析时，就必须把各单位的观察结果加以平均化，从而消除了由于来源不同引起的资料不可比问题，并使各单位的离散状况趋于一致。

这就需要用变异系数将各单位的资料加以平均，使其成为总体的平均资料。

因此，方差就是各个单位的变异程度的一种度量。

方差的符号是σ，单位是标准差(SD)。

2。

标准差的计算公式为：SD=∑[(X-Y)÷2]×100%。

式中SD表示标准差。

标准差的大小是随研究的目的而异的，通常用于某些问题的检验或推断。

如：某县的全年工业总产值的多少与全年粮食总产量的多少成正比；销售额的增长速度快慢与企业利润成正比。

对于全距，方差，标准差，原因，方差是概率统计的专有名词。

在实际工作中，我们通常简单地用：均数×方差=总体标准差（均值×方差=总体方差），来概括变量之间的关系。

当然，我们在阅读统计资料时，有时也会碰到一些专门用语，如果只看题目或只看这些专门用语，也很难理解题意，但只要知道它们的含义就行了。

常用统计指标解释

常用统计指标解释1. 平均值（Mean）：是一组数据的总和除以数据的个数。

它表示数据的集中趋势，可以用来描述数据的中心位置。

2. 中位数（Median）：是将一组数据按升序排列后，位于中间位置的数值。

它对极端值不敏感，用来描述数据的中心位置。

3. 众数（Mode）：是一组数据中出现次数最多的数值。

它可以用来描述数据的分布特征，尤其适用于描述离散型数据。

4. 标准差（Standard Deviation）：是数据与其平均值的偏离程度的一种度量。

标准差越大，数据的分散程度越大；标准差越小，数据的分散程度越小。

5. 方差（Variance）：是数据与其平均值的偏离程度的平方的平均数。

方差越大，数据的分散程度越大；方差越小，数据的分散程度越小。

6. 百分位数（Percentile）：是一组数据按升序排列后，位于一些百分比位置的数值。

百分位数可以用来描述数据的分布特征和分位点。

7. 四分位数（Quartile）：是一组数据的四个百分位数，将数据分为四个等分。

第一个四分位数（Q1）表示25%的数据位于它之下，第二个四分位数（Q2）即中位数，第三个四分位数（Q3）表示75%的数据位于它之上。

8. 偏度（Skewness）：是描述数据分布形态的指标，反映了数据分布的对称性。

当偏度为0时，数据分布为对称分布；当偏度大于0时，数据分布偏向右侧；当偏度小于0时，数据分布偏向左侧。

9. 峰度（Kurtosis）：是描述数据分布形态的指标，反映了数据分布的尖峭程度。

正态分布的峰度为3，大于3表示数据分布更尖峭，小于3表示数据分布更平坦。

10. 相关系数（Correlation Coefficient）：是用来描述两个变量之间线性关系强弱的指标。

相关系数介于-1和1之间，当相关系数为1时，表示两个变量完全正相关；当相关系数为-1时，表示两个变量完全负相关；当相关系数为0时，表示两个变量没有线性关系。

11. 离散系数（Coefficient of Variation）：是标准差与平均值之比的绝对值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

N是总体容量；
x 是变量X的第i次观察值；
i
[例]某项研究在一年级学生总体中抽取出10
名被试，测得他们的分数为60、70、65 、78、98、64、89、75、69、75，试求他们的平均分数。
②观察数据整理成次数分布表后平均的计算
X

f N
X
c
■注
◆公式隐含了观察数据在各分组区间均匀散布的假设； ◆
4、应用
◆出现两极端数据时；
◆ 当次数分布的两端数据或个别数据不清楚时； ◆ 快速估记时；
三、众数
1、定义
又称密集数、通常数，符号Mo，它指在一组数中出现次数最多的那个数。 2、计算方法直接找出现次数最多的那个数0
3、皮尔逊经验公式（数据偏态分布）
M
o
3Mdn 2 X
4、应用范围 ◆一组数据出现不同质的情况 ◆一组数据中出现极端数据，也用众数作为集中量数的粗略估计。
[Exercise]
The data about annual salaries of Management and Exployees of XYZ company are presented below ,can you calculate the values of the mode ,the median and the mean (three different measures of central tendency ) $72,000.00 54,000.00 26,400.00 19,200.00 19,200.00 19,200.00 19,200.00 18,000.00 16,800.00 16,800.00 16,800.00 14,400.00 14,400.00 14,400.00
2 3 4 8 11 17 19
76~
77
||||| ||||| ||||
14
中数动差
3、算术平均数的性质
①性质1
一组数据 x1 , x2 ,, xn 中每一个数与平均数之差（称为离均差）的总和等于 0，即：
(x
i 1
n
i
X) 0
②性质2
给一组数据 x1 , x2 ,, xn 中的每一个数加
x
i
CX
4、平均数的意义
应用最广泛的一种集中量数。是总体均
值（或“真值”）的最佳估计。
X n
依概率1

■通俗的理解
设共有n个观察数据，第i个为 X i ，设真
值或总体均值为，则有：
观察值与真值的差为：
d i X
i

d X
i
i
n
d
n
i
X
n
d
n
i
■例
①求数据３、６、７、9、20的中数；
②求数据３、６、７、9、20、60的中数；
⑵ 未分组数据求中数的方法（有重复数据）
■例子
求数据11、11、11、11、13、13、13、 17、17的中数；（数据个数为奇数）
4 4 12.5 13 13.5
■例子
求数据11、11、11、11、13、13、13、
第二章常用统计参数
分布表与分布图在表示变量观察数据分布时存在先天缺陷。这种缺点可以利用随机变量分布的数字特征得以克服。
[问题]反映变量次数分布特征主要有哪些呢？
1、集中趋势
指的是数据分布中大量数据向某方向集
中的程度。用以刻划集中程度的统计量，
即集中量数。（平均数等）
2、离中趋势（离散性）
[例]求下列数据的中数
分组区间 96~99 93~96 90~93 87~90 84~87 81~84 78~81 75~78 次数 2 3 4 8 11 17 19 14
ⅱ、累加曲线求中数示意图
3、中数的特点
①计算简单，不受极端数据影响；
②没有反映所有数据的信息，从而具有较大的抽样误差，不如平均数稳定．也无法进行进一步的数学分析。
二、中数
1、定义
又称中位数，符号Mdn,是指位于一组数据中较大一半与较小一半中间位置的那个
数。中数所处的位置以表示。
■注：这个数可能是数据中的某一个，也可能根本不是原有的数据。
2、计算方法及分类
⑴ 未分组数据求中数的方法（无重复数据）
是将数据依大小次序排列： ◆若数据个数为奇数，则取数列中间的那个数为中数； ◆若数据个数为偶数，则取中间两个数的平均数为中数。
刻划变量出现（一组数据）的分散程度
，即数据分布的离散程度。
第一部分：集中趋势
一、算术平均数
简称平均数、均数或均值，为与其它几种平均数相区别，也称算术平均数。 ■符号表示：M、、X、 Y
观察数据的平均数
总体均值
2、公式
①未分组观察数据平均数
1 X N
x
i 1
N
i
其中： X 是算术平均数；
17、17、18的中数；（数据个数为奇数）
5 4 12.5 13 13.5
⑶ 分组数据求中数的方法
①分组数据的中数
当观察数据整理成次数分布表以后，中数的求取也是取序列中将N（观察数据总数）平分为两半的那点作为中数。
②中数的计算公式
i、分组次数分布表中数公式
Md Lb
N F b 2 i
X 0
X
5、评价 ①优点
*反应灵敏 *确定严密 *简明易解
*计算简单 *适合进一步演算 *较小受抽样变化的影响等优点。 ②缺点 *算术平均数易受极端数据的影响； *无法对模糊数据进行处理；
6、应用平均数的原则
⑴ 同质性原则
⑵ 平均数与个体数据结合的原则 ⑶ 平均数与方差相结合的原则
上一个常数C则所得到的新数组的平均数为原
来数组的平均数加上常数C，即：
1 n C) X C ( x i n i 1
③性质3
给一组数据中
x , x ,, x
1 2
n
的每一个数乘
上一个常数C，则所得到的新数组的平均数为原来数组的平均数（设为 X ）乘以常数 C，即：
1 n C n i 1
X 、f分别是各分组区间的组中值与
c
相应次数
88名高考考生数学成绩统计结果
分组区间组中值划记次数相对次数 (频率) 累加次数累积相对次数
97~ 94~ 91~ 88~ 85~ 82~ 79~
98 95 92 89 86 83 80
|| ||| |||| ||||| ||| ||||| ||||| | ||||| ||||| ||||| || ||||| ||||| ||||| ||||
f
Md
◆ Lb 为中数所在组的精确下限；
◆ F b 为中数所在组以下各组的累积次数；
◆ f Md 为中数所在组数据的个数；
◆ i 为组距；
■等价公式2
Md La
◆
N F a 2 i
f
Md
L 为中数所在组的精确上限； ◆ F 为中数所在组以上各组的累积次数；
a a
◆ f Md 为中数所在组数据的个数；