数据分布特征的描述
数据分布特征描述

数据分布特征描述数据分布特征描述是数据分析中的重要内容,通过对数据的分布特征描述,可以更好地理解数据的规律和特点。
数据的分布特征描述通常包括数据频数分布、数据均值、数据方差、数据偏度和数据峰度等指标。
下面将从这几个方面对数据分布特征进行描述。
数据频数分布是描述数据在不同取值范围内出现的频数。
通过数据频数分布可以直观地看出数据的分布规律,包括集中趋势和离散程度等。
通常可以通过直方图或饼图来展示数据频数分布,以便更好地理解数据的集中程度和变异程度。
数据均值是描述数据的集中趋势的指标,代表数据的平均水平。
均值可以帮助理解数据的集中程度,如果数据均值较大,则说明数据整体较高;反之,数据均值较小则说明数据整体较低。
数据均值是数据分布特征描述中最基本的指标之一。
数据方差是描述数据的变异程度的指标,代表数据的离散程度。
方差越大,说明数据的分布越分散;方差越小,说明数据的分布越集中。
通过数据方差可以判断数据的变化幅度和波动情况,对数据分布的特征有着重要的参考价值。
数据偏度是描述数据分布偏斜程度的指标,用来衡量数据分布的不对称性。
正偏态表示数据分布呈右偏,负偏态表示数据分布呈左偏,而零偏态则表示数据分布对称。
数据偏度可以帮助理解数据的分布形态,了解数据的倾向性和集中程度。
数据峰度是描述数据分布峰态的指标,用来衡量数据分布的陡峭程度。
峰度较高表示数据分布较陡峭,峰度较低表示数据分布较平缓。
通过数据峰度可以了解数据的分布形状和尖峭程度,对数据分布特征的描述有很大的帮助。
综上所述,数据分布特征描述是数据分析中的重要内容,通过对数据的频数分布、均值、方差、偏度和峰度等指标的描述,可以更好地理解数据的规律和特点。
数据的分布特征描述对于数据分析和决策具有重要的意义,能够为数据挖掘和预测提供有力支持。
只有深入理解数据的分布特征,才能更好地利用数据资源,为实际应用提供有效的支持和指导。
数据分布特征的描述

K
x
xi fi
i 1 K
fi
3060 76.5 40
i 1
权数(fi ,也称权重)
权数——指在计算总体平均数或综合水平的过程中对各个 数据起着权衡轻重作用的变量。
可以是绝对数形式,也可以是比重形式(如频率)表示。
x x f f
事实上比重权数更能够直接表明权数权衡轻重作用的实质
当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就
1、结构相对指标 计算各组总量占总体或样本总量的比重,用以
反映总体或样本结构状况的综合指标。
结构相对数
各组总量 总体(样本)总量
100 %
1、结构相对指标
①可以反映总体内部结构的特征。 ②通过不同时期相对数的变动,可以看 出事物的变化过程及其发展趋势。 ③结构相对数一般用百分数表示。 ④各组结构相对数之和等于100%或1。
算术平均数
变量值总和 变量值个数
注:平均指标和强度相对数的区别 分子和分母在经济内容上有从属关系,即分子数值是各 分母单位特征的总和,两者在总体范围上是一致的。
(一)简单算术平均数
把每项数据直接加总后除以它们的项数 通常用于对未分组的数据计算算术平均数 计算公式:
n
x
x1 x2 ... xn
相对数。相对数由两个互相联系的数值对比 求得。常用的相对数包括:结构相对数、动 态相对数、比较相对数、强度相对数、利用 程度相对数、计划完成相对数等。
平均数。平均数反映现象总体的一般水平或 分布的集中趋势。
第一节 总量指标和相对指标
一、总量指标 (一)总量指标的概念和作用 总量指标是反映现象在具体时间、地点、 条件下的总规模或总水平的统计指标。 总量指标也称为绝对指标或绝对数。
数据分布特征的描述

该项活动中,每月都有数据统计及分析以用来进 行该项活动旳调整与实施。
如:有一组有关病人进入“救济”活动旳时间长 度旳数据:
67个样本:时间长度从1天到185天。
除了对该组数据进行频数方面旳描述和分析外, 下面旳统计措施在描述数据分布特征及分析方面也很 主要:
均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天
X Me Mo 当分布右偏时(阐明存在极端大旳值)
X Me Mo
3、在偏斜度适度旳情况下,不论是左偏还是右偏,中位数
与算术平均数之差约等于众数与算术平均数之差旳1/3,即有如
下经验公式:
Me
X
1 3 (M O
X)
众数、中位数和均值旳应用场合
• 众数、中位数和均值都是对数据集中趋势旳测度,
1、均值由全部数据计算,包括了全部数据旳信息,具有良 好旳数学性质,当数据接近对称分布时,具有很好旳代表性; 但对于偏态分布,其代表性较差。
Graduates Monthly Graduates Monthly Graduates Monthly
Salary($)
Salary($)
Salary($)
1
2350
5
2255
9
2440
2
2450
6
2210
10
2852
3
2550
7
2390
11
2428
4
2380
8
2630
12
2380
未分组时旳算术平均值为:2440
一、均值(Mean)
均值就是一组数据旳平均值(average value),用来测 度中心位置(central location)。
数据分布特征的描述

数据分布特征的描述原⽂链接:知识点:数据分布特征的描述1、变量集中趋势的测定变量在不同个体或不同时间条件下具体表现出来的数据是不同的,不过众多个体的数据常常会呈现出在⼀定范围内围绕某个中⼼⽽波动的分布特征。
衡量数据集中趋势的指标有两类:⼀类是数值平均数,包括算数平均数、调和平均数、⼏何平均数;另⼀类是位置代表值,根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。
测定集中趋势指标的作⽤主要是:1)反映变量分布的集中趋势和⼀般⽔平;2)可⽤来⽐较同⼀现象在不同空间或不同阶段的发展⽔平;3)可⽤来分析现象之间的依存关系。
1)数值平均数a、算术平均数(arithmeticmean),即均值(mean):将⼀组数据的总和除以这组数据的项数所得的结果。
2)位置平均数a、众数(mode)是⼀组数据中出现频数最多、频率最⾼的变量值。
众数代表的是最常见的、最普遍的状况,是对现象集中趋势的度量。
众数既可度量定量变量(数值型数据)的集中趋势,也可⽤来测度定性变量(⾮数值型数据)的集中趋势。
b、中位数(median)是将数据从⼩到⼤排序后位置居中的数值,奇数取中间,偶数取中间两个数值的平均数。
总结:算术平均数是数值平均数,和中位数⼀样在任何⼀组数据中都存在且是唯⼀的。
算术平均数受数据中极端值的影响,⽽众数和中位数则不受极端值的影响。
算术平均和众数、中位数三者之间的数量关系取决于数据分布的偏斜(⾮对称)程度:对于呈现单峰分布特征的数据,如果分布是对称,则三者相等;如分布是左偏(负偏),数据中的极⼩值会使算术平均数偏向较⼩的⼀⽅,极⼩值⼤⼩不影响中位数,但其所占项数会影响数据的中间位置从⽽略使中位数偏⼩,众数则完全不受极⼩值⼤⼩和位置的影响,所以是众数⼤于中位数⼤于算术平均数;如果分布式右偏(正偏),则反之。
2、变量离散程度的测定数据的集中趋势和离散程度是数据分布最基本的两⼤特征。
集中趋势反映了数据聚集的中⼼所在,数据的离散程度说明数据之间差异程度的⼤⼩。
概率与数理统计第3章数据分布特征的描述

概率与数理统计第3章数据分布特征的描述概率与数理统计是一门关于随机现象的描述和分析的学科。
在实际问题中,我们经常需要对数据进行分析和描述,以便更好地理解数据的特征和规律。
第三章主要介绍了数据分布的特征描述,包括中心位置度量、离散程度度量和分布形状度量。
首先是中心位置度量,它用来描述数据集的平均水平。
一般来说,我们关心的是数据集的平均值和中位数。
平均值是数据的加权平均,它能够反映数据集的集中趋势。
平均值的计算公式是:```平均值=总和/观测数```中位数是按照数据的大小顺序排列后,处于中间位置的观测值。
中位数的计算方法是:```如果数据集的观测数为奇数,中位数为第(n+1)/2个观测值如果数据集的观测数为偶数,中位数为第n/2和(n/2+1)个观测值的平均值```其次是离散程度度量,它用来描述数据集的变异程度。
我们常用的度量指标有极差、方差和标准差。
极差是数据集中最大观测值与最小观测值之间的差距,它反映了数据的全局离散程度。
方差是每个观测值与数据集平均值的差的平方的平均值,它度量了数据的局部离散程度。
标准差是方差的平方根,它与方差具有相同的单位,能够更好地反映数据的离散程度。
最后是分布形状度量,它用来描述数据分布的偏度和峰度。
偏度是描述数据分布对称性的度量,正偏表示数据集的右尾较重,负偏表示数据集的左尾较重。
峰度是描述数据分布峰态的度量,正峰表示数据集的峰部较陡,负峰表示数据集的峰部较平。
偏度和峰度能够帮助我们了解数据分布的形态特征,从而判断数据集是否服从其中一种特定的分布。
在实际应用中,我们可以通过对数据集进行描述统计分析来了解数据的特征。
通过计算平均值、中位数、方差、标准差、偏度和峰度等指标,我们能够更好地理解数据的分布情况。
此外,我们还可以通过绘制直方图、箱线图、概率密度函数等图形来展示数据的分布特征,进一步加深对数据的认识。
总之,数据分布特征的描述是概率与数理统计中重要的内容之一、通过中心位置度量、离散程度度量和分布形状度量,我们能够充分了解数据的平均水平、变异程度和形态特征,为进一步的数据分析和决策提供有力的支持。
第3章统计学数据分布特征的描述

第3章统计学数据分布特征的描述统计学是一门研究收集、分析和解释数据的学科。
在统计学中,数据分布特征的描述是指通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
数据的集中趋势描述了数据的平均水平或中心。
常用的统计量有平均值、中位数和众数。
平均值是将所有观测值相加然后除以观测值的总数,它能够反映数据的总体平均水平。
然而,当数据包含异常值时,平均值的计算结果可能会受到影响。
因此,中位数和众数在这种情况下被认为是更稳健的集中趋势度量。
中位数是将数据按大小排序,然后找出中间位置的观测值。
众数是数据中出现次数最多的观测值。
数据的离散程度描述了数据的变异程度或分散程度。
常用的统计量有方差、标准差和四分位差。
方差是观测值与均值之间差异的平方的平均值,它反映了数据的总体离散程度。
标准差是方差的平方根,用于衡量数据的波动性。
四分位差是数据的上四分位数和下四分位数之差,它描述了数据的中间50%的变异程度。
数据的分布形态描述了数据的形状和对称性。
常用的分布形态有正态分布、偏态分布和峰态分布。
正态分布是最常见的分布形态,其特点是对称、钟形曲线。
偏态分布是指数据分布不对称的情况,主要分为正偏态和负偏态。
正偏态分布意味着数据的尾部偏向右侧,负偏态分布则意味着数据的尾部偏向左侧。
峰态分布用于描述数据的峰值的尖锐程度,主要分为正态分布、高峰态和低峰态。
除了统计量,还可以使用图表来对数据分布特征进行描述。
常用的图表包括直方图、箱线图和散点图。
直方图是通过将数据分组并在坐标轴上绘制各组的频率或相对频率来展示数据的分布形态。
箱线图通过绘制数据的分位数和异常值来展示数据的中位数、四分位数和离群观测值。
散点图用于展示两个变量之间的关系,特别适用于发现变量之间的相关性和异常值。
综上所述,统计学中的数据分布特征描述是通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
这些描述能够帮助我们更好地理解数据,并对数据进行分析和解释。
数据分布特征的描述讲义
数据分布特征的描述讲义数据分布特征的描述是统计学中的一个重要概念,它提供了对数据集的整体性质和模式的理解。
在进行数据分析和统计推断时,了解数据的分布特征可以帮助我们进行更准确的推断和预测。
本讲义将介绍数据分布特征的几个主要方面,包括中心趋势、离散程度、偏斜度和峰度。
一、中心趋势中心趋势是描述数据集中心位置的一个指标。
常用的中心趋势测量指标有平均值、中位数和众数。
1. 平均值(Mean):平均值是将数据集中所有数值相加后再除以总数的结果。
平均值对异常值和偏斜数据比较敏感,因此不适用于非正态分布的数据。
2. 中位数(Median):中位数是将数据集按顺序排列后,处于中间位置的数值。
中位数对异常值和偏态数据的影响较小,适用于非正态分布的数据。
3. 众数(Mode):众数是数据集中出现次数最多的数值。
众数在描述离散数据和非正态分布数据的中心趋势时较为常用。
二、离散程度离散程度是描述数据集中数据分散程度的一个指标。
常用的离散程度测量指标有范围、方差和标准差。
1. 范围(Range):范围是数据集中最大值和最小值之间的差异。
范围对异常值敏感,仅仅描述了数据的最大和最小值,没有考虑其他数值的分布情况。
因此,在实际应用中较少使用。
2. 方差(Variance):方差是每个数据点与平均值之差的平方和的均值。
方差衡量了数据集中数据分散的程度,数值越大,数据越分散。
3. 标准差(Standard Deviation):标准差是方差的平方根。
标准差和方差的大小和正负方向相同,但标准差的量级更易于理解。
三、偏斜度偏斜度是描述数据分布形状对称性的一个指标。
正偏斜和负偏斜分别表示数据分布右偏和左偏。
常用的偏斜度测量指标有偏斜系数。
1. 偏斜系数(Skewness):偏斜系数是数据分布的非对称性度量。
如果偏斜系数小于0,则分布为左偏;如果偏斜系数大于0,则分布为右偏;如果偏斜系数等于0,则分布为对称。
四、峰度峰度是描述数据分布形状尖峭程度的一个指标。
数据分布特征的描述讲解
数据分布特征的描述讲解数据分布特征描述是统计学中对一组数据进行概括和描述的过程。
我们通常使用中心趋势和离散程度来描述数据分布的特征。
中心趋势是指数据集中的一个值,代表数据的代表性,常用的中心趋势措施包括均值、中位数和众数。
离散程度则是指数据的变异程度,包括范围、方差、标准差和四分位距等。
首先,均值是一组数据的中心趋势的一个常用度量。
它是所有数据值的总和除以数据的个数。
均值具有很强的代表性,尤其对于正态分布的数据而言。
均值的计算公式为:mean = (x1 + x2 + ... + xn) / n。
其次,中位数是数据集中的一个特殊值,将数据按照大小排列后,处于中间位置的数即为中位数。
中位数不受极端值的影响,能够更好地反映数据的集中趋势。
对于偶数个数据,中位数为中间两个数的平均值;对于奇数个数据,中位数为中间一个数。
中位数的计算可以通过将数据按照大小排列,然后找到中间位置的数来得出。
此外,众数是数据集中出现频率最高的值,可以是一个或多个。
众数对于描述数据的集中趋势也具有一定的代表性。
众数的计算可以通过建立频数分布表,然后找到出现次数最多的数来得出。
除了中心趋势,离散程度也是描述数据分布特征的重要度量。
范围是测量数据分布范围的最简单方式,它是一组数据中的最大值减去最小值。
范围对于描述数据的离散程度有一定的指示作用,但它受极端值的影响较大,不能完全反映整体数据的变异程度。
方差是衡量数据分布离散程度的一种指标,它表示数据偏离均值的程度。
方差的计算公式为:variance = Σ(xi - mean)² / n,其中xi为每个数据值,mean为均值,n为数据个数。
方差越大,数据的离散程度也越大。
标准差是方差的正平方根,它具有和原始数据单位一致的度量标准,常用于度量数据的波动性。
标准差的计算公式为:standard deviation = √variance。
四分位距是一种度量数据分布离散程度的方法,它是数据按从小到大排列后,第25%分位数和第75%分位数之间的差值。
描述数据的分布特征
描述数据的分布特征
数据的分布特征是数据分析中的重要概念之一,它可以帮助我们更好
地了解数据的基本情况、趋势和规律。
在描述数据的分布特征时,我
们需要考虑下面几个方面:
1. 中心趋势:中心趋势是指数据分布的中心位置,通常用均值、中位
数和众数等指标来表示。
均值是所有数据的总和除以数据的数量,中
位数是所有数据按大小排序后处于中间位置的那个数,众数则是出现
次数最多的那个数。
2. 离散程度:离散程度是指数据分散程度的大小,通常用方差、标准
差和极差等指标来表示。
方差是每个数据与均值的差平方和除以数据
的数量,标准差是方差的平方根,极差则是最大值与最小值之间的差。
3. 偏态性:偏态性是指数据分布的偏斜程度,通常用偏度和峰度等指
标来表示。
偏度是一个数据分布的偏斜程度的大小,正偏态表示平均
值偏大,负偏态则表示平均值偏小,而零偏态则表示平均值与中位数
相等。
峰度则是数据分布的峰态程度的大小,正峰态表示分布中心比
较集中,而负峰态则表示分布中心比较分散。
总体来看,数据的分布特征可以用柱状图、折线图、散点图、箱线图
等多种图表来展示,从而更直观地了解数据分布的情况以及趋势变化。
在实际数据分析中,掌握数据的分布特征不仅有助于数据的初步了解,还能为后续挖掘数据的规律提供帮助。
数据分布特征的描述
数据分布特征的描述数据分布是指一组数据中各个数值的分布情况。
描述数据分布的特征可以帮助我们更好地理解数据集的结构和趋势,以便做出有针对性的分析和决策。
常见的数据分布特征包括中心趋势、离散程度和偏态。
中心趋势是用来描述数据集中数值的集中程度的特征。
常见的中心趋势指标有均值、中位数和众数。
均值是所有数据值之和除以数据个数,它反映了数据集的平均水平。
中位数是将数据按从小到大的顺序排列后中间的数值,它能够抵抗极值的影响,更能反映数据的中间位置。
众数是数据集中出现次数最多的数值,它反映了数据的峰值位置。
离散程度是用来描述数据集中各个数据之间差异的特征。
常见的离散程度指标有极差、方差和标准差。
极差是最大值与最小值之间的差异,它度量了数据集的全局差异。
方差是每个数据与均值之差的平方和的平均值,它度量了数据集的分散程度。
标准差是方差的平方根,它的单位和原始数据的单位相同,可以作为数据集离散程度的标准度量。
偏态是用来描述数据分布形态的特征,主要指数据集分布的对称性和偏斜性。
常见的偏态指标有偏态系数和峰度。
偏态系数是数据集分布的偏斜程度的度量,正偏态表示分布朝着右侧伸展,负偏态表示分布朝着左侧伸展。
峰度是数据集分布的尖峰程度的度量,正峰度表示峰形较为陡峭,负峰度表示峰形较为平坦。
此外,还有其他一些描述数据分布特征的方法,比如分位数、箱线图和直方图。
分位数是将数据按大小进行排序后分成若干部分,每部分的值称为一个分位数,主要用于描述数据集的整体分布情况。
箱线图是一种以中位数为中心,上边缘和下边缘为边界的盒子,通过盒子的位置、长度和异常值的分布等来描述数据的分布情况。
直方图是一种将数据按照数值范围进行划分并绘制成柱状图的方法,可以直观地展示数据集的分布形态。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经济效果的好坏。 例如,要比较不同的生产企业生产水平的好坏,仅对比企业的产品总产量是不足以说明问题的,
由于所掌握的资料不同,在实际计算算术平均数时,可以分别采用为简单算术平均数和加权算 术平均数两种计算形式。
(二)简单算术平均数 简单算术平均数是将变量数列中各标志值简单相加求得标志总量,然后除以总体单位总量而求
得的平均数。适应于未分组的资料计算平均数。设 Xi(i=1,2,3,…,n)代表标志值, 代表算 术平均数,则简单算术平均数的计算公式为:
平均数的过程中起着权衡轻重的作用,故称为权数,按这种方法计算得到的平均数也就叫做加权算 术平均数。
3.对权数对算术平均数影响作用的理解 权数的权衡作用不在于其本身绝对数值的大小,而在于它所占总次数比重的大小,即频率
。这个权数叫做实质性权数。加权算术平均数的计算公式又可表示如下:
=
(3-4)
[例 3-4]根据表 3—1 资料计算按频率计算平均数如下: 表 3—3 按频率计算平均数
这里需要附带说明的是,算术平均数是总体标志总量和总体单位总数这两个统计绝对数之比, 因而它同虽有平均意义的强度相对数是有区别的。算术平均数的分子中的每一个标志值都由分母的 每一个总体单位来承担,如上例中的工资总额是每一个职工的工资额相加之和。而强度相对数是两 个性质不同而有联系的总体的总量指标之比。例如,按人口分摊的平均钢产量,人口总数与钢产量 就是两个性质不同但有联系的统计绝对数之比,钢产量不是每个人所承担的标志,农民是没有钢产 量的,因此,按人口分摊的平均钢产量不是一个算术平均数,而是一个强度相对数指标。
=
或
(3-6)
二、调和平均数 调和平均数是各标志值倒数的算术平均数的倒数,所以又称为倒数平均数。根据掌握的资料不
同,在计算时可以分别采用简单调和平均数和加权调和平均数两种形式。 (一)简单调和平均数 简单调和平均数适应于未分组的资料计算调和平均数。计算公式如下:
式中:H:调和平均数;x:各个标志值;n:标志值的项数;∑:总和符号。 [例 3-5]市场上某种蔬菜的早市价格 1.2 元/斤,午市价格 0.8 元/斤,晚市价格 0.6 元/斤,如果 早、中、晚各买 1 元钱的蔬菜,则平均每斤的价格为:
根据表中资料计算工人的平均日产量如下:
=
注意的是:当分组数列为组距式数列时,应先求出各组的组中值来代替各组的组平均数以后才 能计算加权算术平均数。此时用组中值代替组平均数是假定标志值的分布在该组距范围内的变化是 均匀的。所以,由组距式数列计算的加权算术平均数是一个近似值,
[例 3-3]某储蓄所贷款资料如表 3—2 所示
●加权调和平均数和加权算术平均数的关系 值得注意的是,加权调和平均数的权数 m 等于算术平均数的各组标志值总量 xf,所以,加权 调和平均数的权数是一个特定权数。同时,加权调和平均数也要符合算术平均数基本公式的要求, 因此,加权调和平均数实际上只是加权算术平均数的一种变形,它只适应于处理适当类型的分组资 料。具体关系为:
第三章 数据分布特征的描述
第二节 分布集中趋势的测度 从不同角度考虑,集中趋势的测度值有多个。本节主要介绍其中常用的几个测度值的计算方法、 特点及应用场合。
一、算术平均数(均值) (一)算术平均数的基本公式 算术平均数是最常用的一种集中趋势测度值。它是总体各单位某一数量的全部标志值的平均,
它等于总体各单位某一数量标志的标志值的总和除以总体单位数。
=
(3-3)
式中:f 表示各组标志值出现的次数,即各组的总体单位数。 [例 3-2]某企业某班组工人产量资料如表 3—1 所示
表 3—1
某企业某班组工人日产量统计表
日产量(公斤)x 35 42 48 54 59
合计
工人数(人)f 4 11 5 14 6 40
每组工人产量(公斤)xf 140 462 240 756 354 1952
(三)利用平均数分析现象之间的相互关系,并推算其它有关的指标。 在统计估算中经常用一部分单位标志值的平均数去推算总体平均数,并据以推算总体的相关总 量指标。例如,在抽样推断中,可以用某县某种农作物产量抽样调查的平均单位面积产量,推断该 县农作物的总平均单位面积产量,并据以推算全县某种农作物的总产量。
=
(3-2)
[例 3-1]有五名学生参加《统计学原理》高等教育自学考试,成绩分别为 70、78、80、82、90 分,则这五名学生的《统计学原理》平均成绩为:
=
=
=80(分)
(三)加权算术平均数 1.加权算术平均数的计算方法 当掌握的资料是分组资料时,可采用加权算术平均数的形式计算平均数。它是先将各组标志值 与相同组的频数相乘以后加总求得标志总量,同时,把各组频数相加得到总体单位总数,再将两者 相除得到加权算术平均数。其计算公式为:
三、集中趋势指标的类型 集中趋势指标——平均数包括静态平均数和动态平均数两种。 (一)静态平均数 静态平均数是根据分布数列计算而得到的一种平均数,它主要是从静态上说明总体各单位标志
值的一般水平。本章的集中趋势指标就是指静态平均数。 静态平均数根据其处理的方法不同又可以分为数值平均数和位置平均数: ★数值平均数 数值平均数是一种根据分布数列的全部标志值计算而得到的平均数,主要包括算术平均数、调
第三章 数据分布特征的描述
第一节 集中趋势指标概述
一、集中趋势指标及其特点 集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平
的代表值或中心值。在现象的同质总体中,各个单位的数量标志值是不尽相同的。如果我们的目的 是要对总体的数量水平有一个概括地、一般地认识,显然是不能用某一单位的数量标志值表示的。 统计平均数就是用来反映总体的一般水平和集中趋势的指标。通俗的理解就是,在不变更总体总量 的情况下,对总体内的全部标志值进行“截长补短”,使得总体各单位拥有同一水平的数量表现,这 个同一的数量表现就是平均数,即集中趋势指标。
和平均数、几何平均数三种; ★位置平均数 位置平均数是一种根据标志值在分布数列中所处的特殊位置计算得到的平均数。主要包括众数
和中位数两种。另外,还有分位数,分位数也是位置平均数。 (二)动态平均数 动态平均数则是根据时间序列计算而得到的一种平均数,它主要是从时间变化的动态上说明一
段时期内现象发展的一般水平,它的具体计算将在第九章进行详细阐述。
(二)加权调和平均数 加权调和平均数适应于已分组的资料。如果掌握各组的标志值和各组的标志总量,而不知道各 组的总体单位数时,应采用加权调和平均数的方法计算调和平均数。计算公式如下:
位总数。因此,加权调和平均数仍然符合算术平均数基本公式的要求。 [例 3-6]市场上某种蔬菜的早市价格 1.2 元/斤,午市价格 0.8 元/斤,晚市价格 0.6 元/斤,如果 早市买 180 元、午市买 160 元、晚市买 150 元时,则蔬菜的平均价格为多少? 解:平均价格为
平均日产量为:
=
=
=48.8(公斤)
由此可以看出,如果各组的单位数相等,即
,即各组的频率
权数失去权衡轻重的作用。这时,加权算术平均数等于简单算术平均数。即:
相等时,
=
=
=
(四)算术平均数的两个重要数学性质 1.变量数列中各个标志值与算术平均数的离差之和等于零。即:
=
或
(3-5)
2.变量数列中各标志值与算术平均数的离差平方和最小。
表 3—2
某储蓄所为 120 个商业者贷款情况
贷款额(万元) 20 以下 20——40 40——60 60——80 80—100 合计
组中值 x 10 30 50 70 90
——
贷款户数(户)f 16 28 45 21 10 120
各组贷款额(万元)xf 160 840 2250 1470 900 5620
三、几何平均数 几何平均数是 n 个标志值的连乘积的 n 次方根,适应于计算平均比率和平均速度。根据所掌握
的资料不同,有简单几何平均数和加权几何平均数两种。 (一)简单几何平均数 简单几何平均数适应于已知每个比率或每个速度均的情况。设有 n 个标志值(比率或速度)分
别为 x1,x2,x3,…, xn,则简单几何平均数 的计算公式为:
统计平均数有以下两个重要的特点: (一)平均数是一个代表性值,表示被研究总体的一般水平。 例如,某企业职工的工资水平有高有低,有的职工工资 680 元,有的职工工资 900 元,有的职 工工资 870 元,有的职工工资 1200 元,等等。若根据该企业各个职工工资额综合计算出职工平均 工资为 860 元,那么,860 元就是一个代表值。它反映了该企业职工工资的一般水平。 (二)平均数把被研究总体的数量标志值在各个单位之间的数量差异抽象化了。 例如,某企业职工的平均工资为 860 元,但是各个职工的工资水平有高有低,高于 860 元的工 资和低于 860 元的工资互相抵消了,从而得出平均工资 860 元。由此可见,平均工资(860 元)已 把各个职工工资水平的差别抽象化了。它反映了该企业职工工资的一般水平。
[例 3-8]某企业从商业银行贷款用于基本建设,贷款期限为 10 年,年利率按复利计算,其中有 3 年为 5%,3 年为 6%,4 年为 6.4%,要求计算贷款的年平均利率。
解:首先计算出平均每年的贷款本利比率:
所以,年平均贷款利率为:GM -1=105.86%பைடு நூலகம்1=5.86%。 四、众数
众数是一组数据中出现次数最多的标志值,用 M0 表示。虽说平均数是用来说明现象的一般水 平的,但在有些情况下用众数说明现象的一般水平也有很好的效果。例如,为了掌握集市上某种商 品的价格水平,不必登记全部的成交量和成交额,只用该日市场上最普遍的成交价格即可。又如在 确定某种商品的生产量、进货量时,要考虑哪一种规格的商品消费量最大。显然,用众数来表现给 定总体的一般水平或变量数列的集中趋势具有非常直观的代表意义。并且,众数不仅可以对真正的 数量标志来加以计算,还可以对品质标志来加以确定,也就是说,它既适应于变量数列,也适应急 于品质数列。例如,销售量最多的服装款式或色彩,也即通常所谓的“流行款式”,就属于这种意义 的众数。