2017中级经济基础第四部分统计

第四部分统计

第23章统计与统计数据

第一节、统计学【本节知识点】

1、统计学的两大分支

2、描述统计的含义、内容、举例

3、推断统计的含义、内容、举例

【本节内容】

【知识点】统计学的两大分支（描述统计和推断统计）

第二节、变量和数据【本节知识点】

变量及数据的含义及分类

【本节内容】

【知识点】变量及数据

而数值型数据则可以计算均值和方差等统计量。

第三节数据来源【本节知识点】

1、观测数据和实验数据

2、一手数据和二手数据

【知识点】观测数据与实验数据

第四节统计调查

【本节知识点】

1、统计调查的分类

2、统计调查的方式

【本节内容】

【知识点】统计调查的分类

统计调查过程有两个重要特征：一是调查是一种有计划、有方法、有程序的活动；二是调查的结果表现为搜集到的数据。

统计调查的类别

【第22章考点总结】

1、统计学的两大分支

2、描述统计和推断统计的含义及内容

3、变量和数据的类型

4、数据的来源（按收集方法及按来源）

5、统计调查的分类

6、统计调查的方式

第24章描述统计

【本章内容讲解】

对统计数据特征的测度，主要从三个方面进行：

一是分布的集中趋势，反映数据向其中心值靠拢或聚集的程度；

二是分布的离散程度，反映各数据远离其中心值的趋势；

三是分布的偏态，反映数据分布的形状。

对于两个定量变量之间的相关分析，经常采用的描述方法是散点图和相关系数统计量

第一节、集中趋势的测度

【本节知识点】

1. 均值的计算及适用范围

2. 中位数的计算及适用范围

3. 众数的含义及适用范围【本节内容精讲】

集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。

【知识点】均值

均值也就是平均数，就是数据组中所有数值的总和除以该组数值的个数。

【提示1】它是集中趋势中最主要的测度值，是一组数据的重心所在，解释了一组数据的平均水平。【提示2】均值主要适用于数值型数据，但不适用于分类数据和顺序数据。

【提示3】均值易受极端值的影响，极端值会使得均值向极大值或极小值方向倾斜，使得均值对数据组的代表性减弱。

【知识点】中位数

1.含义：把一组数据按从小到大或从大到小的顺序进行排列，位置居中的数值叫做中位数。中位数将数据分为两部分，其中一半的数据小于中位数，另一半数据大于中位数。

2.计算：根据未分组数据计算中位数时，要先对数据进行排序，然后确定中位数的位置，n 为数据的个数，其公式为：

（1）n 为奇数：中位数位置是

n ，该位置所对应的数值就是中位数数值。（2）n 为偶数：中位数位置是介于2n 和(2

+1)之间，中位数就是这两个位置对应的数据的均值。

3.适用：中位数主要用于顺序数据，也适用于数值型数据，但不适用于分类数据，中位数不受极端值的影响，抗干扰性强。尤其适用于收入这类偏斜分布的数值型数据。

【知识点】众数

1.含义：众数是指一组数据中出现次数（频数）最多的变量值。

2.适用：适于描述分类数据和顺序数据。

有些情况下可能出现双众数、多众数或者没有众数，难以描述数据的集中趋势。【知识点】均值、中位数和众数的比较及适用范围

第二节离散程度的测度

【本节知识点】

1.离散程度的测度指标

2.方差、标准差的含义及适用

3.离散系数的含义及作用

【本节内容精讲】

【知识点】离散程度的测度指标

离散程度反映的是各变量值远离中心值的程度。衡量离散程度的指标包括方差、标准差、离散系数。

集中趋势的测度值是对数据一般水平的一个概括性变量，它对一组数据的代表程度，取决于该组数据的离散水平。数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差，离散程度越小，其代表性就越好。

【知识点】方差和标准差

1、方差与标准差的含义

（1）方差是数据组中各数值与其均值离差平方的平均数。是实际中应用最广泛的离散程度测度值。方差越小，说明数据值与均值的平均距离越小，均值的代表性越好。方差的单位是原数据的平方。

（2）标准差：方差的平方根，不仅能度量数值与均值的平均距离，还与原始数值具有相同的计量单位。

2、方差与标准差的适用

方差、标准差只适用于数值型数据，易受极端值的影响。标准差的大小不仅与数据的测度单位有关，也与观测值的均值大小有关，不能直接用标准差比较不同变量的离散程度

【知识点】离散系数

1.含义：离散系数也称为变异系数或标准差系数，即标准差与均值的比值。

2.作用：离散系数消除了测度单位和观测值水平不同的影响，因而可以直接用来比较变量的离散程度。

第三节分布形态的测度

【本节知识点】

1.分布形态的测度指标

2.偏态系数不同取值的含义

3.标准分数的含义及作用

【本节内容精讲】

【知识点】分布形态的测度指标

分布形态的测度指标包括偏态系数和标准分数。

【知识点】偏态系数

（一）标准分数的含义及计算

在统计上，均值和标准差不同时，不同变量的数值是不能比较的，来自不同分布的变量值不可比，但是每个数值在变量分布中相对于均值的相对位置是可比的，因此可以通过计算标准分数来比较不同变量的取值。

【例题：标准分数举例】某班2016年中级经济师考试中，已知公共课考试的全班平均分为110分，标准差为10分，张三得了116分；专业课考试的全班平均分为100分，标准差为8分，张三得了107分。张三哪一门考试成绩比较好？

【分析】

1.因为两科考试的标准差不同，因此不能用原始分数直接比较。需要将原始分数转换成标准分数，然后进行比较。

2.标准分数的计算

标准分数Z=（原始分数Xi-平均分数X）÷标准差s

【补充】标准分数表示一个给定的分数距离平均数有多少个标准差，含有标准差的个数越多，说明该分数和平均数的距离越大（标准分数越大越好）

【接上例】

张三Z(公共课)=(116-110)/10=0.6

张三Z(专业课)=(107-100)/8=0.875 3.两门课程的比较

张三的公共课成绩在其整体分布中位于平均分之上0.6个标准差的地位，他的专业课成绩在其整体分布中位于平均分之上0.875个标准差的地位。由此可见，张三的专业课考试成绩优于公共课考试成绩。

（二）标准分数的实际应用

在实际应用中，当数据服从对称的钟形分布时，可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。

1. 约有68%的数据与平均数的距离在1个标准差之内，标准分数在【-1，1】范围内；

2. 约有95%的数据与平均数的距离在2个标准差之内；标准分数在【-2，2】范围内；

3. 约有99%的数据与平均数的距离在3个标准差之内；标准分数在【-3，3】范围内；上述内容可记忆三个数据，即168；295；399.

第四节变量间的相关分析

【本节知识点】 1.相关关系分类 2.两变量的散点图

3.相关系数的定义以及取值的含义【本节内容精讲】

【知识点】变量之间的相关关系

【注】相关关系并不等于因果关系。比如夏天雪糕和遮阳伞的销售量

【知识点】两变量的散点图

两变量之间的相关关系可以用散点图来展示，在散点图中，每个点代表一个观测值，横纵坐标值分别代表两个变量相应的观测值

【知识点】相关系数的定义和取值

1、定义：相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是pearson（皮尔逊）相关系数。

2.相关系数大取值

相关系数的取值范围在【-1,1】之间，即-1≦r≦+1，pearson相关系数只适用线性相关关系。

根据实际数据计算出的r，其取值一般为-1

1.集中趋势、离散程度、分布形态、相关程度的测度指标

2.众数、中位数、均值的确定、适用范围及优缺点

3.方差、标准差的含义及适用

4.离散系数的计算及适用情况

5.偏态系数不同取值的内含

6.标准分数的计算及作用

7.相关关系的分类及散点图

8.相关系数不同取值的内含

第25章抽样调查

第一节、抽样调查的基本概念【本节知识点】

1.抽样调查的基本概念

2.概率抽样及非概率抽样的特点及方式

3.抽样调查的步骤

4.统计误差的种类

【本节内容精讲】

【知识点】抽样调查基本概念

【知识点】概率抽样和非概率抽样

【知识点】抽样调查中的误差

样本估计值和总体参数值之间的差异称为误差，一般来说调查中的误差分为抽样误差和非抽样误差两类。

第二节几种基本的概率抽样方法

【本节知识点】各种概率抽样方法的理解

【本节内容精讲】

【知识点】简单随机抽样

（一）含义

1、有放回简单随机抽样

从总体中随机抽出一个样本单位，记录观测结果后，将其放回到总体中去，再抽取第二个，如此类推，一直到抽满n个单位为止。

【注】单位有被重复抽中的可能，容易造成信息重叠而影响估计的效率，较少采用。

2、不放回简单随机抽样

从包含N个单元的总体中逐个随机抽取单元并无放回，每次都在所有尚未被抽入样本的单元中等概率的抽取下一个单元，直到抽取n个单元为止。

【注】每个单位最多只能被抽中一次，不会由于样本单位被重复抽中而提供重叠信息，比放回抽样有更低的抽样误差。

（二）优缺点

1.优点：简单随机抽样是最基本的随机抽样方法，操作简单，且每个单位的入样概率相同，样本估计量形式也比较简单。

2.缺点：没有利用抽样框更多的辅助信息，用样本统计量估计总体参数的效率受到影响，样本的分布可能十分分散，增加了调查过程中的费用和时间。

（三）适用条件

1、抽样框中没有更多可以利用的辅助信息

2、调查对象分布的范围不广阔

3、个体之间的差异不是很大

【知识点】分层抽样

（一）含义

先按照某种规则把总体分为不同的层，然后在不同的层内独立、随机的抽取样本，这样所得到的样本称为分层样本。如果每层中的抽样都是简单随机抽样，则称为分层随机抽样。

（三）优缺点优点：

1.不仅可以估计总体参数，同时也可以估计各层参数

【例】调查某市中小企业就业的相关指标，可以按照行业将该市中小企业进行分层，再在每个行业内独立随机抽取一部分中小企业进行调查，这样不仅能估计全市中小企业就业的相关指标，还可以在各行业进行推算。

2.便于抽样工作的组织。

例如，某项全国范围内的大型抽样调查，按行政区划或行业分层后，可以调动各级主管部门的积极性，分头编制抽样框并实施抽样的组织和调查工作；此外，各层也可以根据层内特点，采用不同的抽样方法。

3.每层都要抽取一定的样本单位，样本在总体中分布比较均匀，可以降低抽样误差。（四）适用条件

抽样框中有足够的辅助信息，能够将总体单位按某种标准划分到各层之中，实现在同一层内，各单位之间的差异尽可能小，不同层之间各单位的差异尽可能大。（层内差异小，层间差异大）

【知识点】系统抽样（一）含义

系统抽样指先将总体中的所有单元按一定顺序排列，在规定范围内随机抽取一个初始单元，然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。其步骤如下：

1.将总体N 个单位按直线排列，依次编号1——N;

【例】调查一个居委会4000户家庭人均收入，编号1-4000，要抽取40户。 2.根据样本量n 确定抽样间隔K 抽样间隔=

的一个整数为最接近，n

K K n N

N 【接上例】抽样间隔=4000/40=100

3.在1——K 的范围内随机抽取一个整数i ，令位于i 位置上的单位为起始单位，往后每间隔k 抽取一个单位，直至抽满n 。

【接上例】在1-100号中随机确定15号，抽取的样本为15；15+100；15+200；15+300；……15+3900 （二）优缺点 1、优点

（1）操作简便；

（2）对抽样框的要求比较简单，它只要求总体单位按一定顺序排列，而不一定是一份具体的名录清单。系统抽样的估计效果与总体排列顺序有关。

①无关标识排列（排列顺序与调查内容没有联系）

【例】对汽车尾气排放情况的调查中，是按汽车牌号排列，牌号与尾气排放没有关系，即属于无关标

识排列。

②有关标识排列（排列顺序与调查内容有关）

【例】对汽车尾气排放情况的调查中，按汽车价格排列，价格与尾气排放量有相关性。

2、缺点：方差估计比较复杂，这就给计算抽样误差带来一定困难。

【知识点】整群抽样

（一）含义

整群抽样是将总体中所有的基本单位按照一定规则划分为互不重叠的群，抽样时直接抽取群，对抽中的群调查其全部的基本单位，对没有抽中的群则不进行调查。

【例】调查某市在职的房地产行业人员工资水平，将房地产行业所有在职人员按照所属企业分群，直接抽取企业单位，入样的企业单位内所有职工接受调查，没有入样的企业单位员工都不调查。

（二）优缺点

1、优点：

（1）实施调查方便，可以节省费用和时间。

（2）抽样框编制得以简化，抽样时只需要群的抽样框

2、缺点

群内各单位之间存在相似性，差异比较小，而群与群之间的差别比较大，使得整群抽样的抽样误差比较大。

（三）适用情况

如果群内各单位之间存在较大差异，群与群的结果相似，整群抽样会降低估计误差。整群抽样特别适合于对某些特殊群结构进行调查。

【知识点】多阶段抽样

（一）含义

在大规模抽样调查中，一次抽取到最终样本单位很难实现，往往需要经过二个或二个以上阶段才能抽到最终样本单位，这就是多阶段抽样方法。

（二）抽样步骤

（三）优缺点

在大范围的抽样调查中，采用多阶段抽样是必要的。

多阶段的抽样设计比较复杂，其抽样误差计算也比较复杂。

第三节估计量和样本量

【本节知识点】

1.估计量的性质

2.抽样误差的估计

3.样本量的影响因素

【本节内容精讲】

【知识点】估计量的性质（一无有，可记忆为“一无所有”）

抽样误差无法避免，但是可以计算的。

在不放回简单随机抽样方法中，将样本均值作为总体均值的估计量。则估计量的方差为：

样本估计量的方差=n

n -12

样本量总体方差）总体个数样本量（S N ?

【结论】

（1）抽样误差与总体分布有关，总体单位值之间差异越大，即总体方差越大，抽样误差越大。（2）抽样误差与样本量n 有关，其他条件相同，样本量越大，抽样误差越小。

（3）抽样误差与抽样方式和估计量的选择也有关。例如分层抽样的估计量方差一般小于简单随机抽样。

（4）利用有效辅助信息的估计量也可以有效的减小抽样误差。

【注意】实践中，总体方差是未知的，可以利用样本方差来估计，因此估计量方差的的估计公式为：

【例题】从某个N=1000的总体中抽出一个样本容量为100的不放回简单随机样本，样本均值50，样本方差200，对总体均值的估计量等于样本均值等于50，估计量的方差是（）。

【解析】

样本估计量的方差=n s n -12

样本量样本方差）总体个数样本量（?

N =

100

200

1000100-1?）（=1.8

【知识点】样本量的影响因素

1、调查的精度：用样本数据对总体进行估计时可以接受的误差水平，要求的调查精度越高，所需要的样本量就越大。

2、总体的离散程度：在其他条件相同情况下，总体的离散程度越大，所需要的样本量也越大。

3、总体的规模：对于大规模的总体，总体规模对样本量的需求则几乎没有影响（样本量n 可大致用

B A

总体容量+

公式表示）。但对于小规模的总体，总体规模越大，为保证相同估计精度，样本量也要随

之增大（但不是同比例的）。

4、无回答情况：无回答减少了有效样本量，在无回答率较高的调查项目中，样本量要大一些，以减少无回答带来的影响。

5、经费的制约：事实上，样本量是调查经费与调查精度之间的某种折中和平衡。【第25章主要考点总结】

1、抽样调查的基本概念（总体、样本、总体参数、样本统计量）

2、概率抽样的特点及主要方法

3、非概率抽样的特点及主要方法

4、抽样误差及非抽样误差产生的原因

5、各种概率抽样方法的含义、优缺点、适用条件（简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样）

6、估计量的性质

7、抽样误差与哪些因素有关 8、样本量的影响因素

第26章回归分析第一节回归分析

【本节知识点】 1.一元线性回归模型

2.回归分析与相关分析的关系【本节内容】

【知识点】一元线性回归模型

回归分析就是根据相关关系的具体形态，选择一个合适的数学模型，来近似的表达变量间的平均变化关系。回归分析与相关分析的关系：

1.回归模型分类

描述因变量如何依赖自变量和误差项的方程称为回归模型，回归模型的类别如下：（1）根据自变量的多少，回归模型可以分为一元回归模型和多元回归模型。（2）根据回归模型是否线性，回归模型分为线性回归模型和非线性回归模型。 2.一元线性回归模型

一元线性回归模型是研究两个变量之间相关关系的最简单的回归模型，只涉及一个自变量。

εββ++=X Y 10因变量

0β1β---------模型的参数；

ε----------误差项，是一个随机变量。

X-----------自变量【提示1】

因变量Y 是自变量X 的线性函数（β0+β1X ）加上误差项ε； β0+β1X 反映了由于自变量X 的变化而引起的因变量y 的线性变化。

误差项ε是个随机变量，表示除线性关系之外的随机因素对Y 的影响，它是不能由X 和Y 的线性关系所解释的Y 的变异性。

【提示2】描述因变量Y 的期望值E （Y ）如何依赖自变量X 的方程称为回归方程。一元线性回归方程的形式：

E (Y )=b 0+b 1X

一元线性回归方程的图示是一条直线，β0是回归直线的截距，β1是回归直线的斜率，表示X 每变动一个单位时，E （Y ）的变动量。

【知识点】回归分析与相关分析的关系（一）回归分析与相关分析的联系 1.它们具有共同的研究对象。 2.在具体应用时，常常必须互相补充。

相关分析需要依靠回归分析来表明现象数量相关的具体形式，而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有高度相关时，进行回归分析寻求其相关的具体形式才是有意义的。

（二）回归分析与相关分析的区别

相关分析与回归分析在研究目的和方法上具有明显的区别。

1、相关分析研究变量之间相关的方向和相关的程度。

2、回归分析是研究变量之间相关关系的具体形式，它对具有相关关系的变量之间的数量联系进行测定，确定相关的数学方程式，根据这个数学方程式可以从已知量来推测未知量，从而为估算和预测提供了一个重要方法。

第二节最小二乘法

【本节知识点】最小二乘法的原理【本节内容精讲】【知识点】最小二乘法

在现实中，模型的参数0β1β都是未知的，需要利用样本数据去估计，采用的估计方法是最小二乘法。最小二乘法就是使得因变量的观测值与估计值之间的离差平方和最小来估计0β1β的方法。

第三节模型的检验和预测

【本节知识点】决定系数的含义及取值

【本节内容精讲】

【知识点】回归模型的拟合效果分析

一般情况下，使用估计的回归方程之前，需要对模型进行检验，其内容包括：（1）结合经济理论和经验分析回归系数的经济含义是否合理；

（2）对模型进行假设检验。

（3）分析估计的模型对数据的拟合效果如何（用决定系数来测度）

决定系数，也称为R2，可以测度回归直线对样本数据的拟合程度。

决定系数的取值在0到1之间，大体说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越接近1，回归直线的拟合效果越好。

R2=1，说明回归直线可以解释因变量的所有变化。

R2=0，说明回归直线无法解释因变量的变化，因变量的变化与自变量无关。

【知识点】模型预测

回归分析的一个重要应用就是预测，即利用估计的回归模型预估因变量数值。

【第26章主要考点总结】

1、回归分析与相关分析的异同

2、一元线性回归模型

3、最小二乘法的原理

4、回归模型的拟合效果分析----决定系数

第27章时间序列

第一节、时间序列及其分类

【本节考点】

1、时间序列的含义及其构成要素

2、时间序列的分类

【本节内容】

【知识点】时间序列的含义及构成要素

统计对事物进行动态研究的基本方法是编制时间序列。

我国1991—1994年若干国民经济指标

1、时间序列含义：时间序列也称动态数列，是将某一统计指标在各个不同时间上的数值按时间先后顺序

编制形成的序列。

2、时间序列的构成要素：

（1）被研究现象所属时间：

（2）反映该现象一定时间条件下数量特征的指标值。

同一时间序列中，各指标值的时间单位一般要求相等，可以是年、季、月、日。

3.时间序列的分类：

时间序列按照其构成要素中统计指标值的表现形式，分为绝对数时间序列、相对数时间序列、平均数时间序列。

时间序列的类别表24-1

第二节、时间序列的水平分析

【本节知识点】

1、平均发展水平

2、增长量

（1）逐期增长量、累计增长量的含义、计算以及它们之间的关系

（2）平均增长量的含义及计算

【本节内容】

【知识点】平均发展水平

一.发展水平的有关概念

1.发展水平：发展水平是时间序列中对应于具体时间的指标数值。

2.最初水平、最末水平、中间水平

时间序列中第一项的指标值称为最初水平，最末项的指标值称为最末水平，处于二者之间的各期指标值则称为中间水平。

3.基期水平和报告期水平

（1）基期水平：是作为对比的基础时期的水平；

（2）报告期水平：是所要反映与研究的那一时期的水平。

二.平均发展水平

平均发展水平也称序时平均数或动态平均数，是对时间序列中各时期发展水平计算的平均数，它可以概括性描述现象在一段时期内所达到的一般水平。

（一）绝对数时间序列序时平均数的计算

（二）相对数或平均数时间序列序时平均数的计算

相对数或平均数时间序列是派生数列，相对数或平均数通常是由两个绝对数对比形成的。

计算思路：分别求出分子指标和分母指标时间序列的序时平均数，然后再进行对比，用公式表示如下：

a y

【知识点】逐期增长量与累计增长量

增长量：报告期发展水平与基期发展水平之差，反映报告期比基期增加（减少）的绝对数量。用公式表示为：增长量＝报告期水平－基期水平

（1）逐期增长量：报告期水平与前一期水平之差。

（2）累计增长量：报告期水平与某一固定时期（通常是时间序列最初水平）水平之差。【提示】同一时间序列中，累计增长量等于相应时期逐期增长量之和。例如：某地区2000～2004年钢材使用量（单位：万吨）如下：

逐期增长量分别是：2-1=1万吨；4-2=2万吨；5-4=1万吨；8-5=3万吨累计增长量是：8-1=7万吨

累计增长量7万吨=逐期增长量之和（1+2+1+3）【知识点】平均增长量

平均增长量是时间序列中逐期增长量的序时平均数，它表明现象在一定时段内平均每期增加（减少）的数量。其计算公式为：平均增长量=

-=时间序列项数累计增长量

逐期增长量的个数逐期增长量的合计

2017中级经济基础第四部分 统计

2017中级经济基础第四部分统计