统计学(复习)

第1章统计和统计数据

1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学

描述统计与推断统计的含义、内容、目的.

描述统计: 是研究数据收集,处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征。

推断统计:是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:

参数估计: 是利用样本信息推断所关心的总体特征.

假设体验:是利用样本信息判断对总体的某个假设是否成立.

2、变量与数据:不同数据类型的含义,会判断已有数据的类型.

变量:它们的特点是从一次观察到下一次观察会出现不同结果。

Ex:企业销售额,上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数

数据:把观察到的结果记录下来。

总体:包含所研究的全部个体(数据)的集合

样本: 从总体中抽取的一部分元素的集合

样本量: 构成样本的元素的数目

定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据。可以用阿拉伯数据来记录其观察结果 .如“企业销售额"、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

定性变量:分类变量和顺序变量统称为定性变量

分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.

分类变量的观察结果就是分类数据

顺序变量或有序分类变量:具有一定顺序的类别变量。如考试成绩按等级,一个人对事物的态度。顺序变量的观察结果就是顺序数据或有序分类数据

离散型变量:只能取有限个值得随机变量

连续型变量:可以取一个或多个区间中任何值得随机变量

3、获得数据的概率抽样方法有哪些?

根据一个已知的概率来抽取样本单位,也称随机抽样

-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中。抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n 个个为止。

- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

-系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n 个元素组成一个样本。

-整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察.

第二章.用图表展示数据

频数: 落在各类别中的数据个数

比例:某一类别数据个数占全部数据个数的比值

百分比:将对比的基数作为100而计算的比值

比率:不同类别数值个数的比值

频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况。

什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况。

帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图

饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用。

环形图: 只能显示一个样本各部分所占的比例

数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别。

1。下限(lower limit) :一个组的最小值

2。上限(upper limit) :一个组的最大值

3。组距(class width):上限与下限之差

4。组中值(class midpoint):下限与上限之间的中点值

组中值=下限值+上限值/2

直方图与条形图的区别。

1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距

2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列

3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据

茎叶图:是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点。等等

箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.

雷达图:是显示多个变量的常用图示方法.

1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样

本围成多个区域,就是雷达图

2.可用于研究多个样本在多个变量上的相似程度

3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图.

第三章. 用统计量描述数据

1、水平的度量

描述数据水平的统计两主要有:平均数,中位数,分位数以及众数等.

平均数.平均数的计算:

1.也称为均值,常用的统计量之一

2.消除了观测值的随机波动

3.易受极端值的影响

4.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为⎺x

中位数:是一组数据排序后处于中间位置上数值,用M e 表示。

四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值

众数、中位数和平均数的关系*

2、差异的度量

极差:

1.一组数据的最大值与最小值之差

2.离散程度的最简单测度值

3.易受极端值影响

4.未考虑数据的分布

5.计算公式为:R = max(x i) - min(x i)

四分位差

1.也称为内距或四分间距

2.上四分位数与下四分位数之差:Q d=Q U–Q L

3.反映了中间50%数据的离散程度

4.不受极端值的影响

5.用于衡量中位数的代表性

样本方差和标准差(会计算)

1.数据离散程度的最常用测度值

2.反映各变量值与均值的平均差异

3.根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差

(标准差),记为s2(s)

4.样本方差

假设是一个样本,则样本方差的计算公式为:

其中是样本均值。例如,一样本取值为3,4,4,5,4,则样本均值=,样本方差=。样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。

样本标准差

S称为样本标准差.如在上例中,S=0.7071。称(S/ X) ×100%为样本变异系数。由于S与X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。

标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点

离散系数(变异系数)是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.

分布形状的度量

偏态:是指数据分布的不对称性. 侧度数据分布不对称性的统计量称为(偏态系数)

峰态:是指数据分布峰值的高低。测度峰态的统计量是(峰态系数)

弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*

弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*

第四章.概率分布

概率:概率是对事件发生的可能性大小的度量

随机变量:是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性

连续性随机变量:只能取一个或多个区间中任何值得随机变量

离散型随机变量:只能取有限个值得随机变量

随机变量的概括性度量:期望值和方差的计算:描述随机变量集中程度的统计量称为(期望值)

离散型概率分布:是用表格的形式表现出来,就是离散型随机变量的概率分布

二项分布: 二项分布是建立在伯努利试验基础上的。N重伯努利

1.贝努里试验满足下列条件

⏹一次试验只有两个可能结果,即“成功”和“失败”

●“成功”是指我们感兴趣的某种特征

⏹一次试验“成功”的概率为p ,失败的概率为q =1—p,且概率p对每次试验都是相同的

⏹试验是相互独立的,并可以重复进行n次

⏹在n次试验中,“成功"的次数对应一个离散型随机变量X

泊松分布:

1.1837年法国数学家泊松(D。Poisson,1781-1840)首次提出

2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布

3.泊松分布的例子

⏹一定时间段内,某航空公司接到的订票电话数

⏹一定时间内,到车站等候公共汽车的人数

⏹一定路段内,路面出现大损坏的次数

⏹一定时间段内,放射性物质放射的粒子数

⏹一匹布上发现的疵点个数

⏹一定页数的书刊上出现的错别字个数

超几何分布的应用背景

1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等

2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何

概率分布

3.概率分布函数为

连续型概率分布:

正态分布:

1.由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出

2.描述连续型随机变量的最重要的分布

3.许多现象都可以由正态分布来描述

4.可用于近似离散型随机变量的分布

⏹例如: 二项分布

5.经典统计推断的基础

标准正态分布

1.随机变量具有均值为0,标准差为1的正态分布

2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

3.标准正态分布的概率密度函数

4.标准正态分布的分布函数

数据的正态性评估:Q—Q图和P—P图的应用

1.对数据画出频数分布的直方图或茎叶图

⏹若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似

3.绘制正态概率图。有时也称为分位数—分位数图或称Q—Q图或称为P—P图

⏹用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等

⏹ P —P 图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的 ⏹ Q-Q 图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的

4. 使用非参数检验中的Kolmogorov —Smirnov 检验(K-S 检验)

由正态分布导出的几个重要分布:χ2分布、t 分布、F 分布的特点 χ2分布:

1. 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875

年和1900年推导出来

2. 设 ,则

3. 令 ,则 y 服从自由度为1的χ2分布,即

4. 对于n 个正态随机变量y 1 ,y 2 ,y n ,则随机变量

5. 称为具有n 个自由度的χ2分布,记为 性质和特点

1. 分布的变量值始终为正

2. 分布的形状取决于其自由度n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称

3. 期望为:E (χ2)=n ,方差为:D (χ2)=2n (n 为自由度)

4. 可加性:若U 和V 为两个独立的χ2分布随机变量,U ~χ2(n 1),V ~χ2(n 2),则U +V 这一随机变量服从

自由度为n 1+n 2的χ2分布

t 分布:

1. 提出者是William Gosset ,也被称为学生分布(student’s t)

2. t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为

自由度的参数.随着自由度的增大,分布也逐渐趋于正态分布

F 分布:

1. 为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名则

2. 设若U 为服从自由度为n 1的χ2分布,即U ~χ2(n 1),V 为服从自由度为n 2的χ2分布,即V ~χ2(n 2),且

U 和V 相互独立,则

称F 为服从自由度n 1和n 2的F 分布,记为

),(~2σμN X )

1,0(~N )1,0(~N X z σ

μ-=22

z Y =2

)

1(~2χY =n

i i y 1

22

==n i i y 12

2χ2~χ

χ2

1

n V n U F =

21n V n U F =2

1),(~21n n F F

统计量:

⏹用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数

⏹一个总体参数推断时的统计量:样本均值(⎺x)、样本标准差(s)、样本比例(p)等两个总

体参数推断时的统计量:(⎺x1-⎺x2)、(p1—p2)、(s1/s2)

⏹样本统计量通常用小写英文字母来表示

参数:

⏹描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值

⏹一个总体的参数:总体均值(μ)、标准差(σ)、总体比例(π);两个总体参数:(μ1—μ2)、

(π1-π2)、(σ1/σ2)

⏹总体参数通常用希腊字母表示

抽样分布的概念:

1.样本统计量的概率分布,是一种理论分布

⏹在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布

2.随机变量是样本统计量

⏹样本均值, 样本比例,样本方差等

3.结果来自容量相同的所有可能样本

4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

样本均值的抽样分布:

1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布

2.一种理论概率分布

3.推断总体均值μ的理论基础

中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

其他统计量的分布:

1.总体(或样本)中具有某种属性的单位与全部单位总数之比

⏹ 不同性别的人与全部人数之比

⏹ 合格品(或不合格品) 与全部产品总数之比

2. 总体比例可表示为

3. 样本比例可表示为

样本比例的分布

1. 在重复选取容量为n 的样本时,由样本比例的所有可能取值形成的相对频数分布

2. 一种理论概率分布

3. 当样本容量很大时,样本比例的抽样分布可用正态分布近似,即 样本方差的分布

1. 在重复选取容量为n 的样本时,由样本方差的所有可能取值形成的相对频数分布

2. 对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n —1) 的χ2分布 统计量的标准误差

1. 样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差

2. 衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度

3. 样本均值和样本比例的标准误差分别

第五章.参数估计

1、参数估计的基本原理

参数估计:就是用样本统计量去估计总体的参数 估计量:用于估计总体参数的统计量的名称

⏹ 如样本均值,样本比例,样本方差等

N

N N

N 101=

-=

ππ或n

n p n

n p 101=

-=

⏹例如: 样本均值就是总体均值m 的一个估计量

估计值:估计参数时计算出来的统计量的具体值

⏹如果样本均值⎺x =80,则80就是θ的估计值

点估计

1.用样本的估计量的某个取值直接作为总体参数的估计值

▪例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计

2.无法给出估计值接近总体参数程度的信息

⏹由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值

⏹一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出

估计的可靠性的度量

区间估计:

1.在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到

2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量

⏹比如,某班级平均分数在75~85之间,置信水平是95%

置信度:一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值得次数所占的比例称为, 也称为置信度或置信系数

置信水平:

1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度

2.表示为(1 - a)%

⏹a为是总体参数未在区间内的比例

3.常用的置信水平值有 99%, 95%, 90%

⏹相应的 a 为0。01,0.05,0。10

置信区间

1.由样本估计量构造出的总体参数在一定置信水平下的估计区间

2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间

3. 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的

真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述

4. 总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会

因样本的不同而变化,而且不是所有的区间都包含总体参数

5. 实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的

置信区间.我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

6. 当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所

产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个

7. 一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”

的问题

8. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所

抽取的这个样本所构建的区间而言的

2、一个总体参数的区间估计

1.个总体均值区间估计的计算(两种情形) A .大样本的估计 1。 定条件

⏹ 总体服从正态分布,且方差(σ2) 已知

⏹ 如果不是正态分布,可由正态分布来近似 (n ³ 30)

2。用正态分布统计量 z

3.总体均值 μ 在1—α 置信水平下的置信区间为 B .小样本的估计 1.假定条件

⏹ 总体服从正态分布,但方差(σ2) 未知 ⏹ 小样本 (n 〈 30)

2. 使用 t 分布统计量

)

1,0(~N n

x z σμ

-=

α)(22未知或σσαα

n

s

z x n z x ±±)1(~--=

n t n

s x t μ

n

s

2

αn s t x 2α

±

3.总体均值μ在1-α置信水平下的置信区间为

评价估计量好坏的标准:对于同一个未知参数,不同的方法得到的估计量可能不同,,于是提出问题:

1.应该选用哪一种估计量?

2.用什么标准来评价一个估计量的好坏?

第六章.假设检验

1、假设检验的基本原理

原假设:

1.又称“0假设”,研究者想收集证据予以反对的假设,用H0表示

2.所表达的含义总是指参数没有变化或变量之间没有关系

3.最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它

4.总是有符号=, £或 ³

⏹H0 :m = 某一数值

⏹H0 :m ³某一数值

⏹H0 :m£某一数值

●例如, H0 :m= 10cm

备择假设:

1.也称“研究假设”,研究者想收集证据予以支持的假设,用H1或H a表示

2.所表达的含义是总体参数发生了变化或变量之间有某种关系

3.备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备

择假设

4.总是有符号 ¹, <或>

⏹H1 :m¹某一数值

⏹H1 :m>某一数值

⏹H1 :m <某一数值

单侧检验和双侧检验:

1.备择假设没有特定的方向性,并含有符号“ "的假设检验,称为双侧检验或双尾检验(two—tailed

test)

2.备择假设具有特定的方向性,并含有符号“>”或“<"的假设检验,称为单侧检验或单尾检验(one-

tailed test)

⏹备择假设的方向为“<”,称为左侧检验

⏹备择假设的方向为“>”,称为右侧检验

两类错误与显著性水平

1.研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,

因而就有可能犯错误

2.原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不拒绝H0。决策时总是希望当原假设

正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误

3.第Ⅰ类错误(a错误)

⏹原假设为正确时拒绝原假设

⏹第Ⅰ类错误的概率记为a,被称为显著性水平

2。第Ⅱ类错误(b错误)

⏹原假设为错误时未拒绝原假设

第Ⅱ类错误的概率记为b(Beta)

利用统计量进行检验时的决策准则

1.根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量

2.对样本估计量的标准化结果

⏹原假设H0为真

⏹点估计量的抽样分布

3.标准化的检验统计量

点估计量的抽样标准差标准化检验统计量

点估计量的抽样标准差

假设值

点估计量

标准化检验统计量

统计量决策规则

1.给定显著性水平a,查表得出相应的临界值z a或z a/2,t a或t a/2

2.将检验统计量的值与a 水平的临界值进行比较

3.作出决策

⏹双侧检验:I统计量I > 临界值,拒绝H0

⏹左侧检验:统计量〈—临界值,拒绝H0

⏹右侧检验:统计量〉临界值,拒绝H0

利用P值进行决策的准则

1.如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率

•P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设

2.被称为观察到的(或实测的)显著性水平

3.决策规则:若p值

2、一个总体参数的假设检验

一个总体均值双侧检验的计算(两种情形)

1.总体方差_____ 已知或未知.

在____已知的条件下,由抽样分布理论可知,样本统计量服从 z 分布;而在______ 未知的条件下,样本统计服从 t 分布。故当_______已知时,可以使用z体验;当___ 未知时,可以使用 t 体验。

2.n(n1,n2) 较大或n较小。

当样本量 n1,n2 都较大时,如果总体方差 __ 和__位置,可以用样本方差__, __替代,这时,杨本统计量近似服从z分布,采用z作为体验统计量也是可行的,但是当n 或n1,n2部大时,如果__,__未知,就应该采用t作为统计量。

第八章.一元线性回归

1、变量间的关系

相关关系的含义,与函数关系的区别

函数关系

1.是一一对应的确定关系

2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取某个数值时, y 依确

定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量

3.各观测点落在一条线上

相关系数

1.一个变量的取值不能由另一个变量唯一确定

2.当变量x 取某个值时,变量y 的取值对应着一个分布

3.各观测点分布在直线周围

相关关系的分类

相关关系的描述及测度

1.度量变量之间线性关系强度的一个统计量

⏹ 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ ⏹ 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r

● 也称为Pearson 相关系数 (Pearson’s correlation coefficient)

2. 样本相关系数的计算公式

散点图:散点图可以判断两个变量之间有无相关关系,并对关系形态作出大致描述,但要准确度量变量间的关系强度,则需要计算相关关系。

简单相关系数的取值特点及相关含义: 简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数", 它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。

计算公式为:

2、一元线性回归

因变量: 被预测或被解释的变量,用 y 表示

自变量:用来预测因变量的一个或多个变量, 用x 表示 回归模型各个部分的解释

参数:因变量y 的取值是不同的,y 取值的这种波动称为(变差). 参数最小二乘估计的基本思想*

1. 德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数

2. 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即

3. 用最小二乘法拟合的直线来代表x 与y 之间的关系与实际数据的误差比其他任何直线都小

( 和 的计算公式) 根据最小二乘法,可得求解 和 的公式如下

2

2

∑∑∑-⋅---=

22)

()())((y y x x y y x x r =n i i 1

最小=--=-∑∑==n

i i

i n i i x y y y 1

21012

)ˆˆ()ˆ(ββ00ˆβ1

1ˆβ====1210ˆ1

1

2

10ˆ01

10

0n

i i

i i n

i i

i ββββ⎪⎪⎩⎪⎪⎨⎧=---==---=∂∑∑====0)ˆˆ(20)ˆˆ(21210ˆ11210ˆ01100n i i i i n i i i x y x Q x y Q

ββ∂β∂βββ∂ββββn i n

i i i n

i i n i i n

i i i 1

0121

2

1111=====x y x x n y x y x n n i n i i i n i i n i i n i i i 1012121111ˆˆˆβββ-=⎪⎭⎫ ⎝⎛-⎪

⎭⎫

⎝⎛⎪⎭⎫ ⎝⎛-=∑∑∑∑∑=====0ˆ0

ˆ

β11ˆβ

判定系数的含义及计算公式的解释:

1.回归平方和占总误差平方和的比例

2.反映回归直线的拟合程度

3.取值范围在 [ 0 , 1 ]之间

4.R2 →1,说明回归方程拟合的越好;R2→0,说明回归方程拟合的越差

5.决定系数平方根等于相关系数

第十章.时间序列预测

1、时间序列组成要素

时间序列:是同一现象在不同时间上的相继观察值排列而成的序列

平稳序列:是基本上不存在趋势的序列

非平稳序列:是包含趋势,季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。因此,非平稳序列又可以分为趋势的序列。

趋势:是时间序列在长时期内呈现出来的持续向下的变动

季节变动:是时间序列在一年内重复出现的周期性波动

循环波变动:是时间序列呈现出的非固定长度的周期性波动

不规则波动:是时间序列中除去趋势,季节变动和周期性波动之后的随机波动

2、时间序列预测的程序

1.确定时间序列所包含的成分

2.找出适合此类时间序列的预测方法,并对可能的预测方法进行评估,以确定最佳预测方案

3. 利用最佳预测方案进行预测 3、平滑法预测

1. 适合于只含有随机成分平稳序列

2. 通过对时间序列进行平滑以消除其随机波动,因而也称为平滑法

3. 主要有移动平均法(moving average )和指数平滑法(exponential smoothing)等,这些方法是

4. 平滑法既可用于短期预测,也可以用于对时间序列进行平滑以描述序列的趋势(包括线性趋势和非

线性趋势)

➢ 移动平均法和指数平滑法的适用条件

移动平均法:

1. 选择一定长度的移动间隔,对序列逐期移动求得平均数作为下一期的预测值

2. 将最近k 期数据平均作为下一期的预测值

3. 设移动间隔为k (1〈k

4. 预测误差用均方误差(MSE ) 来衡量

4、了解趋势预测和自回归模型预测 趋势预测:

1. 根据时间序列变化的趋势选择适当的模型进行预测

2. 主要适合于含有趋势的序列

3. 趋势序列的预测方法主要有线性趋势(linear trend )预测、非线性趋势(non —linear trend)预测和

自回归(autoregression )模型预测等

自回归模型预测:

1. 序列包含多种成分自回归是解决自相关序列的有效预测方法之一

2. 它是利用观测值与以前时期的观测值之间的关系来预测值的一种多元回归方法

3. 因变量是观测值Y t ,自变量是因变量的滞后值Y t-1 ,Y t —2 ,Y t-3 ,…。看上去就像自己同自己回归,

故名自回归

5、多成分序列的预测:

t

t k t k t t t -+-+-+1211k

Y Y Y Y Y F t t k t k t t t ++++=

=-+-+-+1211 误差平方和

n

F Y MSE n

i i

i

∑=-=

=

1

2

)

(误差个数

误差平方和

1. 序列包含多种成分

2. 预测方法有

⏹ 季节多元回归模型预测 ⏹ 季节自回归模型模型预测 ⏹ 分解预测等

• 分解预测是先将时间序列的各个成分依次分解出来,尔后再进行预测

虚拟变量和季节指数

1. 用虚拟变量表示季节的多元回归预测方法

2. 若数据是按季度记录的,需要引入3个虚拟变量;按月记录的,则需要引入11个虚拟变量

3. 季度数据的季节性多元回归模型可表示为

1⎩

⎨⎧=其他季度第一季度011Q 2

⎩⎨⎧=其他季度第二季度01Q 23

⎩⎨⎧=其他季度

第三季度

01Q 3季节成分

季节成分趋势

34231210ˆQ b Q b Q b t b b Y ++++=

统计学各章节期末复习知识点归纳(原创整理精华考试复习必备

统计学原理与实务 各章节复习知识点归纳 (考试复习资料精华版-根据历年考试重点以及老师画的重 点原创整理) 第一章总论 重点在"第三节:统计学中的基本概念” 考点一:掌握以下四组概念(含义及举例)——肯定考一个名词解释! ①总体、总体单位 (统计)总体:是由客观存在的,具有*种共同性质的许多个别事物构成的整体。总体单位:构成总体的个别事物。 ②标志、标志值及分类 标志:说明总体单位特征的名称。 分类: Ⅰ按性质不同 a.品质标志:说明总体单位的品质特征,一般用文字表现。(有些品质标志虽然以数量表现,但实质表现产品质量差异。例如产品质量的具体表现未"一等、二等、三等”。) b.数量标志:说明总体单位的数量特征。只能用数值来表现。 Ⅱ按变异情况 可变标志:当一个标志在各个总体单位表现不尽相同时称为可变标志 不变标志:……都相同……不变标志。 标志值:标志的具体表现。 ③变量、变量值 变量:指数量标志。 变量值:指数量标志值,具有客观存在性。 ④指标的含义及分类 (统计)指标:是综合反映统计总体*一数量特征的概念和数值,简称指标。a.按其反映总体现象内容不同:数量指标(绝对数,绝对指标,总量指标),质量指标(相对数或平均数,相对指标和平均指标)。 b.按其作用不同:总量指标,相对指标和平均指标。 c.按反映的时间特点不同:试点指标和时期指标 d.计量单位的特点:实物指标、价值指标和劳动指标。 *指标和标志的区别与联系: 区别: ①标志是说明总体单位特征的名称;指标是说明总体的数量特征; ②标志既有反映总体单位数量特征的,也有反映总体单位品质特征;而指标只反映总体的数量特征; ③凡是统计指标都具有综合的性质,而标志一般不具有。 联系: ①许多指标由数量标志值汇总而得;

《统计学》复习题及答案

《统计学》复习题 一、单选题 1.某城市进行工业企业未安装设备普查,个体是( B ) A.工业企业全部未安装设备 B.工业企业每一台未安装设备C.每个工业企业的未安装设备 D.每一个工业企业 2.工业企业的设备数,产品产值是( A ) A.连续变量 B.离散变量 C.前者是连续变量,后者是离散变量 D.前者是离散变量,后者是连续变量3.对某班学生按年龄分成16-18岁、19—21岁、22-24岁三组,则24岁是( A )A。最大值 B。组中值 C. 第三组的上限 D。第三组的组中值 4.一个组的上限与下限之差称为( D ) A。组中值B。组数 C. 全距 D. 组距 5.连续变量数列中,其末组为开口组,下限是1000,相邻组的组中值为975,则末组的组中值为( D ) A. 987。5 B. 1000 C。 1025 D. 1050 6. 在建筑业设备普查中,每个建筑企业是( B ) A. 调查对象 B. 填报单位 C. 调查单位 D。调查项目 7.向上累计次数表示截止到某一组为止( A ) A.上限以下的累计次数 B.下限以上的累计次数 C.各组分布的次数 D.各组分布的频率 8。一组样本数据为3、3、1、5、13、12、11、9、7.这组数据的中位数是( D )A.3 B。13 C.7。1 D.7 9。算术平均数、众数和中位数之间的数量关系决定于总体次数的分布状况.在对称的钟形分布中( A ) A。算术平均数=中位数=众数 B。算术平均数〉中位数>众数 C。算术平均数<中位数<众数 D。中位数>算术平均数。>众数10.用不考虑顺序的不重复抽样方法,从8个人中抽选3个人,所得样本可能数目的公式为( B )

统计学复习资料

统计学复习资料 一、概念: 随机抽样:指在总体中抽取样本时,总体中的每一个个体被抽中的机会是均等的。 抽签法:在操作过程是将总体中的每个个体进行编号,逐个写在签条或卡片上,将签条或卡片完全混乱置放后,不加任何选择地在全部签条或卡片中完全随机抽出所需的含量,然后逐个测试并登记其指标数据,形成研究样本。 分类随机抽样:先按照与研究目的有关的某种特征将总体分成几个类型组,然后再各类型组中按简单随机抽样或机械随机的方法抽取个体组成样本。 整体随机抽样:在总体中先划分若干个群体,然后以群体为抽样的单位,按简单随机抽样取出若干群组成样本。 总体:需要研究的同质对象的全体/根据研究的目的而确定的同质对象的全体。 个体:总体中的每一观测对象/组成总体的每个基本单位的个体。 样本:从总体中抽出用以推测总体的部分对象。 样本含量:样本中包含的个体数。 统计量:描述样本特征的统计指标。 参数:代表总体特征的统计指标。 体育调查:在对被调查对象不施加任何影响的前提下,根据调查目的所进行的数据收集。 体育实验:在预定的控制因子影响下,进行各种各样与体育的实验和测试进行数据收集。 样本特征数:反映样本分布特征的数,称为样本特征数。 集中量数:反映集中趋势的数称为集中量数,如平均数、中位数和众数等。 离散量数:反映离散特征的数称为离散量数,如全距、方差和标准差等。 偏态度:反映分布的偏斜方向与程度的指标,用Sk 表示。 峰态度:分布曲线有陡峭和平坦之分,描述它的指标是峰态度(称为峰态系数) ,用Ku 表示。 正偏态:当Sk> 0时,分布左偏,右侧有长尾,称为正偏态。 负偏态:当Sk v 0时,分布右偏,左侧有长尾,称为负偏态。 高峰态:当Ku> 0 时,曲线比较陡峭,称高峰态 低峰态:当Ku v 0 时,曲线比较平坦,称低峰态 频率:如果事件A在n次重复试验中发生了m次,则比值称为随机事件A的频率。 概率:随机事件的频率W(A)随着试验次数n的变化而变化,当n充分大时,频率W(A)越来越接近于一个常数

《统计学》复习资料

《统计学》复习资料 一、单项选择题 1.对某城市工业企业未安装设备进行普查,则个体是( )。 A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每个工业企业的未安装设备 D.每一个工业企业 2.工业企业的设备台数、产品产值是( )。 A.连续变量 B.离散变量 C.前者是连续变量,后者是离散变量 D.前者是离散变量,后者是连续变量 3.调查几个重要铁路枢纽,就可以了解我国铁路货运量的基本情况和问题,这种调查属于( )。 A.普查 B.重点调查 C.典型调查 D.抽样调查 4.统计分组的结果表现为() A.组内的差异性和组间的同质性 B.组内的同质性和组间的差异性 C.组内的差异性和组间的差异性 D.组内的同质性和组间的同质性 5.对百货商店工作人员进行普查,调查对象是() A.所有的百货商店 B.每一个百货商店 C.各百货商店的全体工作人员 D.每一位工作人员 6.对一批商品进行质量检验,最适宜采用的方法是( )。 A.全面调查 B.抽样调查 C.典型调查 D.重点调查 7.在分组时,凡遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是( )。 A.将此值归入上限所在组 B.将此值归入下限所在组 C.此值归入两组均可 D.另立一组 8.在总量指标中,其数值受时期长短影响的指标是() A.实物指标 B.价值指标 C.时期指标 D.时点指标 9.计划规定单位产品成本应比上年降低5%,实际降低了3%,则单位产品成本计划完成程度为() A.97.94% B.8% C.2% D.102.11%

10.反映社会经济现象发展总规模、总水平的综合指标是( )。 A.质量指标B.总量指标C.相对指标D.平均指标 11.采用加权算术平均计算时,当各组的权数都增加1倍时,平均数( ) A.不变 B.增加1倍 C.是原来的一半 D.无法判断 12.我国人口中,男女人口的性别比为 106:100,这是( )。 A.比例相对指标 B.比较相对指标 C.强度相对指标 D.平均指标 13.在出生婴儿中,男婴比重53%,女婴比重47%,这两个指标是( ) A.比例相对数 B.强度相对数 C.结构相对数 D.比较相对数 14.序时平均数中的“首尾折半法”适用于计算( ) A.时期数列的资料 B.间隔相等的间断的时点数列的资料 C.间隔不等的时点数列的资料 D.由两个时期数列构成的相对数动态数列资料 15.动态数列中的发展水平( ) A.只能是总量指标 B.只能是相对指标 C.只能是平均指标 D.上述三种指标均可以 16.已知各环比增长速度分别为5%、8%、6%和10%,则相应的定基增长速度计算方法() A. 105%×108%×106%×110% B.(105%×108%×106%×110%)-100% C.(5%×8%×6%×10%)-100% D.5%+8%+6%+10% 17.编制数量指标综合指数时,其同度量因素最好固定在( ) A.报告期 B.计划期 C.基期 D.任一时期 18.按综合指数变形的要求,采用加权调和平均数指数形式编制质量指标总指数时,其权数应该是( ) A.11p q B.01p q C.10p q D.00p q 19.设p 为商品价格,q 为销售量,则指数∑∑0 1 0q p q p 的实际意义是综合反映( ) A.商品销售额的变动程度 B.商品价格变动对销售额的影响程度 C.商品销售量变动对销售额的影响程度

统计学总复习

《统计学》综合复习资料 一、单选题 1.统计一词的三种涵义是()。 A.统计工作.统计资料.统计学 B.统计调查.统计整理.统计分析 C.统计设计.统计分组.统计预测 D.统计方法.统计分析.统计预测 2.要研究某地区570家工业企业的产品生产情况,总体是()。 A.每个工业企业 B.570家工业企业 C.570家工业企业每一件产品 D.570家工业企业全部工业产品 3.为了解全国钢铁生产的基本情况,对鞍钢、武钢、宝钢等特大型钢铁企业的产量进行调查,属于() A.重点调查 B.典型调查 C.简单随机抽样调查 D.整群抽样调查4.某商品销售量的前三个季度的季节指数分别为:112%,88%,90%,则第四个季度的季节指数为()。 A.102% B.110% C.98% D.100% 5.某厂2009年完成产值2千万,2010年计划增长10%,实际完成2310万元,则计划完成程度为()。 A.105% B.5% C.% D.% 6.两个性质不同的指标相对比而形成的相对指标是()。 A.比较相对指标 B.结构相对指标 C.比例相对指标 D.强度相对指标7.当相关系数接近于()时,说明两变量间线性相关程度是很低的。 A.1 B.0 C. D.-1 8.统计调查按其组织形式分类,可分为() A.普查和典型调查 B.重点调查和抽样调查 C.统计报表和专门调查 D.经常性调查和一次性调查 9.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用()。 A.算术平均数 B.调和平均数 C.几何平均数 D.众数10.第一组工人的平均工龄为6年,第二组为8年,第三组为10年,第一组工人数占总数的30%,第二组占50%,则三组工人的平均工龄为()。 年

统计学复习(简答题)

复习题 1.什么是统计学?为什么统计学可以通过对数据的分析达到对事物性质的认识? 答:(1)统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。(2)这是由客观事物本身的特点和统计方法的特性共同决定的。a.从客观事物方面来说,根据辩证法的基本原理,任何客观事物都是必然性与偶然性的对立统一。同样,任何一个数据,也都是必然性与偶然性共同作用的结果,是二者作用的对立统一。b.从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。 2.解释总体与样本、参数和统计量的含义。 总体是我们所要研究的所有基本单位的总和。 样本是总体的一部分单位。 描述总体或概率分布的数量值称为参数。 统计量是对样本数据特征的数量描述。 3.解释总体分布、样本分布和抽样分布的含义。 答:(1)总体分布:整体取值的概率分布规律,通常称为总体分布。(2)样本分布:从总体中抽取容量为n的样本,得到n个样本观测值的概率分布,则为样本分布。(3)抽样分布:就是由样本n个观察值计算的统计量的概率分布。 4.简述描述统计学和推断统计学的概念及其联系。 描述统计学是研究如何取得、加工整理和显示数据资料,进而通过综合、概括与分析得出反映客观现象的规律性数量特征的科学。 推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对总体未知的数量特征做出以概率论为基础的推断和估计。 联系:描述统计学和推断统计学是现代统计学的两个组成部分,相辅相成、缺一不可。描述统计学是现代统计学的基础和前提,推断统计学是现代统计学的核心和关键。 5.简述中心极限定理。 从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。 6.解释置信水平、置信区间、显著性水平的含义,它们有什么联系。 在对参数估计的许多置信区间中包含总体参数真值的次数所占的比例称为置信水平。 在区间估计中,由样本统计量所构造的总体参数的估计区间,称为置信区间。 假设检验中犯第一类错误的概率被称为显著性水平。 它们的联系是:置信水平越高,置信区间越宽,显著性水平越底。 7.样本统计量的分布和总体分布的关系是什么? 答:样本统计量包括样本均值、样本比率、样本方差。(1)样本均值总体分布的关系:a无论是重复还是不重复抽样,样本均值的数学期望始终等于总体均值;b在重复抽样条件下,样本均值的方差为总体方差的1/n;在不重复抽样条件下,样本均值的方差为 (2)样本比率与总体分布的关系:a样本比率p的数学期望等于总体比率π;b在重复条件

统计学复习

统计学复习 一、名词解释 总体样本参数统计量标志统计指标抽样分布第Ⅰ类错误估计量极差 截面数据时间序列数据拉式指数四分位数指数置信水平中位数组距 抽样调查典型调查重点调查统计分组频数分布类型抽样等距抽样 二、单项选择题 1.重点调查中重点单位指的是()。 D A.具有典型意义或代表性的单位 B.那些具有反映事物属性差异的品质标志的单位 C.能用以推算总体标志的单位 D.在总体中具有举足轻重地位的单位 2.要了解上海市居民家庭的收支情况,最适合的调查方式是()。 C A.普查 B.重点调查 C.抽样调查 D.典型调查 3.统计分组的结果应表现为()。 A A.组内同质性,组间差异性 B.组内差异性,组间同质性 C.组内差异性,组间差异性 D.组内同质性,组间同质性 4.普查是为了某种特定的目的而()。 A A.专门组织的一次性的全面调查 B.专门组织的经常性的全面调查 C.非专门组织的一次性的全面调查 D.非专门组织的经常性的全面调查 5.某企业职工的工资分为四组:(1)800元以下,(2)800~1000元,(3)1000~1500元,(4)1500元以上,则1500元以上的这组组中值应近似为()。 C A.1500元 B.1600元 C.1750元 D.2000元 6.统计表中的主词是指()。 C A.表中全部统计资料的内容 B.统计表中所要说明的对象 C.描述研究对象的指标 D.分布在各栏中的指标数值 7.下面调查中,最适合采用重点调查的是()。 A A.了解全国钢铁生产的基本情况 B.了解全国人口总数

C.了解上海市居民家庭的收支情况 D.了解某校学生的学习情况 8.统计报表大多数属于()。 B A.一次性全面调查 B.经常性全面调查 C.经常性非全面调查 D.一次性非全面调 查 9.组距与组数的关系是()。 C A.正比例关系 B.因果关系 C.反比例关系 D.平行变动关系 10.平均数反映了()。 B A.总体分布的集中趋势 B.总体中总体单位分布的集中趋势 C.总体分布的离散趋势 D.总体变动的趋势 10+.已知某局所属12个工业企业的职工人数和工资总额,要求计算该局职工的平均工资,应该采用()。 A A.简单算术平均法 B.加权算术平均法 C.加权调和平均法 D.几何平均法 11.某公司下属5个企业,已知每个企业某月产值计划完成百分比和实际产值,要求计算该公司平均计划完成程度,应采用加权调和平均数的方法计算,其权数是()。B A.计划产值 B.实际产值 C.工人数 D.企业数 12.四分位数实际上是一种()。 C A.算术平均数 B.几何平均数 C.位置平均数 D.数值平均数 13.离散趋势指标中,最容易受极端值影响的是()。 A A.极差 B.平均差 C.标准差 D.标准差系数 14.方差是数据中各变量值与其算术平均数的()。 B A.离差绝对值的平均数 B.离差平方的平均数 C.离差平均数的平方 D.离差平均数的绝对值 15.一组数据的偏态系数为1.3,表明该组数据的分布是()。 D A.正态分布 B.平顶分布 C.左偏分布 D.右偏分布 16.四分位差排除了数列两端各()单位标志值的影响。 C A.10% B.15% C.25% D.35% 17.当一组数据属于左偏分布时,则()。 D A.平均数、中位数与众数是合而为一的 B.众数在左边,平均数在右边

《统计学》复习

《统计学》复习 一、名词解释 1、统计调查:统计调查就是对统计资料的搜集,它是根据统计研究的目的和任务要求,有组织、有计划地搜集原始资料的工作过程。 2、平均指标:是用以反映社会经济现象总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平的综合指标,是总体内各单位参差不齐的标志值的代表值。 3、时间数列:时间数列是将不同时间上的同类指标数值按时间先后顺序排列而形成的数列。 4、统计指数:统计指数有广义和狭义之分。从广义来讲,凡是能说明现实总体在时间或空间数量变动程度的相对数都可称之为指数。从狭义来讲,指数是用来反映由许多不能直接相加和不能直接对比的要素所组成的复杂现象在不同时间或者空间数量综合变动梯度的特殊相对数。 5、统计总体:统计总体简称总体,是指根据一定的研究目的,统计所要研究的、客观存在的、具有某一共同性质的许多个别单位所构成的整体。 6、总量指标:总量指标是反映社会经济现象发展的总规模、总水平的综合指标,也称为数量指标或统计绝对数。 7、标志变异指标:变异指标是反映不同总体的同一指标之间数值的差异,变异标志则是反映同一总体内同一标志不同单位之间的差异。 8、相关关系:相关关系是指变量之间存在的不确定的依存关系。 二、单项选择题(从下列备选答案中选择一个正确答案) 1、统计学研究对象的基本特点是(C)。 A、具体性 B、社会性 C、数量性 D、总体性 2、下列属于质量指标的是(D )。 A、人口数 B、国内生产总值 C、总成本 D、劳动生产率 3、要了解某校学生学习情况,总体单位是(B)。 A、该校所有学生 B、该校每一个学生 C、全校学生的学习成绩 D、每一个学生的学习成绩 4、下列属于按数量标志分组的是(C)。 A、企业按经济类型分组 B、工人按民族分组 C、学生按考试成绩分组 D、人口按性别分组 5、下列统计指标中,属于总量指标的是(A )。 A、国民生产总值 B、劳动生产率 C、产品废品率 D、平均工资

统计学复习资料

统计学复习资料 第1章统计学与统计数据 一.统计工作流程:①统计设计(主要内容是指标设计),②统计调查(获得原始数据), ③统计整理(主要内容是统计分组),④统计分析(主要内容是统计分析报告)。 统计学:定义:统计学是收集、整理、分析和解释统计数据的方法论和科学。 分类:①描述统计学②推断统计学③理论统计学④应用统计学 二.总体:研究对象的全体(“对象”通常指特征指标),记为X。 样本:从总体X中随机抽取n个个体(X1,X2,…,Xn), n 为样本容量. 关系:样本就是由总体中抽出部分个体组成的集合,构成样本的个体的数目称为样本容量,也就是样本大小。 三.1.参数:总体的某种特征值。如总体平均数,总体方差。 2.统计量:样本(X1 , X2 , … , Xn)的不含任何未知参数的函数g(X1 , X2 , … , Xn). 如样本平均数,样本标准差。 四.标志定义用来说明总体中各个个体普遍具有的属性或特征。分类:品质标志,数量标志指标定义:是反映总体数量特征的概念及其数值。分类:数量指标,质量指标。 五.统计数据的类型:1.依据计量尺度划分:分类数据,顺序数据,数值型数据。2.依据收集方法划分:观察数据,实验数据。3.依据对象与时间划分:截面数据,时间序列数据。 第2章统计数据的收集整理与显示 一、统计数据的收集 1、常用的统计调查方法 ①普查:是专门组织的一般用来调查属于一定时点上社会经济现象数量的全面调查。

优点:全面、系统。缺点:只限于有限总体、工作量大、时间性强。 ②重点调查:只在对象中选择一部分重点单位(比较重大)进行调查以了解总体情况的一种非全面调查。优点:省时、省力、不带主观性。 ③典型调查:在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位(人为选择的典型单位)进行调查。优点:调查范围小、省时省力、具体深入。缺点:具有主观性。 ④抽样调查:是从调查对象中随机抽取一部分单位作为样本进行调查的一种非全面调查 优点:经济灵活、时效性强、适应面广和准确性高 ⑤统计报表:是按照国家有关法规的规定,自上而下地逐级提供统计数据的一种调查方式。 特点:是由政府部门组织、采用统一的表格、自上而下布置、自下而上报告。统计报表是经常性的全面调查。 2、问卷的基本结构:问卷是调查者根据调查目的和要求所设计的,一般由开头部分、甄别部分、主体部分和背景部分组成。 3、设立问卷问题的注意事项:①提问的内容尽可能短。②问题设计的用词要准确,用语要含义明确。 4、问卷设计的基本原则 ①主题鲜明目的明确,重点突出,没有可有可无的问题。②结构合理,先封闭后开放,先易后难。封闭性问题:事先设计好答案。开放性问题:自由回答。③适当控制回答时间(尽量不超过30分钟)④便于计算机处理易于编码、录入、汇总和数据出表 5、统计数据的误差来源:登记性误差和代表性误差。 二、统计数据的整理 1、统计数据整理的中心任务:分组和编制频数分布表。 2、统计数据分组:①按品质标志分组品质型数据:主要是做分类整理。②按数量标志分组数值型数据:主要是按照数值进行分组。 3、品质标志的分组方法:按品质标志分组就是按事物的品质特征

统计学知识点(完整)复习资料重点

基本统计方法 第一章概论 1.总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。 2.参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉戊字字母表示,是在参数附近波动的随机变量。 3.统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。 第二章计量资料统计描述 1.集中趋势:均数(算术、几何)、中位数、众数 2.离散趋势:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(C/) 3.正态分布特征:①X轴上方关于对称的钟形曲线;②物取得最大值;③有两个参数,位置参数"和形态参数6④曲线下面积为1,区间//土瑚面积为68.27%,区间1.96次勺面积为95.00%,区间〃±2.58漸面积为99.00%。 4.医学参考值范围的制定方法:正态近似法:X±U a/2S;百分位数法:P25-P97* 第三章总体均数估计和假设检验 1.抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免,产生的根本原因是生物个体的变异性。 2.均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:々=b/、历。反映 样本均数间的离散程度,说明抽样误差的大小。 3.降低抽样误差的途径有:①通过増加样本含量n:②通过设计减少S。 4.,分布特征: ①单峰分布,以0为中心,左右对称; ②形态取决于自由度v, 港小,,值越分散,£分布的峰部越矮而尾部翘得越高; ③当濯近8,S》逼近, t分布逼近w分布,故标准正态分布是t分布的特例. 5.置值区间(Confidence Interval, C/):按预先给定的概率(1-«)确定的包含总体参数的一个范围,计算公式:又土妇2.S又或其95%。含义:从固定样本含量的己知总体中进行重复抽样试验,根据每个样本可得到一个置信区间,则平均有95%的置信区间包含了总体参数。 6.假设检验的基本原理:小概率反证法的思想 ①反证法:从问题的对立面(Ho)出发间接判断要解决的问题(HD是否成立。 ②小概率事件:在Ho成立的条件下计算检验统计量,根据概率分布确定检验水准a下

统计学各章复习要点

统计学原理复习要点 程新杰 第一章概述 第一节统计的含义和特点 一.统计的三个基本含义:统计工作.统计资料.统计学 二.统计学的三个发展阶段:古典统计学.近代统计学.现代统计学 三..社会经济统计学的研究对象:大量社会经济现象的数量方面. 四.统计工作的几个阶段:统计设计.统计调查.统计整理.统计分析.统计数据的提拱和管理. 五..统计研究的基本方法: . (1)大量观查法.(2)统计分组法..(3)综合指标法..(5)统计模型法. (5)统计推断法 六.统计方法的特点:(1) .从定性认识到定性认识(2) .从个体认识到总体认识.(3)从已知量的认识到未知量的推断 七.统计的职能:信息职能、咨询职能、监督职能。 第二节:统计的基本概念 一.统计总体和总体单位 1.统计总体:就是我们所要研究对象的全体.它是由许多个性质相同的总体单位所组成.如:(它可以是全部的职工.所有的学生.所有的设备.所有生产的产品.全市的企业.所有的交通事故等等) 2.总体单位:构成总体的个体.(把所有的总体单位的组合在一些就行成了一个总体.) ★应明确.总体和总体单位不是固定的.它是随着我们所研究的目的.范围不同.是可以转化的.(原来的总体单位可以变成总体.原来的总位单位可以变给总体) 3.总体的特点:同质性.大量性.差异性. 二.标志.变量和指标: 1.标志:是说明总体单位的属性和特征的名称: (1)品质标志.品质标志说明总体单位的属性特征,无法量化(其标志表现只能用文说明,如职工的性别、文化程度,企业的经济成份,产品品牌等)。 (2)数量标志:说明总体单位的数量特征,能够量化,(如职工的工龄、工资水平,企业的职工数、总产值、总产量、劳动生产率等。) 2.标志表现:即标志特征在各单位的具体表现。如果说标志是统计所要调查的项目,那么标志表现是调查所得结果,标志的实际体现。 ☆标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值(或变量值。) ☆就一个品质标志或数量标志而言,其具体表现可能多种多样,不能将标志与标志表现混为一谈。如对三个工人的月工资计算平均数,只能说是对三个标志表现或三个标志值(变量值)计算平均数,不能说对三个数量标志计算平均数,因为数量标志只有一个,即工人“月工资”。 3.标志值:数量标志的表现就叫标志值.(如人的身高这个数量标志.每个人的身高是不同的.有 1.7米.1.62米.在这里身高是标志.,而1.7米.1.65米就叫标志值) ★总体单位的关系: 总体单位是统计标志的直接承担者,是载体;统计标志依附于总体单位并说明总体单位的属性和特征。依附于某个总体单位的标志可以有多个。 4.变量和变量值: (1)变量:可变的数量标志和指标都叫变量. (2)变量值:数量标志的表现.及指标的具体数值都叫变量值..如某学生考的各科平均分65分.在这里平均分是数量标志,.而65分则是变量值.或标志值..又比如.把全市工业企业作为一个总体,全市平均每个工业企业的总产值350万元,在这里平均每个工业企业总产值是变量.而350万元则是变量值或指标值) (3)变量的分类:有连续变量和离散变量.能用小数计量的变量是连续变量,(如企业的产值,人的体重.土地面积等);只能用整数表现的是离散变量,如职工人数.电视机的产量.) 5.统计指标:指标是说明总体的综合数量特征的. 1.正确理解统计指标时应注意:①统计指标反映现象总体的数量特征;②一个完整的统计指标应该由总体范围、时间、地点、指标数值和数值单位等内容构成。 2. 统计指标和统计标志主要区别是: ①指标是说明总体特征的,标志是说明总体单位特征的; ②指标具有可量性,无论是数量指标还是质量指标,都能用数值表示,而标志不一定。数量标志具有可量性,品质标志不具有可量性。 3.标志和指标的主要联系表现在: ①指标值往往由数量标志值汇总而来; ②在一定条件下,数量标志和指标存在着变换关系。 4.按指标的性质分:数量指标和质量指标. (1).数量指标.是最基本的指标,是计算质量指标的基础.指标数值的大小是随着总体的范围大小而变化.是表明总体的广度.是外延指标.均有计量单位. ★数量指标可分:为标志值总量(变量值总量)和总体单位总量(总体单位数或频率总体)标志值总量是由各单位的标志标汇总而来的.总体单位总量就是一个总体内部个体的总数. ★数量指标按时间状态可分:时期指标(流量)和时点指标(存量). (2) 质量指标:是反映现象总体相对水平或工作质量的统计指标,又分为:相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,反映现象之间内在联系和对比关指标. 三.统计数据的理化尺度种类.1定量数据(数量数据):包括(1).测量值数据.用量具测出的数据.(又叫连续数据).可以有小数.如身高.体重.温度等(2).计数值数据.用清点的方法得出的数据.只能用整数表示.(如学生人数.产品台数.) 2.定性数据(品质数据)包括 (1).排序数据.只能用文字说明,不能用数字说明.但能排出现象的顺序.有优劣.好坏之分(如产品的等级。) (2).分类数据.只是对现象的一种分类.不能排出现象的顺序.没有优劣.好坏之分.( 如民族.职业等) 第二章.统计调查和统计整理 第一节,统计调查 一.统计调查的基本要求:准确性和及时性,是衡量统计工作质量的重要标志 二.统计调查的分类. 1.按调查的组织形式:统计报表和专门调查. (1) 统计报表由有关部门按照统一的要是要求.自上而下的布置.自下而上的逐级上报的一种调查方式 (2).专门调查:是为某一要求而专门组织的调查.包括:普查.重点调查.典型调查.抽样调查

统计学复习

统计学复习 一、选择题:(共30分,每题1.5分) 题号答案11121231341451561671781891910201、统计工作的过程包 括() D、统计设计、统计调查、统计整理、统计分析 2、要了解30个学生的学习情况,则总体单位是()。A、30个学生 B、每一个学生 C、30个学生的学习成绩 D、每一个学生的学习成绩3、某班上5名 学生的“统计学原理”成绩分别是60、72、80、84、92,这些数字是()。 A、指标 B、变量 C、标志 D、标志值 4、将统计总体按照一定标志划分为若干个组成部分的统计方法是() A、统计整理 B、统计分析 C、统计调查 D、统计分组5.下列属于品质标 志的是() A.某人的年龄B.某人的性别C.某人的体重D.某人的收入6、下 面属于按数量标志分组的是() A、工人按政治面貌分组 B、工人按性质分组 C、工人按年龄分组 D、 工人按民族分组7、动态数列的构成要素是(). A、变量和次数 B、时间和指标数值 C、时间和次数 D、主词和宾词 8、数量指标一般表现为()。

A、平均数 B、相对数 C、绝对数 D、众数9、调查单位和填报单位的关系是()。A、两者一致B、两者有时一致 C、两者没有关系 D、调查单位大于填报单位10、统计分组的关键在于() A、确定分配数列的类型 B、统计表的形式设计 C、确定变量数列的表示方法 D、选择分组的标志 11、对一批商品进行质量检查,最适合采用的调查方法是()A.全面调查B.抽样调查C.典型调查D.重点调查12.某企业7月份计划要求成本降低3%,实际降低5%,则计划完成程度为()A97.94%B166.67%C101.94%D1.94% 13.计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和() A、小于100% B、大于100% C、等于100% D、小于或大于100% 14.下列指标属于比例相对指标的是() A、工人出勤率 B、农轻重的比例关系 C、每百元产值利税额 D、净产值占总产值的比重 15.标志变异指标中易受极端值影响的有()A、平均差B、平均差系数C、标准差D、全距16.增长量是指() A报告期水平与基期水平之比B基期水平与报告期水平之差C报告期水平与基期水平之比减1D报告期水平与基期水平之差17.根据指数研究的范围不同,可以把它分为()A、个体指数和总指数B、简单指数和类

(完整版)统计学期末复习重点

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。 算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。 调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。 简单分组:是指对所研究的总体按一个标志进行分组。 复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。 强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。 类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。 机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。 综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。 平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。 相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。 回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。 统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。 统计指数:广义指数泛指社会经济现象数量变动的比较指标,及用来表明同类现象在不同空间、不同时间,实际与计划对比变动情况的相对数。狭义指数仅指反应不能直接想家的复杂社会经济现象在数量上综合变动情况的相对数。 简单随机抽样:简单随机抽样也叫纯随机抽样,它对总体单位不做任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。 季节分析的含义:是指某些现象由于自然因素和社会条件的影响在一年之内比较有规律的变动。 总量指标:是指反映一定时间、地点和条件下某种现象总体规模或水平的统计指标。 相对指标:是指说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比来求得,其结果表现为相对数,故也将相对指标称为相对数。 平均指标:是同类社会经济现象总体内,各单位某一数量标志在一定时间、地点和条件下,数量差异抽象化的代表性水平指标,其数值表现为平均数。 1 计算运用总量指标的原则。 (1)在计算实物指标时,应注意现象的同类性 (2)统计总量指标时要有明确的统计含义和合理的统计方法 (3)统一计量单位 2计算运用平均指标的原则。 (1) 必须注意所研究社会经济现象的同质性 (2) 必须注意用组平均数补充说明组平均数 (3) 必须注意应用分配数列补充说明平均数

统计学总复习

统计学总复习 统计学复习 第一章统计学概述 一、名词解释: 统计总体总体单位样本样本容量标志数量标志品质标志变异变量连续变 量离散变量指标指标体系参数统计量二、简答题 1.简述统计工作、统计资料和统计学三者之间的关系。 2.社会经济统计学所研究 对象有哪些特点? 3.统计指标及其特点有哪些? 4.举例说明统计总体和总体单位、统计指标和标志之间的区别与联系? 5.统计指标按内容特征分哪几类?按时间特征分为哪几类?按表现形式分为哪几类?按计量单位分为哪几类? 6.统计研究的工作过程有哪几个阶段? 三、填空题 1.研究某市居民的生活水平,则该市全部居民户是_______,每一居民是_______。 2.标志是说明总体单位特征的名称,有和两种。 3.研究 一个行业的发展情况,总体是,总体单位是。 4.一个企业作为总体单位,该企业产值、产量、生产能力、设备的原值等属于 标志,而所有制、行业性质等属于标志。 5.统计指标反映____________的数量特征,数量标志反映的数量特征。 6.统计指标的构成要素包括______、指标数值、计算单位、时间、空间和______等 六个方面。 7.统计工作和统计资料之间是的关系,统计学和统计工作之间是 的关系。 8.如果一个变量是以整数形式取值,该变量被称为__________变量,如果它在 一个区间内可取无穷多个值,该变量称为_________变量。 9、统计一词有三种涵义,即、、。 10、一个完整的统计工作过程包 括、、、。 11、所有的指标都用绝对数表示,而指标都用相对数和平均 数表示。四、选择题 1、统计总体的特点是()。

A.同质性、大量性、可比性 C.同质性、大量性、变异性 B.同质性、大量性、具体性 D.同质性、大量性、综合性 2.要了解400名学生的学习情况,则总体是()。 A.每个学生 B.每个学生的学习成绩 C.400名学生D.400名学生的学习成绩3.下列表述正确的是()。 A.可变的数量标志是变量 B.所有标志都是可变的 C.标志和标志表现是一回事 D.总体的同质性和变异性是相对的 4.标志是()。 A.说明总体特征的名称 B.说明总体单位特征的名称 C.总体单位的特征 D.总体的特征 5.指标是()。 A.说明总体数量特征的名称 C.说明总体单位特征的名称 B.总体单位的特征D.总体的特征 6.某企业2000年实现产值200万元,则“200万元”是()。 A.指标 B.质量指标 C.数量标志 D.不能确定 7.一个企业作为总体单位,下列属于数量标志的是()。 A.企业的所有制性质B.企业的行业类型C.企业的生产能力 D.企业职工人数8.在工业普查中()()()()()。 A.工业企业总数是统计总体 B.每一个工业企业是总体单位 B.固定资产总额是统计指标 D.机器台数是连续变量 E.职工人数是离散变量 9.按照取值方式,可以把变量分为()()()()()。 A.连续型变量 B.随机变量 C.离散型变量 D.确定性变量 10.一个统计总体单位()。 A.只能有一个指标 B.只能有一个标志C.可以有多个指标 D.可以有多个标志11.统计设计、统计调查、统计整理和统计分析的关系是()。 A.统计设计是基础 B.统计分析是基础C.统计调查是基础 D.统计整理是基础 1 12.某工人月工资800元,则“800元”是()。 A.变量 B.变量值 C.数量指标 D.质量指标 13.变异是指()。

统计学复习(含公式)

1、统计学:是收集、汇总和分析统计数据的科学和艺 术。 2、统计数据的分析是统计学的核心内容,它是通过统 计描述和统计推断的方法探索数据内在规律的过 程。 3、普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。 4、抽样调查的特点:经济性;时效性高;适应面广;准确性高。 5、调查方案:是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。 6、组距分组的几个步骤:一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。) 7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况。 8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。 9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。 10、众数:是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M。 11、众数是一组数据中心位置的一个代表值。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数。 12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。 13、时间系列:是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。 14、用报告期水平减去基期水平,就等于增长量。其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。 15、报告水平与基期水平之比,称为发展速度。其中,当基期水平为上期水平时,就称为环比发展速度;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。 16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平。由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。 17、绝对数有时期数和时点数之分,两者的区别主要在于是否具有可加性。 18、几何平均法的应用条件是要求现象呈现均匀变动。如果现象发生大起大落的变化,用几何平均法所计算的平均发展速度将失去代表性。 19、累计法考虑各时期的发展状况,不只是受最初和最末两个极端值的影响。 20、移动平均法是趋势变动分析的一种较简单的常用方法。该方法的基本思想和原理是,通过扩大原时间序列的时间间隔,并按一定的间隔长度逐期移动,分别计算出一系列移动平均数,这些平均数形成的新的时间序列对原时间序列的波动起到一定的修匀作用,削弱了原序列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。该方法可以用来分析预测销售情况、库存、股价或其他趋势。 移动平均法的优点在于计算简便,运用灵活,不受现象复杂性影响。 其缺点主要有三个:一是失去首尾两头的数据;二是不能较好地进行长期趋势的预测;三是对周期性处理不好就会影响数列的趋势性。 21、我们应该先剔除趋势值的影响,再计算季节指数。(第一步:对原数据计算移动平均数;第二步:计算具体的季节比率;第三步:计算月平均值,消除不规则波动;第四步:计算季节比率;第五步:使用季节比率进行预测。) 22、指数作为一种对比性的统计指标具有相对数的形式,通常表现为百分数。 23、统计指数在经济分析上具有十分广阔的应用领域,它可以是不同时间的现象水平的对比,也可以是不同空间(如不同国家、地区、部门、企业等)的现象水平的对比,或者,是现象的实际水平与计划(规划或目标)水平的对比。 24、统计指数可分为个体指数和总指数。 25、总指数是考察整个总体现象的数量对比关系的指数。总指数与个体指数的区别不仅在于考察范围不同,还在于考察方法不同。 26、如果一个指数的指数化指标具有质量指标的特征,也即表现为平均数或相对数的形式,它就属于“质量指标指数”。物价指数、股份指数和成本指数等都是质量指标指数;如果一个指数的指数化指标具有数量指标的特征,也即具有总量或绝对数的形式,它一般就属于“数量指标指数”。销售旦指数和生产指数则是数量指标指数。

相关主题
相关文档
最新文档