统计学(复习)

统计学(复习)
统计学(复习)

第1章统计和统计数据

1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学

描述统计与推断统计的含义、内容、目的。

描述统计: 是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.

推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:

参数估计: 是利用样本信息推断所关心的总体特征.

假设体验:是利用样本信息判断对总体的某个假设是否成立.

2、变量与数据:不同数据类型的含义,会判断已有数据的类型.

变量:它们的特点是从一次观察到下一次观察会出现不同结果.

Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数

数据: 把观察到的结果记录下来.

总体:包含所研究的全部个体(数据)的集合

样本: 从总体中抽取的一部分元素的集合

样本量: 构成样本的元素的数目

定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结

果 .如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

定性变量:分类变量和顺序变量统称为定性变量

分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.

分类变量的观察结果就是分类数据

顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据

离散型变量: 只能取有限个值得随机变量

连续型变量:可以取一个或多个区间中任何值得随机变量

3、获得数据的概率抽样方法有哪些?

根据一个已知的概率来抽取样本单位,也称随机抽样

-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n 个个为止。

- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

-系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n 个元素组成一个样本。

-整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。

第二章.用图表展示数据

频数: 落在各类别中的数据个数

比例:某一类别数据个数占全部数据个数的比值

百分比:将对比的基数作为100而计算的比值

比率: 不同类别数值个数的比值

频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.

什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.

帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图

饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.

环形图: 只能显示一个样本各部分所占的比例

数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.

1. 下限(lower limit) :一个组的最小值

2. 上限(upper limit) :一个组的最大值

3. 组距(class width) :上限与下限之差

4. 组中值(class midpoint) :下限与上限之间的中点值

组中值=下限值+上限值/2

直方图与条形图的区别。

1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距

2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列

3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据

茎叶图: 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等

箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.

雷达图: 是显示多个变量的常用图示方法.

1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样

本围成多个区域,就是雷达图

2.可用于研究多个样本在多个变量上的相似程度

3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。

第三章. 用统计量描述数据

1、水平的度量

描述数据水平的统计两主要有: 平均数,中位数,分位数以及众数等.

平均数。平均数的计算:

1.也称为均值,常用的统计量之一

2.消除了观测值的随机波动

3.易受极端值的影响

4.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为?x

中位数: 是一组数据排序后处于中间位置上数值,用M e 表示.

四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值

众数、中位数和平均数的关系*

2、差异的度量

极差:

1.一组数据的最大值与最小值之差

2.离散程度的最简单测度值

3.易受极端值影响

4.未考虑数据的分布

5.计算公式为:R = max(x i) - min(x i)

四分位差

1.也称为内距或四分间距

2.上四分位数与下四分位数之差:Q d=Q U–Q L

3.反映了中间50%数据的离散程度

4.不受极端值的影响

5.用于衡量中位数的代表性

样本方差和标准差(会计算)

1.数据离散程度的最常用测度值

2.反映各变量值与均值的平均差异

3.根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差(标

准差),记为s2(s)

4.样本方差

假设是一个样本,则样本方差的计算公式为:

其中是样本均值。例如,一样本取值为3,4,4,5,4,则样本均值=,样本方差

=。样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。

样本标准差

S称为样本标准差。如在上例中,S=0.7071。称(S/ X)×100%为样本变异系数。由于S与X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。

标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点

离散系数(变异系数)是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.

分布形状的度量

偏态:是指数据分布的不对称性。侧度数据分布不对称性的统计量称为(偏态系数)

峰态:是指数据分布峰值的高低。测度峰态的统计量是(峰态系数)

弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*

弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*

第四章.概率分布

概率:概率是对事件发生的可能性大小的度量

随机变量:是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性

连续性随机变量:只能取一个或多个区间中任何值得随机变量

离散型随机变量:只能取有限个值得随机变量

随机变量的概括性度量:期望值和方差的计算:描述随机变量集中程度的统计量称为(期望值)

离散型概率分布:是用表格的形式表现出来,就是离散型随机变量的概率分布

二项分布: 二项分布是建立在伯努利试验基础上的。N重伯努利

1.贝努里试验满足下列条件

?一次试验只有两个可能结果,即“成功”和“失败”

●“成功”是指我们感兴趣的某种特征

?一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的

?试验是相互独立的,并可以重复进行n次

?在n次试验中,“成功”的次数对应一个离散型随机变量X

泊松分布:

1.1837年法国数学家泊松(D.Poisson,1781—1840)首次提出

2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布

3.泊松分布的例子

?一定时间段内,某航空公司接到的订票电话数

?一定时间内,到车站等候公共汽车的人数

?一定路段内,路面出现大损坏的次数

?一定时间段内,放射性物质放射的粒子数

?一匹布上发现的疵点个数

?一定页数的书刊上出现的错别字个数

超几何分布的应用背景

1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等

2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概

率分布

3.概率分布函数为

连续型概率分布:

正态分布:

1.由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出

2.描述连续型随机变量的最重要的分布

3.许多现象都可以由正态分布来描述

4.可用于近似离散型随机变量的分布

?例如:二项分布

5.经典统计推断的基础

标准正态分布

1.随机变量具有均值为0,标准差为1的正态分布

2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布

3.标准正态分布的概率密度函数

4. 标准正态分布的分布函数

数据的正态性评估:Q-Q 图和P-P 图的应用

1. 对数据画出频数分布的直方图或茎叶图

? 若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似

3. 绘制正态概率图。有时也称为分位数—分位数图或称Q -Q 图或称为P-P 图

? 用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t 分布等等

? P-P 图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的 ? Q-Q 图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的

4. 使用非参数检验中的Kolmogorov-Smirnov 检验(K-S 检验)

由正态分布导出的几个重要分布:χ2分布、t 分布、F 分布的特点 χ2分布:

1. 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K ·Pearson) 分别于1875

年和1900年推导出来 2. 设 ,则 3. 令 ,则 y 服从自由度为1的χ2分布,即 4. 对于n 个正态随机变量y 1 ,y 2 ,y n ,则随机变量

5. 称为具有n 个自由度的χ2分布,记为 性质和特点

1. 分布的变量值始终为正

2. 分布的形状取决于其自由度n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称

3. 期望为:E (χ2)=n ,方差为:D (χ2)=2n (n 为自由度)

4. 可加性:若U 和V 为两个独立的χ2分布随机变量,U ~χ2(n 1),V ~χ2(n 2),则U +V 这一随机变量服从自由

度为n 1+n 2的χ2分布 t 分布:

1. 提出者是William Gosset ,也被称为学生分布(student ’s t)

2. t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称

之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 F 分布:

1. 为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名则

2. 设若U 为服从自由度为n 1的χ2分布,即U ~χ2(n 1),V 为服从自由度为n 2的χ2分布,即V ~χ2(n 2),且U 和

V 相互独立,则 2

)

,(~2σμN X )

1,0(~N X z σμ

-=

2

2

z Y =2

)

1(~2χY =n

i i

1

2

2∑==n i i y 122χ22~χχn U

称F 为服从自由度n 1和n 2的F 分布,记为 统计量:

? 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数 ? 一个总体参数推断时的统计量:样本均值(?x )、样本标准差(s )、样本比例(p )等两个总体参数

推断时的统计量: (?x 1-?x 2)、(p 1-p 2)、(s 1/s 2) ? 样本统计量通常用小写英文字母来表示

参数:

? 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值

? 一个总体的参数:总体均值(μ)、标准差(σ)、总体比例(π);两个总体参数:(μ1 -μ2)、(π1-π2)、(σ1/σ2) ? 总体参数通常用希腊字母表示

抽样分布的概念:

1. 样本统计量的概率分布,是一种理论分布

? 在重复选取容量为n 的样本时,由该统计量的所有可能取值形成的相对频数分布

2. 随机变量是 样本统计量

? 样本均值, 样本比例,样本方差等

3. 结果来自容量相同的所有可能样本

4. 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 样本均值的抽样分布:

1. 在重复选取容量为n 的样本时,由样本均值的所有可能取值形成的相对频数分布

2. 一种理论概率分布

3. 推断总体均值μ的理论基础

中心极限定理: 从均值为μ,方差为σ 2的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均值的

抽样分布近似服从均值为μ、方差为σ2

/n 的正态分布 其他统计量的分布:

1. 总体(或样本)中具有某种属性的单位与全部单位总数之比

? 不同性别的人与全部人数之比

? 合格品(或不合格品) 与全部产品总数之比

2. 总体比例可表示为

2

1),(~21n n F F

3. 样本比例可表示为

样本比例的分布

1. 在重复选取容量为n 的样本时,由样本比例的所有可能取值形成的相对频数分布

2. 一种理论概率分布

3. 当样本容量很大时,样本比例的抽样分布可用正态分布近似,即 样本方差的分布

1. 在重复选取容量为n 的样本时,由样本方差的所有可能取值形成的相对频数分布

2. 对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的χ2分布 统计量的标准误差

1. 样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差

2. 衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度

3. 样本均值和样本比例的标准误差分别

第五章.参数估计

1、参数估计的基本原理

参数估计:就是用样本统计量去估计总体的参数 估计量:用于估计总体参数的统计量的名称

? 如样本均值,样本比例,样本方差等

? 例如: 样本均值就是总体均值m 的一个估计量

估计值:估计参数时计算出来的统计量的具体值

? 如果样本均值 ?x =80,则80就是θ 的估计值

点估计

1. 用样本的估计量的某个取值直接作为总体参数的估计值

? 例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估

n

n p n

n p 101=

-=

2.无法给出估计值接近总体参数程度的信息

?由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值

?一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出

估计的可靠性的度量

区间估计:

1.在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到

2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量

?比如,某班级平均分数在75~85之间,置信水平是95%

置信度:一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值得次数所占的比例称为,也称为置信度或置信系数

置信水平:

1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度

2.表示为 (1 - a) %

?a为是总体参数未在区间内的比例

3.常用的置信水平值有 99%, 95%, 90%

?相应的 a 为0.01,0.05,0.10

置信区间

1.由样本估计量构造出的总体参数在一定置信水平下的估计区间

2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间

3.如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真

值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述

4.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会

因样本的不同而变化,而且不是所有的区间都包含总体参数

5.实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置

信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

6.当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所

产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个

7.一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”

的问题

8. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所

抽取的这个样本所构建的区间而言的

2、一个总体参数的区间估计

1.个总体均值区间估计的计算(两种情形) A .大样本的估计 1. 定条件

? 总体服从正态分布,且方差(σ2) 已知

? 如果不是正态分布,可由正态分布来近似 (n 3 30)

2.用正态分布统计量 z

3.总体均值 μ 在1-α

置信水平下的置信区间为 B .小样本的估计 1.假定条件

? 总体服从正态分布,但方差(σ2) 未知 ? 小样本 (n < 30)

2. 使用 t 分布统计量

3. 总体均值 μ 在1-α置信水平下的置信区间为 评价估计量好坏的标准: 对于同一个未知参数,不同的方法得到的估计量可能不同,,于是提出问题: 1. 应该选用哪一种估计量?

2. 用什么标准来评价一个估计量的好坏?

第六章.假设检验

1、假设检验的基本原理 原假设:

1. 又称“0假设”,研究者想收集证据予以反对的假设,用H 0表示

2. 所表达的含义总是指参数没有变化或变量之间没有关系

)

1,0(~N n

x z σμ

-=

2αα)(22未知或σσαα

n

s

z x n z x ±±)1(~--=

n t n

s x t μ

2

αn

s

t x 2α

±

3.最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它

4.总是有符号=, £或3

?H0 :m = 某一数值

?H0 :m 3某一数值

?H0 :m£某一数值

●例如, H0 :m= 10cm

备择假设:

1.也称“研究假设”,研究者想收集证据予以支持的假设,用H1或H a表示

2.所表达的含义是总体参数发生了变化或变量之间有某种关系

3.备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持

备择假设

4.总是有符号1, <或>

?H1 :m1某一数值

?H1 :m>某一数值

?H1 :m <某一数值

单侧检验和双侧检验:

1.备择假设没有特定的方向性,并含有符号“ ”的假设检验,称为双侧检验或双尾检验(two-tailed

test)

2.备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-

tailed test)

?备择假设的方向为“<”,称为左侧检验

?备择假设的方向为“>”,称为右侧检验

两类错误与显著性水平

1.研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,

因而就有可能犯错误

2.原假设和备择假设不能同时成立,决策的结果要么拒绝H0,要么不拒绝H0。决策时总是希望当原假设

正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误

3.第Ⅰ类错误(a错误)

?原假设为正确时拒绝原假设

?第Ⅰ类错误的概率记为a,被称为显著性水平

2. 第Ⅱ类错误(b错误)

?原假设为错误时未拒绝原假设

第Ⅱ类错误的概率记为b (Beta)

利用统计量进行检验时的决策准则

1.根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量

2.对样本估计量的标准化结果

?原假设H0为真

?点估计量的抽样分布

3.标准化的检验统计量

点估计量的抽样标准差

假设值

点估计量

标准化检验统计量

统计量决策规则

1.给定显著性水平a,查表得出相应的临界值z a或z a/2,t a或t a/2

2.将检验统计量的值与a 水平的临界值进行比较

3.作出决策

?双侧检验:I统计量I > 临界值,拒绝H0

?左侧检验:统计量 < -临界值,拒绝H0

?右侧检验:统计量 > 临界值,拒绝H0

利用P值进行决策的准则

1.如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率

?P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设

2.被称为观察到的(或实测的)显著性水平

3.决策规则:若p值

2、一个总体参数的假设检验

一个总体均值双侧检验的计算(两种情形)

1.总体方差_____ 已知或未知.

在____已知的条件下,由抽样分布理论可知,样本统计量服从 z 分布;而在______ 未知的条件下,样本统计服从 t 分布。故当_______已知时,可以使用z体验;当___ 未知时,可以使用 t 体验。

2.n(n1,n2) 较大或n较小。

当样本量 n1,n2 都较大时,如果总体方差 __ 和__位置,可以用样本方差__, __替代,这时,杨本统计量近似服从z分布,采用z作为体验统计量也是可行的,但是当n 或n1,n2部大时,如果__,__未知,就应该采用t作为统计量。

第八章.一元线性回归

1、变量间的关系

相关关系的含义,与函数关系的区别

函数关系

1.是一一对应的确定关系

2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取某个数值时,

y 依确定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量

3.各观测点落在一条线上

相关系数

1.一个变量的取值不能由另一个变量唯一确定

2.当变量x 取某个值时,变量y 的取值对应着一个分布

3.各观测点分布在直线周围

相关关系的分类

相关关系的描述及测度

1. 度量变量之间线性关系强度的一个统计量

? 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ ? 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r

● 也称为Pearson 相关系数 (Pearson ’s correlation coefficient)

2. 样本相关系数的计算公式

散点图:散点图可以判断两个变量之间有无相关关系,并对关系形态作出大致描述,但要准确度量变量间的

关系强度,则需要计算相关关系。

简单相关系数的取值特点及相关含义: 简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数”, 它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。

计算公式为:

2、一元线性回归

因变量: 被预测或被解释的变量,用 y 表示

自变量:用来预测因变量的一个或多个变量, 用x 表示 回归模型各个部分的解释

参数:因变量y 的取值是不同的,y 取值的这种波动称为(变差)。 参数最小二乘估计的基本思想*

1. 德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数

2. 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即

3. 用最小二乘法拟合的直线来代表x 与y 之间的关系与实际数据的误差比其他任何直线都小 ( 和 的

计算公式)

根据最小二乘法,可

得求解 和

的公式

2

2

∑∑∑-?---=

22)

()())((y y x x y y x x r ==n

i i i n

i i 1

2101

2

最小

=--=-∑∑==n i i i n i i x y y y 121012)??()?(ββ0

0?β

1

1?β===210?1

2

10?01

10

0n

i

i i n

i i

i ββββ??????=---==---=?∑∑===0)??(20)??(2210?1210?01100n i i i n i i i x y x Q x y Q

ββ?β?βββ?ββββn i n

i i i n

i i n i i n

i i i 1

0121

21111=====x y x x n y x y x n n i n i i i n i i n i i n i i i 101212

1111???βββ-=??? ??-?

??

????? ??-=∑∑∑∑∑=====0

β0?β

1

1?β

判定系数的含义及计算公式的解释:

1.回归平方和占总误差平方和的比例

2.反映回归直线的拟合程度

3.取值范围在 [ 0 , 1 ] 之间

4.R2 →1,说明回归方程拟合的越好;R2→0,说明回归方程拟合的越差

5.决定系数平方根等于相关系数

第十章.时间序列预测

1、时间序列组成要素

时间序列:是同一现象在不同时间上的相继观察值排列而成的序列

平稳序列:是基本上不存在趋势的序列

非平稳序列:是包含趋势,季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。因此,非平稳序列又可以分为趋势的序列。

趋势:是时间序列在长时期内呈现出来的持续向下的变动

季节变动:是时间序列在一年内重复出现的周期性波动

循环波变动:是时间序列呈现出的非固定长度的周期性波动

不规则波动:是时间序列中除去趋势,季节变动和周期性波动之后的随机波动

2、时间序列预测的程序

1.确定时间序列所包含的成分

2.找出适合此类时间序列的预测方法,并对可能的预测方法进行评估,以确定最佳预测方案

3.利用最佳预测方案进行预测

3、平滑法预测

1.适合于只含有随机成分平稳序列

2. 通过对时间序列进行平滑以消除其随机波动,因而也称为平滑法

3. 主要有移动平均法(moving average)和指数平滑法(exponential smoothing)等,这些方法是

4. 平滑法既可用于短期预测,也可以用于对时间序列进行平滑以描述序列的趋势(包括线性趋势和非

线性趋势)

移动平均法和指数平滑法的适用条件

移动平均法:

1. 选择一定长度的移动间隔,对序列逐期移动求得平均数作为下一期的预测值

2. 将最近k 期数据平均作为下一期的预测值

3. 设移动间隔为k (1

4. 预测误差用均方误差(MSE ) 来衡量

4、了解趋势预测和自回归模型预测 趋势预测:

1. 根据时间序列变化的趋势选择适当的模型进行预测

2. 主要适合于含有趋势的序列

3. 趋势序列的预测方法主要有线性趋势(linear trend)预测、非线性趋势(non-linear trend)预测

和自回归(autoregression)模型预测等 自回归模型预测:

1. 序列包含多种成分自回归是解决自相关序列的有效预测方法之一

2. 它是利用观测值与以前时期的观测值之间的关系来预测值的一种多元回归方法

3. 因变量是观测值Y t ,自变量是因变量的滞后值Y t-1 ,Y t-2 ,Y t-3 ,…。看上去就像自己同自己回

归,故名自回归 5、多成分序列的预测:

1. 序列包含多种成分

2. 预测方法有

? 季节多元回归模型预测 ? 季节自回归模型模型预测 ? 分解预测等

? 分解预测是先将时间序列的各个成分依次分解出来,尔后再进行预测

虚拟变量和季节指数

t

t k t k t t t -+-+-+1211k

Y Y Y Y Y F t t k t k t t t ++++=

=-+-+-+1211 n

i i

i

=1

2

n

F Y MSE n i i i ∑=-=

=

12)

(误差个数

误差平方和

1. 用虚拟变量表示季节的多元回归预测方法

2. 若数据是按季度记录的,需要引入3个虚拟变量;按月记录的,则需要引入11个虚拟变量

3. 季度数据的季节性多元回归模型可表示为

1???=其他季度第一季度011Q 2???=其他季度第二季度01Q 23

???=其他季度

第三季度0

1Q 3季节成分

趋势

34231210 季节成分趋势34231210?Q b Q b Q b t b b Y ++++=

《统计学》复习总结

《统计学》复习总结 第一部分基本概念与原理 1 统计的涵义(统计统计资料统计学) 统计学的性质与特点 统计工作的过程(统计调查统计整理统计分析) 统计分组的概念统计分组的方法(单变量分组与组距分组) 2 统计数据的分类 定类数据定序数据定距数据定比数据 (品质数据)(数量数据) 3 统计指标的分类 总量指标相对指标平均指标(时期指标时点指标) (比例比率)(一般平均数序时平均数)(要求:掌握概念并会区分常用的统计指标的类型或举出各种类型指标的例子) 4 . 统计调查常用的几种方式 (统计报表普查抽样调查典型调查与重点调查五种) 统计调查问卷的设计(要求会进行具体的设计) 5 .统计数据的整理与显示(相应整理方法常用的统计图名称与示意图的画法) 按定类数据定序数据定距数据定比数据分类型总结 6. 数据特征的测度 集中趋势众数、中位数、均值(算术、调和、几何) (要求掌握计算方法、计算公式和适用场合) 离中趋势异众比率四分位差方差与标准差离散系数(适用的数据类型) 偏度和峰度(偏斜程度扁平程度) (要求了解概念及其作用) 7 . 时间序列的对比分析 序时平均数的计算方法及公式 各种动态指标的定义及其相互关系 水平分析发展水平与平均发展水平增长量(逐期累积)和平均增长量 速度分析发展速度(环比定基)增长速度(环比定基) 平均发展速度与平均增长速度(二者关系) 增长1%的绝对值 (要求:重点掌握并能熟练运用) 8 . 用最小二乘法求直线趋势方程的方法 (了解参数估计公式、相关系数r 的计算公式及其意义)

9. 季节变动测定的两种方法 按月(季)平均法趋势剔除法 (了解以上两种方法) 10.指数的概念与分类 概念(广义与狭义) 分类(总指数个体指数数量指标指数质量指标指数综合指数平均数指数) 11 .加权综合指数加权平均指数 (要求:熟练掌握两种形式的数量指数与质量指数公式包括权数的选取及时期的确定原则)12 .指数体系的分析与运用 指数与指数体系 (一)总量变动的因素分析 加权综合指数体系分析(权数的确定原则相应公式) 加权平均指数体系分析(权数的确定原则相应公式) (能熟练运用指数体系进行总量变动的因素分析,包括从相对数和绝对数两个方面进行分析) (二)平均数变动的因素分析 平均数变动指数= 变量影响指数X 结构影响指数 (要求掌握相应的指数名称意义及计算公式) 第二部分复习题选 (一)题型 1 . 简答题 2. 填空题 3 . 计算题 4 . 综合分析题 (二)题选(见附页)

统计学计算题

统计学计算题 27、【104199】(计算题)某班级30名学生统计学成绩被分为四个等级:A .优;B .良;C .中;D .差。结果如下: B C B A B D B C C B C D B C A B B C B A B A B B D C C B C A B D A A C D C A B D (1)根据数据,计算分类频数,编制频数分布表; (2)按ABCD 顺序计算累积频数,编制向上累积频数分布表和向下累计频数分布表。 【答案】 28、【104202】(计算题)某企业某班组工人日产量资料如下: 根据上表指出: (1)上表变量数列属于哪一种变量数列; (2)上表中的变量、变量值、上限、下限、次数; (3)计算组距、组中值、频率。 【答案】(1)该数列是等距式变量数列。 (2)变量是日产量,变量值是50-100,下限是,、、、、9080706050上限是,、、、、10090807060次数是111625199、、、、; (3)组距是10,组中值分别是 9585756555、、、、 ,频率分别是13.75%31.25%.20%23.75%11.25% 、、。 29、【104203】(计算题) 甲乙两班各有30名学生,统计学考试成绩如下:

(1)根据表中的数据,制作甲乙两班考试成绩分类的对比条形图; (2)比较两班考试成绩分布的特点。 【答案】 乙班学生考试成绩为优和良的比重均比甲班学生高,而甲班学生考试成绩为中和差的比重比乙班学生高。因此乙班学生考试成绩平均比乙班好。两个班学生都呈现出"两头大,中间小"的特点,即考试成绩为良和中的占多数,而考试成绩为优和差的占少数。 30、【104205】(计算题)科学研究表明成年人的身高和体重之间存在着某种关系,根据下面一组体重身高数据绘制散点图,说明这种关系的特征。 体重(Kg ) 50 53 57 60 66 70 76 75 80 85 身高(cm ) 150 155 160 165 168 172 178 180 182 185 【答案】散点图:

统计学总复习 (完整版)

统计学原理总复习(完整版) 一、单选题(每题2分,共20分) 1.下面属于品质标志的是( B )。 A、工人年龄 B、工人性别 C、工人月工资 D、工人体重 解析标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。 2.构成统计总体的个别事物称为( B ) A、调查单位 B、总体单位 C、调查对象 D、填报单位 解析:总体单位是指构成统计总体的每一个个别事物 3.2010年11月1日零点的第六次全国人口普查是( C ) A、典型调查 B、重点调查 C、一次性调查 D、经常性调查 解析:典型调查是根据调查目的和要求,在对调查对象进行初步分析的基础上,有意识的选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识同类事物的发展变化规律及本质的一种非全面调查。典型调查要求搜集大量的第一手资料,搞清所调查的典型中各方面的情况,作系统、细致的解剖,从中得出用以指导工作的结论和办法。重点调查是指在全体调查对象中选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法。由于重点单位在全体调查对象中只占一小部分,调查的标志量在总体中却占较大的比重,因而对这部分重点单位进行调查所取得的统计数据能够反映社会经济现象发展变化的基本趋势.一次性调查是间隔一定时间而进行的调查,一般间隔时间相当长,如一年以上,它是对事物在一定时点上的状态进行的登记,如工业普查、设备普查等。一次性调查的主要目的在于获得事物在某一时间点上的水平、状态的资料,例如人口普查。经常性调查是指结合日常登记和核实资料,通过定期报表而进行的一种经常的,连续不断地调查.这种调查不必专门组织调查机构,而是利用原有的机构和力量,通过层层上报和汇总资料取得全面资料 4.单项式分组适合运用于( C ) A、连续性数量标志 B、品质标志 C、离散性数量标志中标志值变动范围比较小 D、离散型数量标志中标志值变动范围很大 解析:用一个变量值作为一组,形成单项式变量数列,称为单项式分组(Monomial subgroup)。一般适用于离散型变量且变量变动不大的场合。单项式分组在离散性变量范围较小下用,组距式分组离散性变量范围较大下用和连续性变量下用 5.计算向上累计次数及比率时,各累计数的意义是各组( A ) A、上限以下的累计次数或比率 B、上限以上的累计次数或比率 C、下限以上的累计次数或比率 D、下限以下的累计次数或比率 解析:向上累计,又称以下累计,是将各组次数和比率,由变量值低的组向变量值高的组逐组累计。祖距数列的向上累计,表明各组上限以下(小于等于上限)总共所包含的总体次数。

统计学计算题

解:基期总平均成本=1800 120018007001200600+?+?=660 报告期总平均成本=1600 24001600 7002400600+?+?=640 总平均成本下降的原因是该公司产品的生产结构发生了变化, 即成本较低的甲企业产量占比上升而成本较高的乙企业产量占比相应下降所致。 2.某商贸公司从产地收购一批水果,分等级的收购价格和收购进入如下, (元) 收购总量收购总额6268.130.1832060.11664000.2127008320 1664012700)()(11=++++=∑ ∑====k i i i i k i i i X f X f X X 3.某中学正在准备给一年级新生定制校服。男生校服分小号、中号和大号三种规格, 分别适合于身高在160cm 以下、160~168cm 之间和168cm 以上的男生。一直一年级 新生中有1200名男生,估计他们身高的平均数为164cm ,标准差为4cm 。试由此粗 略估计三种规格男生校服分别准备多少套? 解:均值=164;标准差=4;总人数=1200 身高分布通常为钟形分布,按经验法则近似估计: 规格 身高 分布范围 比重 数量(套) 小号 160以下 0.15865 190.38 中号 160-168 均值±1*标准差 0.6827 819.24 大号 168以上 0.15865 190.38 合计 1200 4. 根据长期实验,飞机的最大飞行速度服从正态分布。先对某新型飞机进行了 15次试飞,测得各次试飞时的最大飞行速度(单位:米/秒)为: 422.2 417.2 42 5.6 425.8 423.1 418.7 428.2 438.3 434.0 412.3 431.5 413.5 441.3 423.0 420.3 试对该飞机最大飞行速度的数学期望值进行区间估计。(置信概率0.95) 解:样本平均数 X =425, S 2 n-1=72.049, S 14=8.488 X S 2.1916 1510.05/2()t -=2.1448 ?==/2 (n-1) t α×2.1916=4.7005 所求μ425-4.70<μ<425+4.7t0,即(420.30,429.70)。 5.某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。他们从某地区 已购买了微波炉的2200个居民户中用简单随机不还原抽样方法以户为单位抽取 了30户,询问每户一个月中使用微波炉的时间。调查结果依次为: 300 450 900 50 700 400 520 600 340 280 380 800 750 550 20 1100 440 460 580 650 430 460 450 400 360 370 560 610 710 200 试估计该地区已购买了微波炉的居民户平均一户一个月使用微波炉的时间。 解:根据已知条件可以计算得:14820y n 1 i i =∑= 8858600 y n 1 i 2i =∑= 估计量 n i i 1 1y n μ=== ∑ =301 *14820= 494(分钟) 估计量的估计方差 2s n v()v(y)(1)n N μ==- =30 1 *291537520*)2200301(-=1743.1653 其中 () ??? ? ??= = ∑∑==2n 1i 2i n 1 i 2 i 2n -y 1-n 1-y 1-n 1 s = () 2 494*308858600*1 301 -- =29 1537520=53017.93, S=230.26 6.一个市场分析人员想了解某一地区看过某一电视广告的家庭所占的比率。该地区共有居民1500户,分析人员希望以95%的置信度对总体比率进行估计,并要求估计的误差不超过5个百分点。另外,根据先前所做的一个调查,有25%的家庭看过该广告。试根据上述资料,计算要进行总体比率的区间估计,应当抽取的样本单位数。 解: ()222 2222211500 1.960.25(10.25) 115000.05 1.960.25(10.25) P Nz P P n N z P P αα-???-= = ?+-?+??- 241.695= 应抽取242户进行调查。 7.设销售收入X 为自变量,销售成本Y 为因变量。现已根据某百货公司12个月的有关资料 计算出以下数据(单位:万元)。() 2425053.73 t X X -=∑ 647.88X = () 2 262855.25t Y -=∑ 549.8 Y = ()()334229.09t t Y Y X X --=∑ 试利用以上数据:(1)拟合简单线性回归方程,并对回归系数的经济意义作出解释。(2)计算决定系数和回归估计的标准误差。(3)对2β进行显著水平为5%的显著性检验。(4)假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的销售成本,并给出置信度为95%的预测区间。 解:(1) ()() () t t 22 Y Y X X 334229.09|=0.7863425053.73 t X X β--==-∑∑ 12|=Y-X=549.8-0.7863* 647.88=40.3720β β (2) ( )() ( )( ) 2 2 2 334229.092 20.999834425053.73*262855.25 t t t t Y Y X X r X X Y Y ?? --??===--∑∑∑ ()() 2 2 2 143.6340t e r Y =--=∑∑ 2.0889 e S = = (3)02 12:0,:0H H β=≠ 20.003204 S β = = 2220.7863 245.41200.003204 t S β β β == = t 值远大于临界值2.228,故拒绝零假设, 说明2在5%的显著性水平下通过了显著性检验 (4)40.3720 + 0.7863*800 = 669.41(f Y =万元) f e S = = 2n-2f f e Y t S α± 669.41 2.228*1.0667 =± = 669.41 2.3767± 即有:664.64 674.18f Y ≤ ≤ 8.对9位青少年的身高Y 和体重X 进行观测,并以得出以下数据: 2 i i Y=13.54;Y =22.9788∑∑ 2 i i X=472;X =28158∑∑ i X 803.02i Y =∑ (1) 以身高为因变量,体重为自变量,建立线性回归方程 (2) 计算残差平方和决定系数 (3) 计算身高和体重的相关系数并进行显著性检验(自由度为7, (4) 显著水平为0.05的t-分布双侧检验临界值为2.365) (5) 对回归系数2β进行显著性检验 9.某商业企业某年第一季度的销售额、库存额及流量费用额资料 品流转次数=销售额/平均库存额;商品流通费用=流通费用额/销售额)。 解:第一季度的月平均商品流转次数为: 第一季度的月平均销售额第一季度的平均库存额 ()()()2880+2170+23403 = 19802+1310+1510+156024-1 2466.333= =1.61 1530 第一季度的平均商品流通费用率为:第一季度的月平均流通费用第一季度的平均销售额 () ()230+195+2023 = 2880+2170+23403209 ==8.48%2466.333

统计学总复习题

1、某企业某种产品单位成本1998年计划规定比1997年下降8%,实际下降6%;1998年产品销售量计划完成105%,比去年增长6%。 试确定:(1)1998年单位产品成本计划完成程度 (2)1998年产品销售计划规定比去年增长多少? 2、有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均亩产量为998斤,标准差为162.7斤,乙品种实验资料如下: 要求计算乙品种的平均亩产量和标准差,比较哪一品种更具有代表性。 3、某商店1990年各月末商品库存额资料如下: 又知1月1日商品库存额为63万元。试计算上半年、下半年和全年的平均商品库存额。

4、根据我国2000~2005年能源生产量数据填齐下表空栏数据,计算2000~2005年的平均增长量。 5、某商品在两个市场出售资料如下表: 要求:(1)试分析该商品总平均价格指数 (2)对总平均价格变动进行因素分析。(包括相对数和绝对数分析)

6、某企业生产甲、乙两种产品,2000年和2001年其产量和单价如下: 试计算:(1)两种产品的单价指数以及由于单价变动使总产值变动的绝对额; (2)两种产品产量总指数以及由于产量变动而使总产值变动的绝对额; (3)利用指数体系分析说明总产值(相对程度和绝对额)变动的情况. 7、某厂对产品使用寿命进行检测,抽取100个产品进行寿命调查,测得样本平均寿命为4000小时,样本标准差为730小时; 试:(1)试以68.27%(t=1)的概率保证程度对该批产品的平均使用寿命进行区间估计; (2)若概率保证程度不变,极限误差不超过70小时,则至少要抽取多少件产品为样本?

8、调查五位学生《统计学原理》的学习时间与成绩(5分制)情况,调查资料如下表所示: 根据资料:(1)计算学习时间与学习成绩之间的相关系数。 (2)建立学习成绩(y )倚学习时间(x )的直线回归方 程。 (3)若某同学学习时间为3小时,试估计其成绩。 ∑∑=== ++++++=n i i n i i i n n n f f x f f f f x f x f x x 1 1212211 ∑∑==-= n i i n i i i f f x x 1 1 2 )(σ d X M L ??+??+=211 0 d f S f X M m m L e ?-+=-∑12

统计学计算题整理

: 典型计算题一 1、某地区销售某种商品的价格和销售量资料如下: 根据资料计算三种规格商品的平均销售价格。 解: 36== ∑∑ f f x x (元) 点评: 第一,此题给出销售单价和销售量资料,即给出了计算平均指标的分母资料,所以需采用算术平均数计算平均价格。第二,所给资料是组距数列,因此需计算出组中值。采用加权算术平均数计算平均价格。第三,此题所给的是比重权数,因此需采用以比重形式

表示的加权算术平均数公式计算。 2、某企业1992年产值计划是1991年的105%,1992年实际产值是1991的的116%,问1992年产值计划完成程度是多少? 解: %110% 105% 116=== 计划相对数实际相对数计划完成程度。即1992年计划完成程度为 110%,超额完成计划10%。 点评:此题中的计划任务和实际完成都是“含基数”百分数,所以可以直接代入基本公式计算。 3、某企业1992年单位成本计划是1991年的95%,实际单位成本是1991年的90%,问1992年单位成本计划完成程度是多少? 解: 计划完成程度 %74.94% 95% 90==计划相对数实际相对数。即92年单位成本计划完成程度是 94.74%,超额完成计划5.26%。 点评:本题是“含基数”的相对数,直接套用公式计算计划完成程度。 4、某企业1992年产值计划比91年增长5%,实际增长16%,问1992年产值计划完成程度是多少? 解: 计划完成程度%110% 51% 161=++= 点评:这是“不含基数”的相对数计算计划完成程度,应先将“不含基数”的相对数还原成“含基数”的相对数,才能进行计算。 5、某企业1992年单位成本计划比1991年降低5%,实际降低10%,问1992年单位成

统计学总复习

《统计学》综合复习资料 一、单选题 1.统计一词的三种涵义是()。 A.统计工作.统计资料.统计学 B .统计调查.统计整理.统计分析 C.统计设计.统计分组.统计预测 D .统计方法.统计分析.统计预测 2.要研究某地区570 家工业企业的产品生产情况,总体是()。 A.每个工业企业 B .570 家工业企业 C.570家工业企业每一件产品 D .570 家工业企业全部工业产品 3.为了解全国钢铁生产的基本情况,对鞍钢、武钢、宝钢等特大型钢铁企业的产量进 行调查,属于() A.重点调查 B .典型调查 C .简单随机抽样调查 D .整群抽样调查4.某商品销售量的前三个季度的季节指数分别为:112%,88%,90%,则第四个季度的季节指数为()。 A.102% B .110% C .98% D .100% 5.某厂2009 年完成产值 2 千万,2010 年计划增长10%,实际完成2310 万元,则计划完成程度为()。 A.105% B .5% C .115.5% D .15.5% 6.两个性质不同的指标相对比而形成的相对指标是()。 A.比较相对指标 B .结构相对指标 C .比例相对指标 D .强度相对指标7.当相关系数接近于()时,说明两变量间线性相关程度是很低的。 A.1 B.0 C.0.5 D .-1 8.统计调查按其组织形式分类,可分为() A.普查和典型调查 B .重点调查和抽样调查 C.统计报表和专门调查 D .经常性调查和一次性调查 9.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用()。 A.算术平均数 B .调和平均数 C .几何平均数 D .众数10.第一组工人的平均工龄为 6 年,第二组为8 年,第三组为10 年,第一组工人数占总数的30%,第二组占50%,则三组工人的平均工龄为()。 A.8 年 B.7.55 年 C.32.5 年 D.7.8 年11.直接反映总体规模大小的指标是()。

统计学总复习(详细)

《统计学原理》总复习 2011年6月制作人:暨南大学统计学系 王艳丽 1

第一章 绪论 第二章 统计调查 第三章 统计整理 第四章 总量指标和相对指标 第五章 数据分布特征的描述 第六章 抽样调查和参数估计 第七章 假设检验 第八章 相关与回归 第九章 时间数列分析与预测 第十章 统计指数 第十一章 统计分析和统计新闻写作(不考) 制作人:暨南大学统计学系 王艳丽 2

第一章 绪论 £统计的含义 £统计学的概念与研究对象 £数据的类型 £统计学的一些基本概念 制作人:暨南大学统计学系 王艳丽 3

制作人:暨南大学统计学系 王艳丽 4 £统计的三种含义 ? 1.统计工作:是指搜集、整理、分析和显示统计数据的活动。 ? 2.统计资料:是指统计活动的结果,即统计数据。 ? 3.统计学:是一门关于搜集、整理、分析、解释统计数据的方法 论科学和艺术。 £统计的特点: ? 数量性 ? 具体性 ? 综合性 £统计的作用 ? 统计是认识世界的有力武器 ? 统计是治国和管理的重要手段 ? 统计是科学研究 的有效工具 £统计的研究对象:客观现象的数量表现、数量关系和数量 变化 第一章 绪论

统计学和统计数据 £统计学的研究对象:统计工作的规律性 £统计学的分类: ?从统计学方法构成方面分类:1、描述统计学;2、推 断统计学。 ?从统计方法研究和统计方法的应用角度来看:1、理论 统计学;2、应用统计学。 £数据的类型 ?分类数据、顺序数据、数值型数据 ?观测数据和实验数据 ?截面数据和时间序列数据 制作人:暨南大学统计学系 王艳丽 5

统计学的一些基本概念 £1、统计总体、总体单位、样本、样本容量 ?二者的关系:没有总体单位,总体就不存在;没有总 体,也就无法确定总体单位。 ?总体的特点:同质性、差异性、大量性 £2、标志与指标、变量、变量值 ?标志;描述总体单位特征的名称 ?统计指标:描述总体数量特征的名称 l数量指标:是指反映事物的规模或总量的指标。 l质量指标:是指反映事物的性质、质量和管理水平的指标。 l两者的关系:指标数值由数量标志汇总而来,两者随总体单位 的相互转化而转化。但两者说明的对象不同,表现形式也不 同。 ?变量:说明现象某种特征的名称,包括可变标志和指 标 ?变量值:变量的取值,称变量值。 制作人:暨南大学统计学系 王艳丽 6

统计学计算题

第二章 六、计算题. 1.下面是某公司工人月收入水平分组情况和各组工人数情况: 月收入(元)工人数(人) 400-500 20 500-600 30 600-700 50 700-800 10 800-900 10 指出这是什么组距数列,并计算各组的组中值和频率分布状况。 2.抽样调查某省20户城镇居民平均每人全年可支配收入(单位:百元)如下: 88 77 66 85 74 92 67 84 77 94 58 60 74 64 75 66 78 55 70 66 ⑴根据上述资料进行分组整理并编制频数分布数列 ⑵编制向上和向下累计频数、频率数列 答:⑴⑵

第三章 六、计算题. 要求:⑴填满表内空格. ⑵对比全厂两年总产值计划完成程度的好坏。 ⑵该企业2005年的计划完成程度相对数为110.90%,而2006年只有102.22%,所以2005年完成任务程度比2006好。 ⒉某工厂2006年计划工业总产值为1080万吨,实际完成计划的110%,2006年计划总产值比2005年增长8%,试计算2006年实际总产值为2005年的百分比? 解:118.8% 3.某种工业产品单位成本,本期计划比上期下降5%,实际下降了9%,问该种产品成本

计划执行结果? 解:95.79% 4.我国“十五”计划中规定,到“十五”计划的最后一年,钢产量规定为7200万吨, 根据上表资料计算: ⑴钢产量“十五”计划完成程度; ⑵钢产量“十五”计划提前完成的时间是多少? 解:⑴102.08%;⑵提前三个月 5.某城市2005年末和2006年末人口数和商业网点的有关资料如下: 计算:⑴平均每个商业网点服务人数; ⑵平均每个商业职工服务人数; ⑶指出是什么相对指标。 ⑶上述两个指标是强度相对指标。 6.某市电子工业公司所属三个企业的有关资料如下:

统计学期末复习-公式汇总

统计报表 专门调查 普查 抽样调查 典型调查 重点调查 按调查的组织方式不同分为 按调查时间是否连续分为 按调查单位的范围大小分为 全面调查 非 全面调查 一次性调查 经 常性调查 统计学复习 第一章 1.“统计”的三个涵义:统计工作、统计资料、统计学 2.三者之间的关系:统计工作和统计资料是工作与工作成果的关系; 统计资料和统计学是实践与理论的关系 3.统计学的特点:数量性,总体性,具体性,社会性(广泛性) 4.统计工作的过程一般分为统计调查、统计整理和统计分析三个阶段 5.总体与总体单位的区分:统计总体是客观存在的,在同一性质基础上结合起来的许多个别单位的整体,构成总体的这些个别单位称为总体单位。(总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。) 6.标志:总体单位所具有的属性或特征。 A 品质标志—说明总体单位质的特征,不能用数值来表示。如:性别、职业、血型色彩 B 数量标志—标志总体单位量的特征,可以用数值来表示。如:年龄、工资额、身高 指标:反映社会经济现象总体数量特征的概念及其数值。 指标名称体现事物质的规定性,指标数值体现事物量的规定性 第二章 1.统计调查种类 2.统计调查方案包括六项基本内容: 1)确定调查目的;(为什么调查) 2)确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位) 填报单位——报告调查内容,提交统计资料 3)确定调查项目、拟定调查表格;(调查什么) 4)确定调查时间和调查期限 5)制定调查的组织实施计划; 6)选择调查方法。

统计学复习资料分析

《统计学》 第一章 一、填空题 1、统计是、和的统一体,是统计工作的成果,是 统计工作的经验总结和理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量,职工人数、企业数属于变量; 变量按分,可分为确定性变量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为和;按在各个单位上的具体表 现是否相同分为和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的变成,那么原来的指标 就相应地变成标志,两者变动方向相同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。 12、以绝对数形式表示的指标都是数量指标,以相对数或平均数表示的指标都是质量指标。

统计学综合复习练习题

第一章绪论 1 标志是说明( A ) A 总体单位特征的 B 总体特征的 C 单位量的特征的名称 D 单位值的特征的名称 2统计总体的特征是( B、D、E ) A科学性B大量性 C 实用性D同质性 E变异性 3总体、总体单位、标志、指标、这几个概念间的相互关系表现为( A、B、C、D ) A没有总体单位就没有总体,总体单位也离不开总体而独立存在 B指标是说明总体特征的,标志是说明总体单位特征的 C总体单位是标志的承担者 D统计指标的数值来源于标志 二填空 1统计一词有三种涵义,即( 统计学工作) (统计数据) (统计学) 2被马克思称为统计学的创始人是(威廉.配第) 3、政治经济学之父是(威廉.配第)

4、被誉为“现代统计学之父”的是(凯特勒) 第二章数据的描述 练习题: 一选择 1 如果数据分布很不均匀,则应编制( D ) A开口组 B 闭口组 C 等距数列 D 异距数列2 计算总量指标的基本原则是:(C) A总体性B全面性C同质性D可比性 3某企业的职工工资分为四组:800元以下;800-1000元;1000—1500元;1500以上,则1500元以上这组组中值应近似为(C ) A1500元 B 1600元 C 1750元 D 2000元 4统计分组的首要问题是( A ) A选择分组变量和确定组限 B按品质标志分组 C 运用多个标志进行分组,形成一个分组体系 D善于运用复合分组 5 某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( A ) A 230 B 260 C 185 D 215 6分配数列中,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,这种分布的类型是( B )

《统计学原理》期末复习资料(1)

2015秋季学期《统计学原理》复习资料 一、单选题 1. 某厂4月份产量与1月份产量相比增长了10%,若已知4月份产量为1000,那么1月份的产量为(A )。 A.909.09 B.976.45 C.968.73 D.1032.28 2.以下各项属于品质标志的有(B )。 A.工龄 B.健康状况 C.工资水平 D.劳动时间利用率 3.连续变量( C)。 A.表现形式为整数 B.取值可一一列举 C.取值连续不断,不能一一列举 D.一般都四舍五入取整数 4.了解某公司职工文化程度情况,总体单位是( B)。 A.该公司全体职工 B.该公司每一位职工 C.该公司全体职工文化程度 D.该公司每一位职工文化程度 5.在某市工业设备普查中,调查单位是(D )。 A. 该市每一家工业企业 B. 该市全部工业设备 C. 该市全部工业企业 D. 某公司新推出了一种饮料产品,欲了解该产品在市场上的受欢迎程度,公司派人到各商 场、超市随机调查了200 名顾客。该公司采用的调查方法是(C )。 A. 直接观察法 B. 报告法 C. 访问调查法 D.很难判断 7.企业要对流水生产线上的产品质量实行严格把关,那么,在质量检验时最合适采用的调 查组织方式是( D)。 A. 普查 B. 重点调查 C.典型调查 D. 抽样调查 8. 统计资料按数量标志分组后,处于每组两端的数值叫(C )。 A. 组距

C. 组限 D. 组中值 9.统计分组的核心问题是(A )。 A.选择分组的标志 B.划分各组界限 C.区分事物的性质 D.对分组资料再分组 10. 在分组的情况下,总体平均指标数值的大小(C )。 A. 只受各组变量值水平的影响,与各组单位数无关 B. 只受各组单位数的影响,与各组变量值水平无关 C. 既受各组变量值水平的影响,又与各组次数有关 D. 既不受各组变量值水平的影响,也部受各组次数的影响 11. 在组距数列中,用组中值作为计算算术平均数直接依据的假定条件是(D )。 A. 各组次数必须相等 B. 各组必须是闭口组 C. 总体各单位变量值水平相等 D. 总体各单位变量值水平在各组内呈均匀分布 12. 标志变异指标反映了总体各单位变量值分布的(B )。 A. 集中趋势 B. 离散趋势 C. 变动趋势 D. 长期趋势 13. 抽样误差( D)。 A.既可以避免,也可以控制 B. 既不可以避免,也不可以控制 C. 可以避免, 但不可以控制 D. 不能避免, 但可以控制 14. 抽样平均误差反映了样本估计量与总体参数之间的(C )。 A. 实际误差 B. 可能误差范围 C. 平均差异程度 D. 实际误差的绝对值 15.凡是用来反映现象数量对比关系的相对数被称为( C)。 A. 增(减)量 B. 增加速度 C. 广义指数 D. 狭义指数 16.用来反映个别事物数量对比的相对数称为( C)。 A. 总指数 B. 类指数 C. 个体指数 D. 平均指数 17.在综合指数的变形中,加权算术平均指数所用权数是(D )。

统计学计算题

统计学原理复习1(计算题) 1.某单位40名职工业务考核成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 单位规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90 分为良,90─100分为优。 要求: (1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并 编制一张考核成绩次数分配表; (2)指出分组标志及类型及采用的分组方法; (3)计算本单位职工业务考核平均成绩 (4)分析本单位职工业务考核情况。 解:(1)

(2)分组标志为"成绩",其类型为"数量标志";分组方法为:变量分组中的开放组距式分组,组限表示方法是重叠组限; (3)本单位职工业务考核平均成绩 (4)本单位的职工考核成绩的分布呈两头小, 中间大的" 正态分布"的形态,说明大多数职工对业务知识的掌握达到了该单位的要求。 2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下:

试问哪一个市场农产品的平均价格较高?并说明原因。 解: 解:先分别计算两个市场的平均价格如下: 甲市场平均价格()375.14 5 .5/==∑∑= x m m X (元/斤) 乙市场平均价格325.14 3 .5==∑∑= f xf X (元/斤) 说明:两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场 平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。

统计学期末复习重点

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。 样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。 算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。 调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。 简单分组:是指对所研究的总体按一个标志进行分组。 复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。 结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。 强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。 类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。 机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。 综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。 平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。 相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。 回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。 统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。 统计指数:广义指数泛指社会经济现象数量变动的比较指标,及用来表明同类现象在不同空间、不同时间,实际与计划对比变动情况的相对数。狭义指数仅指反应不能直接想家的复杂社会经济现象在数量上综合变动情况的相对数。 简单随机抽样:简单随机抽样也叫纯随机抽样,它对总体单位不做任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。 季节分析的含义:是指某些现象由于自然因素和社会条件的影响在一年之内比较有规律的变动。 总量指标:是指反映一定时间、地点和条件下某种现象总体规模或水平的统计指标。 相对指标:是指说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比来求得,其结果表现为相对数,故也将相对指标称为相对数。 平均指标:是同类社会经济现象总体内,各单位某一数量标志在一定时间、地点和条件下,数量差异抽象化的代表性水平指标,其数值表现为平均数。 1计算运用总量指标的原则。 (1)在计算实物指标时,应注意现象的同类性 (2)统计总量指标时要有明确的统计含义和合理的统计方法

统计学复习重点

1、统计学:是收集、汇总和分析统计数据的科学和艺术。 2、统计数据的分析是统计学的核心内容,它是通过统计描述和统 计推断的方法探索数据内在规律的过程。 3、普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。 4、抽样调查的特点:经济性;时效性高;适应面广;准确性高。 5、调查方案:是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。 6、组距分组的几个步骤:一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。) 7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况。8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。 9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。 10、众数:是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M。 11、众数是一组数据中心位置的一个代表值。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数。

12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。 13、时间系列:是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。 14、用报告期水平减去基期水平,就等于增长量。其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。 15、报告水平与基期水平之比,称为发展速度。其中,当基期水平为上期水平时,就称为环比发展速度;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。 16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平。由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。 17、绝对数有时期数和时点数之分,两者的区别主要在于是否具有可加性。 18、几何平均法的应用条件是要求现象呈现均匀变动。如果现象发生大起大落的变化,用几何平均法所计算的平均发展速度将失去代表性。 19、累计法考虑各时期的发展状况,不只是受最初和最末两个极端值的影响。 20、移动平均法是趋势变动分析的一种较简单的常用方法。该方法的基本思想和原理是,通过扩大原时间序列的时间间隔,并按一定的间

统计学计算题答案

1 (1)计算并填写表格中各行对应的向上累计频数; (2)计算并填写表格中各行对应的向下累计频数; (3)确定该公司月销售额的中位数。 按上限公式计算:Me=U- =18-0.22=17,78 2、某厂工人按年龄分组资料如下:p41 要求:采用简捷法计算标准差。《简捷法》 3、试根据表中的资料计算某旅游胜地2004年平均旅游人数。P50 表:某旅游胜地旅游人数 4、某大学2004年在册学生人数资料如表3-6所示,试计算该大学2004年平均在册学生人数.

5、已知某企业2004年非生产人员以及全部职工人数资料如下表所示,求该企业第四季度非生产人员占全部职工人数的平均比重。 表:某企业非生产人员占全部职工人数比重 6、根据表中资料填写相应的指标值。 表:某地区1999~2004年国内生产总值发展速度计算表

7、根据表中资料计算移动平均数,并填入相应的位置。P61 8、根据表中资料计算移动平均数,并填入相应的位置。P62

9、某百货商场某年上半年的零售额、商品库存额如下:(单位:百万元) 试计算该商城该年上半年商品平均流转次数(注:商品流通次数=商品销售额/库存额;6月末商品库存额为24.73百万元)。 10、某地区2000-2004年粮食产量资料如下:p71 要求:(1)用最小平方法拟合直线趋势方程(简洁法计算); (2)预测2006年该地区粮食产量。 11、已知某地区2002年末总人口为9.8705万人,(1)若要求2005年末将人口总数控制在10.15万人以内,则今后三年人口年均增长率应控制在什么水平?(2)又知该地区2002年的粮食产量为3805.6万千克,若2005年末人均粮食产量要达到400千克的水平,则今后3年内粮食产量每年应平均增长百分之几?(3)仍按上述条件,如果粮食产量每年递增3%,2005年末该地区人口为10.15万人,则平均每人粮食产量可达到什么水平?

统计学综合练习(二)及答案

综合练习(二) 一.判断题: 1.所谓序时平均数就是将同一总体的不同时期的平均数按时间顺序排列起来。× 2.发展水平就是时间数列中的每一项指标的数值,又称发展量。(√) 3.定基发展速度等于相应各个环比发展速度的连乘积,定基增长速度也等于相 应各个环比增长速度的连乘积。(×) 4.季节变动指的就是现象受自然因素的影响而发生的一种有规律的变动。(×) 5.若逐期增长量每年相等,则其各年的环比增长速度是年年下降的。(√) 6.总指数的计算形式包括:综合指数.平均指数.平均指标指数。(×) 7.用综合指数法编制总指数,既可以使用全面的资料,也可以使用非全面的资 料。(×) 8.平均指数是综合指数的一种变形。(√) 9.如果各种商品的销售量平均上涨5%,销售价格平均下降5%,则销售额不变× 10.在计算综合指数时,要求同度量因素不变。(√) 二.单项选择题: 1.数量指标指数和质量指标指数的划分依据是( A ) A .指数化指标的性质不同. B.所反映的对象范围不同. C.编制指数的任务不同. D.所比较的现象特征不同. 2.下列指数中属于质量指标指数的是(D) A.产量指数. B.商品销售量指数 C.职工人数指数 D.劳动生产率指数. 3.某管理局为了面反映所属各企业生产某种产品平均成本总的变动情况,需要编制(A). A.可变构成指数 B.固定构成指数 C.结构影响指数 D.质量指标指数. 4.单位成本报告期比基期下降8%.产量增加8%.在这种条件下.生产总费用(B) A.增加了. B.减少了. C.没有变化. D.难以确定. 5.某市按1980年不变价格计算的1981--1990年的工业总产值数列.反映的是(A A.产量的变动 B.价格的变动 C.价值量的变动 D.价格和产量的变动. 6.某工厂上年平均每季度的生产计划完成程度为102%.则该厂上年全年生产计划的完成程度为(D) A.204%. B.306%. C.408%. D.102%. 7.虽有现象各期的环比增长速度,但无法计算现象的( C) A.各期定基增长速度. B.各期环比发展速度. C.各期发展水平. D.平均增长速度. 8.平均发展速度是(C) A.定基发展速度的算术平均数. B.环比发展速度的算术平均数. C.环比发展速度连乘积的几何平均数. D.增长速度加上100%. 9.说明现象在较长时期内发展的总速度的指标是(C) A.环比发展速度. B.平均发展速度 C.定基发展速度. D.定基增长速度. 10.若要观察现象在某一段时期内变动的基本趋势,需要测定现象的(C). A.季节变动. B.循环变动. C.长期趋势. D.不规则变动. 三.多项选择题: 1.下列哪些现象侧重于用几何平均法计算平均发展速度( BDE ). A.基本建设投资额. B.商品销售量. C.垦荒造林数量. D.居民消费支出状况. E.产品产量.

相关文档
最新文档