何晓群版多元统计课后作业答案

何晓群版多元统计课后作业答案
何晓群版多元统计课后作业答案

第一章多元正态分布

1.在数据处理时,为什么通常要进行标准化处理?

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。

(1)0-1标准化(0-1 normalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

(2)Z-score 标准化(zero-mean normalization)

也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

2、欧氏距离与马氏距离的优缺点是什么?

欧氏距离(Euclidean distance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。它是一种有效的计算两个未知样本集的相似度的方法。对于一个均值为μ,协方差矩阵为Σ的多变量向量,样本与总体的马氏距离为(dm)^2=(x-μ)'Σ^(-1)(x-μ)。

在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。(它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的

信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度);由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。

缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?

统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

第二章均值向量和协方差阵的检验

3、多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知 假设H0:0μμ= , H1:0μμ≠ (n=9 p=5)

检验统计量/(n-1)

)()(0102μμ-'-=-X S X n T 服从P ,n-1的2T 分布

统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量 零假设的拒绝区域 {(n-p )/[(n-1)*p]}*2T >,()p n p F α- 1/10*2T >F5,4(5)

μ0=( 6212.01 32.87 2972 9.5

15.78)’ 样本均值(4208.78 35.12

1965.89 12.21

27.79)’

(样本均值-μ0)’=(-2003.23 2.25

-1006.11 2.71

12.01)

协方差矩阵(降维——因子分析——抽取)

文盲半文盲(%) -6356.325 43.697 -3130.038 25.410 196.884

协方差的逆矩阵

1.88034E-05 -0.000440368 -6.09781E-05 0.00279921 -0.000625893

-0.00044037 0.207023949 -0.000210374 -0.0237044 -0.06044981

-6.0978E-05 -0.000210374 0.00022733 -0.0105019 0.003047474

0.002799208 -0.023704352 -0.010501881 0.85288927 -0.18139981

-0.00062589 -0.06044981 0.003047474 -0.1813998 0.070148804

计算:边远及少数民族聚居区社会经济发展水平的指标数据.xls

2

T=9* (-2003.23 2.25 -1006.11 2.71 12.01)*s^-1* (-2003.23 2.25 -1006.11 2.71 12.01)’=9*50.11793817=451,06144353

F统计量=45.2>6.2 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与

全国平均水平有显著差异。

第三章聚类分析

1.聚类分析的基本思想和功能是什么?

研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量

作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此

之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成

一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有

样品间的亲疏关系表示出来。作用是把相似的研究对象归类。

2.试述系统聚类法的原理和具体步骤。

首先将n个样品看成n类(一类包含一个样品),然后将性质最接近的两类合并成

一个新类,得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类,

每类各有哪些样品。

3.试述K-均值聚类的方法原理

K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它

是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。把样品分为K个初始类,进

行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非标准化数

据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。重复这一步

直到各类无元素进出。

第四章判别分析

1.应用判别分析应该具备什么样的条件

被解释变量是属性变量而解释变量是度量变量,判别分析最基本的要求是,

分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可

测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

假设之一是:每一个判别变量(解释变量)不能是其他判别变量的线性组合。这

时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。不仅如此,有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但是参数估计的标准误差很大,以至于参数估计统计上不显著,这就是常说的,多重共线性问题。 假设之二:各组变量的协方差矩阵相等,判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。 假设之三:各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率,党委被该假设时,计算的概率将非常不准确。

2.试述贝叶斯判别法的思路

贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯判别方法用于判别分析得到贝叶斯判别。 (1)最大后验概率准则

设有总体i π (i=1,2,…k),具有概率密度函数f i(X),并且知道根据以往的统计分析,知道i π出现的概率为Pi 。当样本0x 发生时,求属于某类的概率,由贝叶斯公式计算后验概率

P (i π|0x )=Pi* f i(X)/ ΣPi* f i(X),i=1,2,…,k

最大后验概率准则采用的判别规则是:i 1,()()max l l i k

x p x p x πππ≤≤∈=X

(2)最小误判代价准则

设有K 个总体12,,...,k πππ分别具有p 维密度函数,12(),p (x),...,p ()k p x x ,已知出现这k 个总体的先验概率分布为12,,...k q q q

用12,,...,k D D D 表示样本p

R 的一个划分,12,,...,k D D D 互不相交,且

1

k

p i i D R ==,

如果这个划分取得适当,正好对应于k 个总体,这时判别规则可以采用如下方法 ,,1,2,3...i i i k x x D π=∈落入 用()c j i 表示来自样本i π而被误判为j π的损失,这一误判的概率为()()Dj i p j i p x dx =? 由以上判别规则带来的平均损失ECM

121

1

(,,...,)()()k k

k i i j ECM D D D q c j i p j i ===∑∑ 定义()0c i i =,目的是求12,,...,k D D D ,

使得ECM 最小

3.试述费歇判别法的思想

将k 组P 维数据投影到某一方向,使得它们的投影组与组之间尽可能地分开。 K 个总体分别取得k 组P 维观察值

(1)(1)

111

()()1:,...,:,...,x n k k k nk

G x x G

x 12...k n n n n =+++

令a 为p R 中的任一向量,'(1)

1()n u x a x =为x 向以a 为法线方向的投影,这时,上

述数据的投影为

'(1)'(1)111

'()'()1:a ,...,a :a ,...,a x n k k k nk

G x x G

x

组间平方和'()()''1

[()()]k

i i i i SSG a n X X X X a a Ba ==--=∑ ()i X 为第i 组均值 X 为总

体均值向量

组内平方和'

()(i)()()''11[()()]k

k

i i i j j i j SSE a X X X X a a Ea ===--=∑∑

如果K 组均值有显著差异,则

''

/(1)/()1SSG k n k a Ba

F SSE n k k a Ea --==-- 应该充分地大 ,或者''()a Ba a a Ea ?=应充分大 (.)?的极大值为1λ,它是0B E λ-=的最大特征根,12,,...,r l l l 为相应的特征向量,

当1a l =时,可使(.)?达到最大值,由于()a ?的大小可以衡量'()u x a x =判别的效果,所以称()a ?为判别效率。

得到以下定理:费歇准则下的线性判别函数'()u x a x =的解a 为方程0B E λ-=的最大特征根1λ所对应的特征向量1l ,且相应的判别效率为11()l λ?=。

4.什么是逐步判别分析 如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量的个数太多,计算量必然大,会影响估计的精度,特别当引入了一些判别能力不强的变量时,还会严重影响到判别的效果。变量的选择关系到判别函数的效果,适当筛选变量是一个很重要的问题。凡是具有筛选变量能力的判别方法统称为逐步判别法。

(1)在12,,..m x x x 中选出一个自变量,它使维尔克斯统计量(1,2,..)i i m Λ=达到最

小,假定挑选的变量次序按照自然的次序,第一步选中1x ,第r 步选中r x ,

{}11min i i m

≤≤Λ=Λ,考察1Λ是否落入接受域,如果不显著则表明一个变量也不选

中,,不能用判别分析,如显著则进入下一步。

(2)在未选中的变量中,计算它们与已选中变量1x 配合的Λ值,选择使

{}12min i i i m

≤≤Λ=Λ最小的作为第二个变量,依此,如选中r 个变量,设12,,..r x x x ,

计算1,2,...,,()r l r l m Λ<≤,使其最小的为第1r +个变量,检验第1r +个变量能否提供附加信息,如果能则进入第四部,不能进入第三步。

(3)在已选入的r 个变量中,要考虑较早选中的变量中重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去,剔除的原则等同于引进的原则。例如在已进入的r 个变量中要考察(1)l x l r ≤≤是否应剔除,就是计算1,..1,1,....l l l r -+Λ选择达到极小(大)的,看是否显著,如不显著将该变量剔除,回到第三步,继续对于下的变量进行考察是否需要剔除,如果显著则回到第二步。

(4)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量简历判别函数。

5.简要叙述判别分析的步骤及流程

(1)研究问题:选择对象,评估一个多元问题各组的差异,将观测(个体)归类,确定组与组之间的判别函数

(2)设计要点:选择解释变量,样本的考虑,建立分析样本的保留样本

(3)假定:解释变量的整体性,线性关系,解释变量间不存在多重共线性,协方差相等

(4)估计判别函数:联立估计或者逐步估计,判别函数的显著性

(5)使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显著性

(6)判别函数的解释,需要多个函数,评价单个函数主要从判别权重、判别载荷、偏F 值几个方面,(评价两个以上的判别函数也需要,并且还要评价合并的函数,函数的旋转、能力指数,各组重心的图示、判别载荷的图示,) (7)判别结果的验证:分开样本或者交叉验证,刻画组间的差异。

6.为研究某地区人口死亡状况,已按某种方法将15个一直样品分为三类,指标及原始数据见下表,试建立判别函数,并判定另外四个带判样品属于哪类

Excluded Missing or out-of-range

0 .0

group codes

At least one missing

0 .0

discriminating variable

Both missing or out-of-range

group codes and at least one

4 21.1

missing discriminating

variable

Total 4 21.1 Total 19 100.0

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

X1 .997 .019 2 12 .981

X2 .990 .061 2 12 .941

X3 .645 3.301 2 12 .072

X4 .438 7.690 2 12 .007

X5 .173 28.728 2 12 .000

X6 .926 .478 2 12 .631

对各组均值是否相等的检验,在0.01的显著性水平上,X4、X5在三组的均值有显著差异

反映协方差矩阵的秩和行列式的对数值,后者对各种体协方差阵是否相等的统计检验,由F值及其显著水平,我们在0.05的显著性水平下接受原假设(原假设假定各总体协方差阵相等)

第一判别函数解释了98.9%的方差,第二判别函数解释了1.1%的方差

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.

1 through

2 .010 44.014 12 .000

2 .596 4.919 5 .426

第一判别函数在0.05的显著性水平上是显著的

标准化的判别函数

Standardized Canonical

Discriminant Function

Coefficients

Function

1 2

Canonical Discriminant Function

Coefficients

Function

1 2 X1 -1.951 -.879 X2 1.742 1.160 X3 -.927 -.366 X4 .827 -.073 X5 .102 .050 X6 1.661 .698 (Constant)

-78.860

-29.413

Unstandardized coefficients

非标准化的判别函数

Y1=-78.860+-1.951 X1+1.742 X2+-0.927 X3+0.827 X4+0.102 X5+1.661 X6 根据这个判别函数计算每个观测的判别Z 得分

后者是判别函数在各组的重心 各组的先验概率

Classification Function Coefficients

y

1 2 3 X1 -158.299 -181.006 -148.660 X2 166.206 186.018 156.942 X3 -97.779 -108.631 -93.291 X4 59.026 69.217 55.718 X5

11.522

12.710

11.009

Prior Probabilities for Groups

y Prior

Cases Used in Analysis

Unweighted

Weighted

1 .333 5 5.000

2 .33

3 5 5.000 3 .333 5 5.000 Total

1.000

15

15.000

每组的费歇线性判别函数

Y=1这组

F1= -5586.484+-158.299 X1+166.206 X2+-97.779 X3+59.026 X4+11.522 X5+201.552 X6

Y=2这组

F2=-6553.476+-181.006 X1+186.018 X2+-108.631 X3+69.217 X4+12.710+ X5220.946 X6

Y=3这组

F3=-5227.094 +-148.660X1+156.942 X2+-93.291 X3+55.718 X4+11.009 X5+193.435 X6

将观测分到较大的函数值中

带判样品f1 f2 f3 分别如下

3902.3613612.1173997.661

5563.0035478.9575556.303

7015.1927149.3516931.574

5013.9214877.5445030.734

1号待判判为第三组

2号待判判为第一组

3号待判判为第二组

4号待判判为第三组

a. 100.0% of original grouped cases correctly classified.

b. Cross validation is done only for those cases in the analysis. In cross validation, each

case is classified by the functions derived from all cases other than that case.

c. 80.0% of cross-validated grouped cases correctly classifie

d.

Predicted Group Membership 表示预设的所属组关系

Original 表示原始数据的所属组关系

Cross-validated表示交叉验证的所属组关系

第五章主成分分析

1.主成分的基本思想是什么?

在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量。一方避免遗漏重要信息而考虑尽可能多的指标,另一方面考虑指标的增多,又难以避免信息重叠。希望涉及的变量少,而得到的信息量有较多。

主成分的基本思想是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。研究某一问题涉及的众多变量之间有一定的相关性,必然存在着起支配作用的共同因素。通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个互相无关的综合指标(主成分)来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

2.主成分在应用中的主要作用是什么?

作用:利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。通过主成分分析,可以从事物之间错综复杂的关系中找出一些

主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。主成分分析能降低所研究的数据空间的维数,有时可通过因子负荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果。

3.由协方差阵出发和由相关阵出发求主成分有什么不同?

由协方差阵出发

设随即向量X=(X1,X2,X3,……Xp)’的协方差矩阵为Σ,λ1≥λ2≥……≥λp为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1i*X1+γ2i*X2+……+γpi*Xp,i=1,2,……,p

此时V AR(Yi)=λi,COV(Yi,Yj)=0,i≠j

我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根λ1≥λ2≥……≥λp>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’*X, Y2=γ2’*X,……, Yp=γp’*X分别称为随即向量X的第一主成分,第二主成分……第p主成分。Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:(1)Y=P’*X,即P为p阶正交阵,(2)Y的分量之间互不相关,即D(Y)=diag(λ1,λ2,……,λp),(3)Y的p个分量是按方差由大到小排列,即λ1≥λ2≥……≥λp。

由相关阵出发

对原始变量X进行标准化,Z=(Σ^1/2)^-1*(X-μ) cov(Z)=R

原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的。λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:

Yi=γi’*Z=γi’*(Σ^1/2)^-1*(X-μ)

在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处。有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥。相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上。避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的。

第六章因子分析

1.因子分析与主成分分析有什么本质不同?

(1)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合,主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异扥机组彼此不相关的新变量

(2)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成

分表示成各变量的线性组合

(3)主成分分析中不需要有一些专门架设,因子分析则需要一些假设,因子分析的假设包括,各个因子之间不相关,特殊因袭之间不相关,公共因子和特殊因子之间不相关

(4)提取主因子的方法不仅有主成分法还有极大似然法等,基于这些不同算法得到的结果一般也不同,而主成分只能用主成分法提取 (5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定,而因子分析中,因子不是固定的,可以旋转得到不同的因子。 (6)在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同,主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分。 (7)与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势,而如果想把现有的变量变成少数几个新的变量来进行后续的分析,则可以使用主成分分析。

2.因子载荷ij a 的统计定义是什么?它在实际问题分析中的作用是什么? 因子载荷ij a 的统计定义,是原始变量i X 与公共因子j F 的协方差,i X 与j F 都是均值为0,方差为1的变量,因此ij a 同时也是i X 与的j F 相关系数。

),...,2,1( (2)

22212m j a a a g pj

j j j =+++=,则2j g 表示的是公共因子j F 对于X 的每一分量所提供的方差的总和,称为公共因子j F 对原始变量向量X 的方差贡献,是衡量公共因子相对重要性的指标,计算出因子载荷矩阵A 的所有2j g ,并按照大小排序,提出影响力大的公共因子。

第八章典型相关分析

1.试述典型相关分析的统计思想及该方法在研究实际问题中的作用 典型相关分析研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来分析研究而不是分析每一组变量内部的各个变量,所研究的两组变量可以是一组变量为自变量,一组变量为因变量的情况,两组变量也可以处于同等地位,但典型相关分析要求两组变量都至少是间隔尺度的。借助主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法找到第二对,第三对....使各队典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。

2.典型相关分析中的冗余度有什么作用 在进行典型相关分析的时候,需要了解典型变量的解释比例,从而定量测度典型变量所包含的原始信息量的大小,此时就需要典型变量的冗余分析。冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。

3.典型变量的解释有什么具体方法,实际意义是什么 主要使用以下三种方法(1)典型权重(标准化系数),(2)典型载荷(结构系数)(3)典型交叉载荷

平均解释量是某一個典型因素与各观察变量之典型因素结构系数的平方和,再除以观察变量的个数。(结构系数平方和/个数)若X、Y变量的数目不同,則典型因素对各自观察变量的累积解释量也会不同。

结构系数大于等于0.3就可以认为有意义;大于等于0.5就属于高度相关,可以依此来判定有意义的结构。

交叉结构系数是指X变量与另一个典型因素η之间的相关系数,或各Y变量与另一側典型因素χ間的相关系数。

附表 1. 边远及少数民族聚居区社会经济发展水平的指标数据.xls

2.某地区人口死亡状况

别序X1X2X3X4X5X6y

青海436740.9204714.4842.92

样本均值4208.78 35.12 1965.89 12.21 27.79

全国平均水平6212.0132.8729729.515.78

样本均值-全国平均(A)-2003.23 2.25 -1006.11 2.71 12.01

Inter-Item Covariance Matrix

人均GDP(元)三产比重(%)人均消费(元)人口增长(%)文盲半文盲(%)

人均GDP(元)1020190.84582.46331693.531-599.784-6356.325

三产比重(%)582.4619.48-105.464 6.62543.697

人均消费(元)331693.531-105.464125364.321-213.634-3130.038

人口增长(%)-599.784 6.625-213.634 6.09925.41

文盲半文盲(%)-6356.32543.697-3130.03825.41196.884

逆矩阵(B) 1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893

-0.000440370.207023949-0.000210374-0.0237044-0.06044981

-6.0978E-05-0.0002103740.00022733-0.01050190.003047474

0.002799208-0.023704352-0.010*******.85288927-0.18139981

-0.00062589-0.060449810.003047474-0.18139980.070148804F

-2003.23

2.25

-1006.11

2.71

12.01 a16*a24(D)0.022763650.769521116-0.098908986 5.03901603-1.597633325

50.1179381750.1179381750.1179381750.117938250.11793817

50.11793817

1134.16 7.44 1.12 7.87 95.19 69.30 1

1233.06 6.34 1.08 6.77 94.08 69.70 1

1336.26 9.24 1.04 8.97 97.30 68.80 1

1440.17 13.45 1.43 13.88 101.20 66.20 130389.566260.032-5132.16-5586 1550.06 23.03 2.83 23.74 112.52 63.30 1

2133.24 6.24 1.18 22.90 160.01 65.40 2

2232.22 4.22 1.06 20.70 124.70 68.70 2

2341.15 10.08 2.32 32.84 172.06 65.85 2

2453.04 25.74 4.06 34.87 153.03 63.50 2

2538.03 11.20 6.07 27.84 146.32 66.80 2

3134.03 5.41 0.07 5.20 90.10 69.50 3

3232.11 3.02 0.09 3.14 85.15 70.80 3

3344.12 15.12 1.08 15.15 103.12 64.80 3

3454.17 25.03 2.11 25.15 110.14 63.70 3

3528.07 2.01 0.07 3.02 81.22 68.30 3

判组150.22 6.66 1.08 22.54 170.60 65.20

判组234.64 7.33 1.11 7.78 95.16 69.30

判组333.42 6.22 1.12 22.95 160.31 68.30

判组444.02 15.36 1.07 16.45 105.00 64.20

1-158.2993902.361-181.0063612.117-148.663997.6 2166.2065563.003186.0185478.957156.9425556.3 3-97.7797015.192-108.6317149.351-93.2916931.5 459.0265013.92169.2174877.54455.7185030.7

11.52212.7111.009

201.552220.946193.435

-5586.48-6553.48-5227.09

数第一组第二组第三组

统计学课后习题答案(袁卫)

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章绪论 1.什么是统计学?怎样理解统计学与统计数据的关系? 2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。 答:(1)总体:最近的一个集装箱内的全部油漆; (2)研究变量:装满的油漆罐的质量; (3)样本:最近的一个集装箱内的50罐油漆; (4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)一描述推断。 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型;

(完整版)概率论与数理统计课后习题答案

·1· 习 题 一 1.写出下列随机试验的样本空间及下列事件中的样本点: (1)掷一颗骰子,记录出现的点数. A =‘出现奇数点’; (2)将一颗骰子掷两次,记录出现点数. A =‘两次点数之和为10’,B =‘第一次的点数,比第二次的点数大2’; (3)一个口袋中有5只外形完全相同的球,编号分别为1,2,3,4,5;从中同时取出3只球,观察其结果,A =‘球的最小号码为1’; (4)将,a b 两个球,随机地放入到甲、乙、丙三个盒子中去,观察放球情况,A =‘甲盒中至少有一球’; (5)记录在一段时间内,通过某桥的汽车流量,A =‘通过汽车不足5台’,B =‘通过的汽车不少于3台’。 解 (1)123456{,,,,,}S e e e e e e =其中i e =‘出现i 点’ 1,2,,6i =L , 135{,,}A e e e =。 (2){(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)S = (2,1),(2,2),(2,3),(2,4),(2,5),(2,6) (3,1),(3,2),(3,3),(3,4),(3,5),(3,6) (4,1),(4,2),(4,3),(4,4),(4,5),(4,6) (5,1),(5,2),(5,3),(5,4),(5,5),(5,6) (6,1),(6,2),(6,3),(6,4),(6,5),(6,6)}; {(4,6),(5,5),(6,4)}A =; {(3,1),(4,2),(5,3),(6,4)}B =。 ( 3 ) {(1,2,3),(2,3,4),(3,4,5),(1,3,4),(1,4,5),(1,2,4),(1,2,5) S = (2,3,5),(2,4,5),(1,3,5)} {(1,2,3),(1,2,4),(1,2,5),(1,3,4),(1,3,5),(1,4,5)}A = ( 4 ) {(,,),(,,),(,,),(,,),(,,),(,,), S ab ab ab a b a b b a =--------- (,,),(,,,),(,,)}b a a b b a ---,其中‘-’表示空盒; {(,,),(,,),(,,),(,,),(,,)}A ab a b a b b a b a =------。 (5){0,1,2,},{0,1,2,3,4},{3,4,}S A B ===L L 。 2.设,,A B C 是随机试验E 的三个事件,试用,,A B C 表示下列事件:

统计学第六版部分课后题答案

第四章 数据分布特征的测度 4.6 解:先计算出各组组中值如下: 4.8 解: ⑴ ⑵体重的平均数 体重的标准差 ⑶ 55—65kg 相当于μ-1σ到μ+1σ 根据经验法则:大约有68%的人体重在此范围内。 ⑷ 40—60kg 相当于μ-2σ到μ+2σ 2501935030450425501865011426.7120116.5 i M f x f s ?+?+?+?+?=====∑∑ 大。所以,女生的体重差异===离散系数===离散系数女 男10 .010 1 505v 08.012 1 605v =μσ=μσσσ) (1102.250)(1322.260磅=磅=女男=?μ=?μ) (112.25磅==?σ

根据经验法则:大约有95%的人体重在此范围内。 4.9 解: 在A 项测试中得115分,其标准分数为: 在B 项测试中得425分,其标准分数为: 所以,在A 项中的成绩理想。 4.11 解: 成年组的标准差为: 幼儿组的标准差为: 所以,幼儿组身高差异大。 115 100 115X Z =-=σμ-=5.050 400425X Z =-=σμ-= 172.1 4.24.2 2.4%172.1s x x n s s V x = == ====∑ 71.3 2.52.5 3.5% 71.3s x x n s s V x = =====∑

第七章 参数估计 7.7 根据题意:N=7500,n=36(大样本) 总体标准差σ未知,可以用样本标准差s 代替 32 .336 4.119n x x ===∑样本均值 2 1.61 s z α= =样本标准差: 边际误差为:22222 90 1.645 1.6451.61 1.6450.446 3.320.44 (2.883.76)95 1.9699 2.58(2.803.84)(2.634.01) z z x z z z ααααα==?=±=±置信水平%时,=平均上网时间的置信区间为: ,同理,置信水平%时,=;置信水平%时,=平均上网时间的置信区间分别为:,;,

概率论与数理统计课后习题答案

第一章 事件与概率 1.写出下列随机试验的样本空间。 (1)记录一个班级一次概率统计考试的平均分数 (设以百分制记分)。 (2)同时掷三颗骰子,记录三颗骰子点数之和。 (3)生产产品直到有10件正品为止,记录生产产 品的总件数。 (4)对某工厂出厂的产品进行检查,合格的记上 “正品”,不合格的记上“次品”,如连续查出2个次品 就停止检查,或检查4个产品就停止检查,记录检查的 结果。 (5)在单位正方形内任意取一点,记录它的坐标。 (6)实测某种型号灯泡的寿命。 解(1)},100,,1,0{n i n i ==Ω其中n 为班级人数。 (2)}18,,4,3{ =Ω。 (3)},11,10{ =Ω。 (4)=Ω{00,100,0100,0101,0110,1100, 1010,1011,0111,1101,0111,1111},其中 0表示次品,1表示正品。 (5)=Ω{(x,y)| 0

(2)A 与B 都发生,而C 不发生。 (3)A ,B ,C 中至少有一个发生。 (4)A ,B ,C 都发生。 (5)A ,B ,C 都不发生。 (6)A ,B ,C 中不多于一个发生。 (7)A ,B ,C 至少有一个不发生。 (8)A ,B ,C 中至少有两个发生。 解 (1)C B A ,(2)C AB ,(3)C B A ++,(4)ABC , (5)C B A , (6)C B C A B A ++或 C B A C B A C B A C B A +++, (7)C B A ++, (8)BC AC AB ++或 ABC BC A C B A C AB ??? 3.指出下列命题中哪些成立,哪些不成立,并作 图说明。 (1)B B A B A =(2)AB B A = (3)AB B A B =?则若,(4)若 A B B A ??则, (5)C B A C B A = (6)若Φ=AB 且A C ?,

统计学课后习题参考答案

思考题与练习题 参考答案 【友情提示】请各位同学完成思考题与练习题后再对照参考答案。回答正确,值得肯定;回答错误,请找出原因更正,这样使用参考答案,能力会越来越高,智慧会越来越多。学而不思则罔,如果直接抄答案,对学习无益,危害甚大。想抄答案者,请三思而后行! 第一章绪论 思考题参考答案 1.不能,英军所有战机=英军被击毁的战机+英军返航的战机+英军没有弹孔的战机,因为英军被击毁的战机有的掉入海里、敌军占领区,或因堕毁而无形等,不能找回;没有弹孔的战机也不可能自己拿来射击后进行弹孔位置的调查。即便被击毁的战机找回或没有弹孔的战机自己拿来射击进行实验,也不能从多个弹孔中确认那个弹孔就是危险的。 2.问题:飞机上什么区域应该加强钢板?瓦尔德解决问题的思想:在她的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,找出几乎布满弹孔的区域;发现:没有弹孔区域就是军机的危险区域。 3.能,拯救与发展自己的参考路径为:①找出自己的优点,②明确自己大学阶段的最佳目标,③拟出一个发扬自己优点,实现自己大学阶段最佳目标的可行计划。 练习题参考答案 一、填空题 1.调查。

2.探索、调查、发现。 3、目的。 二、简答题 1.瓦尔德;把剩下少数几个没有弹孔的区域加强钢板。 2.统计学解决实际问题的基本思路,即基本步骤就是:①提出与统计有关的实际问题;②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据合理推断给出更好决策的建议。不解决问题时,重复第②-⑥步。 3.在结合实质性学科的过程中,统计学就是能发现客观世界规律,更好决策,改变世界与培养相应领域领袖的一门学科。 三、案例分析题 1.总体:我班所有学生;单位:我班每个学生;样本:我班部分学生;品质标志:姓名;数量标志:每个学生课程的成绩;指标:全班学生课程的平均成绩 ;指标体系:上学期全班同学学习的科目 ;统计量:我班部分同学课程的平均成绩 ;定性数据:姓名 ;定量数据: 课程成绩 ;离散型变量:学习课程数;连续性变量:学生的学习时间;确定性变量:全班学生课程的平均成绩;随机变量:我班部分同学课程的平均成绩,每个同学进入教室的时间;横截面数据:我班学生月门课程的出勤率;时间序列数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;面板数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;选用描述统计。 2.(1)总体:广州市大学生;单位:广州市的每个大学生。(2)如果调查中了解的就是价格高低,为定序尺度;如果调查中了解的就是商品丰富、价格合适、节约时间,为定类尺度。(3)广州市大学生在网上购物的平均花费。(4)就是用统计量作为参数的估计。(5)推断统计。 3.(1)10。(2)6。(3)定类尺度:汽车名称,燃油类型;定序尺度:车型大小;定距尺度:引擎的汽缸数;定比尺度:市区驾车的油耗,公路驾车的油耗。(4)定性变量:汽车名称,车型大小,燃油类型;定量变量:引擎的汽缸数,市区驾车的油耗,公路驾车的油耗。(5)40%;(6)30%。 第二章收集数据 思考题参考答案

统计学贾俊平第五版课后习题答案完整版

亲爱的,一章一章来,肯定能弄完的,你是最棒的! 统计学(第五版)贾俊平课后习题答案(完整版) 第一章思考题 i.i什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得岀结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域经济分析和政府分析还有物理,生物等等各个领域。 第二章思考题 2.1什么是二手资料?使用二手资料应注意什么问题 与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间使用时要注明数据来源。 2.2 比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。

概率论与数理统计课后习题答案

习题1.1解答 1. 将一枚均匀的硬币抛两次,事件C B A ,,分别表示“第一次出现正面”,“两次出现同一面”,“至少有一次出现正面”。试写出样本空间及事件C B A ,,中的样本点。 解:{=Ω(正,正),(正,反),(反,正),(反,反)} {=A (正,正),(正,反)};{=B (正,正),(反,反)} {=C (正,正),(正,反),(反,正)} 2. 在掷两颗骰子的试验中,事件D C B A ,,,分别表示“点数之和为偶数”,“点数之和小于5”,“点数相等”,“至少有一颗骰子的点数为3”。试写出样本空间及事件D C B A BC C A B A AB ---+,,,,中的样本点。 解:{})6,6(,),2,6(),1,6(,),6,2(,),2,2(),1,2(),6,1(,),2,1(),1,1( =Ω; {})1,3(),2,2(),3,1(),1,1(=AB ; {})1,2(),2,1(),6,6(),4,6(),2,6(,),5,1(),3,1(),1,1( =+B A ; Φ=C A ;{})2,2(),1,1(=BC ; {})4,6(),2,6(),1,5(),6,4(),2,4(),6,2(),4,2(),5,1(=---D C B A 3. 以C B A ,,分别表示某城市居民订阅日报、晚报和体育报。试用C B A ,,表示以下事件: (1)只订阅日报; (2)只订日报和晚报; (3)只订一种报; (4)正好订两种报; (5)至少订阅一种报; (6)不订阅任何报; (7)至多订阅一种报; (8)三种报纸都订阅; (9)三种报纸不全订阅。 解:(1)C B A ; (2)C AB ; (3)C B A C B A C B A ++; (4)BC A C B A C AB ++; (5)C B A ++; (6)C B A ; (7)C B A C B A C B A C B A +++或C B C A B A ++ (8)ABC ; (9)C B A ++ 4. 甲、乙、丙三人各射击一次,事件321,,A A A 分别表示甲、乙、丙射中。试说明下列事件所表示的结果:2A , 32A A +, 21A A , 21A A +, 321A A A , 313221A A A A A A ++. 解:甲未击中;乙和丙至少一人击中;甲和乙至多有一人击中或甲和乙至少有一人未击中;甲和乙都未击中;甲和乙击中而丙未击中;甲、乙、丙三人至少有两人击中。 5. 设事件C B A ,,满足Φ≠ABC ,试把下列事件表示为一些互不相容的事件的和:C B A ++,C AB +,AC B -. 解:如图:

统计学课后作业答案

统计学课后作业答案

4.2 随机抽取25个网络用户,得到他们的年龄数据如下: 19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 41 20 31 17 23 要求;(1)计算众数、中位数: 1、排序形成单变量分值的频数分布和累计频数分布: 网络用户的年龄 从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。 (2)根据定义公式计算四分位数。Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25 和27都只有一个,因此Q3也可等于25+0.75×2=26.5。 (3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652 (4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773 (5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。 为分组情况下的直方图:

为分组情况下的概率密度曲线:分组: 1、确定组数: () lg25 lg() 1.398 111 5.64 lg(2)lg20.30103 n K=+=+=+=,取k=6 2、确定组距:组距=( 最大值- 最小值)÷组数=(41-15)÷6=4.3,取5 3、分组频数表 网络用户的年龄(Binned) 分组后的均值与方差:

Kurtosis 1.302 分组后的直方图: 组中值 50.00 45.00 40.00 35.00 30.00 25.00 20.00 15.00 10.00 F r e q u e n c y 10 8 6 4 2 Mean =23.30 Std. Dev. =7.024 N =25 4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下: 成年组 166 169 l72 177 180 170 172 174 168 173 幼儿组 68 69 68 70 7l 73 72 73 74 75 要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么? 均值不相等,用离散系数衡量身高差异。 (2)比较分析哪一组的身高差异大? 成年组 幼儿组 平均 172.1 平均 71.3 标准差 4.201851 标准差 2.496664 离散系数 0.024415 离散系数 0.035016 幼儿组的身高差异大。 7.6利用下面的信息,构建总体均值μ的置信区间: 1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。 解: N=15,为小样本正态分布,但σ已知。则1-α=95%, 。其置信区间公式为 ∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2) 2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。 解:为大样本总体非正态分布,但σ已知。则1-α=95%, 。其置信区间公式为 2 α() 28.109,44.10192.336.10525 10 96.136.1052=±=?±=±n z x σ αx x 2 α() 28.109,44.10192.336.10525 1096.136.1052=±=?±=±n z x σ α

统计学课后习题答案(Chap1.2)

第1章绪论 1.什么是统计学怎样理解统计学与统计数据的关系 2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。 答:(1)总体:最近的一个集装箱内的全部油漆; (2)研究变量:装满的油漆罐的质量; (3)样本:最近的一个集装箱内的50罐油漆; (4)推断:50罐油漆的质量应为×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)一描述推断。 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表;

统计学 课后习题答案

附录:教材各章习题答案 第1章统计与统计数据 1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5) 分类数据。 1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家 庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。 1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。 1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物 者的月平均花费;(4)统计量;(5)推断统计方法。 1.5(略)。 1.6(略)。 第2章数据的图表展示 2.1(1)属于顺序数据。 (2)频数分布表如下 (4)帕累托图(略)。 2.2(1)频数分布表如下

2.5(1)排序略。 (2)频数分布表如下 (4)茎叶图如下

2.6 (3)食品重量的分布基本上是对称的。 2.7 2.8(1)属于数值型数据。

2.9 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 比A 班分散, 且平均成绩较A 班低。 2.11 (略)。 2.12 (略)。 2.13 (略)。 2.14 (略)。 2.15 箱线图如下:(特征请读者自己分析) 第3章 数据的概括性度量 3.1 (1)100=M ;10=e M ;6.9=x 。

(2)5.5=L Q ;12=U Q 。 (3)2.4=s 。 (4)左偏分布。 3.2 (1) 19 0=M ; 23 =e M 。 (2)5.5=L Q ;12=U Q 。 (3)24=x ;65.6=s 。 (4)08.1=SK ;77.0=K 。 (5)略。 3.3 (1)略。 (2)7=x ;71.0=s 。 (3)102.01=v ;274.02=v 。 (4)选方法一,因为离散程度小。 3.4 (1)x =274.1(万元);M e=272.5 。 (2)Q L =260.25;Q U =291.25。 (3)17.21=s (万元)。 3.5 甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原 因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 3.6 (1)x =426.67(万元);48.116=s (万元)。 (2)203.0=SK ;688.0-=K 。 3.7 (1)(2)两位调查人员所得到的平均身高和标准差应该差不多相 同,因为均值和标准差的大小基本上不受样本大小的影响。 (3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的围就可能越大。 3.8 (1)女生的体重差异大,因为女生其中的离散系数为0.1大于男 生体重的离散系数0.08。 (2) 男生:x =27.27(磅),27.2=s (磅); 女生:x =22.73(磅),27.2=s (磅); (3)68%; (4)95%。 3.9 通过计算标准化值来判断,1=A z ,5.0=B z ,说明在A项测试中 该应试者比平均分数高 出1个标准差,而在B 项测试中只高出平均分数0.5个标准差,由于A 项测试的标准化值高于B 项测试,所以A 项测试比较理想。 3.10 通过标准化值来判断,各天的标准化值如下表 日期 周一 周二 周三 周四 周五 周六 周日 标准化值Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 周一和周六两天失去了控制。

统计学课后习题答案完整版

统计学课后习题答案 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第四章 统计描述 【】某企业生产铝合金钢,计划年产量40万吨,实际年产量45万吨;计划降低成本5%,实际降低成本8%;计划劳动生产率提高8%,实际提高10%。试分别计算产量、成本、劳动生产率的计划完成程度。 【解】产量的计划完成程度=%5.112100%40 45 100%=?=?计划产量实际产量 即产量超额完成%。 成本的计划完成程=84%.96100%5%-18% -1100%-1-1≈?=?计划降低百分比实际降低百分比 即成本超额完成%。 劳动生产率计划完= 85%.101100%8%110% 1100%11≈?++=?++计划提高百分比实际提高百分比 即劳动生产率超额完成%。 【】某煤矿可采储量为200亿吨,计划在1991~1995年五年中开采全部储量的%, 试计算该煤矿原煤开采量五年计划完成程度及提前完成任务的时间。 【解】本题采用累计法: (1)该煤矿原煤开采量五年计划完成=100% ?数 计划期间计划规定累计数 计划期间实际完成累计 = 75%.1261021025357 4 =?? 即:该煤矿原煤开采量的五年计划超额完成%。 (2)将1991年的实际开采量一直加到1995年上半年的实际开采量,结果为2000万吨,此时恰好等于五年的计划开采量,所以可知,提前半年完成计划。 【】我国1991年和1994年工业总产值资料如下表:

要求: (1)计算我国1991年和1994年轻工业总产值占工业总产值的比重,填入表中; (2)1991年、1994年轻工业与重工业之间是什么比例(用系数表示)? (3)假如工业总产值1994年计划比1991年增长45%,实际比计划多增长百分之几? 1991年轻工业与重工业之间的比例=96.01.144479 .13800≈; 1994年轻工业与重工业之间的比例=73.04.296826 .21670≈ (3) %37.25 1%) 451(2824851353 ≈-+ 即,94年实际比计划增长%。 【】某乡三个村2000年小麦播种面积与亩产量资料如下表: 要求:(1)填上表中所缺数字; (2)用播种面积作权数,计算三个村小麦平均亩产量; (3)用比重作权数,计算三个村小麦平均亩产量。

概率论与数理统计及其应用课后答案

第1章 随机变量及其概率 1,写出下列试验的样本空间: (1) 连续投掷一颗骰子直至6个结果中有一个结果出现两次,记录 投掷的次数。 (2) 连续投掷一颗骰子直至6个结果中有一个结果接连出现两次, 记录投掷的次数。 (3) 连续投掷一枚硬币直至正面出现,观察正反面出现的情况。 (4) 抛一枚硬币,若出现H 则再抛一次;若出现T ,则再抛一颗骰 子,观察出现的各种结果。 解:(1)}7,6,5,4,3,2{=S ;(2)},4,3,2{ =S ;(3)},,,,{ TTTH TTH TH H S =; (4)}6,5,4,3,2,1,,{T T T T T T HT HH S =。 2,设B A ,是两个事件,已知,125.0)(,5.0)(,25.0)(===AB P B P A P ,求)])([(),(),(),(___ ___AB B A P AB P B A P B A P ??。 解:625.0)()()()(=-+=?AB P B P A P B A P , 375.0)()(])[()(=-=-=AB P B P B A S P B A P ,

875.0)(1)(___--=AB P AB P , 5 .0)(625.0)])([()()])([()])([(___=-=?-?=-?=?AB P AB B A P B A P AB S B A P AB B A P 3,在100,101,…,999这900个3位数中,任取一个3位数,求不包含数字1个概率。 解:在100,101,…,999这900个3位数中不包含数字1的3位数的个数为648998=??,所以所求得概率为 72.0900 648= 4,在仅由数字0,1,2,3,4,5组成且每个数字之多出现一次的全体三位数中,任取一个三位数。(1)求该数是奇数的概率;(2)求该数大于330的概率。 解:仅由数字0,1,2,3,4,5组成且每个数字之多出现一次的全体三位数的个数有100455=??个。(1)该数是奇数的可能个数为48344=??个,所以出现奇数的概率为 48.0100 48= (2)该数大于330的可能个数为48454542=?+?+?,所以该数大于330的概率为

统计学课后习题

统计学课后习题 Prepared on 22 November 2020

第二章统计数据调查与整理 9.对50只灯泡的耐用时数进行测试,所得数据如下: (单位:小时) 886 928 999 946 950 864 1050 927 949 852 1027 928 978 816 1000 918 1040 854 1100 900 866 905 954 890 1006 926 900 999 886 1120 893 900 800 938 864 919 863 981 916 818 946 926 895 967 921 978 821 924 651 850 要求: (1)根据上述资料编制次数分布数列,并计算向上累计和向下累计频数和频率。 (2)根据所编制的次数分布数列,绘制直方图、折线图。 (3)根据图形说明灯泡耐用时数的分布属于何种类型。 最大值=651 最下限=650 最小值=1120 最上限=1150 全距=1120-651=469 组数=5,组距=100 10.某服装厂某月每日的服装产量如下表所示。 某服装厂X月X日服装产量表 将表中资料编制成组距式分配数列,用两种方式分组,各分为五组,.比较哪一种分组较为合理。 等距式分组(不考虑异常数据)

异距式分组(考虑异常数据) 11.某驾驶学校有学员32人,他们的情况如下表所示: 利用表中资料编制以下统计表: (1)主词用一个品质标志分组,宾词用一个品质标志和一个数量标志分三组的宾词平行分组设计表。 (2)主词用一个品质标志分组,宾词用一个品质标志和一个数量标志分三组的宾词层叠分组设计表。 (1) (2) 第三章总量指标与相对指标 8.某企业统计分析报告中写道:“我厂今年销售收入计划规定2 500万元,实际完成了2 550万元,超额完成计划2%;销售利润率计划规定8%,实际为1 2%,超额完成计划4%(50%);劳动生产率计划规定比去年提高5%,实际比去年提高5.5%,超额完成计划10%(10。

统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版) 第一部分思考题 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。 推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域 经济分析和政府分析还有物理,生物等等各个领域。

统计学概论课后答案第8章统计指数习题解答.

第八章 对比分析与统计指数思考与练习 一、选择题: 1.某企业计划要求本月每万元产值能源消耗率指标比去年同期下降5%,实际降低了 2.5%,则该项计划的计划完成百分比为( d )。 a. 50.0% b. 97.4% c. 97.6% d. 102.6% 2.下列指标中属于强度相对指标的是( b )。 a..产值利润率 b.基尼系数 c. 恩格尔系数 d.人均消费支出 3.编制综合指数时,应固定的因素是(c )。 a .指数化指标 b.个体指数 c.同度量因素 d.被测定的因素 4.指出下列哪一个数量加权算术平均数指数,恒等于综合指数形式的拉氏数量指标指数(c )。 a . 1 010p q p q k q ∑∑;b. 1 111p q p q k q ∑∑;c. 000p q p q k q ∑∑; d. 101p q p q k q ∑∑ 5.之所以称为同度量因素,是因为:(a )。 a. 它可使得不同度量单位的现象总体转化为数量上可以加总; b. 客观上体现它在实际经济现象或过程中的份额; c. 是我们所要测定的那个因素; d. 它必须固定在相同的时期。 6.编制数量指标综合指数所采用的同度量因素是(a ) a . 质量指标 b .数量指标 c .综合指标 d .相对指标 7.空间价格指数一般可以采用( c )指数形式来编制。 a .拉氏指数 b.帕氏指数 c.马埃公式 d.平均指数 二、问答题: 1.报告期与基期相比,某城市居民消费价格指数为110%,居民可支配收入增加了20%,试问居民的实际收入水平提高了多少?

解:(1+20%)/110%-100%=109.10%-100%=9.10% 2.某公司报告期能源消耗总额为28.8万元,与去年同期相比,所耗能源的价格平均上升了20%,那么按去年同期的能源价格计算,该公司报告期能源消耗总额应为多少? 解:28.8÷(1+20%)=24万元 3.编制综合指数时,同度量因素的选择与指数化指标有什么关系?同度量因素为什么又称为权数?它与平均指数中的权数是否一致? 解:(略) 4.结构影响指数的数值越小,是否说明总体结构的变动程度越小?一般说来,当总体结构发生什么样的变动时,结构影响指数就会大于1。可结合具体事例来说明。 解:(略) 5.为什么在多因素指数分析中要强调各因素的排列顺序?“连锁替代法”是否适用于任一种排序的多因素分析? 解:(略) 6.某厂工人分为技术工和辅助工两类,技术工人的工资水平大大高于辅助工。最近,该厂一位财务人员对全厂工人的平均工资变动情况进行了动态对比,他发现与上年相比,全厂工人的平均工资下降了5%。而另一人则通过分析认为,全厂工人的工资水平并没有下降,而实际上工人的工资平均提高了5%。你认为这两人的分析结论是否矛盾?为什么? 解:不矛盾。前者依据的是可变构成指数的计算结果;后者依据的是固定构成指数的计算结果。 三、计算题 1. 某企业生产A、B两种产品,报告期和基期产量、出厂价格资料如下 要求:(1)用拉氏公式编制产品产量和出厂价格指数;(2)用帕氏公式编制产品产量和出厂价格指数;(3)比较两种公式编制的产量和销售量指数的差异。

概率论与数理统计课后习题及答案

习题八 1. 已知某炼铁厂的铁水含碳量在正常情况下服从正态分布N,.现在测了5炉铁水,其含碳量(%)分别为 问若标准差不改变,总体平均值有无显着性变化(α=) 【解】 0010 /20.025 0.025 : 4.55;: 4.55. 5,0.05, 1.96,0.108 4.364, (4.364 4.55) 3.851, 0.108 . H H n Z Z x x Z Z Z α μμμμ ασ ==≠= ===== = - ===- > 所以拒绝H0,认为总体平均值有显着性变化. 2. 某种矿砂的5个样品中的含镍量(%)经测定为: 设含镍量服从正态分布,问在α=下能否接收假设:这批矿砂的含镍量为. 【解】设 0010 /20.005 0.005 : 3.25;: 3.25. 5,0.01,(1)(4) 4.6041 3.252,0.013, (3.252 3.25) 0.344, 0.013 (4). H H n t n t x s x t t t α μμμμ α ==≠= ==-== == - === < 所以接受H0,认为这批矿砂的含镍量为. 3. 在正常状态下,某种牌子的香烟一支平均1.1克,若从这种香烟堆中任取36支作为样本;测得样本均值为(克),样本方差s2=(g2).问这堆香烟是否处于正常状态.已知香烟(支)的重量(克)近似服从正态分布(取α=). 【解】设 0010 /20.025 2 0.025 : 1.1;: 1.1. 36,0.05,(1)(35) 2.0301,36, 1.008,0.1, 6 1.7456, 1.7456(35) 2.0301. H H n t n t n x s x t t t α μμμμ α ==≠= ==-=== == === =<= 所以接受H0,认为这堆香烟(支)的重要(克)正常. 4.某公司宣称由他们生产的某种型号的电池其平均寿命为小时,标准差为小时.在实验室测试了该公司生产的6只电池,得到它们的寿命(以小时计)为19,18,20,22,16,25,问这些结果是否表明这种电池的平均寿命比该公司宣称的平均寿命要短设电池寿命近似地

统计学课后习题答案(全)

<<统计学 >> 课后习题参考答案 第四章 1. 计划完成相对指标二一8% 100% =10 2.9% 1+5% 2. 计划完成相对指标二 1 一6 % 100% =97.9% 1—4% 3. 4. 5.解:⑴计划完成相对指标= 14 防 13 100 %" 5. 56 % (2)从第四年二季度开始连续四季的产量之和为: 10+11 + 12+14=47 该产品到第五年第一季 已提前完成任务,提前 完成的天数 90 ?该产品总共提前10个月零15天完成任务。 6.解:计划完成相对指标 10 11 12 14-45 V 天 14 一10

156 230 540 279 325 470 535 200 1040.1% 100% =126.75% (2) 156+230+540+279+325+470=2000 (万吨) 所以正好提前半年完成计划 7. 第五章平均指标与标志变异指标 1 . X 甲= :.26 27 28 29 30 31 3 2 3334=30 9 —20 25 28 30 32 34 36 38 40 '1.44 X乙二9 AD甲二 26-30卩27 -30 28-30 29 -30 30-30 |31 -30 32 - 30 亠|33 - 30 叫34 - 30 9 -2.22 AD乙二 20—31.44” 25—31.44 十2〔8—31.44 屮30—31.44 +|32|— 31.44 + 34卜31.44 + 網 + 31.44 + 38— |31.44 + 4Q — 9 = 5.06 R 甲=34-26=8 R 乙=40-20=20

相关文档
最新文档