多元统计分析模拟考题及答案

多元统计分析模拟考题及答案
多元统计分析模拟考题及答案

一、判断题

( 对 )112(,,

,)p X X X X '=的协差阵一定是对称的半正定阵

( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系

的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。

( 错)5),(~),,,(21∑'=μp p N X X X X ,,X S 分别是样本均值和样本离差阵,则,

S

X n

分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X ,X 作为样本均值μ的估计,是

无偏的、有效的、一致的。

( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化

( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。

( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等价。

(对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。

二、填空题

1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.

2、设∑是总体1(,

,)m X X X =的协方差阵,∑的特征根(1,

,)i i m λ=与相应的单

位正交化特征向量

12(,,,)i i i im a a a α=,则第一主成分的表达式是

11111221m m y a X a X a X =++

+,方差为1λ。

3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别为:'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---

'

221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

'440.007(0.0612,0.2519,0.5513,0.7930)U λ==--,则其第二个主成分的表达式是

212340.95440.09840.26950.0824y X X X X =-++,方差为1.024

4. 若),(~)(∑μαp N X ,(n ,,2,1 =α)且相互独立,则样本均值向量X 服

从的分布是(,)p N n

μ∑

5.设(,),1,2,

,16i p X N i μ∑=,X 和A 分别是正态总体的样本均值和样本离差

阵,则2115[4()][4()]T X A X μμ-'=--服从 2

15(15,)(,)16p T p F p n p p

--或

6设3(,),1,2,

,10i X N i μ∑=,则10

1

()()i i i W X X μμ='=--∑服从3(10,)W ∑

7.设随机向量123(,,)X X X X '=,且协差阵4

434

9232

16-?? ?

∑=-- ? ?-?

?

,则其相关矩阵R =

2313

8211363118

6

?

?-

? ? ?-- ? ? ?- ???

8. 设122(,)

(,),X X X N μ=∑,其中212(,),ρμμμσρ

??

=∑=

???

1

1,则1212,)X X X X +-=Cov(0

9设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X ,Y 间的马氏平方距离2(,)d X Y =1()()X Y X Y -'-∑-

10设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X 与总体G 的马氏平方距离2

(,)d X G =1

()()X X μμ-'-∑-

11设随机向量123(,,)X X X X '=的相关系数矩阵通过因子分析分解为

121330.93400.1280.9340.4170.83511

00.4170.8940.02700.8940.44730.8350.4470.1032013R ??

- ????? ?

-?? ? ?

?=-=-+ ? ? ? ??? ? ? ????? ? ???

则1X 的共性方差21h = 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。

标准化变量X1的方差为1,公因子f1对X 的贡献21g =0.9342+0.4172+0.8352=1.743

12. 对应分析是将 Q 型因子分析 和 R 型因子分析 结合起来进行的统计分析方法

13 典型相关分析是研究两组变量间 相关关系 的一种多元统计方法

14. 聚类分析中,Q 型聚类是指对 样本 进行聚类,R 型聚类是指对 指标 进行聚类。

15 Spss for windows 中主成分分析由Data Reduction->Factor Analysis 过程实现。

16 设,k k U V 是第k 对典型变量则 ()1,()1

(1,2,,)k k D U D V k r ===

(,)0,(,)0()i j i j Cov U U Cov V V i j ==≠ 0(,1,2,,)

(,)0

()0()

i i j i j i r Cov U V i j j r λ≠==??

=≠??>?

17. 在多维标度分析中,当D 是欧几里得距离阵时,X 是D 的一个构图 三、简答题(答案见平时习题)

1 简述多元统计的主要内容与方法(10分)

可对比一元统计列出多元统计的主要内容与方法 (从随机变量及其分布、数字特征、四大分布(正态分布密度(1分)、)(2n χ与威沙特分布),(∑n W p (1分)、t 分布与Hoteling 2T 分布(1分)、F 分布与威尔克斯分布),,(21n n p Λ(1分))、抽样分布定理、参数估计和假设检验、统计方法(2分)

2. 请阐述距离判别法、贝叶斯判别法和费希尔判别法的基本思想和方法,比较其异同

3请阐述系统聚类法、K 均值聚类法、有序样品聚类法的基本思想和方法,比较其异同

4请阐述主成分分析和因子分析的基本思想、方法步骤和应用,比较其异同 5请阐述相应分析、多维标度法、典型相关分析和多变量的可视化分析的基本思想和应用

四、计算题

1设三维随机向量33(,2)

X

N I μ,已知

321000.510.510,010,,0.500.52000

1I A d μ??

??-????

?

?==== ? ?

? ?--????

? ?????,求Y A X d =+的分布

解:正态分布的线性组合仍为正态,故只需求

112()()1210.50.512131()10101110.50.5E Y E AX d AEX d DY D AX d ADXA ??????

=+=+=+= ? ? ?

-??????

-??

--????

?'=+==-= ? ? ?---????

?-?? 所以3((),())Y N E Y D Y

另解:

123131231312313123130.50.510.50.52(0.50.51)2(0.50.52)1(0.50.51)3(0.50.52)1

(0.50.51,0.50.52)1

X X X Y AX d X X E X X X E X X D X X X D X X COV X X X X X -++??

=+= ?

--+??

-++=--+=-++=--+=-++--+=-故3((),())Y

N E Y D Y

2. 设三维随机向量3(,)X

N μ∑,已知21113,1321122μ???

? ? ?=-∑= ? ? ? ?????

,求123

32Y X X X =-+的分布 解:正态分布的任意线性组合仍正态,故Y 的分布是一维正态分布,只需求

12322123121332()3()2()()13

()3()2()()2(3,2)2(3,)2(,2)9E Y E X E X E X D Y E X E X E X Cov X X Cov X X Cov X X =-+==++-+-=故(13,9)Y

N

3设有两个二元总

,从中分别抽取样本计算得到

,

,

假设,试用距离判别法建立判别函数

和判别规则。 样品X =(6,0)’应属于哪个总体? 解:

=

=

=

=

即样品X 属于总体

4设已知有两个正态总体12,G G ,且12122411,,6219μμ??????

==∑=∑=∑= ? ? ???????

,而其

先验概率分别为120.5,q q ==误判的代价4L(2|1),(1|2)e L e ==,试用贝叶斯判别法确定样本35X ??

= ???

属于哪个总体?

解:由Bayes 判别知,11122()

()exp[()()]()

f x W x x f x μμμ-'=

=-∑- 其中

121

122431

1()6

24229121,1148μμμμμ-????????

=+=+=?? ? ? ?

????????--????∑=-= ? ?

-????

321(1|2)

(2|1)

q C d e q C =

=

123()5x W x W W d x ????

==< ? ?????

故35X ??

= ???

属于G2总体

5表1是根据某超市对不同品牌同类产品按畅销(1)、平销(2)和滞销(3)的数据,

利用SPSS 得到的Bayes 判别函数系数表,请据此建立贝叶斯判别函数,并说明如何判断新样品(x1,x2,x3)属于哪类?

表1 Bayes 判别函数系数 解:根据判别分析的结果建立Bayes 判别函数:

Bayes 判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes 判别函数系数。由此可建立判别函数如下:

Group1: 3761.162297.121689.11843.811X X X Y ++--= Group2: 3086.172361.131707.10536.942X X X Y ++--= Group3: 3447.62960.41194.2449.173X X X Y ++--=

将新样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。

6. 对某数据资料进行因子分析,因子分析是从相关系数阵出发进行的,前两个特征根

为'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---,

'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---

(1) 取公因子个数为2,求因子载荷阵

(2) 用F1F2表示选取的公因子,12,εε为特殊因子,写出因子模型,说明因子载荷

阵中元素ij a 的统计意义

7在一项对杨树的形状研究中,测定了20株杨树树叶,每个叶片测定了四个变量

1234,,,X X X X 分别代表叶长,叶子2/3处宽,1/3处宽,1/2处宽,这四个变量的相

关系数矩阵的特征根和标准正交特征向量分别为:

'112.920(0.1485,0.5735,0.5577,0.5814)U λ==---

'

221.024(0.9544,0.0984,0.2695,0.0824)U λ==-

'

330.049(0.2516,0.7733,0.5589,0.1624)U λ==-- '440.007(0.0612,0.2519,0.5513,0.7930)U λ==--

若按一般性原则选取主成分个数,请写出主成分表达式,并计算每个主成分的方差贡献率

解:选取主成分的一般原则是特征值大于1或累积贡献率达到80%以上。据题选取两个主成分,其表达式和贡献率分别是:

1123410.14850.57350.55770.5814, 2.920y X X X X λ=---=贡献率为 2123420.95440.09840.26950.0824, 1.024y X X X X λ=-++=贡献率为

8下表是进行因子分析的结果,试根据表中信息写出每个原始变量的因子表达式,并分析是否需要对因子载荷旋转。

Component Matrix

Component 1 2

3

X1 .969 -1.084E-02 .205

X2 .911 .321 -.102

X3 .847 -.120 .323

X4 .941 .281 -2.693E-02

X5 .899 .215 -1.963E-02

X6 -.313 .839 .305

X7 -.666 6.280E-02 .679

X8

.575

-.580

.367

Extraction Method: Principal Component Analysis.

a 3 components extracted.

解:由表

F1 F2 F3

X1 .969 -1.084E-02 .205

X2 .911 .321 -.102

X3 .847 -.120 .323

X4 .941 .281 -2.693E-02

X5 .899 .215 -1.963E-02

X6 -.313 .839 .305

X7 -.666 6.280E-02 .679

X8

.575 -.580

.367 知

X1=

.969F1

-1.084E-02F2+

.205 F3

可以不做因子旋转,因为载荷系数基本处于两极分化状态,第一个公因子在指标X1 ,X2,X3,X4,X5,X7,X8有较大载荷,F2只在X6和X8上有较大载荷,F3只在X7上有较大载荷。

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

统计学模拟试卷和答案 (1)

北京语言大学网络教育学院 《统计学》模拟试卷一 注意: 1.试卷保密,考生不得将试卷带出考场或撕页,否则成绩作废。请监考老师负责监督。 2.请各位考生注意考试纪律,考试作弊全部成绩以零分计算。 3.本试卷满分100分,答题时间为90分钟。 4.本试卷分为试题卷和答题卷,所有答案必须答在答题卷上,答在试题卷上不给分。 一、【单项选择题】(本大题共10小题,每小题2分,共20分)在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在答题卷相应题号处。 1.若正态总体,方差2σ已知,则总体均值μ的区间估计所采用的统计量为( )。 2.利用最小二乘法配合趋势线方 程的条件是:( )。 3.有10位学生, 其中8位男生,2位女生。从中一次 随机抽选4人,则恰巧其中有2位女生的概率为( )。 4.假设检验中的显着性水平越高, 对同一问题( )。 [A] 临界点就越小 [B] 所需样本量就越大 [C] 就越有可能接受H [D] 就越小 5.各实际观测值i y 与回归值?i y 的离差平方和称为( )。 [A] 回归平方和 [B] 剩余平方和 x x x x [A] ?()0i i y y -=∑ [B] 2 ?()i i y y -∑最 小 [C] 0t =∑ [D] A 且B [A] 4221028()()10 10 C [B] 2228()()10 10 [C] 224 8210/C C C [D]

[C] 总离差平方和 [D] 估计标准误差 6.在对一个4×4列联表进行2χ检验时,2χ 分布的自由度是( )。 7.我国目前的零售价格指数的特 点是( )。 [A] 对所选商品使用的价格是该商品的市价 [B] 对所选商品使用的价格是该商品的议价 [C] 是根据全部零售商品计算而得 [D] 是采用加权算术平均形式计算的 8.在回归分析中,F 检验主要是用来进行( )检验。 [A] 回归方程的显着性 [B] 相关系数的显着性 [C] 回归系数的显着性 [D] 估计标准误差的显着性 9.样本方差和总体方差在计算上的区别是( )。 [A] 只有样本方差才使用了全部数据 [B] 样本方差是用数据个数去除离差平方和 [C] 只有总体方差才使用了全部数据 [D] 总体方差是用数据个数去除离差平方和 10.2~(,12)X N μ,则(||36)P x μ-≤=( )。 二、【多项选择题】(本大题共 10小题,每小题3分,共30分)在每小题列出的四个选项中至少有两个选项是符合题目要求的,请将正确选项前的字母填在答题卷相应题号处。多选、少选、错选均无分。 11.研究促销方式对销售量的影响,促销方式共有三个水平,则这种方差分析是( )。 [A] 单因素方差分析 [B] 双因素方差分析 [A] 16 [B] 12 [C] 9 [D] 2 [A] [B] [C] [D]

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

统计学模拟试题答案

注意:正式考试的计算题除与下述题目一样外,还包括指数分析中的双因素分析,认真看课本的例题 四、计算题(共3题,共40分) 1、(10分)甲、乙两单位人数及月工资资料如下: 根据上表资料: (1)比较甲乙两单位两个单位哪个单位工资水平高; (2) 说明哪个单位平均工资更具代表性 甲、乙两单位人数及月工资资料如下: 根据上表资料: (1)比较甲乙两单位两个单位哪个单位工资水平高; (2) 说明哪个单位平均工资更具代表性 解: (1)人) 元甲 /(1710== ∑∑f Mf x

人) 元乙 /(1832== ∑∑f Mf x 以上计算可知,乙单位工资水平高; (2) %1.10%100=?=x S V 甲σ %2.10%100=?= x S V s 乙 以上计算可知甲单位平均工资的标准差系数小于乙单位,说明甲单位平均工资更具有代表性。 2、(15分)某高校进行一次英语测验,为了解考试情况,随机抽样抽选1%的学生进行调查,所得资料如下: 试以95.45%的可靠性估计(相应的概率度请在教材上查阅): (1)该校学生英语考试的平均成绩的范围; (2)成绩在80分以上的学生所占的比重的范围。 解:(1),100=n )(761 1 分== ∑ ∑==k i i k i i i f f x x ,)(119)(21 1 22分=-= ∑∑==k i i k i i i f f x x s ,用22σ代替s 有: )(09.1)1(2 分=- = N n n x σμ,)(18.2分==?x x t μ,区间范围:18.276±=?±x x 。 (2)%441 == n n p ,用样本比重代替总体比重,%94.4)1()1(=--=N n n P P p μ。 %88.9==?p p t μ,区间范围:%88.9%44±=?±p p 。 3、(15分)4.某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(克)如下: ) /(186.881 )M (2i 人元乙=--= ∑n f x S i )/(173.071 )M (2i 人元甲=--=∑n f x S i

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

统计学模拟试题及解答

统计学模拟试题及解答 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

模拟试题一 一. 单项选择题(每小题2分,共20分) 1. 一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均花费是200 元,他们选择在网上购物的主要原因是“价格便宜”。这里的参数是( ) A. 1000个消费者 B. 所有在网上购物的消费者 C. 所有在网上购物的消费者的平均花费额 D. 1000个消费者的平均花费金额 2. 为了调查某校学生的购书费用支出,从男生中抽取60名学生调查,从女生中抽取40名学 生调查,这种抽样方法属于( ) A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样 3. 某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分 布,可以判断考试分数在70到90分之间的学生大约占( ) A. 95% B. 89% C. 68% D. 99% 4. 已知总体的均值为50,标准差为8,从该总体中随机抽取容量为64的样本,则样本均值 的数学期望和抽样分布的标准误差分别为( ) A. 50,8 B. 50,1 C. 50,4 D. 8,8 5. 根据某班学生考试成绩的一个样本,用95%的置信水平构造的该班学生平均考试分数的置 信区间为75分~85分。全班学生的平均分数( ) A .肯定在这一区间内 B .有95%的可能性在这一区间内 C .有5%的可能性在这一区间内 D .要么在这一区间内,要么不在这一区间内 6. 一项研究发现,2000年新购买小汽车的人中有40%是女性,在2005年所作的一项调查 中,随机抽取120个新车主中有57人为女性,在05.0=α的显着性水平下,检验2005年新车主中女性的比例是否有显着增加,建立的原假设和备择假设为( ) A .%40:,%40:10≠=ππH H B .%40:,%40:10<≥ππH H C .%40:,%40:10>≤ππH H D .%40:,%40:10≥<ππH H 7. 在回归分析中,因变量的预测区间估计是指( ) A. 对于自变量x 的一个给定值0x ,求出因变量y 的平均值的区间 B. 对于自变量x 的一个给定值0x ,求出因变量y 的个别值的区间 C. 对于因变量y 的一个给定值0y ,求出自变量x 的平均值的区间 D. 对于因变量y 的一个给定值0y ,求出自变量x 的平均值的区间 8. 在多元线性回归分析中,如果F 检验表明线性关系显着,则意味着( ) A. 在多个自变量中至少有一个自变量与因变量之间的线性相关系着 B. 所有的自变量与因变量之间的线性关系都显着 C. 在多个自变量中至少有一个自变量与因变量之间的线性关系不显着 D. 所有的自变量与因变量之间的线性关系都不显着 9. 如果时间序列的逐期观察值按一定的增长率增长或衰减,则适合的预测模型是( ) A. 移动平均模型 B. 指数平滑模型 C. 线性模型 D. 指数模型 10. 设p 为商品价格,q 销售量,则指数∑∑001 0q p q p 的实际意义是综合反映( ) A. 商品销售额的变动程度 B. 商品价格变动对销售额影响程度 C. 商品销售量变动对销售额影响程度 D. 商品价格和销售量变动对销售额影响程度

应用统计学模拟题答案

一、判断题(判断对错并说明原因,每题5分,共25分) (1) 复相关系数(复判定系数的开方)表示被解释变量与所有解释变量间的相关程度,偏回归系数表 示被解释变量与多个解释变量中的其中一个的相关程度。 F ,偏回归系数不反映相关程度,而是净影响。 (2) 当原始变量数量级差异较大时,用相关系数矩阵做主成分分析较好。 T ,因为原始变量数量级差异较大时,对标准化变量作主成分分析较好。 (3) 在自相关出现时,通常计算的预测值的方差和标准误就不是有效的。 T ,因为存在自相关时,预测值的方差和标准误不再是真实方差的无偏估计 (4) 一研究者对试验数据进行方差分析。他担心协变量z 可能对数据产生影响,因此对响应变量y 和z 进行相关分析,结果发现r(y,z)=0,这表明不需要作协方差分析。 F ,r(y,z)=0,仅表明z 对组间变异影响不大,但是还可能影响组内变异。 (5) 主成分分析和因子分析都要求原始变量间有较强的相关性,且主成分和公因子都能写成原始变量 的线性组合。 F ,主成分分析和因子分析都要求原始变量间有较强的相关性,但是主成分可以写成原始变量的线性组合,潜在因子不能。 二、(20分)根据美国1961年第一季度至1977年第二季度的数据,我们得到了如下的咖啡需求函数的回 归方程: ) 37.0()03.6() 74.3()55.0() 23.1() 14.2(: t 0097D .0-16D .0096D .0P 15ln .051lnI .017lnP .028.1Q ?ln 3t 2t 1t t t t t ------'++-= 其中,Q=人均咖啡消费量(磅);P=咖啡价格(以1967年价格为不变价格);I=人均可支配收入(千 元,以1967年价格为不变价格);P’=茶的价格(1/4磅,以1967年价格为不变价格);D1=1:第一季度;D2=1:第二季度;D3=1:第三季度。 请回答以下问题: (1) 模型中P t 和I t 的偏回归系数的经济含义是什么?咖啡的价格弹性和收入弹性:价格增加一个百分点,咖啡需求降低0.17个百分点;收入增加一个百分点,咖啡需求增加0.51个百分点 (2) 咖啡和茶是互补品还是替代品?为什么?t p ’=0.55<1, 不显著,∴茶和咖啡是无关品 (3) 你如何解释模型中虚拟变量的作用?反映咖啡需求是否存在季节效应 (4) 咖啡的需求是否存在季节效应?做t 检验:D 1和D 2的t 值>3,显著,D 3不显著,说明第一季度需求比第四季度低9.6%,第二季度咖啡需求比第四季度咖啡需求低16%,这两个季度差异显著,第三季度与第四季度需求差异不显著。 三、测量模型:5 259.054278.043171.032 148.021182.01e ksi X e ksi X e ksi X e ksi X e ksi X +=+=+=+=+=, 2 88.02175.01epsilon eta Y epsilon eta Y +=+=,φ12=0.26 结构模型:zeta ksi ksi eta +-=229.0143.0 (1) 计算X1,X2,X3,X4,X5的变量共同度:0.67, 0.23, 0.50, 0.61, 0.35 (2) eta 的测量可靠性较高,因为两个因子载荷都大于0.7,ρ=0.8 四、某城市环保监测站对14个监测点采集大气样品,测量大气中二氧化硫、氮氧化物和飘尘的含量,该市城区按照大气污染程度分为三类:第一类为严重污染地区,第二类为一般污染地区,第三类为基本没有污染的地区。根据这些数据用SPSS 作判别分析,得到输出结果如下,试解释各表。该城市另有两个单位测定了其所在地大气污染物含量(见表1),试判断这两个单位的污染情况属于哪一类。

统计学 模拟试卷及答案

统计学试卷与答案 考试形式:闭卷 班级:姓名:学号: 一、单项选择题(在每小题的四个备选答案中,选出一个正确答案,并将正确答案的序号填在题干的括号内。每小题1分,共15分) 1. 工业企业数、钢产量、电力消耗量、商业网点数四个指标中属于时点指标的是( B )。 A、电力消耗量、商业网点数 B、工业企业数、商业网点数 C、工业企业数、钢产量 D、钢产量、电力消耗量 2.指标是说明总体特征的,标志是说明总体单位特征的,所以( D )。 A、标志和指标都是可以用数值表示的 B、只有指标才可以用数值表示 C、标志和指标之间的关系是固定不变的 D、标志和指标之间的关系是可以变化的 3.下列调查中,调查单位与填报单位一致的是( C )。 A、企业设备调查 B、农村耕地调查 C、工业企业现状调查 D、人口普查 4.下列情况的统计调查属于一次性调查的是( D )。 A、单位产品成本变动 B、商品购销季节变化 C、职工家庭收入与支出的变化 D、全国实有耕地面积 5.统计报表报送周期不同,报表所反映的指标项目有不同的详细程度。一般而言,周期越短,则报告的指标项目( B )。 A、越多 B、越少 C、可能多也可能少 D、是固定的 6.随机重复抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知从乙企业中抽取工人数比从甲企业中抽取工人数多3倍,则抽样平均误差( D )。 A、甲企业较大 B、乙企业较大 C、不能作出结论 D、相同7.计算向上累计次数及向上累计比率时,本组累计数的意义是本组( A )。 A、上限以下的累计次数或比率 B、上限以上的累计次数或比率 C、下限以上的累计次数或比率 D、下限以下的累计次数或比率 8.某连续型变量数列,其末组为开口组,下限为600,又知其相邻组的组中值为560,则末组的组中值为( B )。 A、580 B、640 C、620 D、660 9.当抽样单位数分别增加3倍和2.5倍时,随机重复抽样平均误差分别是原来的( B )。 A、90%和81.6% B、50%和53.5% C、53.5%和81.6% D、90%和50% 10.某产品单位成本计划规定比基期下降3%,实际比基期下降3.5%,单位成本计划完成程度为( B )。 A、85.7% B、99.5% C、100.5% D、116.7% 11.分配数列各组标志值都增加2倍,每组频数均减少1/2,中位数( C )。 A、不变 B、减少1/2 C、增加2倍 D、无法确定 12.设原时间数列共26项数据,经过5项移动平均以后所得的移动平均数的项数是( B )。 A、20项 B、22项 C、4项 D、5项 13.某种蔬菜价格2月份比1月份上升5%,3月份比2月份下降5%,则3月份该种蔬菜价格与1月份相比( B )。 A、不变 B、降低0.25% C、提高0.25% D、不能确定 14.下列属于相关现象的是( B )。 A、利息与利率 B、居民收入与储蓄存款 C、电视机销售量与销售额 D、圆的面积与半径 15.如果p表示产品单位成本,q表示产品产量,则∑ ∑ 1 1 p q p q =105%表示( C )。 A、由于多种产品产量的变动而使总成本报告期比基期上升5% B、由于多种产品单位成本的变动而使总成本报告期比基期上升5% C、由于多种产品产量和单位成本的综合变动而使总成本报告期比基期上升5% D、由于总成本变动使产品产量和单位成本报告期比基期上升5% 二、多项选择题(在每小题的五个备选答案中,选出二至五个正确的答案,并将正确答案的序号分别填在题干的括号内,多选、少选、错选均不得分。每小题2分,共10分) 1.下列属于强度相对指标的是( BCD )。 A、工人劳动生产率 B、人均国民收入 C、人均粮食产量 D、人口死亡率 E、某工厂人均工资 命题人或命题小组负责人签名:所(室、教研部)负责人签名:分院(部)领导签名:

统计学模拟题答案PDF.pdf

一、 选择题 1. 调查某疫苗在儿童中接种后的预防效果,在某地全部 1000 名易感儿童中进 行接种,经一定时间后从中随机抽取 300名儿童做效果测定,得阳性人数228 名。若要研究该疫苗在该地儿童中的接种效果,则 A. 该研究的样本是 1000 名易感儿童 B. 该研究的样本是 228 名阳性儿童 C. 该研究的总体是 300 名易感儿童 D . 该研究的总体是 1000 名易感儿童 E. 该研究的总体是 228 名阳性儿童 2. 各观察值均加(或减)同一数后: A 、均数不变,标准差改变 B 、均数改变,标准差不变 C 、两者均不变 D 、两者均改变 E 、以上均不对 3. 比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是: A 、全距 B. 标准差 C. 方差 D . 变异系数 E 、极差 4. 统计学中的小概率事件,下面说法正确的是: A .反复多次观察,绝对不发生的事件 B .在一次观察中,可以认为不会发生的事件 C .发生概率小于0.01的事件 D .发生概率小于0.001的事件 E .发生概率小于0.1的事件 5. 均数与标准差之间的关系是: A .标准差越大,均数代表性越大 B .标准差越小,均数代表性越小 C .均数越大,标准差越小 D .均数越大,标准差越大 E .标准差越小,均数代表性越大 6. 横轴上,标准正态曲线下从0到1.96的面积为: A.95% B.45% C.97.5% D .47.5% E.49.5% 7. 当第二类错误β由0.2变到0.3时,则第一类错误α是: A.增大 B .减小 C.不确定 D.不变化 E.以上都不对 8. 各种概率抽样方法按抽样误差按由大到小顺序排列,其顺序为 A .整群抽样、单纯随机抽样、系统抽样、分层抽样 B.整群抽样、系统抽样、单纯随机抽样、分层抽样 C.分层抽样、单纯随机抽样、整群抽样、系统抽样 D.系统抽样、单纯随机抽样、整群抽样、分层抽样 E.系统抽样、整群抽样、分层抽样、单纯随机抽样 9. 假设检验中的第二类错误是指 A.拒绝了实际上成立的0H B.不拒绝实际上成立的0H C.拒绝了实际上不成立的1H D .不拒绝实际上不成立的0H

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

人力资源统计学模拟试卷和答案

北京语言大学网络教育学院 《人力资源统计学》模拟试卷一 注意: 1.试卷保密,考生不得将试卷带出考场或撕页,否则成绩作废。请监考老师负责监督。2.请各位考生注意考试纪律,考试作弊全部成绩以零分计算。 3.本试卷满分100分,答题时间为90分钟。 4.本试卷分为试题卷和答题卷,所有答案必须答在答题卷上,答在试题卷上不给分。 一、单项选择题:(本大题共10小题,每小题3分,共30分)在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 1、国民经济活动的基本单位是()。 A、科研机构 B、居民家庭 C、企业 D、事业单位 2、决定企业劳动报酬水平的指标是()。 A、劳动效率 B、劳动生产率 C、劳动效益 D、工资利润率 3、出勤率反映的是员工的( )。 A、劳动积极性 B、文化水平 C、道德水平 D、职业技能 4、下列不属于现场培训的是()。 A、技术表演示范 B、师傅带学徒 C、技术成人大中专班 D、岗位练兵 5、工业企业在一定时期内所生产的产品实物总量与相应的活劳动消耗是之间的比值,称为()。 A、劳动生产率的价值量指标 B、劳动效益 C、劳动生产率的实物量指标

D、单位产品劳动生产率 6、考勤卡属于企业人力资源管理统计的()。 A、统计台账 B、统计报表 C、原始记录 D、统计年表 7、下列属于劳动保护措施的是()。 A、辅助房屋及设施 B、企业新建列入固定资产投资的安全措施 C、公共浴室 D、修养所 8、下列计算制度内实际工作时间的公式正确的是( )。 A、制度内实际工作时间=制度工作时间-出勤时间-停工时间-非生产时间 B、制度内实际工作时间=制度工作时间-停工时间-非生产时间+停工被利用时间 C、制度内实际工作时间=出勤时间-停工时间-非生产时间+停工被利用时间 D、制度内实际工作时间=制度工作时间+缺勤时间-非生产时间 9、下列不属于企业社会保险统计范围的指标是( )。 A、企业职工失业保险统计 B、企业职工医疗保险统计 C、企业职工退休养老保险统计 D、集体福利 10、下列不属于集体福利事业的补贴围的是( )。 A、消毒室 B、公共浴室 C、理发室 D、哺乳室 二、多项选择题(本大题共5小题,每小题3分,共15分)在每小题列出的五个备选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选、少选或未选均无分。 11、企业福利费支出包括( )。 A、集体福利事业补贴 B、职工文娱体育宣传费 C、集体福利设施费 D、职工生活困难补助费 E、职工探亲路费补贴 12、企业工人的分组方法有()。 A、按与生产作业的关系程度 B、按劳动技能水平高低 C、按生产技术水平高低

统计学期末考试试题(含答案)..

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是(C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有(B)个变量 A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意D盲目 7.总体标准差未知时总体均值的假设检验要用到(A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括(ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有(BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有(ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中(BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是填报 单位D、每台设备是调查单位E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有(ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错) 5、区间估计就是直接用样本统计量代表总体参数。(错) 6、在假设检验中,方差已知的正态总体均值的检验要计算Z统计量。(错)

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A 卷 判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判另0法 Q 型 聚类分析是对样品的分类,R 型聚类分析是对变量」i 勺分类。 主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 聚类分析包括系统聚类法、模糊聚类分析、K ?均值聚类分析 分组 数据的Logistic 回归存在 异方差性,需要采用加权最小二乘估计 误差项的路径系数可山多元回归的决定系数算岀,他们之间的关系为 主成分分析是利用軽的思想,在损失很少的信息前提下,把多个指标转化 为儿个综合指标的多元统计方法。 在进行主成分分析时,我们认为所取的m (m

最新统计学模拟试题(带答案)

《统计学》试题库 知识点一:统计基本理论和基本概念 一、填空题 1、统计是、和的统一体, 是统计工作的成果,是统计工作的经验总结和理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量, 职工人数、企业数属于变量;变量按分,可分为确定性变量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为 和;按在各个单位上的具体表现是否相同分为和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的 变成,那么原来的指标就相应地变成标志,两者变动方向相同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。 12、以绝对数形式表示的指标都是数量指标,以相对数 或平均数表示的指标都是质量指标。 13、构成统计总体的条件是各单位的差异性。 14、变异是指各种标志或各种指标之间的名称的差异。 三、单项选择题 1、统计认识过程是() A、从质到量 B、从量到质 C、从质到量,再到质和量的结合 D、从总体到个体 2、某班5名同学的某门课的成绩分别为60、70、75、 80、85,这5个数是() A、指标 B、标志 C、变量 D、变量值 3、调查某市职工家庭的生活状况时,统计总体是() A、该市全部职工家庭 B、该市每个职工家庭 C、该市全部职工 D、该市职工家庭户数 4、调查某班50名学生的学习情况,则总体单位是() A、该班50名学生 B、该班每一名学生 C、该班50名学生的学习情况 D、该班每一名学生的学习情况 5、构成统计总体的基础和前提是() A、综合性 B、同质性 C、大量性 D、变异性 6、统计学研究对象的最基本特征是() A、总体性 B、数量性 C、具体性 D、社会性 7、某企业职工张三的月工资额为500元,则“工资”是() A、品质标志 B、数量标志 C、数量指标 D、质量指标 8、象“性别”、“年龄”这样的概念,可能用来() A、表示总体特征 B、表示个体特征 C、作为标志使用 D、作为指标使用 9、调查某校学生的学习、生活情况,学生“一天中用于学习的时间”是() A、标志 B、指标 C、变异 D、变量 10、一个统计总体() A、只能有一个标志 B、只能有一个指标 C、可以有多个标志 D、可以有多个指标 11、统计对总体数量的认识是() A、从总体到单位 B、从单位到总体 C、从定量到定性 D、以上都对 12、变量是可变的() A、品质标志 B、数量标志 C、数量标志和指标 D、质量指标 13、研究某企业职工文化程度时,职工总人数是() A、数量标志 B、数量指标 C、变量 D、质量指标 14、某银行的某年末的储蓄存款余额() A、一定是统计指标 B、一定是数量标志 C、可能是统计指标,也可能是数量标志 D、既不是统计指标,也不是数量标志 15、年龄是() A、变量值 B、离散型变量

多元统计分析模拟试题

多元统计分析模拟试题 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e=√1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

相关文档
最新文档