多元统计分析-第三章 多元正态分布
第三章 多元正态分布
多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念
多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量
随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数
随机变量X 的概率分布函数,简称为分布函数,其定义为:
)()(x X P x F ≤=
随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布
若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,
…,记为
k k p x X P ==)(( ,2,1=k )
称k k p x X
P ==)(( ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)
0≥k p , ,2,1=k
(2)11
=∑∞
=k k
p
2、连续型随机变量的概率分布
若随机变量X 的分布函数可以表示为
dt t f x F x
?∞-=)()(
对一切R x ∈都成立,则称X 为连续型随机变量,称
)(x f 为X 的概率分布密度函数,简
称为概率密度或密度函数。
连续型随机变量的概率密度函数具有两个性质:
(1)
0)(≥x f
(2)1)(=?∞
∞
-dx x f
二、随机变量的数字特征
(一)离散型随机变量的数字特征
若X 为离散型随机变量,其概率分布为),2,1()( ===k p x X P k k ,则X 的数学
期望(或称均值)和方差分别定义为:
∑∞
===1
)(k k k p x X E μ
[]()∑∞
=-=-===1
22
2
)()()(k k k p x X E X E X Var X D μσ
(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为
)(x f ,则X 的数学期望和方差分别定义为:
?∞
∞-==)()()(x d x xf X E μ
()dx x f x X Var X D )()()(22?∞
∞--===μσ
方差的一个简便计算公式为222
)]([)(X E X E -=σ
(三)数学期望的数学性质
1、设c 是常数,则c c E =)(
2、设X 是随机变量,c 是常数,则)()(X cE cX E =
3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y X
E +=+
4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E = (四)方差的数学性质 1、设c 是常数,则0)(=c D
2、设X 是随机变量,c 是常数,则)()(2
X D c
cX D =
3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+
三、一些重要的一元分布 1、二项分布
重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:
k
n k p p k n k X P --???
? ??==)1()(, n k ;,2,1,0 = 其中,p q p -=<<
1,10,n 为自然数,称X 服从二项分布。二项分布中np X E =)(,
方差为)1()(2
p np X Var -==σ。
2、超几何分布
若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:
???
? ?????? ??--???? ??=
=n N k n M N k M k X P )(,),min(,,2,1,0M n k =
则称X 服从超几何分布。当N 很大,n 相对较少时,超几何分布近似于二项分布。
3、泊松分布
若离散型随机变量X 的分布律为:
!
)(k e k X P k λλ-=
=, ,2,1,0=k
其中0>λ
,则称X 服从泊松分布。泊松分布中λ=)(X E ,λσ==)(2X Var 。在
np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。
4、正态分布
若连续型随机变量X 的概率密度函数为:
?
?????--=2
22)(exp 21
)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X
的数学
期望和方差。
当0=μ
,12=σ时,随机变量X 的分布为标准正态分布。当n 很大,p 和q 都不太
大时,二项分布可用正态分布近似计算。
5、卡方分布
设随机变量n X X X ,,,21 皆服从)1,0(N ,且相互独立,则其平方和∑=n
i i X 12
所服从的
分布称为卡方分布,记为:)(~2
n X χ,n 为自由度,表示平方和∑=n
i i X 1
2中独立随机变量
的个数。
6、t 分布
设随机变量)1,0(~N X
,)(~2n Y χ,且X 与Y 相互独立,则随机变量n
Y X t =
的分布称为t 分布。记为)(~n t t ,n 为自由度。随着自由度n 趋向于无穷大,t 分布以标
准正态分布为极限。
7、F 分布
设随机变量)(~2
n X
χ
,)(~2
m Y χ
,且X 与Y 相互独立,则随机变量m
Y n X F =
服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。
第二节 多元统计分析中的基本概念
在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。
一、随机向量及概率分布 (一)随机向量
设有p 个随机变量p X X X ,,,21 ,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为()'
=p X X X X ,,,21 。
在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。
(二)随机向量的概率分布 设()'=p
X X X X ,,,21 是p 维随机向量,它的多元概率分布函数定义为:
),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤== ,记为)(~x F X ,其
中:()p p R x x x x
∈=,,,21 ,p R 表示p 维空间。
1、离散型随机向量的概率分布
定义3.1:若()'
=p X X X X ,,,21 是p 维随机向量,若存在有限个或可列个p 维数向
量,,,21 x x 记k k p x X P ==)(( ,2,1=k )
,且满足121=++ p p ,则称X 为离散型随机向量,并称k k p x X
P ==)(( ,2,1=k )为离散型随机向量X 的概率分布。
2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21 =,若存在一个非负函数()p x x x f ,,,21 ,
使得
()()p x
x
p p dt dt dt t t t f x x x F x F p
2121211,,,,,,)(??∞-∞-==
对一切()p p R x x x x
∈= ,,21都成立,则称X
为连续型随机向量,称
()
p x x x f ,,,21 为分布密度函数。
一个p 维变量的函数()
p x x x f ,,,21 能作为p
R 中某个随机向量的分布密度函数,当
且仅当
(1)
0),,(21≥p x x x f ,()p p R x x x ∈'?,,,21
(2)()??∞
∞-∞
∞
-=1,,,2121p p dx dx dx x x x f
例3.1:试证函数
???=+-0
),()(2121x x e x x f , 其它,0
021≥≥x x
为随机向量()'
=21,X X X
的密度函数。
证:只要验证函数满足密度函数的两个条件即可。 (1) 显然,0),(21≥x x f
(2)()????∞∞
+-∞
∞-∞
∞
-=0021)(212121,dx dx e dx dx x x f x x
??∞∞+-=0201)
(][21dx dx e x x
?∞-=
022dx e x
∞--=0
2x e =1
二、边际分布 设()'=p
X X X X ,,,21 是p 维随机向量,由它的)(p q <个分量组成的子向量
),,,(21)('=q i i i i X X X X 的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联
合分布。通过变换X 中各分量的次序,总可假定)
1(X
正好是X 的前q 个分量,其余q
p -
个分量为)
2(X
,即??
?
???=)2()1(X X X ,相应的取值也可以分为两部分,即??????=)2()1(x x x ,当X 的
分布函数是),,,()(21p x x x F x F =
时,)1(X 的分布函数即边际函数为:
),,,()(21)1(q x x x F x F =
)
,,,(2211q q x X x X x X P ≤≤≤=
),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ),,,,,,(21∞∞= q x x x F
p p x x dx dx x x f q
11),(1????∞-∞-∞∞-∞
∞-=
q x x p q p dx dx dx dx x x f q 1111),(????∞-∞-+∞∞-∞
∞-??
????=
所以)
1(X
的边际密度为
p q p q dx dx x x f x x x f 1121)1(),(),,,(+∞∞
-∞
∞
-??=
例3.2:对例1中的()'
=21,X X X 求边际密度函数。
解:
()?∞
∞-=2211,)(dx x x f x f
?????==?∞-+-,
002)(1
21x x x e dx e , 其它01≥x
()?∞
∞-=1212,)(dx x x f x f
?????==?∞-+-,
001)(2
21x x x e dx e , 其它02≥x
三、多元变量的独立性
定义3.3:若p 个随机变量p X X X ,,,21 的联合分布等于各自边际分布的乘积,称p 个随机变量p X X X ,,,21 相互独立。
由p X X X ,,,21 相互独立可以推知任何i X 与j X (j i ≠)独立,但反之不真。
例3.3:例2中的1X 和2X 是否相互独立?
解:???=+-0
),()(2121x x e x x f , 其它,0
021≥≥x x
???==-∞
∞
-?
0),()(112211x x e dx x x f x f ,其它0
1≥x
???==-∞
∞
-?
),()(221212x x e dx x x f x f ,其它0
2≥x
所以,
)()(),(212121x f x f x x f x x =,故1X 和2X 相互独立。
四、随机向量的数字特征 (一)随机向量的数学期望 定义 3.4:设()'=p
X X X X ,,,21 ,若),2,1)((p i X E i
=存在且有限,则称
()[]
'
=)(,),(),(21p X E X E X E X E 为X 的均值向量或数学期望,或者用μ表示()X E ,用i μ表示)(i X E 。
均值向量有以下性质: 1、)()(X AE AX E =
2、B X AE AXB E )()(=
3、)()()(Y BE X AE BY AX
E +=+
其中:X 、Y 为随机向量,A 、B 为适合运算的常数矩阵。 (二)随机向量X 的协方差阵
定义3.5:设()'
=p X X X X ,,,21 ,称
))((),()('--==EX X EX X E X X Cov X D
??
????
?
????
???=),()
,(),(),()
,(),(),(),(),(2122
21212111p p p p p p X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov
为X 的协方差阵。通常将)(X D 记为∑,
),(j
i X X Cov 记为ij σ,从而有()p
p ij ?=∑σ。
(三)随机向量X 和Y 的协方差阵
设()'
=p X X X X ,,,21 ,(
)'
=q Y Y Y Y ,,,21 ,称
))((),('--=EY Y EX X E Y X Cov
??
????
?????
???=),()
,(),(),()
,(),(),(),(),(2122
21212111q p p p q q Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov
为X 和Y 的协方差阵
当Y X =时,即为)(X D 。 协差阵有如下数学性质:
1、0)(≥X D ,即X 的协差阵为非负定阵。
2、对于常数向量a ,有)()(X D a X
D =+
3、设A 为常数矩阵,则A X AD AX D '=)()(
4、B Y X ACov BY AX Cov '=),(),(
其中,B A a ,,为适合运算的常数向量和矩阵。 (四)随机向量X 的相关系数矩阵
若随机向量()'
=p X X X X ,,,21 的协方差阵存在,且每个分量的方差都大于零,则随机向量的相关阵为
()p p ij j i r X X corr R ?==),(
其中:
jj
ii ij j i j i ij X D X D X X Cov r σσσ=
=
)
()(),( ,p j i ,,2,1, =
ij r 为i X 与j X 之间的相关系数(线性)
。若0),(=j i X X Cov ,则i X 与j X 不相关。 (五)协方差阵和相关系数矩阵的关系
设标准离差阵为???
?
???
?
?
?=PP V σσ0011
2
1
=),,,(2211PP diag σσσ
则有
在统计分析时为了克服由于指标的量纲不同对统计分析的影响,往往在使用某种统计分析方法之前,对每个指标进行标准差标准化处理,处理后的指标均值为0,方差为1,这时,随机向量的协方差矩阵和其相关系数矩阵完全相同。
例3.4:2003年河南省31家上市公司年报数据中的相应资料如表3-1: 表3-1 2003年河南省31家上市公司的有关数据
资料来源:《金融界》数据中心,网址为https://www.360docs.net/doc/7218858781.html,
根据资料计算:均值向量、协方差矩阵、相关系数矩阵、并验证协方差矩阵和相关系数矩阵的关系。
解:均值向量为: ()'
=440.10055900.15350059.15654017.31101μ
协方差矩阵为:?
?
???
??
??
???++++++++++++++++=∑083.67E 085.06E 085.11E 085.92E 085.06E 087.17E 087.25E 088.77E 085.11E 087.25E 087.39E 08
8.99E 085.92E 088.77E 088.99E 091.25E 相关系数矩阵:?????
????
???=1986.0982.0873.0986.01996.0925.0982.0996.01934.0873.0925.0934.01
R 标准离差阵:?
????
????
???=75.1916337.267731.2718525.3539421
V
?????
????
???=1986.0982.0873.0986.01996.0925.0982.0996.01934.0873.0925.0934.01
第三节 多元正态分布的定义及基本性质
多元正态分布是一元正态分布的推广,多元分析的主要理论都是直接或间接建立在多元正态总体基础上的,多元正态分布是多元分析的基础。此外,在实际中遇到的随机向量常常服从正态分布或近似服从正态分布。因此,现实世界许多实际问题的解决办法都是以总体服从正态分布或近似服从正态分布为前提的。
一、 多元正态分布的定义
一元正态分布的密度函数?
?????--=2
22)(exp 21
)(σμσπx x f (0>σ),可以改写为()()
()??
????-'
--=
-μσμσπx x x f 1
2
2
1exp 21)(,由于x 、μ均为一维的数字,转置与
否都相同。将一元正态分布的概率密度函数推广,可得出多元正态分布的定义。
定义3.6:若p 维随机向量(
)'
=p X X X X ,,,21 的密度函数为:
?
??
???-∑'--∑
=
-)()(21exp 21),,,(12
121μμπ
x x x x x f p
p (0>∑)
其中:()'
=p x x x x
,,,21 ,μ是p 维均值向量,0>∑,则称()'=p X X X X ,,,21 服
从p 元正态分布 ,记为),(~∑μp N X
。
当p 等于1时,p 元正态分布变成一元正态分布,也就是说一元正态分布是p 元正态分布的一个特例。
上述定义实际上是在
0≠∑时给出的,当0=∑,()'=p X X X X ,,,21 不存在通常
意义下的概率密度。当0=∑时,也有正态分布的定义。
定义3.7:独立标准正态变量p X X X ,,,21 的有限线性组合
111??+????
???
???=?????
?????=m p p m m X X A Y Y Y μ
称为m 维正态随机向量,记为),(~∑μm N Y ,其中A A '=∑,注意A A '=∑的分解一
般不是唯一的。
当
2=p 时,利用参数11)(μ=X E 、22)(μ=X E 、111)(σ=X D 、222)(σ=X D 、
22
111212σσσρ=
可将二元正态分布的密度函数写成:
这是因为???
???=∑2221
1211σσσσ
所以,)1(2
1222112122211ρσσσσσ-=-=∑
??
?
???---=
∑-112112222
12
221111
σσσσσσσ ???
?
????---=1122
1112221112222122211)1(1
σσσρσσρσρσσ
而
[]??
????--????????-----=
-∑'--2211112211122211122222112
1222111)1(1
)()(μμσσσρσσρσμμρσσμμx x x x x x
)1()())((2)(2
12
221111
222221122111222211ρσσσμμμσσρσμ--+----=
x x x x
???
????????? ??-+???? ??-???? ??--???? ??--=2
2222222211111221111212211σμσμσμρσμρx x x x 这与概率统计中的结果是一致的。
二、多元正态变量的基本性质
在讨论多元统计分析的理论和方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布的处理变得容易一些。
1、若随机向量()),(~,,,21∑'
=μP p N X X X X ,∑是对角阵,
则p X X X ,,,21 相互独立。
2、设()),(~,,,21∑'
=μP p N X X X X ,A 为p s ?阶常数阵,b 为s 维常数向
量,则
),(~A A b A N b AX s '∑++μ
即多元正态随机向量的任意线性变换仍然服从多元正态分布。
3、若()),(~,,,21∑'
=μP p N X X X X
,将∑,,μX 做如下剖析
q
q
p q
q
p q
q p X X X ---???
?
??∑∑∑∑=∑??????=??????=22211211
)1()1(,,)2()2(μμμ
则
),(~11)1()1(∑μq N X ,),(~22)2()2(∑-μq p N X ,即多元正态分布随机向量X 的任何一个
分量子集的分布(边际分布)仍然遵从正态分布。但是,若一个随机向量的任何边际分布均
为正态分布,并不能推导出该随机向量是多元正态分布。
例3.5:若()),(~,,3321∑'=μN X X X X ,其中:??????????=321μμμμ,????
?
?????=∑333231232221
131211σσσσσσσσσ,
设??
?
???-=100001A
则:
(1)),(~10000131321A A A N X X X X X AX '∑??
?
???-=????
?
??
?????????-=μ 其中:??
?
???-=????
?
??
?????????-=31321100001μμμμμμA ??
?
???--=????
?
?????-?????????????? ??-='∑3331
1311
333231232221131211100001100001σσσσσσσσσσσσσA A 即正态随机向量的线性函数还是正态的。
(2)记??????=??????????=)2()
1(321X X X X X X ,????????=??????????=)2()1(321μμμμμμ,
??
?
???∑∑∑∑=?????
?????=∑2221
1211333231
232221131211σσσσσσσσσ 则 ),(~11)1(221)
1(∑??
?
???=μN X X X
,
即多元正态分布随机向量X 的任何一个分量子集的分布仍然遵从正态分布。
多元分析中的许多方法,大都假定数据来自多元正态总体。但要判断已有的一批数据是否来自多元正态总体,是很困难的。可是反过来要肯定数据不是来自多元正态总体,比较容易,即如果()),(~,,1∑'=μp
p
N
X X X ,则它的每个分量必服从一元正态分布,因此把
每个分量的n 个样品值作成直方图,如果断定不是正态分布,就可以断定随机向量
()'
=p X X X ,,1 也不服从正态分布。
三、条件分布和独立性 (一)条件分布
若A 和B 是任意两个事件,且0)(>B P ,则称)(/)()(B P AB P B A P =为在事件B 发生的条件下,事件A 发生的条件概率。由此可以引出条件分布这一概念。
设()),(~,,1∑'=μp
p
N
X X X ,2≥p ,将∑,,μX 做如下剖析
q
q
p q
q
p q
q p X X X ---???
?
??∑∑∑∑=∑??????=??????=22211211
)1()1(,,)2()2(μμμ
在给定)
2(X
时)
1(X
的条件分布仍服从正态分布,这个结论是通过下列定理给出的。
定理3.1:设()),(~,,1∑'=μp
p
N
X X X ,0>∑,则
),(~2.112.1)2()1(∑μp N X X
其中:)()2()2(12212)1(2
.1μμμ-∑∑+=-X ,211
2212112.11∑∑∑-∑=∑-
该定理告诉我们,)
1(X 的分布与)2()
1(X X
的分布均为正态分布,它们的协方差阵分别
为11∑和2.11∑,由于0211
2212≥∑∑∑-,故2.1111∑≥∑。协方差阵是用来描述指标关系及散布程度的,2.1111∑≥∑说明在已知)
2(X 的条件下,)
1(X
的散布程度比不知道)
2(X
的情
况要小,当012
=∑时,两者相同。可以证明,011=∑,等价于)1(X 和)2(X 相互独立,
这时。即使给出)
2(X ,对)
1(X
的分布也没有影响。
定理3.2:设()),(~,,1∑'=μp
p
N
X X X ,0>∑,将∑,,μX 做如下剖析
t s r X X X X ??????????=)3()2()1(,t s r ???
?
??????=)
3()2()1(μμμμ,t
s r
??????????∑∑∑∑∑∑∑∑∑=∑3332312322
211312
11 则 )(),(3.2)
2(13.223.123.1)3()2()
1(μμ-∑∑+=-X
X X X
E 3.211
3.223.123.11)3()2()1(),(∑∑∑-∑=-X X X D
其中 2,1),()3()(3.==i X X E i i μ;kj kk ik ij k ij ∑∑∑-∑=∑-1
.,3,2,1,,=k j i 。
例3.6:在制定服装标准时需抽样进行人体测量,对某年龄段女子的测量结果如下:
1X 为身高,2X 为胸围,3X 为腰围,4X 为上体长,5X 为臀围,已知()),(~,,551∑'
=μN X X X ,其中:
???????? ??=52.9132.6126.7039.8398.154μ,???
????
?
????????=∑36.2721.570
.2053.1934.1021.503.723.254.336.970.2023.286.3954.2585.153.1954.354.2553.3051.634.1036.985.151.666.29
若取),,(321)
1('=X X X X
,)(4)2(X X =,)(5)3(X X =,则
()()52.9136.2721.570.2053.1934.1032.6126.7039.8398.1545154321-????????????+???????????
?=??????????????-X X X X X X E ????
?
?
???
???-+-+-+-+=)52.91(19.032.61)52.91(76.026.70)52.91(71.039.83)52.91(38.098.1545555X X X X ??????
?????
?=??????????????03.723.254.336.923.286.3954.2585.154.354.2553.3051.636.985.151.666.2954321X X X X X D ()()21.5,70.20,53.19,34.1036.2721.570.2053.1934.101-????
??
???
???- =?
?
???
?
?
??
???--------04.672.118.039
.772.119.2476.1097.518.076.1059.1686.039.797
.586.076.25 而?????
?
?
???----=??????????19.2476.1097.576.1059.1686.097.586.076.2554321X X X X X D
()()72.1,18.0,39.704.672.118.039.71--?????
?????----
????
??????----=71.2371.1087.371.1058.1664.087.364.072.16 可见
()()154166.2972.16,X D X X X D =<=
()()254253.3058.16,X D X X X D =<= ()()3543186.3971.23,X D X X X D =<=
利用条件协方差阵可以求出i X 和j X 的偏相关系数。 定义3.8.:若)
2(X
给定时,i X 和j X 的偏相关系数为
p
q jj p q ii p
q ij p
q ij r ,,1.,,1.,,1.,1. ++++=
σσσ
例6中,设()'
=54)
2(,X X X
,则
038.058
.1672.1664
.045.12-=-=r
194.071.2372.1687
.345.13-=-=r
540.071
.2358.1671
.1045.23==
r
(二)独立性
定理3.3:设()),(~,,1∑'=μp
p
N
X X X ,0>∑,将∑,,μX 做如下剖析
??????????=)()1(k X X X ,???
?
??????=)
()1(k μμμ ,??????????∑∑∑∑=∑kk k k 1111
其中,1:)
(?j j S X
,1:)(?j j S μ,j j jj S S ?∑:),2,1(k j =,则)()1(,,k X X 相互独
立,当且仅当0=∑ij 时,对于一切j i ≠。
第四节 多元正态分布的参数估计
在多元统计分析中,通常假定被研究的对象服从多元正态分布,但分布中的参数μ和∑往往是未知的,一般的做法是通过样本指标对总体的参数进行估计。
一、多元样本的概念
设从多元总体中随机抽取n 个个体)()2()1(,,,n X X X ,若)()2()1(,,,n X X X 相互独
立,且与总体同分布,则称)()2()1(,,,n X X X 为该总体的一个多元随机样本。每个
),,2,1(),,,(21)(n a X X X X ap a a a ='=称为一个样品,aj X 为第a 个样品对第j 个指标
的观测值,显然每个样品都是p 维向量,将n 个样品对p 个指标都进行观测,得到如下一个随机矩阵(观测矩阵、样本资料阵):
??
????
?
???
????'''=???????????
???=)()2()1(2
1
22221
11211
n np n n P P X X X X X X X X X X X X X
一旦样本观测值取定,随机矩阵就是一个数据矩阵。多元分析中的很多方法就是运用各种手
段从观测矩阵出发去提取有关信息。
值得注意的是:
1、多元样本中的每个样品,对p 个指标的观测值往往是有相关关系的,但不同样品之间的观测值一定是相互独立的。
2、多元分析所处理的多元样本观测数据一般都属于横截面数据,即在同一时间不同空间上的数据。
二、多元样本的数字特征
定义3.9:设)()2()1(,,,n X X X 为来自p 元总体的样本,则 1、样本均值向量为:
()∑='==n a p a X X X X n X 1
21)(,,,1
2、样本离差阵为:
)()()(1
)('--=∑=?X X X X S a n
a a p
p
∑=??
??
?
?
?
???????---------------=n a p ap a p ap a p ap p ap a a a a p ap a a a a X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 122211222221122112211211)())(())(())(()())(())(())(()(
()p
p ij pp p p p p s s s s s s s s s s ?=??
?
???
?
???????= 2
1
2222111211
3、样本协差阵为:
()p p ij a n
a a p p v X X X X n S n V ?=?='--==∑)()(11)(1
)( 三、∑和μ的最大似然估计及基本性质
通过样本来估计总体参数叫参数估计,参数估计有各种不同的方法,各有其适用的场合。这里用最常用的且具有很多优良性质的最大似然法给出μ和∑的估计量。
设)()2()1(,,,n X X X 来自于正态总体),(∑μp N 样本容量为n 的样本,每个样本观察
p 个指标,根据样本资料阵,用最大似然估计法求出μ和∑的估计量分别为:
∑和μ的估计量具有如下性质
1、μ=)(X E ,即X 是μ的无偏估计;
∑-=
n n S n E 1)1(,即S n 1
不是∑的无偏估计, ∑=-)11(
S n E ,即S n 11
-是∑的无偏估计; 2、X 、
S n 1
1
-分别是μ和∑的有效估计; 3、X 、
S n 1或S n 1
1-分别是μ和∑一致估计。
第五节 X 和S 的抽样分布
一、样本均值向量X 的分布 1、正态总体 设),(~∑μp N X
,)()1(,n X X 是从总体中抽到的一个样本,则样本均值X 的分布
服从正态分布,即
)1
,(~∑n
N X μ
2、非正态总体 在实际问题中,总体分布能够作正态近似的毕竟是少数,更多的总体分布不能用正态近似,甚至我们对总体的情况一无所知,这时,可借助中心极限定理,给出X 的抽样分布。
中心极限定理:)()1(,n X X 是来自总体X 的一个样本,该总体有均值μ和有限协方差阵∑,则当样本容量n 很大且n 相对于p 也很大时,样本平均数的分布近似于正态分布,即
)1
,(~∑n
N X μ
二、样本离差阵S 的分布
样本均值向量的分布服从正态分布,样本离差阵的分布服从怎样的分布呢?为解决这一问题,现给出维希特(Wishart )分布。维希特分布是统计学家Wishart 在1928年推导出来的,维希特(Wishart )分布是用这位统计学家的名字命名的。
定义3.10:设),(~),,,(21)
(∑'=a p ap a a a N X X X X μ (n a ,,2,1 =),且
)()(、、n X X X 2)1(相互独立,则由)(a X 组成的随机矩阵:
)(1)(a n
a a X X W '=∑=
的分布称为非中心Wishart 分布,记为:),,(Z n W p ∑。
其中,a
n
a a Z
μμ'=∑=1
,),,(21an a a a μμμμ=,a μ为非中心参数,当0=a μ时称为中心Wishart 分布,记为),(∑n W p 。
当p =1时,2σ=∑
,此时有)(),(2221n n W χσσ=,可见Wishart 分布是2χ分布
在p 维正态情况下的推广。
Wishart 分布的基本性质: 1、设),(~),,,(21)
(∑'=a p ap a a a N X X X X μ (n a ,,2,1 =),且)
(n X X ,,)1( 相互独立,则样本离差阵),1(~)()()(1
)
(∑-'--=
∑=?n W X X X X
S P a n
a a p
p 。
2、若),,1)(,(~k i n W S i P i =∑,且相互独立,则),(~1
1
∑∑∑==k
i i p k
i i n W S
3、若),(~∑?n W P p
p X ,p
p C ?为非奇异矩,则),(~C C n W C CX p '∑'
第六节 上机操作
利用Excel的宏功能可以很方便的实现随机向量协方差阵和相关系数矩阵的计算。在利用描述统计宏功能之前,首先要加载“宏”,方法是:在Excel的“工具”菜单下,点击“加载宏”,出现加载宏对话框,在该对话框中,用鼠标选择可用的加载宏,确定后,在“工具”菜单下出现了“数据分析”,在数据分析对话框中,就可以实现随机向量协方差阵和相关系数矩阵的计算。
图3-1 加载宏对话框
一、协方差阵的计算在Excel中实现
以本章的例3.4为例加以说明。
第一步:在Excel中输入数据。
图3-2 数据输入
第二步:在“工具”菜单下,单击“数据分析”选项,在出现数据分析对话框,如图
3-3所示。
图3-3 数据分析对话框
应用多元统计分析课后答案
2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。
多元统计分析模拟考题及答案.docx
一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是
多元统计分析期末试题
一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互
多元统计分析第三章假设检验与方差分析
第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=
多元统计分析期末复习
第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ
2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
多元统计分析模拟试题教学提纲
多元统计分析模拟试 题
多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m
(完整word版)实用多元统计分析相关习题
练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的
多元统计分析模拟考题及答案
一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--
应用多元统计分析试题及答案
一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A
和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S
实用多元统计分析相关习题学习资料
实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。
6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部
分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏
多元统计分析-第三章 多元正态分布
第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简
多元统计分析期末试题及答案.doc
22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???
最新多元统计分析第三章 假设检验与方差分析
多元统计分析第三章假设检验与方差分析
第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=
第三章 多元统计分析(3)
第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元
多元统计分析简答题..
1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:
多元统计分析期末复习试题
第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ
Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
应用多元统计分析习题解答_朱建平_第九章
Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……
第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X
应用多元统计分析习题解答_因子分析
第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了