多元统计分析之判别分析

多元统计分析之判别分析
多元统计分析之判别分析

第六章 判别分析

§6.1 什么是判别分析

判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。

正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。

判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。

§6.2 距离判别法

基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。

距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法

设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。

今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类?

首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

判别归类,则可写成:

??

?

??=>∈<∈)

,(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:

记2,1,),,()

()(1)

(='=i x x X

i p i i

如果距离定义采用欧氏距离,则可计算出

()

∑=-

=-'-=p a a

a

x x

X

X X X G X D 12

)

1()

1()

1(1)()(),(

()∑=-

=

-'-=p a a

a

x x

X

X X

X G X D 1

2

)2()

2()

2(2)()(),(

然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。

由于马氏距离在多元统计分析中经常用到,这里斟对马氏距离对上述准则做较详细的讨论。

设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。如果距离定义采用马氏距离即

2,1)()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ

这时判别准则可分以下两种情况给出: (1)当∑=∑=∑)2()1(时

考察),(22G X D 及),(12G X D 的差,就有:

)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D

]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X

)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X

)()(212)2()1(1)2()1(μμμμ-∑'

??

????+-=-X 令)(2

1)2()

1(μμμ+=

)()()()2()1(1μμμ-∑'-=-X X W

则判别准则可写成:

??

???==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,122212

22212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当

)

2()1(,,μμ∑已知时,令

),,()(1)2()1(1'

?-∑=-p a a a μμ则

????

??

?????

?--=-'='-=p p p x x a a X a a X X W μμ ),,()()()(1

11

)()(111p p p x a x a μμ-++-=

显然,W (X )是p x x ,,1 的线性函数,称W (X )为线性判别函数,a 为判别系数。

当)2()1(,,μμ∑未知时,可通过样本来估计。设)

()(2)(1,,,i n i i i

X X X 来自G i 的样本,i =1,2。 ∑

===1

1)

1()1(1)

1(1

?n i i X X n μ ∑

===2

1

)

2()2(2

)

2(1?n i i X

X n μ

)(2

1

?2121S S n n +-+=∑

其中 ∑='--=

i

n t i i t i i t i X X X X

S 1

)()()()())((

)(2

1)2()

1(X X X +=

线性判别函数为:

)(?)()()2()1(1X X X X X W -∑

'-=- 当p =1时,若两个总体的分布分别为),(2

1σμN 和),(22σμN ,判别函数

)(1)2()(21221μμσ

μμ-??? ??

+-=X X W ,

不妨设21μμ<,这时W(X)的符号取决于μ>X 或X 时,判2G X ∈。我们看到用距离判别所得

到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X 来

自G 1,但却落入D 2,被判为属G 2,错判的概率为图中阴影的面积,记为)1/2(P ,类似有

)2/1(P ,显然)1/2(P =)2/1(P =??

?

??-Φ-σμμ2121。

当两总体靠得很近(即|21μμ-|小)

,则无论用何种办法,错判概率都很大,这时作判别分

析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。

(2)当)2()1(∑≠∑时

按距离最近准则,类似地有:

??

?

??=>∈<∈)

,(),( ,),(),(,

),(),(,

21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 仍然用),(),()(1222G X D G X D X W -=

)()()()2(1)2()2(μμ-∑'-=-X X )()()()1(1)1()1(μμ-∑'---X X

作为判别函数,它是X 的二次函数。

2 多个总体的距离判别法

类似两个总体的讨论推广到多个总体。

设有k 个总体G 1, …, G k ,它们的均值和协差阵分别为k i i i ,,1,,)()( =∑μ,从每个总体G i 中抽取n i 个样品,i =1,…,k ,每个样品测p 个指标。今任取一个样品,实测指标值为

),,(1'=p x x X ,问X 应判归为哪一类?

G 1总体: … G k 总体:

记向量k i x x x X p i ,,1 ),,,(21)( ='=

(1)当∑=∑-=∑)()1(k 时

此时k ,1,i )()(),()(1)(2 =-∑'-=-i i i X X G X D μμ判别函数为:

)],(),([2

1

)(22i j ij G X D G X D X W -=

()

k ,1,j i, )(21)()(1)()( =-∑'

??

?

???+-=-j i j i X μμμμ

相应的判别准则为:

????

?=≠>∈0

)(W ,,0)(W ,ij ij X i

j X G X i 若有某一个待判对一切当 当)1()1(,,μμ ,∑未知时可用其估计量代替,设从G i 中抽取的样本为

k i X X i n i i

,,1,,,)()(1

=,则)(?i μ

,∑?的估计分别为 ∑====i

n a i a

i

i i k i X

n X

1

)()

()

(,,11? μ

∑=-=∑

k

i i

S

k

n 1

1

?

其中 ∑='--=

++=i

n a i i a i i a i i X X X X

S n n n 1

)()

()()(1))((, 为G i 的样本离差阵。

(2)当)()1(,,k ∑∑ 不相等时

此时判别函数为:

()()1()()()[]()j j j ji W X X X μμ-'=-∑-

()()1()()[]()i i i X X μμ-'--∑-

相应的判别准则为:

????

?=≠>∈0

)(W ,,0)(W ,ij ij X i

j X G X i 若某一个待判对一切当 当),,1(,)()(k i i i =∑μ未知时,可用)()(,i i ∑μ的估计量代替,即

)()(?i i X =μ

k i S n i

i i ,,11

1

?)( =-=∑

例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP ,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP 《人类发展报告》1995年。

今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。

数据选自《世界经济统计研究》1996年第1期

本例中变量个数p =3,两类总体各有5个样品,即521==n n ,有4个待判样品,假定两总体协差阵相等。

两组线性判别的计算过程如下:

????

?

?????=4.534308.9488.75)

1(X

????

?

?????=2.343074.9144.70)

2(X

(2)计算样本协差阵,从而求出∑

? ∑

='--=

i

n a a a X

X X

X S 1

)

1()

1()

1()

1(1))((

??

??

??????--=2.1298724.25274.44824.252228.344022.5674.448022

.56228.36 类似地

='--=

2

1

)

2()

2()

2()

2(2))((n a a a X

X X

X S

????

??????----=8.208738454.1131674.489554.11316672.188682.11774.4895682.117812

.86 经计算

????

??????----=+=210037278.11568444778.115689.532704.1734447704.17304

.12321S S S

S S S n n 8

1)(21?2121=+-+=∑

????

??????----=5.2625460975.1446875.5550975.14466125.66713.21875.555713.2138

.15 ??

??

??????--=∑-00000434.00000799.00000442.00000799.0029278.003845.00000442.003845.0120896.0?)1( (3)求线性判别函数W (X ) 解线性方程组)(?)

2()

1(X

X a -=∑

)00873.0,0122.0,6523.0()(?)2()1(1'=-∑

=-X X a ??

????

+-'=-'=∴)(21)()()2()1(X X X a X X a X W

1525.8700873.00122.06523.0321-++=x x x

(4)对已知类别的样品判别分类

对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下,全部判对。

(5对判别效果作检验

判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章§3.1可知检验的统计量为:

)1,(~)2(1)2(2122121--+-++--+=p n n p F T p

n n p n n F

其中 ???

?-+??

???'-+-+=-)()()2()2()1(212

11)2()1(2121212X X n n n n S X X n n n n n n T 将上边计算结果代入统计量后可得:

76.4)6.3(6746.1205.0=>=F

F

故在05.0=a 检验水平下,两总体间差异显著,即判别函数有效。 (6)对待判样品判别归类结果如下表:

简短分析:回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:中国、罗马尼亚为中等发展水平国家即第二类,希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。

例2 对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:x 1—经济增长率(%)、x 2—非国有化水平(%)、x 3—开放度(%)、x 4—市场化程度(%)作判别分析。

资料来源:《经济理论与经济管理》1998年第1期

(1)两类地区各变量的均值

)80455.7314909.2502818.6573636.15()1('=X

)105.58228125.910625

.405625

.11()

2('=X

(2)计算样本协差阵,从而求出∑

?和1?-∑ ?

?

???

??

?????=∑

11822.6451356.973185.69460767.551356.90344.202665567.127837.1473185.69665567.10561.21298494.23460767.527837.1498494.23854518

.9?

?????

???????--------=∑

-02546.000201.000978.0012615.000201.0005898.0002008.001232.000978.0002008.0010532.002312.0012615.001232.002312.0168616.0?1 (3)求线性判别函数 解线性方程组)(?)

2()

1(X

X a -=∑

得)(?)2()1(1X X a -∑

=- 经计算

)69955.1592097.1592193

.24173864

.4()

2()

1('=-X

X

)176547.0060978.0044354

.0129411.0('

=a )95477.6518861.1756722.5264943.13()(2

1)2()

1('=+X X

))(2

1()()()2()

1(X X X a X X a X W +-

'=-'=∴ 79018.16176547.0060978.0044354.0129411.04321-+++=x x x x

(4)对已知类别的样品回判 由于0)(,)

2()

1(>∴>X W X

X 为第一组,0)(

上述回判结果表明,第一组中只有第10个样品判组号为2,与原组号不同,其余样品与原分组号相同;第二组中的各样品回判组号都是2,即与原组号完全相同。我们仔细研究第10号样品广西的指标数据,可以看到它有可能是属于原分组时的错分样品。总的回代判对率达96.3%。

(5)对待判样品判别归类,结果如下:

待判样品中江苏和安徽被判属第一组,陕西被判属第二组,这与实际情况较吻合。

§6.3 费歇(Fisher )判别法

Fisher 判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求。 1 不等协差阵的两总体Fisher 判别法

(1)基本思想:从两个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:p p x c x c x c y +++= 2211,其中系数1c 、2c …、p c 确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的p 个指标值代入判别式中求出y 值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。

(2)判别函数的导出

假设有两个总体G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品观测p 个指标,列表如下:

G 1总体: G 2总体:

假设新建立的判别式为p p x c x c x c y +++= 2211,今将属于不同两总体的样品观测值代入判别式中去,则得:

1)

1()1(22)1(11)1(,,1n i x c x c x c y ip

p i i i =+++=

2)2()1(22)1(11)2(,,1n i x c x c x c y ip

p i i i =+++=

对上边两式分别左右相加,再除以相应的样品个数,则有:

∑==p

k k

k

x c

y 1)

1()

1( ……第一组样品的“重心” ∑==

p k k

k

x c

y

1

)

2()

2( ……第二组样品的“重心” 为了使判别函数能够很好地区别来自不同总体的样品,自然希望: i )来自不同总体的两个平均值)2()1(,y y 相差愈大愈好。 ii )对于来自第一个总体的),,1(1)1(n i

y i =要求它们的离差平方和

∑=-1

1

2)1()

1()(n i i

y y

愈小

愈好,同样也要求

∑=-2

1

2)2()2()(n i i

y y

愈小愈好。

综合以上两点,就是要求:

∑∑==-+

--=

2

1

1

2

)2()2(1

2)1()1(2

)2()1()()()(n i i

n i i

y y

y y

y y I

愈大愈好。

记2)2()1(21)(),,,(y y c c c Q Q p -== 为两组间离差。

==-+

-=

=2

1

1

2

)2()2(1

2

)1()

1(21)()(),,,(n i i n i i p y

y y y c c c F F

为两组内的离差。

F

Q I =

利用微积分求极值的必要条件可求出使I 达到最大值的p c c c ,,,21 。

为此将上式两边取对数: 令

p ,1,k 0ln ln ln ==??-??=??k

k k c F

c Q c I 则 k k c F

F c Q Q ???

=???11 即

k

k c F c Q I ??=???1 而 2

1)2(1

)1(2

)2()

1()(???

?

??-=-=∑

∑==p

k k

k p

k k k x c x c y y Q

2

1)

2()1()(???

?????-=∑

=p k k k k x x c 2

1???

??????∑

=p k k k d c 其中 )

2()1(k k k x x d -=

k p l l l k

d d c c Q ???

? ??=??∴∑

=12

而 ∑

∑==-+

-=

1

2

11

2)2()2(2

)1()

1()()(n i n i i

i y y

y y F

∑∑∑∑====??

????-+??????-=1

2

112

1)2()

2(2

)1()1(1)()(n i n i p k k ik k k ik p k k x x c x x c ∑∑

===???

?????--=1

11)1()

1()1()1(1)()(n i p

l l il

l k ik p k k x x c x x c ∑∑

===???

?????-?-+211)2()

2()2()2(1)()(n i p

l l il

l k ik p k k x x c x x c ∑∑

====???

?????--+--=

p

k p l n i l l i k ik n i l l i k ik l k x x x x x x x x c c 1

11)2()

2()2()2(1)1()1()1()1(2

1))(())((

∑∑===

p

k p l kl

l k s

c c 11

其中

==--+

-

-

=

2

1

1

)

2()2()2()2(1

)1()1()1()1())(())((n i l il k ik n i l il

k ik

kl x x x x x x x x s

==??∴

p

l kl l k s c c F

1

2 从而

∑===???

? ??p l kl l k p l l l s c d d c I 1122 即

p ,1,k

11

1 ==???

? ??∑∑==p

l kl l k p

l l l s

c d d c I

令 ∑

==p

l l l d c I 1

1

β

β是常数因子,不依赖于k ,它对方程组的解只起到共同扩大β倍的作用,不影响它的解p c c ,,1 之间的相对比例关系。对判别结果来说没有影响,所以取β=1,于是方程组:

p ,1,k 1

==∑=k p

l kl

l d s

c

即 ??

???

?

?=+++=+++=+++p p pp p p p p p p d

c s c s c s

d c s c s c s d c s c s c s 221

12

222212********* 写成矩阵形式为:

??????

????????=????????????????????????????p p pp p p p p d d d c c c s s s s s s s s s 21212122221

11211

所以 ??

????

??????????????????????=??????????????-p pp p p p p p d d d s s s s s s s s s c c c 211

21222211121121 值得说明的是:本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值),为了避免用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。

有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y 0,在两总体先验

概率相等的假设下,一般常取y 0为)

1(y

与)

2(y

的加权平均值即

2

1)

2(2)

1(10n n y n y

n y ++=

如果由原始数据求得)

1(y 与)

2(y 满足)

1(y >)

2(y ,则建立判别准则为:对一个新样品),,(1'=p x x X 代入判别函数中去所得值记为y ,若y >y 0,则判定1G X ∈(见图一);若y

1(y

<)

2(y

,则建立判别准则为:若y >y 0,则判定2G X ∈(见

图二);若y

(3)计算步骤 i )建立判别函数

图一 图二

求)

c ,,(c )c ,,(c p 1p 1 F Q I =

的最大值点p 21c ,c ,c ,根据极值原理,需解方程组

???

????????=??=??=??0ln 0

ln 0ln 2

1p

c I c I c I 可得到p 1c ,,c ,写出判别函数p p x c x c y ++= 11。

ii )计算判别临界值0y ,然后根据判别准则对新样品判别分类。 iii )检验判别效果(当两个总体协差阵相同且总体服从正态分布)。

2112)

2(1)1(0:H :μμμμ≠===a a Ex Ex H

检验统计量:

)1,(~)2(1)2(21)(2

21210--+-++--+=

p n n p F T p

n n p n n F H 成立在 其中

???

?????-+'-+?-+=-)()()2()2()1(21211)2()1(2121212

X X n n n n S X X n n n n n n T

==?--+

-

-

==2

1

1

)

2()2()2()2(1

)1()1()1()1())(()

)((,)(n a j aj i ai n a j aj

i ai

ij p p ij x x x x x x x x s s S

),,()

()

(1)

('=i p i i x x X

给定检验水平a , 查F 分布表,确定临界值a F ,若a F F >,则0H 被否定,认为判别有效。否则认为判别无效。

值得指出的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些。

例1 利用距离判别法中例1的人文发展指数的数据作Fisher 判别分析。 (1)建立判别函数

利用前例计算的结果,可得Fisher 判别函数的系数1c 、2c 、3c 为

)(?8

1)2()1(13211321X X d d d S c c c -∑=????

?

?????=??????????-- ????

?

?????=?=00109125.0001525.00815375.08

1a 所以判别函数为

32100109125.0001525.00815375.0x x x y ++= (2)计算判别临界值y 0 由于

1615

.123

1)

1()

1(==

=k k k x c y

6266.93

1

)

2()

2(==

=k k k x c y

所以 8941.102

1)

2(2)

1(10=++=

n n y n y

n y

(3)判别准则

)

2()

1(y y

>

∴判别准则为

??

?

??=∈<∈>待判

时当判时当判时当 ,G X ,G X ,02010y y y y y y

(4)对已知类别的样品判别归类

上述回判结果表明:总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。

(5)对判别效果作检验 由于 76.4636746.1205.0=>=),(F F 所以在05.0=a 检验水平下判别有效。 (6)待判样品判别结果如下: 判别结果与实际情况吻合。

例2 用距离判别法中例2的制度变量对30个省市自治区作Fisher 判别分析。 (1)建立判别式 经计算得:

?

?

???

??

??

???=955.1602839.237296.17435192.136839.23786.505063917.419592.356296.174363917.41402.53016235.5995192.1369592.3566235.599363.246S ?????

????

???------------=-001018.005800039.0000505.0058000236.00503.800049.000039.00503.8000421.000092.0000505.000049.000092.0006745.01E E E E S ∴判别式为4321007062.0002439.0001774.0005176.0x x x x y +++=

(2)求判别临界值y 0,对所给样品判别分类

563846.0,779369.0)

2()

1(==y

y

651651.02

1)

2(2)

1(10=++=

∴n n y n y

n y

由于)

2()

1(y y >,当样品代入判别工后,若0y y >,则判为第一组;若0y y <,则判为第二组。回判结果如下:

等判样品判别结果

上述回判结果表明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差别不显著造成的。总的回代判对率为25/27=92.59%。关于待判的三个样品的判别结果与用距离判别法的相同,说明其判别结果是比较好的。

2 多总体Fisher 判别法

类似两总体Fisher 判别法可给出多总体Fisher 判别法。

设有k 个总体G 1, …, G k ,抽取样品数分别为k n n n ,,,21 ,令k n n n n +++= 21。

),,()

()(1)(i ap i a i a x x x =为第i 个总体的第a 个样品的观测向量。

假定所建立的判别函数为

x c x c x c x y p p '?++= 11)(

其中 ),,(,),,(11'='=p p x x x c c c 记)

(i x

和)(i s 分别是总体i G 内x 的样本均值向量和样本协差阵,根据求随机变量线性组

合的均值和方差的性质可知,)(x y 在i G 上的样本均值和样本方差为

c s c x c y

i i i )(2i )

()

( ,'='=σ

记x 为总的均值向量,则x c y '=。

在多总体情况下,Fisher 准则就是要选取系数向量c ,使

∑∑

==-=

k

i i

i k

i i i q y y

n 1

2

1

2

)

()(σ

λ

达到最大,其中i q 是人为的正的加权系数,它可以取为先验概率。如果取1-=i i n q ,

并将c s c x c y x c y

i i i i )(2)

()(,,'='='=σ代入上式可化为:

Ec

c Ac

c ''=λ 其中E 为组内离差阵,A 为总体之间样本协差阵,即

∑=?=

k

i i i

s q

E 1)(

='--=

k

i i i i x x

x x

n A 1

)

()

())((

为求λ的最大值,根据极值存在的必要条件,令

0=??C

λ

,利用对向量求导的公式: )()

(2)()(22

2Ac c Ec c Ec

Ec c Ec c Ac C '?'-'?'=??λ Ec c Ac c Ec c Ec Ec c Ac ''?

'-'=22 λ?'-'=Ec

c Ec Ec c Ac 22

因此 Ec Ac Ec

c Ec

Ec c Ac C λλλ=?='-'?=??0220

这说明λ及c 恰好是A 、E 矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E 是正定的,因此由代数知识可知,上式非零特征根个数m 不超过min (k-1,p ),又因为A 为非负定的,所以非零特征根必为正根,记为021>≥≥≥m λλλ ,于是可构造m 个判别函数:

m ,1,l )()( =='x c x y l l

对于每一个判别函数必须给出一个用以衡量判别能力的指标i p 定义为:

m ,1,l 1

==

∑=m

i i

l

i p λ

λ

m 0个判别函数01,,m y y 的判别能力定义为:

∑∑∑====

?

01

1

11

m l m

i i

m l l

m p

sp λ

λ

如果m 0达到某个人定的值(比如85%)则就认为m 0个判别函数就够了。

有了判别函数之后,如何对待判的样品进行分类?Fisher 判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一去作分类。

(1)当取m 0=1时(即只取一个判别函数),此时有两种可供选用的方法 i )不加权法

若)

(1)

()(min )(j k

j i y

x y y

x y -=-≤≤

则判.i G x ∈ ii )加权法 将)

()

2()

1(,,,k y

y y 按大小次序排列,记为)()2()1(k y y y ≤≤≤ ,相应判别函数的标准

差重排为)(i σ。

1-k ,1,i )

()()1()

1()()()1(1, =++=

++++i i i i i i i i y y d σσσσ

则1,+i i d 可作为ji G 与1+ji G 之间分界点。如果x 使得1,,1)(+-≤≤i i i i d x y d ,则判ji G x ∈。 (2)当取10>m 时,也有类似两种供选用的方法 i )不加权法

记k i x c y i l i l ,,1;m ,1,l 0)

()()

( ==='

对待判样品),,(1'=p x x x ,计算

x c x y l l )()('=

==??????-=0

1

2

)(2

k ,1,i )(m l i l l i y x y D 若,min 212i k

i r D D ≤≤=则判r G x ∈。

ii )加权法

考虑到每个判别函数的判别能力不同,记

=??????-=0

1

2

)(2

)(m l l i l l i y x y D λ 其中l λ是由Ec Ac λ=求出的特征根。 若,min 212i k

i r D D ≤≤=则判r G x ∈。

§6.4 贝叶斯(Bayes )判别法

从上节看到Fisher 判别法随着总体个数的增加,建立的判别式也增加,因而计算起来还是比较麻烦的。如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率k l x l P ,,1),/( =。比较这k 个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes 判别法。

1 基本思想

Bayes 判别法的基本思想总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。

设有k 个总体G 1, G 2, …, G k ,它们的先验概率分别为k q q q ,,21 (它们可以由经验给出也可以估出)。各总体的密度函数分别为:)(,),(),(21x f x f x f k (在离散情形是概率函数),在观测到一个样品x 的情况下,可用著名的Bayes 公式计算它来自第g 总体的后验概率(相对于先验概率来说,将它又称为后验概率):

k ,1,g )

()

()/(1

==∑=k i i i

g g x f q

x f q x g P

并且当 )/(max )/(1x g P x h P k

g ≤≤=

时,则判X 来自第h 总体。

有时还可以使用错判损失最小的概念作判决函数。这时把x 错判归第h 总体的平均损失定义为

)/()

()

()/(1

g h L x f q

x f q x h E h

g k

i i i

g g ?=∑

∑≠= 其中)/(g h L 称为损失函数。它表示本来是第g 总体的样品错判为第h 总体的损失。显

然上式是对损失函数依概率加权平均或称为错判的平均损失。当h = g 时,有0)/(=g h L ;当g h ≠时,有0)/(>g h L 。建立判别准则为如果

)/(min )/(1x g E x h E k

g ≤≤=

则判定x 来自第h 总体。

原则上说,考虑损失函数更为合理,但是在实际应用中)/(g h L 不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即

?

?

?≠==g h 1g

h 0)/(g h L 这样一来,寻找h 使后验概率最大和使错判的平均损失最小是等价的,即

min )/(max )/(?→???→?h

h x h E x h p

2 多元正态总体的Bayes 判别法

在实际问题中遇到的许多总体往往服从正态分布,下面给出p 元正态总体的Bayes 判别法。

(1)判别函数的导出 由前面叙述已知,使用Bayes 判别法作判别分析,首先需要知道待判总体的先验概率g q 和密度函数)(x f g (如果是离散情形则是概率函数)。对于先验概率,如果没有更好的办法确定,可用样品频率代替,即令n

n q g g =

,其中g n 为用于建立判别函数的已知分类数据中

来自第g 总体样品的数目,且n n n n k =+++ 21,或者干脆令先检概率相等,即k

q g 1

=

这时可以认为先验概率不起作用。

p 元正态分布密度函数为:

?

?????-∑'--?∑

=---)()(21exp )

2()()(1)()(2

1)

(2

g g g g p g x x x f μμπ

式中)(g μ和)(g ∑分别是第g 总体的均值向量(p 维)和协差阵(p 阶)。把)(x f g 代入

)/(x g P 的表达式中,因为我们只关心寻找使)/(x g P 最大的g ,而分式中的分母不论g 为何值都是常数,故可改令

max )(?→?g

g g x f q

取对数并去掉与g 无关的项,记为

()()()1()11

(/)ln ln ()()22g g g g g Z g x q x x μμ-'=-∑--∑-

()()1

()()1()()1()111ln ln 222

g g g g g g g g q x x x μμμ'---''=-∑-∑-∑+∑

则问题化为

max )/(?→?g

x g Z

(2)假设协方差阵相等

)/(x g Z 中含有k 个总体的协方差阵(逆阵及行列式值)

,而且对于x 还是二次函数,实际计算时工作量很大。如果进一步假定k 个总体协方差阵相同,即

∑=∑==∑=∑)()2()1(K ,这时)/(x g Z 中)(ln 21g ∑和x x g 1)(2

1

-∑'两项与g 无关,求最

大时可以去掉,最终得到如下形式的判别函数与判别准则(如果协方差阵不等,则有非线性判别函数);

??

??

??→?∑'+∑-=--'max )/(21ln )/()

(1)(1)(g g g g g x g y x q x g y μ

μμ 上式判别函数也可以写成多项式形式:

∑=+

+

=p

i i g i

g g x C

C q x g y 1

)

()(0

ln )/(

此处

p ,1,i 1

)()

( ==

∑=p

j g j ij

g i v

C μ

)(1)()

(02

1g g g C μμ-'∑-=

∑∑==-=p i p j g j g i ij v 11

)()(21μμ

∑=-=p i g i g i C 1

)()(21μ

),,,(21'=p x x x x

),,,()()

(2)(1

)('=g p g g g μμμμ p p ij v ?=∑)(,

p p ij v ?-=∑

)(1

(3)计算后验概率

作计算分类时,主要根据判别式)/(x g y 的大小,而它不是后验概率)/(x g P ,但是有

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

相关文档
最新文档