一种新的判别分析方法——模糊典型判别分析

一种新的判别分析方法——模糊典型判别分析
一种新的判别分析方法——模糊典型判别分析

一种新的判别分析方法

——模糊典型判别分析

内容提要:本文在Fisher 典型判别分析基础上,把模糊理论引入判别分析方法,提出了模糊典型判别分析,可以用来处理自然科学和社会科学中很多模糊现象的判别分析。推导了模糊典型判别分析的参数求解,并提出了计算机可执行的算法。最后通过数值案例分析和其他判别方法比较,进一步证明了该方法具有很好的判别效果。

关键词:模糊理论;判别分析;算法 中图分类号:O212 文献标识码:A

A New Discriminant Analysis —Fuzzy Canonical Discriminant

Analysis

Abstract: This paper propose Fuzzy Canonical Discriminant Analysis based on Fisher Canonical Discriminant Analysis,we bring the fuzzy theory into discriminant analysis and apply it to deal with many vagueness in natural scinece and social science.We also infer the parameters estimation of the Fuzzy Canonical Discriminant Analysis and design the computer feasible Algorithm.At last,we further prove the good performance of this method by numeric analysis.

Key words : Fuzzy Theory; Discriminant Analysis;Algorithm

一、 引言

判别分析是利用已知分类变量的样本数据构建判别函数,并对未知类型的对象进行预测的一种分类方法。设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)k G G G ,,,21 中的某一类。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p 项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。判别分析在实际应用中非常广泛,比如财务危机分类预测、信用卡欺诈分类预测、市场营销的客户分类预测、石油勘探的波形分类预测、岩层分类预测等等。判别分析的方法很多,其中最常用最经典的是Fisher 典型判别分析法,是由R.A.Fisher 于1936年提出来的。虽然Fisher 典型判别分析法能解决很多分类问题,但该方法在很多情况下判别精度相对较低,而且尤其是对于那些定义不是很明确,或者说存在模糊现象的判别精度过低,比如人的身高“高”和

“矮”的分类;成绩的“好”和“坏”;天气的“冷”和“热”等的判别。实际上,在自然科学或社会科学研究中,存在着许多定义不很严格或者说具有模糊性的概念。模糊性同随机性一样也是一种不精确性,是事物本身所固有的特性。处理分析这些“模糊”概念的数据,很难用传统的数学和统计学去描述。

模糊理论最早是由美国加州大学伯克利分校电气工程系的L.A.zadeh教授在1965年提出的,开始用数学的观点来刻划模糊现象。自从模糊理论的提出,极大扩展了传统的明确数学(crisp mathematics),可以用来描述模糊分类的不确定性。在明确数学里,一个对象对应于一个集合,要么属于,要么不属于,二者必居其一,且仅居其一,也就是一个对象的隶属度取值要么是1,要么是0,这样的集合论本身并无法处理具体的模糊概念。但是在模糊理论,摆脱了这种“非此即彼”的精确性,隶属度的取值是在[0,1]之间取任意值,反应了事物之间由于差异的中间过渡性所引起的划分上的不确定,而使得概念外延的不分明性,也就是“亦此亦彼”。

因此本文尝试在Fisher典型判别分析方法中引入模糊理论概念,提出了模糊典型判

别分析方法,用来解决一些模糊现象的分类问题。用隶属度μik来度量第k个观测值和

第i组的相似程度。在传统的判别分析里,μik的取值只能是0或1,但本文提出的模

μ可以取[0,1]的任一实数。比如μik等于0表示第k个观测值

糊典型判别分析理论,

ik

完全不属于第i组,假如μik等于1,表示第k个观测值完全属于第i组,假如μik等于0.5,表示第k个观测值与第i组的相似度为0.5。实际上,可以把传统的典型判别分析

看做是模糊典型判别分析的特例。这样就可以处理很多模糊现象的分类问题。

本文接下来的结构安排如下:第二部分提出了模糊典型判别分析的基本理论框架;

第三部分以分三类为例求解了模糊典型判别分析方法的参数,并设计了计算机可执行的

算法;第四部分是数值案例分析,比较分析了Fisher典型判别分析方法与模糊典型判别

分析方法的优劣;第五部分是小结与讨论。

二、模糊典型判别分析

Fisher判别法是R.A.Fisher于1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将不同的总体尽可能的分开,再选择合适的判别规则,将新的未知类别的样品进行分类判别。

假设001,2,,1,,n n n X X X X X + 表示有p 个指标(变量)的n 个样品观测数据,总共有c 类。假设012,,...,n X X X 的分类变量未知,而01,...,n n X X +的分类变量已知。我们希望利用

01,...,n n X X +这些数据,构建合适的判别函数,使得这一函数具有某种最优性质,能把属于

不同类别的样本点尽可能地区别开来,并对测得同样p 项指标(变量)数据012,,...,n X X X 的每一个样本,能判定归属于哪一类。

但是,在本文提出的模糊判别分析里,假设第k 个观测值k X 可以以不同的隶属度属于多个总体,用μik 表示第k 个观测值属于第i 组的隶属度,对于每一个观测值在所有c 组上的隶属度和应该为1。由于012,,...,n X X X 的分类变量未知,因此隶属度也未知。而

01,...,n n X X +的分类变量已知,也就说每个观测值对应的隶属度确定的,比如0n t X +属于第l

组,则01ln t μ+=,00,in t i l μ+=≠。为了便于阐述,我们先做如下定义。

定义 2.1 :μik 表示第k 个观测值属于第i 组的隶属度,且满足01ik μ≤≤和

11

=∑=c

i ik

μ

,1,...,;1,...,i c k n ==。

定义2.2:组间离差平方和

11

()()c n

ik i i i k B g m g m αμ=='=--∑∑

其中i g 表示第i 组的样本均值,m 表示所有样本的均值。α是一个用来控制模糊程度的平滑参数。

定义2.3:组内离差平方和:

11

()()c n

ik k i k i i k W x g x g αμ=='=--∑∑

其中,k X 表示有p 个变量的第k 个观测值,1,...,k n =。

根据Fisher 判别分析的思想,要求使不同总体间的差异大,同时使每一个总体内的离差平方和小,也就是等价于使组间离差平方和和组内离差平方和的比率达到最大。也就是等价于选择判别系数向量a 和隶属度向量μ,使如下目标函数最大。

11 11 ()() () ()()c n

ik i i i k c n

ik

k k i i i k a g m g m a

a Ba

a a Wa

a x g x g a

ααμμ

====''--'Φ=

='''--∑∑∑∑ (1)

为了确保式(1)解的唯一性,不妨假设 1a Wa '=,这样问题就转化为,在 1a Wa '=,

01ik μ≤≤和11

=∑=c

i ik μ(1,...,;1,...,i c k n ==)条件下求a Ba '最大值。即:

11

max : ()()c

n

ik i i i k a Ba a g m g m a αμ=='=--∑∑ (2)

11

1

()()1

..11,...,011,...,;1,...,c n

ik k i k i i k c ik i ik a Wa a x g x g a s t k n i c k n α

μμμ===?'''=--=???==???≤≤==??∑∑∑;;

则式(2)对应的拉格朗日函数为:

11

11

21

1

11

()()(()()1)

(1)()

c

n

c

n

ik i i ik k i k i i k i k n c

n c

k ik ik ik ik k i k i L a g m g m a a x g x g a α

ααμλμβμγμμ========''=----------∑∑∑∑∑∑∑∑

( 3 )

式(3)中的拉格朗日函数含有nc 个μik ,1个λ,n 个k β,nc 个ik γ参数需要求解。这样,实际上式(3)很难求解出这些参数,在后面的算法设计中也非常复杂。为了解决这个问题,我们考虑利用正余弦函数替换原来的隶属度μik 。转换如下:

??

??

??

???????=====???=---------k ck k k k c k c k c k k k k c k c k k k k c k c k k k k

c k c k k k ,12,22,12,1,32

,42,22,124,22

,32,22,123,12

,22,22,122,12,22,22,121sin sin cos .....

sin cos ....cos cos sin cos ....cos cos cos cos ....cos cos sin cos cos cos θμθθμθθθθμθθθθμθθθθμθθθθμ 1,...,k n

= (4)

很容易求证,上述替代满足条件

1

1c

ik

i μ

==∑,和01≤≤μik ;i =1,?, c , k =1,?,n 。

这样变换后,对于每个观测值隶属度参数的个数就等于总体(分类)数减1,即1c -个,通过式(4)替换后相对于式(2)需要求解的参数总共减少了2n nc +个。并且替换后满足式(2)中隶属度的所有条件。这样的替代近似于等量代换,对原问题的解的影响很小,却可以大大减少参数的求解。

所以,模糊典型判别分析的问题归结于求判别系数向量a 和隶属度向量μ使得经过式(4)转换后的目标函数最大。如何求解判别系数向量a 和隶属度向量μ是模糊判别分析最关键的部分,本文在第三部分重点介绍了参数的求解和计算可执行的算法。

三、 参数估计与算法设计

(一)参数估计

为了方便叙述,本文以分成三类为例,即3c =时进行阐述。根据式(4),对应的隶属度可由如下式子给出:

22122223cos sin cos cos 1,2,...,sin k k k k k k k

k k n μθ?μθ?μθ?=?= =??=? (5)

把式(5)代入式(3),则当3c =,即分为三类时,模糊典型判别分析归结为求解式(6):

11

22'111

22'

222'33max : ()()[cos sin ()() cos cos ()() sin ()() ]c

n

ik i i i k n

k k k k k k a Ba a g m g m a

g m g m g m g m g m g m ααααααμθφθφθ===''=--=--+--+--∑∑∑ (6)

1122'111

22'2'2222..()()[cos sin ()() cos cos ()() sin ()() ]1

c

n

ik k i k i i k n k k k k k k k k k k k k s t a Wa a x g x g a

x g x g x g x g x g x g ααααααμθφθφθ==-''' =--=--+

--+--=∑∑∑

则可得对应的拉格朗日函数为:

{

22'111

22'2'22332

2'22'11221

2(,,,,)[cos sin ()()

cos cos ()() sin ()() ][cos sin ()() cos cos ()() sin (n

k k k k k k k k n

k

k k k k k k k k k k L G m a g m g m a a g m g m a a g m g m a a x g x g a a x g x g a

a x ααααααααααα

θφλθφθφθλθ

φθφθ=='=--''+--+--''---+--'+-∑∑}'33)()] 1k g x g a -- (7)

利用拉格朗日法可以求解各参数,由于篇幅问题,详细求解过程略去。各参数求解的结果如下:

2

2222123

1

2

22221

(c o s

s i n c o s c o s s i n )

(c o s

s i n c o s c o s

s i n

)

n

k

k k k k k n k

k k

k k k g g g m αααα

α

α

ααα

α

θφθφθθφθφθ==+

+

=

++∑∑ (8)

2

21

12

21

[cos sin ()]

[cos sin (1)]

n

k

k k k n

k

k k x m g ααααθ

φλθφλ==-=

-∑∑ (9)

2

21

22

21[cos cos ()]

[cos cos (1)]

n

k

k k k n

k

k k x m g ααααθ

φλθφλ==-=

-∑∑ (10)

2

1

32

1[sin ()]

[sin (1)]

n

k

k k n

k

k x m g ααθ

λθ

λ==-=

-∑∑ (11)

1

2(1)

1

22221111 ()() ()() tan ()() ()() k k k k k a g m g m a a x g x g a a g m g m a a x g x g a αλφλ--??

-----=??

-----??

(12)

1

2'

2'

2(1)

11222'2111223333sin ()() cos ()() sin ()() cos ()() tan ()() ()() k k k k k k k k k k k a g m g m a a g m g m a a x g x g a a x g x g a a g m g m a a x g x g a α

α

ααα

φφλφλφθλ--''??--+---??'''-----?

?

=??''''-----??????

(13)

其中,λ 是W B -1

的最大特征根,因为由

1111

2()() 2()() 0c n c n

ik i i ik k i k i i k i k L g m g m a x g x g a a α

αα?μλμ?=====-----=∑∑∑∑得到 Ba Wa λ=,可进一步写为

()0-1W B I a λ-= (14)

将Ba Wa λ=代入拉格朗日函数中得到(1)L a Ba a Wa αλλ''=--= 那么拉格朗日函数最大等价于λ最大。同时由于Ba Wa λ=,得到λ是W B -1

的特征根,所以λ是W B -1

的最大的特征根。a 是W B -1

的特征向量。

(二)算法设计

前面部分的参数估计结果实际上对于已知分类变量的观测值计算,而对于未知分类变量的观测值如何估计其隶属度,从而如何做判别预测?这就需要设计一套计算机可执行的算法来求解。

步骤1:首先,根据已知分类变量的观测值01

,...,n

n X X +和其对应隶属度,计算总的样本均值

m ,以及每组样本均值i g (i =1,...,c )。

步骤2:给平滑参数α赋一个初始值。

步骤3:根据定义2.2、2.3以及第1、2步的结果计算组间离差平方和B 和组内离差平方和W 。 步骤4:根据公式(14)和第3步计算λ和a

步骤5:根据公式(12)和第1步和第4步的结果计算?k (k = n 0+1,...,n )。

步骤6:根据公式(13)和第1步、第4步和第5步的结果计算θk (k = n 0+1,...,n )。

步骤7: 利用公式(6)和第5步、第6步的结果计算未知分类变量观测值的隶属度ik μ(i =1,...,c ,

k =1,...,n 0)。

步骤8:利用公式(8)~( 13)和所有观测值以及对应的隶属度(包括已知分类变量和未知分类

变量的观测值)计算新的总样本均值m 和各组均值i g (i =1,...,c )。

步骤9:重复计算第2至第8步直到隶属度μik 收敛为止,也就是说max ,μμεik t ik t -<-1

i =1,...,c ; k =1,...,n ,t 表示迭代的次数。在实际中,我们可以让ε等于0.0001。

这样,按照以上算法迭代到第9步后得到最终的ik ,(i =1,...,c ; k =1,...,n )及判别函数系数a ,那么就可以判别k X 的归类。

四、 数值分析

(一)判别效果比较

为了比较模糊典型判别分析和Fisher 典型判别分析在判别效果上的优劣,本文选用R.A.Fisher 在1936年做判别分析时使用的鸢蕊花数据(Iris ),该数据分为三类花,即setosa ,versicolor 和virginica ,每类花都有50个观测值,这样样本总共有150个观测值,每个观测值有四个指标,分别为花瓣长、花瓣宽、花萼长、花萼宽。利用错分率作为判别分析好坏的标准。模糊典型判别分析和Fisher 经典判别分析的判别结果见表1。

表1 Fisher 典型判别分析和模糊典型判别分析结果

注:SET.为Setosa 简写,VER.为Versicolor 简写,VIR.为Virginica 简写

从表1可以看出,对于鸢蕊花数据,模糊典型判别分析的错分率与Fisher 典型判别分析的错分率一样,这与鸢蕊花数据有关,该数据是R.A.Fisher 最早用来检验Fisher 典型判别分析效果。我们进一步比较了模糊典型判别分析和线性典型判别分析,二次型典型判别分析和

k 近邻典型判别分析的判别结果,各种方法判别的总错分率见表2。

表 2 各种判别分析方法总的错分率

从表2可以看出,模糊典型判别分析和线性典型判别分析的错分率最低,都为2%,而二次型典型判别分析和k近邻典型判别分析的误判率相对较高。可见对于鸢蕊花数据,模糊典型判别分析与Fisher典型判别分析效果一样,且都好于二次型和k近邻的判别效果。

前面主要针对所有150个已知分类变量的观测值构建模糊判别模型和Fisher典型判别模型,由于样本的特殊性,无法区分出这两种判别方法的优劣。并且前面进行的主要是样本内预测,无法考察这两种方法在样本外的预测表现。因此,本文接下来考察这两种方法在不同规模的已知样本量的预测效果。我们利用重抽样方法从IRIS原始数据每组分别抽取5、10、15、20、25、30、40、50个观测值进行建模,然后利用构建的模型再对原始IRIS数据所有样本进行判别预测。各种组合的预测效果见表3。从表3可以看出,当用来建模的样本量比较少时,模糊典型判别分析的判别效果明显要好于Fisher典型判别分析效果,比如当每组抽取5个已知分类变量的观测值构建判别函数,然后对原始IRIS数据的所有观测值进行预测,发现Fisher典型判别分析方法virgino类花15个误判,versi花有1个误判,而模糊典型判别分析virgino类花有13个误判,versi花有2个误判。当每组抽取10个已知分类变量的观测值建模,模糊典型判别分析的判别效果也要好于Fisher典型判别分析效果。随着每组已知分类变量的样本数增加,比如本例中当每组抽取15个及以上已知分类变量的观测值时,Fisher 典型判别分析和模糊典型判别分析的误判率相同。说明在小样本情况下,模糊典型判别分析想对于Fisher典型判别分析具有更好的判别效果。

表3 原始样本重抽样的判别效果

注:SET.为Setosa简写,VER.为Versicolor简写,VIR.为Virginica简写

(二)平滑参数α的选择

本文设计的平滑参数α是为了控制隶属度而设置,需要在分析之前根据实际情况人为设定,因此检验不同的平滑参数对判别分类的结果影响非常重要。为了验证参数α对分类

α=,对容易错分的观测值5,12,118进行分析。发现α的取结果的影响,分别选取5,10,20

α=的判别结果完全一致,但是随着平滑参数α的增值对判别的结果影响很稳定,5,10,20

α=时,第五个观测值的隶属度分别为0.17,0.423,大,隶属度间的差距在缩小。比如,当5

α=时,对应的隶属度则分别为0.293,0.355,0.353,隶属度趋向于相同。

0.407,而当20

α的取值根据实际情况来定,一般来说,本文认为α的取值在1-5之间是比较合理的。

表4 平滑参数α的选择对错分样本的影响

注:SET.为Setosa简写,VER.为Versicolor简写,VIR.为Virginica简写

五、结论

本文在Fisher典型判别分析的基础上,提出了模糊典型判别分析方法。通过引入模糊理论,克服了传统判别分析的缺陷,可以用来处理自然科学或社会科学中很多模糊现象的分类问题。本文推导了模糊典型判别分析的参数求解,并提出了计算机可执行的算法。并通过数值案例分析,进一步证明了在判别效果上,模糊典型判别分析在小样本下的判别效果明显要

好于Fisher典型判别分析。

该方法在理论上极大地扩展了传统的判别分析方法,可以进一步把该思想运用到其他判别分析方法以及主成分分析、因子分析、聚类分析等方法。从而可以把在传统明确数学概念下的诸多多元统计方法扩展到模糊概念下的统计方法。

该方法在应用上具有很好的前景。可以用来处理自然科学或社会科学中很多模糊现象的判别分析。比如在植物病害数值诊断、医学诊断、商品评判、土壤分类、企业信用评级等都有很好的应用前景。

总之,把在传统明确数学概念下建立起来的统计方法扩展到模糊概念下的统计方法具有很好的研究价值以及很广的应用前景。

参考文献

[1]陈水利等编著.模糊集理论及其应用[M] .北京:科学出版社,2005

[2]李柏年著.模糊数学及其应用[M] .安徽:合肥工业大学出版社,2007

[3]朱建平主编.应用多元统计分析[M] .北京:科学出版社,2007

[4] Zadeh L. A.Fuzzy sets[J]. Information and Control,1965 (3): 338~353.

[5] Dubois D. and and Prade H. Fuzzy Sets and Systems[M].New York :Academic Press,1988:5~150

[6] Fisher, R.A.The Use of Multiple Measurements in Taxonomic Problems[J] .Annals of Eugenics,

1936(7):179-188.

[7] Gustrfson, D. E. and Kessel, W. C. Fuzzy Clustering with a Fuzzy Covariance Matrix [J] .Proc.IEEE CDC.

1979(10-12):761-766.

[8] Gautier, J. M. and Saporta, G. About Fuzzy Discrimination [C] .COMPSTAT1982: 224~229.

[9] Klecka, W. R. Discriminant Analysis [M] .California :SAGA Publications, Inc.1980

[10]Okuda,T. , Tanaka H. and Asai,K. Discrimination Problem with Fuzzy States and Fuzzy Information

[J] .TIMS/Studies in the Management Sciences 1984(20):97~106.

[11] Lin T.L. and Shia B.C.and Tang R.T. C-mean fuzzy cluster analysis of sugarcane yields of F146 and F156 at

Tainan area[J] .Chinese Agron. J, 1996(6):43~56.

[12] Amo, A. Montero, J. Cutello, V. On the principles of fuzzy classification[C].In: Proceedings North

American, Fuzzy Information Processing Society Conference, 1999: 675~679

[13] Amo, A.Montero,J. e.tal ,Fuzzy classification systems[J].Computing, Artificial Intelligence and Information

Technology, 2004(2):495~507

[14] Watada, J. Tanaka H. and Asai, K. Fuzzy discriminant analysis in fuzzy groups[J] .Fuzzy Sets and Systems

1986(19) :261~271.

[15]Amo A., Montero J.and Biging G..Classifying pixels by means of fuzzy relations[J] .International Journal of

General Systems 2000 (29): 605~621.

[16]Wu X.H. and Zhou J.J. Fuzzy discriminant analysis with kernel methods[J] .Rapid and Brief Communication.

2006(11):2236~2239

附录:

式(7)的拉格朗日函数:

{

22'11122'2'223322'111

22'222(,,,,)[cos sin ()() cos cos ()() sin ()() ][cos sin ()() cos cos ()() sin (n

k k k k k k k k n

k k k k k k k k k k k L G m a g m g m a a g m g m a a g m g m a a x g x g a a x g x g a a x αααααααααααθφλθφθφθλθφθφθ=='=--+

''--+--'---+

''--+-∑∑

}'33)()] 1

k g x g a --

拉格朗日函数先对总体均值m 求一阶偏导,并令一阶偏导函数为0,可以得到如下等式:

22'22'121

2'3[cos sin (2)()cos cos (2)()

sin (2)()]0

n

k k k k k k L aa g m aa g m m aa g m ααααα

αθφθφθ=?=--+--?+--=∑ 可解得m 为:

222221231

222221

(cos sin cos cos sin )

(cos sin cos cos sin )

n

k k k k k k n

k k k k k k g g g m ααααααααααθφθφθθφθφθ==++=

++∑

拉格朗日函数先对各组均值i g 求一阶偏导,并令一阶偏导函数为0,可以得到如下等式:

0] )(sin [cos 2] )(sin [cos 21221

12211=-+-=∑∑==a a g x a a m g g L k k k n

k k k n k ?θλ?θ?α?ααα

α可解得g i :

g x m k k k k n

k k k n 1221

221

1=

--==∑∑[cos

sin

()]

[cos

sin ()]

α

α

α

α

θ?λθ?λ

g x m k k k k n

k k k n

2221

2211=

--==∑∑[cos cos ()]

[cos

cos ()]

αα

α

α

θ?λθ?λ

g x m k k k n

k k n 321

21

1=

--==∑∑[sin

()]

[sin

()]

α

α

θλθλ

拉格朗日函数先对各组均值a 求一阶偏导,并令一阶偏导函数为0,可以得到如下等式:

??μλμαα

α

L a

g m g m a x g x g a ik i i k n

i c ik k i k i k n

i c =-----=====∑∑∑∑2201

11

1()()'()()'

?-=-()W B I a 1

则可知,λ是 W B -1

的最大特征根. a 是对应的特征向量。

拉格朗日函数对参数k ?、θk 求一阶偏导,并令一阶偏导函数为0,可以得到如下等式:

???α??θα??θαλ??θαλ??θααα

αα

ααααL a g m g m a a g m g m a a x g x g a a x g x g a k

k k k k k k k k k k k k k k k k =--------+--=----22220

21

21121

22221

21121

222sin

cos cos '()()'cos

sin cos '()()'sin

cos cos '()()'cos

sin cos '()()'

a

g x g x a a m g m g a a g x g x a a m g m g a k k k k k k ' ))(( '' ))(( ' )')(( ))(( cos sin 111122'

'22')

1(2)1(2----------=?--λλ??αα )

1(21

'

11''11''2

2''22

'

1 ))(( ))(( ))(( ))(( tan --???

?

????----------=αλλ?a g x g x a a m g m g a a g x g x a a m g m g a k k k k k

??θαθθ?αθθ?αθθαλθθ?αλθθααα

αα

αααααL a g m g m a a g m g m a a g m g m a

a x g x g a k

k k k k k k k k k k k k k k k =------+--+--+-----2222221

21121

22221

3321

21121

2sin cos

sin '()()'sin cos cos '()()'cos sin

'()()'sin cos sin '()()'sin cos

cos ?αλθθαk k k k k k k a x g x g a a x g x g a '()()'cos sin

'()()'-----=-2221

3320

[]

)

1(21

'

33''33''

2

2'2'11'2'2

2'2'11'

2133332221122

22112)1(2)

1(2 ))(( ))(( ))(( cos ))(( sin ))(( cos ))(( sin tan ))(( ))(( ))(( cos ))(( sin ))(( cos ))(( sin cos sin ----???

???

?

?????????-------------+--=?-----??

??

????--------+--=

?αααααααααααλ?λ?λ??θλ?λ?λ?θ?θθa g x g x a a m g m g a a g x g x a a g x g x a a m g m g a a m g m g a a g x g x a a m g m g a a g x g x a a g x g x a a m g m g a a m g m g a k k k k k k k k k k k k k k k k k k k k k k k

k

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

基于层次分析法的模糊综合评价模型

基于层次分析法的模糊综 合评价模型 Prepared on 22 November 2020

2016江西财经大学数学建模竞赛A题 城市交通模型分析 参赛队员:黄汉秦、乐晨阳、金霞 参赛队编号:2016018 2016年5月20日~5月25日

承诺书 我们仔细阅读了江西财经大学数学建模竞赛的竞赛章程。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C中选择一项填写):A 我们的参赛队编号为2016018 参赛队员(打印并签名): 队员1.姓名专业班级计算机141 队员2.姓名专业班级计算机141 队员3.姓名专业班级计算机141 日期:2016年5月25日

编号和阅卷专用页 2016年5月15日制定

城市交通模型分析 摘要 随着国民经济的高速发展和城市化进程的加快,我国机动车保有量及道路交通流量急剧增加,交通出行结构发生了根本变化,城市道路交通拥挤堵塞问题已成为制约经济发展、降低人民生活质量、削弱经济活力的瓶颈之一。本篇论文针对道路拥挤的问题采用层次分析法进行数学建模分析,讨论拥堵的深层次问题及解决方案。 首先建立绩效评价指标的层次结构模型,确定了目标层,准则层(一级指标),子准则层(二级指标)。 其次,建立评价集V=(优,良,中,差)。对于目标层下每个一级评价指标下相对于第m 个评价等级的隶属程度由专家的百分数u 评判给出,即U =[0,100]应用模糊统计建立它们的隶属函数A(u),B(u),C(u),D(u),最后得出目标层的评价矩阵Ri ,(i=1,2,3,4,5)。利用A,B 两城相互比较法,根据实际数据建立二级指标对于相应一级指标的模糊判断矩阵P i (i=1,2,3,4,5) 然后,我们经过N 次试验调查,明确了各层元素相对于上层指标的重要性排序,构造模糊判断矩阵P ,利用公式 []R W R W R W R W R W W R W O 5 5 4 4 3 3 2 2 1 1 ,,,,==计算出权重值,经过一致性检验公式 RI CI CR = 检验后,均有0.1CR <,由此得出各层次的权向量()12,,T n W W W W =。然后 后,给出建立绩效评价模型(其中O 是评价结果向量),应用模糊数学中最大隶属度原则,对被评价城市交通的绩效进行分级评价。 接着在改进方案中,我们具体以交叉口为中心建立模型,其中包括道路长度、宽度、车辆平均长度、车速等等考虑因素。通过车辆排队长度可以间接判断交通拥堵情况,不需要测量车速、时间等因素而浪费的人力物力和财力,有效的提高了工作成本和效率。为管理城市交通要道提供了良好的模型和依据。 【关键字】交通拥堵层次分析法模糊综合评判绩效评价隶属度 一、问题重述 随着我国经济社会持续快速发展,群众购车刚性需求旺盛,汽车保有量继续呈快速增长趋势,2015年新注册登记的汽车达2385万辆,保有量净增1781万辆,均为历史最高水平。汽车占机动车的比率迅速提高,近五年汽车占机动车比率从%提高到%,群众机动化出行方式经历了从摩托车到汽车的转变,交通出行结构发生了根本性变化。 2015年,小型载客汽车达亿辆,其中,以个人名义登记的小型载客汽车(私家车)达到亿辆,占小型载客汽车的%。与2014年相比,私家车增加1877万辆,增长%。全国有40个城市的汽车保有量超过百万辆,北京、成都、深圳、上海、重庆、天津、苏州、郑州、杭州、广州、西安11个城市汽车保有量超过200万辆。全国平均每百户家庭拥有31辆私家车,北京、成都、深圳等大城市每百户家庭拥有私家车超过60辆。

层次分析法与模糊综合评价的区别

层次分析法与模糊综合判别的区别与联系 1、层次分析法 [ 参考文献:吋义成, 柯丽华, 黄德育. 系统综合评价技术及其应用[M]. 北京: 冶金工业出版社,2006] 人们在日常生活中经常要从一堆同样大小的物品中挑选出最重要的物品,如重量最大的物品,即至少要确定各物品的相对重量。这时,经验和常识告诉我们,可以利用两两比较的方法来达到目的。 若在没有称量仪器的条件下对一组物体的重量进行估计,则可以通过爱对比较这组物体相对重量的方法,得出每对物体相对重量比的判断,从而形成比较判断矩阵,再通过求解判断矩阵的最大特征根和它所对应的特征向量问题,就能计算出这组物体的相对重量。 将此方法应用到复杂的社会、经济和科学管理等领域中,就能确定各种方案、措施、政策等 相对于总目标的重要性排序情况,以供领导者决策。 一般的层次分析法模型由图5-1 所示,分为目标层、准则层、指标层、方案层组成。需要注意几点: (1)层次分析法的评价结构并非是上述部分一成不变的,其中的当指标层因素较少时准则层可以省去(图5-2 ),当某一准则对应的指标层元素过多时可以将其指标层细分为“子准则层和指标层”(图5-4 )。由于层次分析法是利用两两比较完成的,为了便于人的比较与判别,每层的元素个数在3~7 之间为佳,超过7 以后增加了比较判断的难度,因此当元素过多时,可以将其分类后分成两层或多层来判别。 (2)准则层与指标层之间的关系可以对比一下图5-1 和图5-4 ,即每个准则可能有独 用的指标体系,也可能是各准则之间共用某几个指标。 (3)层次分析法的特点是基于某个目标,对多个待评价方案进行评价,从而得到方案的重要性排序。具体到某个问题,其并无相应的数据。而模糊综合判别有相应的基础数据。两者可以结合一起用,比如常用的是模糊综合评判过程中,权重可以由层次分析法计算。 层次分析法的骤如下: 1)在作者建立评价模型后,根据经验对每层里的各个元素建立重要性判别矩阵,从判 别矩阵中可以得到某一层中各个指标的归一化权重(表5-1中的W B,W C1,W C2,W C3,W C4)。(表5-1和5-2 的数据为图5-1 模型的) 2)由层与层之间权重的传递可以得到最低层(具体指标层)的综合权重。如图5-1 所示的图中有得到各个C ij的综合权重W ij(表5-2第2列)。 3)最后,在指标层与方案层之间建立判别矩阵,针对每一个指标C ij 都需要建立一个各 方案A i的比较矩阵,判别A针对C j的重要性w A i (表5-2的每一行)。最后将指标C ij的综合权重W ij与W Ai进行乘法求和,从而得到方案A的最终综合权重刀(W ij心Ai),即为续表5-2的最后一行。

模糊方法

模糊数学方法 在自然科学或社会科学研究中,存在着许多定义不很严格或者说具有模糊性的概念。这里所谓的模糊性,主要是指客观事物的差异在中间过渡中的不分明性,如某一生态条件对某种害虫、某种作物的存活或适应性可以评价为“有利、比较有利、不那么有利、不利”;灾害性霜冻气候对农业产量的影响程度为“较重、严重、很严重”,等等。这些通常是本来就属于模糊的概念,为处理分析这些“模糊”概念的数据,便产生了模糊集合论。 根据集合论的要求,一个对象对应于一个集合,要么属于,要么不属于,二者必居其一,且仅居其一。这样的集合论本身并无法处理具体的模糊概念。为处理这些模糊概念而进行的种种努力,催生了模糊数学。模糊数学的理论基础是模糊集。模糊集的理论是1965年美国自动控制专家查德(L. A. Zadeh)教授首先提出来的,近10多年来发展很快。 模糊集合论的提出虽然较晚,但目前在各个领域的应用十分广泛。实践证明,模糊数学在农业中主要用于病虫测报、种植区划、品种选育等方面,在图像识别、天气预报、地质地震、交通运输、医疗诊断、信息控制、人工智能等诸多领域的应用也已初见成效。从该学科的发展趋势来看,它具有极其强大的生命力和渗透力。 在侧重于应用的模糊数学分析中,经常应用到聚类分析、模式识别和综合评判等方法。在DPS系统中,我们将模糊数学的分析方法与一般常规统计方法区别开来,列专章介绍其分析原理及系统设计的有关功能模块程序的操作要领,供用户参考和使用。 第1节模糊聚类分析 1. 模糊集的概念 对于一个普通的集合A,空间中任一元素x,要么x∈A,要么x?A,二者必居其一。这一特征可用一个函数表示为: A x x A x A ()= ∈ ?? ? ? 1 A(x)即为集合A的特征函数。将特征函数推广到模糊集,在普通集合中只取0、1两值推广到模糊集中为[0, 1]区间。 定义1 设X为全域,若A为X上取值[0, 1]的一个函数,则称A为模糊集。 如给5个同学的性格稳重程度打分,按百分制给分,再除以100,这样给定了一个从域X={x1 , x2 , x3 , x4, x5}到[0, 1]闭区间的映射。 x1:85分,即A(x1)=0.85 x2:75分,A(x2)=0.75 x3:98分,A(x3)=0.98 x4:30分,A(x4)=0.30 x5:60分,A(x5)=0.60 这样确定出一个模糊子集A=(0.85, 0.75, 0.98, 0.30, 0.60)。 定义2 若A为X上的任一模糊集,对任意0 ≤λ≤ 1,记Aλ={x|x∈X, A(x)≥λ},称Aλ为A的λ截集。 Aλ是普通集合而不是模糊集。由于模糊集的边界是模糊的, 如果要把模糊概念转化为数学语言,需要选取不同的置信水平λ (0 ≤λ≤ 1) 来确定其隶属关系。λ截集就是将模糊集转化为普通集的方法。模糊集A是一个具有游移边界的集合,它随λ值的变小而增大,即当λ1 <λ2时,有Aλ1∩Aλ2。

距离判别法及其应用

距离判别法及其应用 一、什么是距离判别 (一)定义 距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。 距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。 (二)作用 判别个体所属类型。例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。 二、距离判别分析原理 (一)欧氏距离 欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。 在二维空间中其公式为: 2 21221)()(y y x x d -+-=

推广到n 维空间其公式为: 2 1) (1 i n i i y x d -=∑= (二)马氏距离 在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。 设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本 T m i x x x X },...,,{21=。令μ=E(i X )(i=1,2, …,m),则总体均值向量为 T m },,{21μμμμ???=。总体G 的协方差矩阵为: ]))([()(T G G E G COV μμ--==∑。 设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为: )()(),(12Y X Y X Y X d T -∑-=- 样本X 与总体G 的马氏距离的平方定义为: )()(),(12μμ-∑-=-X X G X d T 1.两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1?m X 是一个新样本,判断其属于哪个总体。定义1?m X 到1G 和2G 的距离为),(12 G X d 和),(22 G X d , 则按如下判别规则进行判断: 1G X ∈,若),(12G X d ≤),(22G X d 2G X ∈,若),(22G X d ﹤),(12G X d (1)当1∑=2∑时,该判别式可进行如下简化: ),(12G X d -),(22G X d =)()(111μμ-∑--X X T -)()(212μμ-∑--X X T

多个总体距离判别法(DOC)

多个总体距离判别法 及其应用 课程名: 年级: 专业: 姓名: 学号:

目录 一、摘要 (1) 二、引言 (1) 三、原理 (1) 3.1定义 (1) 3.2思想 (1) 3.3判别分析过程 (1) 四、具体应用 (3) 4.1判别分析在医学上的应用 (3) 4.2距离判别法在居民生活水平方面的应用 (9) 4.3判别分析软件的使用 (12) 五、参考文献 (14) 六、附录 (15)

一、 摘要 近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。 关键词: 距离判别法 判别分析 一般判别分析 二、 引言 随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。 三、 原理 3.1 定义 距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。 多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。 3.2 思想 计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。 3.3 判别分析过程 对于k 个总体k 21G G G ?, ,,假设其均值分别为:k 21u u u ,,,?,协方差阵

模糊层次分析法

模糊层次分析法理论基础 FAHP及计算过程层次分析法(AHP)是20世纪70年代美国运筹学家T.L. Saaty教授提出的一种定性与定量相结合的系统分析方法,该方法对于量化评价指标,选择最优方案提供了依据,并得到了广泛的应用。然而, AHP存在如下方面的缺陷:检验判断矩阵是否一致非常困难,且检验判断矩阵是否具有一致性的标准CR < 0. 1缺乏科学依据;判断矩阵的一致性与人类思维的一致性有显著差异。为此,本文结合模糊数学理论,首先介绍了模糊层次分析法(Fuzzy - AHP) FAHP ,然后用FAHP对公共场所安全性指标权重进行了处理。 1. 1 模糊一致矩阵及有关概念[4 ,5 ] 1. 1. 1 定义1. 1 设矩阵R = ( rij) n×n ,若满足: 0 ≤( rij) ≤ 1 , ( i = 1 ,2 , ……n , j = 1 ,2 , ……n),则称R 为模糊矩阵 1. 1. 2 定义1. 2 若模糊矩阵R = ( rij) n×n ,若满足: Πi , j , k 有rij= rik - rij + 0. 5 ,则称模糊矩阵R 为模糊一致矩阵。 1. 1. 3 定理1. 1 设模糊矩阵R = ( rij) n×n是模糊一致矩阵,则有 (1) Πi ( i = 1 ,2 , …n) ,则rij = 0. 5 ; (2) Πi , j ( i = 1 ,2 , …n , j = 1 ,2 , …n) ,有rij + rji= 1 ; (3) R 的第i 行和第i 列元素之和为n ; (4)从R 中划掉任一行及其对应列所得的矩阵仍然是模糊一致矩阵; (5) R 满足中分传递性,即当λ≥0. 5 时,若rij≥λ, rjk ≥λ,则rij ≥λ;当λ≤0. 5 时,若rij ≤λ, rjk ≤λ,则rij ≤λ。(证明见文献1) 。 1. 1. 4 定理1. 2 模糊矩阵R = ( rij) n×n是模糊一致矩阵的充要条件是任意指定行和其余各行对应元素之差是一个常数。 1. 1. 5 定理1. 3 如果对模糊互补矩阵 F = ( f ij) n×n按行求和,记为ri = 6nk = 1f ik ( i = 1 ,2 , …, n) ,并施之如下数学变换:rij =ri - rj2 m + 0. 5 (1),则由此建立的矩阵是模糊一致的。 1. 2 模糊一致判断矩阵的建立 模糊一致判断矩阵的建立R 表是针对上一层某元素,本层次与之有关元素之间相对重要性的比较,假定上一层次元素T 同下一层次元素a1 , a2 ,…, an 有关系,则模糊一致判断矩阵可表示为: rij的实际意义是:元素ai 和元素aj 相对于元素T 进行比较时, ai 和aj 具有模糊关系“…比…重要得多”的隶属度,表1采用0. 1~0. 9 数量标度来说明其模糊关系。

模糊层次分析法的程序实现

、模糊层次分析法的程序实现 给出模糊层次分析法的Matlab程序。 clear; clc; E=input('输入计算精度e:') Max=input('输入最大迭代次数Max:') F=input('输入优先关系矩阵F:'); %计算模糊一致矩阵 N=size(F); r=sum(F'); for i=1:N(1) for j=1:N(2) R(i,j)=(r(i)-r(j))/(2*N(1))+0.5; end end E=R./R'; % 计算初始向量---------- % W=sum(R')./sum(sum(R)); % 和行归一法 %--------------------------------------------------------- for i=1:N(1) S(i)=R(i,1); for j=2:N(2) S(i)=S(i)*R(i,j); end end S=S^(1/N(1)); W = S./sum(S);%方根法%-------------------------------------------------------- % a=input('参数a=?'); %W=sum(R')/(N(1)*a)-1/(2*a)+1/N(1); %排序法 % 利用幂法计算排序向量----V(:,1)=W'/max(abs(W)); %归一化 for i=1:Max V(:,i+1)=E*V(:,i); V(:,i+1)=V(:,i+1)/max(abs(V(:,i+1))); if max(abs(V(:,i+1)-V(:,i)))k=i; A=V(:,i+1)./sum(V(:,i+1)); break Else End End 四、计算实例 由优先关系矩阵得到模糊一致矩阵 利用三种方法计算排序向量分别为:

判别分析-四种方法

第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

模糊层次分析法的Matlab实现

一、引言 层析分析法是将定量与定性相结合的多目标决策法,是一种使用频率很高的方法,在经济管理、城市规划等许多领域得到了广泛应用。由于其结果受主观思维的影响较大,许多科研工作者对其进行了深入的研究,将模糊理论与层次分析法相结合,提出了模糊层次分析法。为克服层次分析法中判断矩阵的一致性与人类思维的一致性存在的显著差异,文献[1-2]引入了模糊一致矩阵。为解决解的精度及收敛问题,文献[3-4]引入幂法来求排序向量。运用模糊层次分析法研究实际问题时,常采用迭代法来得到精度更高的排序向量,这就要求选择合适的初始值并通过大量的计算,为此,文中利用三种方法计算了初始排序向量,并给出了算法的Matlab程序,最后通过实例说明。 二、模糊层次分析法 为解决AHP种所存在的问题,模糊层次分析法引入模糊一致矩阵,无需再进行一致性检验,同时使用幂法来计算排序向量,可以减少迭代齿数,提高收敛速度,满足计算精度的要求.具体步骤: 1.构造优先关系矩阵 采用0.1~0.9标度[2],建立优先判断矩阵 2.将优先关系矩阵转化为模糊一致矩阵 3.计算排序向量 (1)和行归一法: (2)方根法: (3)利用排序法: (4)利用幂法[5-6]求精度更高的排序向量: 否则,继续迭代。 三、模糊层次分析法的程序实现 给出模糊层次分析法的Matlab程序。 clear; clc; E=input('输入计算精度e:') Max=input('输入最大迭代次数Max:')

F=input('输入优先关系矩阵F:'); %计算模糊一致矩阵 N=size(F); r=sum(F'); for i=1:N(1) for j=1:N(2) R(i,j)=(r(i)-r(j))/(2*N(1))+0.5; end end E=R./R'; % 计算初始向量---------- % W=sum(R')./sum(sum(R)); % 和行归一法 %--------------------------------------------------------- for i=1:N(1) S(i)=R(i,1); for j=2:N(2) S(i)=S(i)*R(i,j); end end S=S^(1/N(1)); W = S./sum(S);%方根法%-------------------------------------------------------- % a=input('参数a=?'); %W=sum(R')/(N(1)*a)-1/(2*a)+1/N(1); %排序法 % 利用幂法计算排序向量----V(:,1)=W'/max(abs(W)); %归一化 for i=1:Max V(:,i+1)=E*V(:,i); V(:,i+1)=V(:,i+1)/max(abs(V(:,i+1))); if max(abs(V(:,i+1)-V(:,i)))k=i; A=V(:,i+1)./sum(V(:,i+1)); break Else End End 四、计算实例

基于.层次分析法的模糊综合评价

校园环境质量的模糊综合评价方法 信息与计算科学2003级马文彬 指导教师杜世平副教授 摘要:本文应用模糊数学理论,把模糊综合评价方法具体应用到校园环境质量综合评价研究中,结合校园的实际情况将环境评价系统根据需要分成若干个指标,建立了因子集、评价集、隶属函数和权重集,实现对校园环境的质量等级综合评判。采用层次分析法计算评价的权重集,并对取大取小算法和评价结果的最大隶属度原则进行了改进,取得较好的效果。实例表明:模糊综合评价方法可操作性强、效果较好,可在一般环境的质量评价中广泛应用。 关键词:校园环境质量,模糊综合评价,层次分析法,权重 Fuzzy Comprehensive Evaluation Method for the Environment Quality of university Campus MA Wen-bin Information and Computational Science , Grade 2003 Directed by Du Shi-ping (Associate Prof ) Abstract: In this paper,based on fuzzy mathematics theory, the fuzzy comprehensive evaluation is applied in the environment quality evaluation of university campus,combining the actual situation list to evaluate the general level of university campus by fuzzy comprehensive evaluation. By setting up the factor sets, the evaluation sets, subjection functions and the weighting sets. Implementation of the Campus Environment Quality Level comprehensive evaluation. The evaluation of the weighting sets are made by AHP. The choosing big or small algorithm and the maximal subjection degree of the evaluation result is improved, and the effect is very good.The applying example indicates: the researched method is feasible and effective, it can be used widely in the environment quality assessment. Keywords:Environment quality of university campus,Fuzzy Comprehensive Evaluation,Analytical Hierarchy Process,Weighting

模糊数学评价方法教程

模糊综合评价法(见课件) 模糊数学是从量的角度研究和处理模糊现象的科学.这里模糊性是指客观事物的差异在中介过渡时所呈现的“亦此亦比”性.比如用某种方法治疗某病的疗效“显效”与“好转”、某医院管理工作“达标”与“基本达标”、某篇学术论文水平“很高”与“较高”等等.从一个等级到另一个等级间没有一个明确的分界,中间经历了一个从量变到质变的连续过渡过程,这个现象叫中介过渡.由这种中介过渡引起的划分上的“亦此亦比”性就是模糊性. 一、单因素模糊综合评价的步骤 1. 根据评价目的确定评价指标(evaluation indicator )集 合 },,,{21m u u u U = 例如评价某项科研成果,评价指标集合为U ={学术水平,社会效益,经济效益}. 2. 给出评价等级(evaluation grade )集合 },,,{21n v v v V = 如评价等级集合为V ={很好,好,一般,差}. 3. 确定各评价指标的权重(weight ) },,,{21m W μμμ = 权重反映各评价指标在综合评价中的重要性程度,且∑=1i μ. 例如假设评价科研成果,评价指标集合U ={学术水平,社会效益,

经济效益}其各因素权重设为}4.0,3.0,3.0{=W . 4.确定评价矩阵R 请该领域专家若干位,分别对此项成果每一因素进行单因素评价(one-way evaluation ),例如对学术水平,有50%的专家认为“很好”,30%的专家认为“好”,20%的专家认为“一般”,由此得出学术水平的单因素评价结果为()0,2.0,3.0,5.01=R 同样如果社会效益,经济效益两项单因素评价结果分别为 ()1.0,2.0,4.0,3.02=R ()2.0,3.0,2.0,2 .03=R 那么该项成果的评价矩阵为 ???? ? ??=????? ??=2.03.02.02.01.02.04.03.002.03.05.0321R R R R 5.进行综合评价 通过权系数矩阵W 与评价矩阵R 的模糊变换得到模糊评判集S : 设m j W ?=1)(μ,n m ji r R ?=)(,那么 ()()n mn m m n n m s s s r r r r r r r r r R W S ,,,,,,212 1 22221 11211 21 =???? ?? ? ??==μμμ 其中“ ”为模糊合成算子. 进行模糊变换时要选择适宜的模糊合成算子,模糊合成算子通 常有四种: (1) ),(∨∧M 算子

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

模糊层次分析法

5.结论 由以上计算过程可以看出,模糊层次分析法同普通层次分析法相比具有以下优点:(1)检验一次性更方便。根据定理2.1或定理2.2可直接检验模糊矩阵是否具有一致性。(2)调整过程更简洁。通过调整模糊矩阵的元素可很快使模糊矩阵具有模糊一致性。(3)判断依据更合理。根据定理2.1或定理2.2作为检验一致性的标准更科学简便。 参考文献[1]张吉军.模糊层次分析法.模糊系统与数学,2000,14(2):80-88 [2]吕跃进.基于模糊一致矩阵的模糊层次分析法的排序.模糊系统与数学,2002,16(2):79-85 [3]JohnMGleason.Fuzzysetcomputationalprocessesinriskanalysis.IEEETransactionson EngineeringManagement,1991,38(2):177-178 4.3.2层次总排序 同理,可求得其他矩阵对应元素的权重,并得到C层次总排序如下: 4.3.5结论 球面网壳动力稳定临界力简化计算 王节1黄显民2 (1.黑龙江省林业设计研究院2.哈尔滨工业大学建筑设计研究院150008) 摘要:球面网壳动力稳定临界力简化估算公式是针对跨度30m ̄60m,矢跨比1/10 ̄1/6的单层球面网壳,对于其它类型的网壳结构要具体分析。 关键词:单层球面网壳动力稳定动力稳定临界力中图分类号:TB122文献标识码:A 网壳结构是杆件沿曲面有规律布置而组成的空间杆系结构。具有刚度大、自重轻、受力均匀、在水平、竖向及多维地震作用下的动内力分布均匀且较小,结构抗震性能良好。结构在罕遇地震作用下的动力失稳临界峰值较高,随着矢跨比增加,结构刚度增大,地震作用稳定性提高。而且造型丰富美观、综合技术指标好等特点,是大跨度、大空间结构的主要结构形式之一。目前世界上跨度最大的网壳结构是美国新奥尔良体育馆的超级穹顶,跨度213米。近年来,网壳结构在我国获得了迅速的发展,哈尔滨速滑馆,由筒壳及两个半球壳组成的组合网壳,网壳平面投影86.2m×191.2m,是已建成最大的网壳结构。 在我国,单层球面网壳多应用在跨度较小的结构中,主要原因是该类结构为缺陷敏感性结构,在大雪、强风和强烈地震作用下,杆件进入塑性,结构通过塑性变形吸收地震能量,随着地震输入能量的增加,结构产生很大的塑性变形甚至失稳倒塌破坏。目前关于球面网壳的研究主要集中在结构静力稳定性及静力后屈

模糊评价方法的基本步骤

模糊综合评价 模糊综合评价法是一种基于模糊数学的综合评标方法。该综合评价法根据模糊数学的隶属度理论把定性评价转化为定量评价,即用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。它具有结果清晰,系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。其基本步骤可以归纳为: ①首先确定评价对象的因素论域 可以设N 个评价指标,12(,, ...)n X X X X =; ②确定评语等级论域 设12n =(W ,W , ...W )A ,每一个等级可对应一个模糊子集,即等级集合。 ③建立模糊关系矩阵 在构造了等级模糊子集后,要逐个对被评事物从每个因素(=1,2,,n)i X i ……上 进行量化,即确定从单因素来看被评事物对等级模糊子集的隶属度i X (R ),进而 得到模糊关系矩阵11112122122212nm ......=..................m m n n n nm X r r r X r r r X r r r ??????????????????????????(R )(R )R=(R ),其中,第i 行第j 列元素,表示某个被评事物i X 从因素来看对j W 等级模糊子集的隶属度。 ④确定评价因素的权向量 在模糊综合评价中,确定评价因素的权向量:12(,, ...)n U u u u =。一般采用层 次分析法确定评价指标间的相对重要性次序。从而确定权系数,并且在合成之前归一化。 ⑤合成模糊综合评价结果向量 利用合适的算子将U 与各被评事物的R 进行合成,得到各被评事物的模糊综合评价结果向量B 即:

111212122 2121212nm ......(,, ...)(,, ...)...............m m n m n n nm r r r r r r U R u u u b b b B r r r ??????===?????? 其中,i b 表示被评事物从整体上看对j W 等级模糊子集的隶属程度。 ⑥对模糊综合评价结果向量进行分析 实际中最常用的方法是最大隶属度原则,但在某些情况下使用会有些很勉强,损失信息很多,甚至得出不合理的评价结果。提出使用加权平均求隶属等级的方法,对于多个被评事物并可以依据其等级位置进行排序。

相关文档
最新文档