数学建模-主成分分析法模板

合集下载

主成分分析(数学建模)

• •• • • •
上面的四张图中，上面的四张图中，哪一种有更高的精度？原始变量的信息损失最少？精度？原始变量的信息损失最少？
旋转变换的目的是为了使得n个样品点在 Fl轴方向上的离散程度最大，即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息，在研究某经济问题时，即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上，对数据中包含的信息起到了浓缩作用。
F 1
x1
平移、旋转坐标轴主成分分析的几何解释
•• •• •• ••• •• • •• •
x2 F2
••• • •• •• • •• •• • • •• • •
F 1
x1
平移、旋转坐标轴 x2 F 1 主 F2 成 • • •• •• • • • 分 • • 分 • •• •• • • • • • • • ••• • • • •• 析 • •••• • • •• • • • • • 的 • • • • •• • ••• • • • 几 • • •• • x1 • 何 • • • • •• • • • • •• • • 解 • • • • • • • • • • •• • 释
F1 F1 F2 F3 i Δi i t 1 0 0
F2
F3
i
i
t
1 0 -0.041 1 0.057 -0.124 l -0.102 -0.414 l -0.112 1
0.995
-0.056 -0.369
பைடு நூலகம்
0.948
-0.282
-0.836
二、主成分分析的意义主成分分析是把各变量之间互相关联的复杂关系进行简化的分析方法。在社会经济的研究中，为了全面系统的分析和研究问题，必须考虑许多经济指标，这些指标能从不同的侧面反映我们所研究的对象的特征，但在某种程度上存在信息的重叠，具有一定的相关性。

数学建模方法-主成分分析和MATLAB应用

1 0.55341 0.51434 0.51538 0.4688 8 0.73562 0.71214
1
0.98793 0.9776 0.97409 0.68282 0.7 8019

1
0.98071 0.9798 0 .69735 0.77306
1
0.99235 0.6266 3 0.78718
X j e1 jY1 e2 jY2 e pjYp , Cov(Yi , X j ) ieij .
由此可得 Yi 与 Xj 的相关系数为
Yi ,X j
Cov(Yi , X j ) Var(Yi ) Var( X j )
ieij i jj
i jj
eij
24.423 36.283
36.283 56.046
49.146 75.404
3.67 47 38.718 5.0022 59.723
71.672 29.029 49.278 49.146 75.404 103.02 6.82 15 74.523
8.602 4.7846 3.629 3.6747 5.0022 6.8215 1.137 6 .7217
i* 的正
交单位特征向量。
第 i 个主成分的贡献率： i* ； p
m
i*
前 m 个主成分的累计贡献率： i1 ； p
Yi*
与
X
* i
的相关系数为
Yi*
,
X
* j

* i
ei*j
。
二、样本主成分前面讨论的是总体主成分，但在实际问题中，一般（或）是未知的，需要通
过样本来估计。设
xi ( xi1, xi 2 , ..., xip )T , i 1, 2, ..., n.

数学模型讲座主成分分析.ppt

4
2. 直观想法
原始数据矩阵
x11 x21
x12 x1n x22 x2n
xp1 xp2 xpn
p 维空间n 个点
研究n 个点的关系，难! 降维，近似在低维空间表达。
5
2. 直观想法
例如，二元总体，x
正态分布。
Байду номын сангаас
x1 x2
y Ux
如果椭圆很扁，则在 y 的坐标系中，样本点的第一个坐
u1, u2 , , u p
是对应的单位特征向量。
说明∶求法，最大方差性质。
10
3.主成分问题的数学提法
定理: 设p 维随机变量 x (x1 x2 xp ) ' 的数学
期望为0，且协方差阵为 D(x) ,它的特征值为
1 2 p 0
u1, u2 , , u p 为相应的单位特征向量，则x 第 i 主成分为
13
4.样本主成分
实际问题中总体协方差矩阵D(x) 是未知的，只能
用样本协方差矩阵 Sx 去估计。因此实用中，从样本协方差矩阵 Sx 出发，求一个正交矩阵U，将Sx 变成对角矩阵Λ，即
US x U
'
Λ
1
0
0
1 2 p 0
p
14
4.样本主成分
样本主成分--由Sx 出发求出的主成分。
yi uix ui1x1 ui2 x2
uip xp
(i 1,2,, p)
11
3.主成分问题的数学提法
说明1∶求主成分关键是要从协方差矩阵 D(x) 求出正交变换矩阵 U (u。ij ) p p
说明2∶若已经求出主成分 y Ux ，则原来的p 个指
标 x1, x2 , x p 就可以转化为用p 个新的指标

数学建模 -的范例

针对问题三，本文首先对主要风险因子进行了灰色预测，计算出未来几年水资源总量、降水量、平均气温、生活用水量、工业用水量。

然后采用问题二中的BP神经网络预测每年的缺水量。

最后通过整合往年的数据，运用问题二中的熵值取权的模糊评价模型预测出未来几年内水资源短缺的风险等级。

由于考虑到降水量和地下储水相关系数高，我们依据历年的降水量估测出平水年，偏枯年，枯水年三种不同年份的水资源总量，并应用问题二的风险评价模型进行评估，得到三种不同年份水资源短缺风险等级依次为高，较高，较低。

最后我们分析了南水北调工程对北京市未来两年水资源短缺的风险等级影响，风险等级依次变为低，偏低，无。

针对问题四，我们从北京市水资源现状及分析、北京市严重缺水的原因探究、北京市水资源开发利用对策三个层面向相关行政主管部门提交建议报告，以求帮助其合理规避水资源短缺风险。

关键字：水资源短缺风险、灰色关联度分析、主成分分析，模糊综合评价、BP 神经网络、熵值取权一、问题重述1.1 问题背景水是生命之源，万物之本，是人类生存和发展不可或缺的物质，是地球上最普遍、最常见同时也是最珍贵的自然资源。

水是人类一切生产活动的基础，有水的地方欣欣向荣，水资源枯竭的地方则文明消失。

长期以来，我们注重经济社会发展，却忽略了水资源的承载能力，注重水资源开发利用，却没有同等重视节约和保护。

随着经济社会发展，1.2 问题重述水资源短缺危险泛指在特定的时空环境下，由于来水和用水的不确定性，室区域水资源系统发生供水短缺的可能性以及有此产生的损失。

近年来我国水资源短缺问题日趋严重，以北京市为例，北京是世界上水资源严重缺乏的大都市之一，属严重缺水地区。

虽然政府采取了一些列措施，如南水北调工程建设, 建立污水处理厂,产业结构调整等。

但是，气候变化和经济社会不断发展，水资源短缺风险始终存在。

如何对水资源风险的主要因子进行识别，对风险造成的危害等级进行划分，对不同风险因子采取相应的有效措施规避风险或减少其造成的危害，这对社会经济的稳定、可持续发展战略的实施具有重要的意义。

数学建模实用教程(主成分分析)

T1 ΣT2 T1T2 T1T1 0
由于 T1 ΣT2 0 ， T1T2 0 ，那么， T1T1 0 ，即有 0 。从而 ( Σ I)T2 0 而且将方程两边同乘以 T2’,有 T2ΣT2
第 K 主成分求法
针对一般情形，第 k 主成分应该是在 TkTk 1 且 TkTi 0 或
第 k 个主成分的贡献率：由主成分的性质可以看出，主成分分析把 p 个原始变量

X1 , X 2 ,, X p 的总方差 tr ( Σ) 分解成了 p 个相互独立的
变量 Y1 , Y2 ,, Yp 的方差之和

k 1
p
k
。主成分分析的目的是
减少变量的个数，所以一般不会使用所有 p 个主成分的，忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称
其中 D(Y ) 表示方差，Cov表示协方差，表示X协方差阵
i
主成分确定条件：
T1T1 1 第一主成分为，满足，并且使得 D(Y1 ) T1ΣT1 达到最大的 Y1 T1X 。 Cov(Y2 , Y1 ) Cov(T2X, T1X) 0 第二主成分为，满足 T T 1 ，使得 D(Y2 ) T2ΣT2 达到最大的 Y2 T2X 。 T T 1 k 一般情形，第主成分为，满足， Cov(Y , Y ) Cov(T X, T X) 0 且（ i k ），使得 D(Yk ) TkΣTk Yk Tk X 达到最大的。
解决的问题之三：客观加权

选择评价指标体系后通过对各指标加权的办法来进行综合。但是，如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性，指标在评价中的重要性判断难免带有一定的主观性，这影响了综合评价的客观性和准确性。主成分分析法是根据指标间的相对重要性进行客观加权，可以避免综合评价者的主观影响，所以在实际应用中越来越受到人们的重视。

主成分分析数学建模PPT课件

则一定可以找到正交阵U，使
1 0
UAU
0
2
0
0
0
0
p
PP
第22页/共52页
上述矩阵的特征根所对应的单位特征向量为 u1,,up
则U为
u11 u12 u1p
U
(u1
,,
up
)
u21
u22
u2
p
u p1
up2
u
pp
实对称阵A属于不同特征根所对应的特征向量是正交的，即有
UU UU I
2
•
• •• •
• • ••• ••• • •• •••••••••••••••• ••••
•• •
•
• • •• •
•• • •
•
•
•• •
•• •
•• • • • • •
•• •
•
•
•
•
• ••
• • ••
•
••
• •
•
•• •
•• •
•
x1
•
••
• •
•
第15页/共52页
上面的四张图中，哪一种有更高的精度？原始变量的信息损失最少？
COV(X，X)=D(X)， COV(aX，bY)=abCOV(X，Y)，
COV(X1+X2，Y)=COV(X1,Y)+COV(X2，Y)
第35页/共52页
§4 主成分的性质
一、均值 E(Ux) U
二、方差为所有特征根之和
p
Var
i 1
(
Fi
)
1
2
p
2 1
2 2
2 p

第六章-主成分分析法精选全文

可编辑修改精选全文完整版第六章主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。

由于评价对象往往具有多个属性指标，较多的变量对分析问题会带来一定的难度和复杂性。

然而，这些指标变量彼此之间常常又存在一定程度的相关性，这就使含在观测数据中的信息具有一定的重叠性。

正是这种指标间的相互影响和重叠，才使得变量的降维成为可能。

即在研究对象的多个变量指标中，用少数几个综合变量代替原高维变量以达到分析评价问题的目的。

当然，这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失，而且指标之间彼此相互独立。

第一节引言主成分分析，也称主分量分析，由皮尔逊（Pearson ）于1901年提出，后由霍特林（Hotelling ）于1933年发展了，这也正是现在多元统计分析中的一种经典统计学观点。

经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴，这些主轴由样本来估计。

然而，现代越来越多的人从数据分析的角度出发，用一种不同的观点来考察主成分分析。

这时，不需要任何关于概率分布和基本统计模型的假定。

这种观点实际上是采用某种信息的概念，以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。

主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。

这些主要成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合。

为了使这些主要成分所含的信息互不重迭，应要求它们互不相关。

当分析结束后，最后要对主成分做出解释。

当主成分用于回归或聚类时，就不需要对主成分做出解释。

另外，主成分还有简化变量系统的统计数字特征的作用。

对于任意p 个变量，描述它们自身及其相互关系的数字特征包括均值、方差、协方差等，共有)1(21-+p p p 个参数。

经过主成分分析后，每个新变量的均值和协方差都为零，所以，变量系统的数字特征减少了)1(21-+p p p 个。

数学建模案例分析—主成分分析的应用--概率统计方法建模

§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少数几个新变量并使它们尽可能多地包含原变量的信息（降维），从而使得用这几个新变量替代原变量分析问题成为可能。

即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量，它们能综合原有变量的信息，相互之间又尽可能不含重复信息，用这几个新变量进行统计分析（例如回归分析、判别分析、聚类分析等等）仍能达到我们的目的。

设有n 个样品，m 个变量（指标）的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ，使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。

主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。

可以证明，若12(,,,)T m x x x x = 为m 维随机向量，它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ，相应的标准正交化的特征向量为12,,,m u u u ，则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。

称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率，11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率，它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小，通常取k 使累计贡献率在85%以上即可。

当然这不是一个绝对不变的标准，可以根据实际效果作取舍，例如当后面几个主成分的贡献率较接近时，只选取其中一个就不公平了，若都选入又达不到简化变量的目的，那时常常将它们一同割舍。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 / 5 根据主成分分析的方法，分析 ……的数据。步骤如下： Step 1为了消除不同变量的量纲的影响，首先需要对变量进行标准化，设检测数据样本

共有n个，指标共有p个，分别设Xi,X2,Xp，令

Xj(i=1,2,…,n;j=1,2,…,p)为第i个样本第j个指标的值。作变换

X 乂」已心“,…,p

)

Var(X j)

Step 2：在标准化数据矩阵Y (yj)np的基础上计算p个原始指标相关系数矩阵

R (rj)pp

r11 *2 r21 r22 r1p

r2p

rp1 rp2 rpp

n (Xki Xi)(xkj

Xj)

其中，rj

k 1

(i j=1 2 -・・ p)

n n (I,J=I,2, ,p)

(Xki X i ) (X Xj)2

.k 1 k 1

Step 3:求相关系数矩阵 R的特征值并排序1 2 p 0,再求出R的特征

值相应的正则化特征向量 ei (ei1 , ei2 , ,eip)，则第i个主成分表示为各指标Xk

p 的组合Zi eik Xk

i 1

Step 4：计算累积贡献率确定主成分的数目。主成分

累计贡献率为

(i 1,2, ,p)

得到标准化数据矩阵yj

Xij

仝，其中Xj 2

Xj ,Sj

n i i

(Xj Xj)2 n i i

wi i p

k k 1

(i 1,2, ,p)

乙的贡献率为般取累计贡献率达85%~95%的特征值 1, 2 , m所对应的第1、第2,…, 2 / 5 第m (mW p)个主成分

Step 5:计算主成分载荷，确定综合得分。当主成分之间不相关时，主成分载荷是主成分

和各指标的相关系数，相关系数越大，说明主成分对该指标变量的代表性就越好，计算公式为

lj P( Zi ,xj ... iej(i,j 1,2, ,p) Step 6:各主成分的得分，确定综合评分函数。得到各主成分的载荷以后，可以计算各主

成分的得分

m 则第i个样本的综合得分fi Wk Zik (i=1,2,…,n);

k 1

附件中共有28个月的数据，这里仅随机选择 2005年4月的数据来说明利分析进行水质综合评价的过程(同理可进行其他月份的数据分析)。调用MATLAB统计工具箱princomp函数，格式为： [pc,score,late nt,tsquare]=pri ncomp(i ngredie nts) 其中in gredie nts指标准化后的样本指标矩阵，pc是指各主成分关于指标的线性组合的系数矩阵，score为各主成分得分，late nt是方差矩阵的特征值，tsquare为

Hotelling T2 统计量。

各种指标的相关系数矩阵:

Zi 111 X i l 12 X 2 l1pX

Z2 1 21 X 1 1 22 X 2

2p X p

m1X 1 1 m 2X 2 m pX p

Z (Zj)n

Z11 Z12 Z21 Z22 Z1 m

Z2m

，其中zij表示第i个样本第j个主成分得分,

Z n1 Zn2 z nm 3 / 5

（填充数据）各个主成分的贡献率: 表1主成分的贡献率表特征值贡献率累积贡献率第1主成分第2主成分

由表可看出，前三个主成分的累积贡献率已达到（填充数据），取控制参数a =0.06（因为28个月中前三个成分贡献率最低为 94%），因此取前三个主成分对

（填充文字）进行综合评价。

根据R的特征值的相应的正则化单位特征向量，前m个主成分关于指标的线性组合为：

（填充表达式）（分析）根据线性表达式中的系数及符号，可对各主成分的实际意义作如下解释：第1主成分为除（变量）之外的三项指标的综合；第 2主成分与（变量）成正相关，与（变量）成负相关；第 3主成分为除（变量）之外的三项指标的综合。以各个主成分的方差贡献率为权重可得到（文字）的最终综合评价。

表2 XX综合评价表第1主成分第2主成分综合得分排名样本1 样本2

上表给出了 XX的综合评价，综合得分越高说明（文字），排名越高 x=[0.0581 0.0356 0.0435 0.1184 0.1083 0.1392 0.0423 0.0346 0.0354 0.0770 0.0089 0.0642 0.0534 0.0544 0.0407 0.0139 0.0688 0.0234 0.0080 0.0047 0.0252 0.0183 0.0139 0.0391 0.0056 0.0093 0.0053 0.0290 0.0234 0.0158 0.0097 0.0263 0.0086 0.0028 0.0064 0.0064 0.0111 0.0075 0.0680 0.0557 0.1112 0.1194

0.0483 0.0499 0.0151 0.0314 0.0087 0.0174 0.0045 0.00624 / 5

0.0315 0.0375 0.0305 0.0198 0.0213 0.0376 0.0243 0.0398 0.0357 0.0278 0.0253 0.0295 0.0443 0.0286 0.0295 0.0468 0.0304 0.0334 0.0248 0.0233 0.0321 0.0242 0.0437 0.0203 0.0132 0.0233 0.0153 0.0212 0.0270 0.0213 0.0431 0.0276 0.0628 0.0142 0.0184 0.0184 0.0206 0.0285 0.0455 0.0316 0.0610 0.0440 0.0488 0.1853 0.0176 0.1086 0.1848 0.1148 0.0888 0.1352 0.0250 0.0318 0.0233 0.0444 0.0391 0.0273 0.0284 0.0251 0.0300 0.0327 0.0286 0.0212 0.0334 0.0408 0.0490 0.0285 0.0192 0.0328 0.0255 0.0285 0.0250 0.0152 0.0337 0.0361 0.0609 0.0251 0.0215 0.0232 0.0164 0.0199 0.0200 0.0190 0.0148 0.0085 0.0134 0.0037 0.0100 0.0072 0.0125 0.0089 0.0271 0.0163 0.0508 0.0223 0.0243 0.0175 0.0200 0.0222 0.0183 0.0164 0.0060 0.0290 0.0079 0.0195 0.0102 0.0063 0.0179 0.0093 0.0124 0.0159 0.0197 0.0237 0.0162 0.0078 0.0101 0.0078 0.0072 0.0117 0.0164 0.0116 0.0259 0.0243 0.0350 0.0214 0.0162 0.0287 0.0197 0.0182 0.0220 0.0182 0.0327 0.0220 0.0562 0.0391 0.0367 0.0416 0.0282 0.0220 0.0273 0.0232 0.0286 0.0204 0.0160 0.0180 0.0286 0.0165 0.0166 0.0227 0.0223 0.0168 0.0344 0.0349 0.0286 0.0255 0.0268 0.0377 0.0259 0.0254 0.0393 0.0317 0.0271 0.0185 0.0270 0.0105 0.0239 0.0140 0.0139 0.0153 0.0183 0.0144 0.0318 0.0370 0.0377 0.0793 0.0603 0.0582 0.0754 0.0901 0.0482 0.0735 0.0056 0.0472 0.0071 0.0692 0.0240 0.0104 0.0791 0.0421 0.0240 0.0456 0.0133 0.0242 0.0170 0.0039 0.0141 0.0080 0.0064 0.0097 0.0119 0.0090 0.0025 0.0497 0.0011 0.0024 0.0146 0.0057 0.0049 0.0072 0.0050 0.0048 0.1428 0.0123 0.0983 0.0292 0.1437 0.0613 0.0385 0.0402 0.0590 0.0387