数学建模案例分析8主成分分析的应用--概率统计方法建模

合集下载

主成分分析在数学建模中的应用

主成分分析在数学建模中的应用

第一讲主成分分析在数学建模中的应用1.学习目的1. 理解主成分分析的基本思想;2会用SA澈件编写相关程序,对相关数据进行主成分分析;3. 会用SAS软件编程结合主成分分析方法解决实际问题。

2.学习要求1.理解主成分分析的基本原理,掌握主成分分析的基本步骤;2会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验;3. 撰写不少于3000字的小论文;4. 精读一篇优秀论文。

3. 理论基础3. 1 基本思想在实际问题的研究中,往往会涉及众多的变量。

但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。

一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。

因而人们希望对这些变量加以“改造” ,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。

主成分分析就是在这种降维的思想下产生的处理高维数据的方法。

3.2 基本原理(1).总体的主成分定义1设X (X i,X2,…,X p)'为P维随机向量,称Z i a;X为X的第i主成分(i=1,2,*X iX i E(X i ) Var(X i )X i(i 1,2,…,p)…P ),如果:(1) a 'a i 1(i1,2,…,p );(2)当 i>1 时,a ' a j 0(j 1,2,…i-1 );(3) Var(Z i )1,max Var (a X)a a 1,a a j 0( j 1/' i-1 )定理 1.设 X (X 1,X 2,…,X p )'是P 维随机向量,且D(X),的特征值为1 2…p 0,a 1, a 2,■ …,a p 为相应的单位正交特征向量,则 X 的第 i 主成分为Z i a ;x(i 1,2,…,p).p m p定义 2.我们称k /i为主成分Z k 的贡献率;又称k /i 为主成分i 1k 1i 1Z 1,…,Zm (m p)的累计贡献率。

大学生数学建模——主成分分析方法页PPT文档

大学生数学建模——主成分分析方法页PPT文档

从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,
它们分别是的相关矩阵的m个较大的特征值所 对应的特征向量。
二、计算步骤
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 7 95.416 8 62.901 9 86.624 10 91.394 11 76.912 12 51.274 13 68.831 14 77.301 15 76.948 16 99.265 17 118.505 18 141.473 19 137.761 20 117.612 21 122.781
人) 295.34
x 6:经济 作物占农 作物面积 比例(%)
26.724
x 7:耕地 占土地面 积比率

主成分分析(数学建模)

主成分分析(数学建模)
• •• • • •
上面的四张图中, 上面的四张图中,哪一种有更高的 精度?原始变量的信息损失最少? 精度?原始变量的信息损失最少?
旋转变换的目的是为了使得n个样品点在 Fl轴方向上的离 散程度最大,即Fl的方差最大。 变量Fl代表了原始数据的绝大 部分信息,在研 究某经济问题时,即使不考虑变量F2也无损大 局。经过上述旋转变换原始数据的大部分信息 集中到Fl轴上,对数据中包含的信息起到了浓 缩作用。
F 1
x1
平移、旋转坐标轴 主 成 分 分 析 的 几 何 解 释
•• •• •• ••• •• • •• •
x2 F2
••• • •• •• • •• •• • • •• • •
F 1
x1
平移、旋转坐标轴 x2 F 1 主 F2 成 • • •• •• • • • 分 • • 分 • •• •• • • • • • • • ••• • • • •• 析 • •••• • • •• • • • • • 的 • • • • •• • ••• • • • 几 • • •• • x1 • 何 • • • • •• • • • • •• • • 解 • • • • • • • • • • •• • 释
F1 F1 F2 F3 i Δi i t 1 0 0
F2
F3
i
i
t
1 0 -0.041 1 0.057 -0.124 l -0.102 -0.414 l -0.112 1
0.995
-0.056 -0.369
பைடு நூலகம்
0.948
-0.282
-0.836
二、主成分分析的意义 主成分分析是把各变量之间互相关联的复杂 关系进行简化的分析方法。 在社会经济的研究中,为了全面系统的分析 和研究问题,必须考虑许多经济指标,这些指标 能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相 关性。

数学建模方法-主成分分析和MATLAB应用

数学建模方法-主成分分析和MATLAB应用

1 0.55341 0.51434 0.51538 0.4688 8 0.73562 0.71214
1
0.98793 0.9776 0.97409 0.68282 0.7 8019

1
0.98071 0.9798 0 .69735 0.77306
1
0.99235 0.6266 3 0.78718
X j e1 jY1 e2 jY2 e pjYp , Cov(Yi , X j ) ieij .
由此可得 Yi 与 Xj 的相关系数为
Yi ,X j
Cov(Yi , X j ) Var(Yi ) Var( X j )
ieij i jj
i jj
eij
24.423 36.283
36.283 56.046
49.146 75.404
3.67 47 38.718 5.0022 59.723
71.672 29.029 49.278 49.146 75.404 103.02 6.82 15 74.523
8.602 4.7846 3.629 3.6747 5.0022 6.8215 1.137 6 .7217
i* 的正
交单位特征向量。
第 i 个主成分的贡献率: i* ; p
m
i*
前 m 个主成分的累计贡献率: i1 ; p
Yi*

X
* i
的相关系数为
Yi*
,
X
* j

* i
ei*j

二、样本主成分 前面讨论的是总体主成分,但在实际问题中,一般 (或 )是未知的,需要通
过样本来估计。设
xi ( xi1, xi 2 , ..., xip )T , i 1, 2, ..., n.

主成分分析(数学建模)

主成分分析(数学建模)

主成分分析
每个人都会遇到有很多变量的数据。
比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。
这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、 理 解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。在引进主成分分析之前,先 看下面的例子。
• 这里的Initial Eigenvalues就是这里的六个
主轴长度,又称特征值(数据相关阵的特
征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
3
2
1
0
1
2
3
4
5
6
Component Number
现:
1.analyze-description statisticdescription-save standardized as variables
2.analyze-data reduction-factor 3.指定参与分析的变量 4.运行factor 过程
• 对于我们的数据,SPSS输出为
成绩数据(student.sav)
100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6 个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信 息呢? 能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推 广到对企业,对学校进行分析、排序、 判别和分类等问题。

最新数学建模之主成分分析法

最新数学建模之主成分分析法

精品文档主成分分析主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变量,通常是将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。

即所谓主成能解释大部分资料中的变异的几个新变量,选出比原始变量个数少,分,并用以解释资料的综合性指标。

、主成分分析的应用1)我国各地区普通高等教育发展水平综合评价。

(1 )投资效益的分析和排序等。

(2、主成分分析法的步骤2①对原始数据进行标准化处理xx,,x,a表示第n个,用表示主成分分析指标的m个变量,评价对象有m12ij aa,转化为标准化指标i个评价对象对应于第j个指标的取值。

将每个指标值ijij即??a jij)mj?1,2,,,(i?1,2,,na?;ij sj??2??,式中:)??a?s(a jjijjij1?nn1?ii?1相应地,标准化指标变量为 nn11??x jj)m1,2,,(x?,j?j sj②计算相关系数矩阵RR?(r)mmij?n??aa kjki1k?,(ir?,j?1,2,,m)ij n?1r?1,r?rr是第i个指标和第j其中:指标之间的相关系数。

,ijjiiiij③计算相关系数矩阵的特征值与特征向量精品文档.精品文档?????0???,(i?1,2,,m)?0?I?R再求解特征方程得到特征值,;m2i1?T),m?u(i1,2,,其中的特征向量出相对应的特征值由特,,,uuu)?(u,iijmjj21j m征向量组成的个新的指标变量为xuux??y?ux??m21m112111 ?xx??uy?ux?u?m2m2212122???x?uux??yux??m2mmmm1m21m yyy 为第1主成分,?,其中:主成分为第1主成分,为第m12)(≤④选择pp个主成分,计算综合评价值。

m?),m(j?1,2, 1)计算特征值的信息贡献率和累积贡献率(j y b用的信息贡献率,则有表示主成分ij?j )?1,2,?b,m(jjm??k1?k y,,y,ay用的累积贡献率,则有表示主成分p12pp??k1?k?apm??k1k?—aa个指标变量85%的范围为)时,则用前95%若接近于1(一般p pp m yy,,,y 个主成分进个主成分,代替原来个指标变量,再对作为pp p12行综合分析。

数学建模优秀课件之主成分分析

数学建模优秀课件之主成分分析
按大小顺序排列 ;
1 2 , p 0
2.求出的特征向量:每一个特征值对应的特征向量,由此可 以得出第一,二,第三主成分表达式
四、计算主成分贡献率及累计贡献率
1.贡献率:
i
p
k
k 1
(i 1,2,, p)
2.累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
如果累计贡献率超过了0.85,则说明前k个主成分基本包括了全部指标具 有的信息,因此可以只选前k个成分来分析
X
(X1, X 2,...,X P )
x21
...
x22 ...
... x2p
...
...
xn1 xn2 ... xnp
定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p) 为新变量指标
z1 l11x1 l12 x2 l1p xp
z2
l21x1
l22 x2
将“成分矩阵”表中每一列值分别除以特征值的开方,就得 z
出了每一个特征值对应的特征向量,由此可以得出第一,第二, 第三主成分表达式(令各因素为X1,X2……X8)
z1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X51.37*X6-2.4318*X7+6.72*X8
rpp
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
rij
n
( xki xi )(xkj x j )
k 1
n
n
( xki xi )2 ( xkj x j )2

概率统计建模方法

概率统计建模方法

第1章概率方法建模简介第2章数据统计描述和分析第3章方差分析第4章回归分析第5章马氏链模型第6章时间序列模型第7章主成分分析及应用第8章判别分析简介及应用主讲:山东大学数学学院陈建良2第1章概率方法建模简介随机性模型,是指研究的对象包含有随机因素的规律,以概率统计为基本数学工具,其结果通常也是在概率意义下表现出来。

随机因素的影响可以用概率、平均值(即数学期望)等的作用来体现。

自然界中的现象总的来说可以概括为两大现象:确定性现象和随机现象在确定性现象中可以忽略随机因素的影响,在随机现象中必须考虑随机因素的影响。

确定性离散模型,主要使用差分方程方法、层次分析方法以及比较简单的图的方法和逻辑方法等方法建立模型;确定性连续模型,主要使用微积分、微分方程及其稳定性、变分法等方法建立模型;§2 概率方法建模实例分析实例一、报童的策略问题1.问题描述报童每天清晨从报站批发报纸零售,晚上将未卖完的报纸退回。

设每份报纸的批发价为b,零售价为a,退回价为c,且设a>b>c,因此报童每售出一份报纸赚(a-b),退回一份赔(b-c)。

若批少了不够买就会少赚,若批多了买不完就赔钱,报童如何确定每天批发报纸的数量,才能获得最大收入?92. 分析显然应根据需求量来确定批发量。

一种报纸的需求量是一随机变量。

假定报童通过自己的实践经验或其它方式掌握了需求量的随机规律,即在他的销售范围内每天报纸的需求量为X = x 份的概率为P(x),则通过P(x) 和a, b, c 就可建立关于批发量的优化模型。

3.数学模型设每天批发量为n,因需求量x 是随机的,因此x可以小于、等于或大于n,从而报童每天的收入也是随机的,作为优化模型的目标函数,应考虑他长期(半年、一年等)卖报的日平均收入。

据概率论中的大数定律,这相当于报童每天收入的期望值(以下简称平均收入)。

1011设报童每天批发进n 份报纸时的平均收入为S (n ),若某天需求量x ≤n ,则他售出x 份,退回(n -x )份;若这天需求量x >n ,则n 份报纸全部卖出。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

231 1.92 9.28 2.42 3.33 9.67 135 按照上述步骤,可以计算出样本相关矩阵为 的特征根及相应的标准正交化的特征向量分别为 特征向量 累计贡献率 (%) 0.441 0.437 0.436 0.410 0.359 83.7 -0.358 94.5 0.083 -0.092 0.175 -0.184 0.667 97.5 0.678 99.5 0.013 0.057 -0.006 0.737 -0.360 99.9 0.568 100 -0.364 -0.401 -0.347 0.501 0.502 -0.285 0.177 -0.757 0.554 0.050 -0.170 -0.095 0.796 -0.243 -0.551 -0.002 -0.003 0.006 第一个主成分为 此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近, 它们几乎以一样的重要性综合说明了各厂的经济效益。 第二个主成分为 此主成分主要反映后两个经济指标的效果。 由于前两个主成分的累计贡献率已达94.5%,因此可以选取,来评价 这些工厂的综合经济效益。用下式作为每个样品的“综合数值”,按其大 小给样品排序。 其中。 这里。结果每个样品的值列于表中最右边一列,按值大小排序结果列 于右边第二列。 5.0390 0.6230 0.1030 0.1030 0.0260 0.0004
§8 主成分Βιβλιοθήκη 析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产 生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能 多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量 分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的个变量 中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不 含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分 析、聚类分析等等)仍能达到我们的目的。 设有个样品,个变量(指标)的数据矩阵 寻找个新变量,使得 1、 2、彼此不相关 这便是主成分分析。主成分的系数向量的分量刻划出第个变量关于第 个主成分的重要性。 可以证明,若为维随机向量,它的协方差矩阵的个特征值为,相应的 标准正交化的特征向量为,则的第主成分为。 称为主成分的贡献率,为主成分的累计贡献率,它表达了前个主成 分中包含原变量的信息量大小,通常取使累计贡献率在85%以上即可。 当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后 面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选 入又达不到简化变量的目的,那时常常将它们一同割舍。 计算步骤如下: 1、由已知的原始数据矩阵计算样本均值向量; 其中 2、计算样本协方差矩阵 其中 3、把原始数据标准化,即,记。形成样本相关矩阵; 4、求的特征根及相应的标准正交化的特征向量,可得主成分为。 关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出 合理的解释。 例1 下表是10名初中男学生的身高(),胸围(),体重()的数据, 试进行主成分分析。 身高()/cm 胸围()/cm 体重()/kg 149.5 69.5 38.5
—资金利税率(%) —固定资产利税率(%) —流动资金利税率(%) —全员利税率(%) —成本利税率(%) —流动资金周转天数 厂序 经济效益 排序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 69.87 269.10 94.38 23.85 74 66.31 260.00 89.01 40.09 80 67.26 272.54 89.29 26.70 84 68.46 250.18 94.24 24.98 18 39.45 146.17 54.04 17.46 109 24.82 116.86 31.51 10.42 117 30.21 73.60 51.23 31.06 227 31.24 168.31 38.37 14.29 129 23.29 109.42 29.59 8.23 99 23.10 92.41 30.80 12.48 136 18.95 57.63 28.24 17.23 231 8.65 21.71 14.35 8.26 177 5.10 27.27 6.38 239 4.66 18.42 6.24 115.74 93.30 78.90 76.87 90.95 81.59 39.52 62.16 29.67 43.57 21.91 9.63 8.60 8.59 6.46 4.54 (1) (2) (3) (4) (5) (6) (8) (7) (9) (10) (11) (12) (13) (15) (14) 0.785 0.727 0.672 0.634 0.206 0.029 -0.083 -0.050 -0.170 -0.196 -0.32 -0.51 -0.55 -0.66 -0.64 值
162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.7 由表中数据计算得到
77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0
55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
解出的三个特征值和相应的三个标准正交化的特征向量为 ,, 由于三个主成分的贡献率分别为 当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可 以舍去。得到的前两个样本主成分的表达式为 现在我们来解释这两个主成分的意义,从的表达式可以看出,是身 高、胸围、体重三个变量的加权和,当一个学生的数值较大时,可以推 断其或较高或较胖或又高又胖,故是反映学生身材魁梧与否的综合指 标。的表达式中系数的符号为一正()两负(,),当一个学生的数值 较大时,表明其大,而,小,即为瘦高个,故是反映学生体形特征的综 合指标。 需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在 一定程度上作分析,但这往往并不意味着分析问题的结束。主成分分析 本身往往并不是最终目的,而只是达到某种目的的一种手段。很多情况 下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利 用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效 果。例如,利用主成分变量作回归分析、判别分析、聚类分析等等。 下面再举一个利用主成分进行样品排序的例子。 例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。其中
相关文档
最新文档