2014年西北工业大学数学建模B题一等奖论文——食品价格变动分析
“工大出版社杯”第十五届西北工业大学数学建模竞赛暨全国大学生数学建模竞赛选拔赛题目
B 题
剪切线
学院第队
摘要
本文对全国50个城市主要食品平均价格变动情况的问题进行了建模、求解与相关分析。
针对问题一,将50个城市作为我国的代表,同时将主要食品进行分类,分析各类食品的波动特点以体现我国食品价格波动的特点。第一步分析附录中的数据,并对数据进行处理,运用两种分类方法将食品合理分类:依据传统食品分类法分为八大类与将价格方差处于同一范围内的食品分为价格平稳型,价格温与波动型,价格迅速波动型与价格剧烈波动型四类。第二步根据食品分类结果,通过制作价格波动图及查找资料分析各类食品价格的波动特征,从而体现我国食品价格波动的特点。
针对问题二,我们利用各个食品价格变动折线图,在四大类食品中选出具有代表性的食品进行进一步的研究。首先我们根据问题一的折线图大致推测与实际数据大致吻合的函数类型,应用SPSS软件与MATLAB软件,对相应数据进行线性,二次,三次,对数等多种模型的拟合。然后利用负相关系数2R值、方程显著性检验F 对函数曲线与实际数据的吻合度进行检验。如果模型的拟合效果较好,就运用拟合函数进行2014年5月份的走势预测,并利用前期数据计算预测值与实际值的相对误差,都处于合理范围内,说明预测有效。
针对问题三,我们通过所给数据及查找的数据,利用主成分分析法,分析得出27种食品种类中的主成分依次为第19、21、23、25、1、2、3、26、27种食品。故得到可以通过检测较少食品种类,就能相对精确地预测CPI数值。经过对地域特点的考察,选取陕西与上海两地,通过查找相关CPI与食品价格数据,运用主成分分析法,得出对CPI影响大的几类食品,然后通过matlab算法实现,再由所得数据与图表的分析比较得到,不同地区应选取不同的食品种类进行检测。
关键词:分类,曲线拟合,线性回归,主成分分析法,SPSS
一基本假设
针对本问题,可做以下合理假设:
(1)数据真实可靠。
(2)由于不可预料的大型地质灾害,如地震、洪涝灾害、旱灾等,可能引起全国食品零售价格的波动,所以本论文所有模型所用的数据都基于不发生大型地质灾害的假设之上。本论文中对2014年5 月的食品价格走势做出的预测,也就是基于这个月份没有大型地质灾害的假设之上。
(3)不考虑国际粮价对国内的影响。
二名词解释与符号说明
设2013年11月1-10日为1;2013年11月11-20日为 2;2013年11月21-30日为3,依次类推下去。
名词符号含义单位
i根据所给表格中的食品
种类排序
x第i种食品在第j时间点
元
ij
的价格
2
第i种食品的价格方差
i
E 累计贡献率
三问题一
3、1 问题分析
问题一的要求为根据附录及相关统计网站的数据来分析我国食品价格波动的特点。我国食品价格波动特点需要典型的食品价格数据来进行分析得到。故可将50个城市作为我国的代表,同时将主要食品进行分类,分析各类食品的波动特点以解决问题一,则分为两个步骤:第一步就是要分析附录中的数据,并对数据进行处理,将食品合理分类;第二步就是根据食品分类结果以及查找资料确定各类食品价格的波动特征,从而体现我国食品价格波动的特点,并为下一步预测做准备。
3、1、1 数据的分析
附录提供了从2014年1月1日到2014年4月10日的50个城市主要食品平均价格变动情况的数据。从中国国家统计局官网( )上,我们又收集到了从2013年11月1日到2013年12月30日的数据,但这之前的数据官网上并没有给出。所以本问题中在做数据处理时,都就是指把从2013年11月1日到2014年4月10日的数据进行处理。
由于每种食品的价格不就是在一个价格区间,比如有的食品价格在2~3 元之间波动,而有的食品价格在60~70 元之间波动,在观察它们的价格走势时会由于数量级的不同而导致趋势的不同。为了消除量纲与量级对趋势的影响,需要对数据进行归一化。
3、1、2 分类标准的分析
首先,我们考虑传统食品分类法,即以食品本身的属性进行分类。同一类的食品,应该会呈现相似的价格波动趋势。其次,由于本题主要考虑价格的波动特点,我们采取价格方差这一指标进行分类,而这种整体偏离的属性可以通过价格方差来衡量,因此我们有考虑采用价格方差这一指标进行分类。这两种分类方法从不同的角度出发,避免分析每一种食品的价格波动特点,同时又能体现总体的特点,解决问题一题目中分析我国食品价格波动趋势的问题。
3、2 两种分类方法
3、2、1第一种分类方法,依据传统食品分类方法,可将食品分为8类:
第一类:大米类(粳米);
第二类:面粉类(富强粉、标准粉);
第三类:豆制品(豆腐);
第四类:食用油(花生油、大豆油、菜籽油);
第五类:肉蛋类(猪肉、牛肉、羊肉、鸡、鸭、鸡蛋);
第六类:鱼类(活鲤鱼、活草鱼、带鱼);
第七类:蔬菜类(大白菜、油菜、芹菜、黄瓜、西红柿、豆角、土豆);
第八类:水果类(苹果、香蕉)。
3、2、2第二种分类方法,以价格方差作为主要指标进行分类。
价格方差的定义:食品的价格方差就是该食品在观测到的各时间点的一系列价格数据的方差,表达式如下:
1622i 1
1
=(),1,2,3......1616ik i k a a i σ=-=∑
其中,2
i σ表示第i 种食品的价格方差。
将价格方差在(0,0、01)内取值的定义为价格平稳型食品,在(0、01,0、2)取值的为价格温与波动型食品,在(0、2,2)内取值的为价格迅速波动型食品,在(2,8)取值的为价格剧烈波动型食品。 3、3 各类食品价格波动特点
运用第一种分类方法,将各类食品价格走势图表示出来,据图分析。
表3-1:大米面粉类食品价格走势图
大米这类食品属于生活必需品,价格波动较小,稳定性较好。总体而言,大米的价格走势将在近期基本保持不变。
由图表可以瞧出富强面粉与标准面粉的价格走势基本稳定,其中富强面粉的平均价格为5、46元/千克,标准面粉的平均价格为4、49元/千克;同时富强面粉,标准面粉的价格方差最低,说明其价格波动最小。,其价格水平将基本在较小的范围内波动。
表3-2:豆制品食品价格走势图
而豆腐及豆制品行业产销格局对行业整体发展趋势具有决定性影响,由此表可以瞧出豆制品(豆腐)的价格一直保持上升水平,其价格方差为0、002546,较低,说明豆腐价格小幅波动上涨,平均价格为4、424元/千克。
表3-3:食用油类食品价格走势图
花生油与大豆油走势偏弱,2014年4月较2013年11月,花生油下降了2、8%,大豆油下降了2、03%,而菜籽油小幅度波动上升,提高了2、1%。同时花生油与菜籽油的价格方差分别为0、079467与0、052865,较高,说明二者的价格在一定范围内会持续波动,而大豆油的价格方差为0、0028562,较低,表明价格在一定时期内会保持稳定。
表3-4:肉蛋类食品价格走势图
从折线图中可以清晰瞧出肉蛋类中8种食品价格的波动情况,其中鸡蛋、鸭肉与两种鸡肉的价波动幅度非常小,价格处于稳定状态。分析原因就是市场供应较为充足。两种猪肉的整体波动幅度比较大。2014年以前猪肉价格的波动较小,原因就是由于市场供应有保障。牛肉与羊肉的整体价格处于上涨趋势,但变化幅度不大牛肉涨幅大于羊肉涨幅。
表3-5:鱼类食品价格走势图
2013年11月-2014年1月,活鲤鱼的价格基本保持在13、82元/千克,2014年2月-3月初,其价格有较大的波动,平均价格为14、594元/千克,较之前增长了5、6%,但在2014年3月中期至4月初,平均价格有所下降。综上,鱼类经历了由小幅度波动上升到小幅度波动下降的过程。冬季产鱼数量较少,价格随之小幅度上升;而春季与夏季天气较暖,产鱼数量较多,价格略有下降。
表3-6:蔬菜类食品价格走势图
蔬菜类中波动幅度存在明显差异,其中,大白菜、油菜、芹菜、土豆的价格相对稳定,即使波动,也只就是很小范围内的波动,可视为基本稳定,而西红柿、黄瓜走势大致相同,且波动幅度较前几种更加明显,而豆角的价格变化幅度更加明显,与其她蔬菜类都没有相似性,出现这种情况的可能原因就是豆角种植条件特殊,除了季节变化,还可能有多种因素影响其价格走势。
表3-7:水果类食品价格走势图
水果类中,两种水果呈现相似的价格走势,即年后出现小幅上涨趋势,其余趋于平缓,基本无变化,分析原因就是冬季需求量变大,因而出现小幅上涨的趋势,总体趋于平缓则说明了水果种植与季节变化并无明显关系。
运用第二种分类方法,可得以下几类食品,如以下表格所示:
表3-8:价格平稳型食品
价格平稳型食品主要就是大米,面粉,大豆油等基本需求食品以及豆腐,鸡肉,价格波动特点就是:变化较平稳,主要在平均值上下浮动。
表3-9:价格温与波动型食品
价格温与波动类食品主要就是食用油类,鱼类,蔬菜类以及鸭与鸡蛋,价格波动特点就是:价格在一定范围内波动,但整体变化不大,仅有小幅度波动。
表3-10:价格迅速波动类食品
价格迅速波动类食品主要就是牛羊肉,水果类,黄瓜,西红柿与带鱼,价格波动特点就是:不同时期呈现较大幅度的波动,价格波动与其影响因素关联很大。
表3-11:价格剧烈波动型食品
价格剧烈波动型食品主要就是猪肉及豆角,价格波动特点就是:价格在不同时期呈现巨大幅度的波动,受时间影响很大。
四 问题二
4、1问题分析
名称
大米
面粉(富强
1)
面粉(标准
2)
大豆油
豆腐
鸡(白条鸡)
鸡2(鸡胸肉)
方差 0、006947 0、005613 0、00016 0、002856 0、002546 0、00899 0、007696
名称 花生
油 菜油 鲤鱼 鸭
鸡蛋 白菜 油菜 芹菜 土豆 方差 0、0、0、0、0、0、0、0、0、0、052
名称 带鱼 牛肉 羊肉 黄瓜 西红柿 香蕉 苹果 方差 0、
0、1、0、84265 0、536769 0、
0、食品名称 猪肉1 猪肉2 豆角 方差
2、48996625
2、261486667
7、463037
根据宏观经济学原理分析,要预测食品价格变化情况就需要根据以往的食品价格走势情况,然后建立有关食品价格的关系模型,试图找出变化的内在联系,然后再进行预测。所以本题要求对2014年5月份食品价格走势进行预测,我们就要在问题一已有食品价格数据与数据走势图的基础上,进一步建立最优的模型,才使本题求解的关键。 4、2 模型建立原理
4、2、1曲线拟合(Curve Fitting)就是在数据分析上常用的方法,就就是利用参数化的曲线构造函数()y f x =来逼近一组给定的数据点所构成的函数()f x ,
可就是参数化的曲线
()g x 不可能严格的通过采样点,但能够希望()g x 尽可能
地靠近这些点,就就是使其:
()()
i i g x f x - (i =1,2,3,…,n)在某种意义上达到最小。
4、2、2超定系统线性方程
线性方程的超定系统就是指方程的个数多于自变量的个数系统。求解超定系统一般采用最小二乘法。
超定方程组:方程个数大于未知量个数的方程组
注:超定方程一般就是不存在解的矛盾方程组。
如果有向量 a 使得
2
1
2211
)(i m n
i im i i y a r a r a r
-+++∑= 达到最小,
则称 a 为上述超定方程的最小二乘解。 4、3 模型建立过程
由问题一我们根据食品价格走势图可以了解到不同类食品的价格走势呈现
11112211
1122
()
m m n n nm m n
r a r a r a y n m r a r a r a y ++
+=??>?
?+++=?
不同的规律,所以我们分别从四大类食品(价格平稳型食品、价格温与波动型食品、价格迅速波动型食品、价格剧烈波动型食品)选取有代表性的食品,运用SPSS 软件求解,求得食品价格的变动规律。
模型中各数据点就是离散的数据,属于非线性相关的点,我们取年份作为x 轴,各个食品种类的价格作为y 轴。 第一步:先选定一组函数
12(),(),...(),m r x r x r x m n
<,令
1122()()()...()
m m f x a r x a r x a r x =+++ (1)
其中 a 1,a 2, …,a m 为待定系数。
第二步:以最小二乘准则确定a 1,a 2, …,a m ,即使n 个点(,)
i i x y 处
i
y 与
()
i f x 的
差δi 的平方与最小 。记
2
2
121
1
2
1
1
(,,
,)[()][()](2)
n n
m i i i i i n m
k k i i i k J a a a f x y a r x y δ======-=-∑∑∑∑
问题归结为:求 a 1,a 2, …,a m 使 J (a 1,a 2, …,a m ) 最小。 4、3、1第一类(价格平稳型食品)
我们以豆制品(豆腐)为例进行求解:
观察豆腐的价格波动图,我们考虑到豆腐价格函数有线性与对数型两种类型,所以分别用两种方法进行求解,然后通过比较与误差分析得出最优的模型。 (1) 线性回归的方法
设价格随时间变化的方程就是:y=α+βx+?,其中?~N(0,2σ) SPSS 求解模型过程如下:
由图表可以得到函数表达式为:
4.340.11y x =+
复相关系数
20.872R =,方程显著性检验95.345F =,故回归方程显著。
(2)对数模型求解
运用SPSS 软件进行曲线拟合,得到如下结果:
系数a
模型 非标准化系数
标准系数 t Sig 、
B 标准 误差
试用版
1
(常量) 1、468 、002
659、478 、000 VAR00001
、002
、000
、934 9、741
、000
由图表可以得到函数表达式为
0.0021 1.468y nx =+
复相关系数调整
20.862R =,方程显著性检验94.894F =。 综合比较两种模型:线性方程的2
R 较大,并且F 值较高,可得线性回归的效果较好,因而采用线性回归方程
4.340.11y x =+进行预测。
利用上述回归方程,可以估计五月份的价格,为检验效果,比较前几个月的原始价格与预测值。结果见表:
时
间 1
2
3
4
5
6
7
8
9
1
16
原
始值 4、34 4、34 4、36 4、38 4、39 4、39 4、33 4、42 4、46 4、48 4、46 4、46 4、47 4、46 4、47 4、48
预测
值
4、35 4、36 4、37 4、38 4、39 4、40 4、41 4、42 4、43 4、44 4、45 4、46 4、47 4、48 4、49
5、00
误
差
0、230、460、22000、221、8400、670、890、22000、440、440、44表4-1:豆腐预测值与原始值的相对误差
表中预测值与原始值的相对误差最大不超过2%,且大多数不超过0、4%,说明预测具有一定准确性。
19, 4.53;20, 4.54;21, 4.55;x y x y x y ======
即预测得到五月份三个时间段豆制品的价格分别就是: 4、53元/千克,4、54元/千克,4、55元/千克。
4、3、2第二类食品(价格温与波动型食品)
我们以鸡蛋为例进行求解: SPSS 曲线拟合:
模型汇总与参数估计值
因变量:VAR00002
方
程 模型汇总
参数估计值
R
方 F df1 df2 Sig 、 常
数 b1 b2 b3 三
次 、525 4、
423 3 12 、026 9、
607 、201 -、
030 、
001
S
、081 1、230 1 14 、286 2、
279 、
024
根据鸡蛋价格数据的走势,我们推测的函数模型包括对数、二次、三次、反
向、复合与S曲线,但比较2
R的值,我们可以瞧到这些曲线得到的2R值均小于0、4,表明实际数据与预测函数极度不吻合,所以鸡蛋价格不遵循一定的规律,导致我们不能比较准确的得到鸡蛋价格的预测结果,这也就是我们目前构建模型方面的不足之处。
但我们可以根据鸡蛋价格每个时期的跌涨幅度得到价格变动的大致范围,即:最大涨幅为2、5%,最大跌幅为3、0%,平均幅度为-0、14375%,并且根据4、5月份的幅度变化的斜率趋势来瞧,鸡蛋价格在5月份跌涨幅度在0%上下波动。
4、2、3第三类(价格迅速波动型食品)
我们以水果(香蕉、苹果)为例进行求解:
观察苹果,香蕉的趋势图,两者趋势相似,我们运用SPSS软件拟合,最后得到最符合苹果价格的曲线为三次方程:
23
10.6100.1020.0350.001
y x x x
=-+-
复相关系数2R为0、973,方程显著性检验F=141、88,可见,该方程的拟合效果相当好。
利用上述回归方程,可以估计苹果,香蕉五月份的价格,为检验效果,比较苹果前几个月的原始价格与预测值。
结果见下表:
时
间1 2 3 4 5 6 7 8 9 1 16
原始值10
、
59
10、
53
10、
57
10
、
62
10、
7
10、
89
11、
1
11
、2
11、
63
11、
79
11、
75
11、
75
11、
81
11、
9
11
、
96
11
、
98
预
测值10
、
54
10、
538
10、
592
10
、
69
8
10、
85
11、
042
11、
268
11
、
52
2
11、
798
12、
09
12、
392
12、
698
13、
002
13、
298
13
、
58
13
、
84
2
相对
误差0、
45
0、
075
0、
208
7、
8
1、
401
1、
376
1、
513
2、
87
5
1、
444
2、
544
5、
463
8、
068
10、
093
11、
747
13
、
54
5
15
、
54
3
表4-3:苹果预测值与原始值的相对误差
分析上表数据,预测值与实际值的相对误差最大超过了15%,且有大部分月
份都超过了2%。虽然曲线拟合效果很好,但就是预测得到的结果并不准确,因而不能用三次方程进行预测价格。
我们进一步观察水果类的波动图,可以瞧出:曲线前段趋缓,中段有明显上升趋势,后段也处于缓与的趋势,因而预测五月份价格不会有大的波动,应该在最大值与最小值之间取值,取后段趋缓部分的价格平均值,计算公式:
16
10
7
i
i
y
y=
'=
∑
预测得到五月份苹果的价格为y'=11、85,且范围在11、79元到11、98元之间,相对误差为1、6034%。
同样的方法可以得到五月份香蕉的价格为y'=7、55,取值范围在7、45到7、69之间,相对误差为1、8543%,预测存在一定误差,但不会有大的误差。
4、2、4第四类(价格剧烈波动型食品)
观察问题一中猪肉(后腿肉)与猪肉(五花肉)价格走势类似,所以相应的模型类似。而蔬菜(豆角)与二者的走势明显不同,所符合的模型也不同,故分别进行求解。
SPSS求解模型过程如下:
1、(1)猪肉(五花肉)曲线拟合:
在此,我们可以通过超定系统线性方程最小二乘法,利用MATLAB软件编程做实验数据与拟合曲线。图象如下:(代码见附录)
:
图4-4:实验数据与拟合曲线
由图表可以得到函数表达式为:
2
0.340.30525.877
y x x
=-++
利用上述回归方程,可以估计猪肉的价格,为检验效果,比较猪肉前几个月的原始价格与预测值。
结果见下表:
时
间
1 2 3 4 5 6 7 8 9 1 16
原始值26
、
32
26
、
25
26
、
37
26
、
51
26
、
44
26
、
49
26
、
27
26
、
05
26
、
20
25
、
98
24
、
98
24
、
30
23
、
82
23
、
25
22
、
68
22
、
21
预测值26
、
14
8
26
、
31
5
26
、
48
6
26
、
55
3
26
、
55
2
26
、
48
3
26
、
34
6
26
、
14
1
25
、
86
8
25
、
52
7
25
、
11
8
24
、
64
1
24
、
09
6
23
、
48
3
22
、
80
2
22
、
05
3
相对误差0、
65
%
0、
24
%
0、
44
%
0、
16
%
0、
42
%
0、
02
6%
0、
28
9%
0、
34
9%
1、
26
7%
1、
74
%
0、
55
%
1、
4%
1、
15
%
1、
00
%
0、
54
%
0、
70
7%
表4-5:猪肉预测值与原始值的相对误差
据表分析可得:表中预测值与原始值的相对误差最大不超过1、7%,并且基本
上相对误差小于0、5%,说明预测具有一定的准确性。
19,19.398;20,18.377;21,18.288;x y x y x y ======
即预测得到五月份三个时间段豆制品的价格分别就是:
19、398元/千克,18、377元/千克,17、288元/千克。
2、蔬菜(豆角)曲线拟合
由问题1求解中豆角的方差较大,我们考虑线性回归的方法,
设价格随时间变化的方程就是:
2
y ax bx c =+++?, 其中?~N(0,2σ)
由于季节因素影响价格大幅的波动,会对我们建立的模型类型产生很大的干扰,所以去掉1、2、3、9、10所代表的这些时间段的豆角价格数据,即这些波动特别大的点 。 SPSS 曲线拟合:
模型汇总与参数估计值
因变量:VAR00001
方程 模型汇总
参数估计值 R 方 F
df1 df2 Sig 、 常
数 b1 b2
二
次 、939
61、
253
2
8 、000 、105 2、590 -、
117
自变量为 VAR00002。
其函数表达式为:
20.117 2.590.105y x x =-++
利用上述回归方程,可以估计豆角的价格,为检验效果,比较豆角前几个月的原始价格与预测值。
结果见下表:
时
间 4
5
6
7 8 11 12 13 14 15 16 原
9、09 9、46 10、
12、
13、
14、
13、
13、
13、
12、
11、
表4-7:豆角的预测值与实际值的相对误差
由图表可以瞧到,2
R 为0、939,较高,说明曲线拟合很好,并且在3、4月份相对误差较小,表明实际数据与预测数据更加接近,对5月份豆角价格进行预测也就是比较准确的。 其函数表达式为:
20.117 2.590.105y x x =-++
19,7.078;20, 5.015;21, 2.898;x y x y x y ======
即预测得到五月份三个时间段豆角价格分别为:
7、078元/千克,5、015元/千克,2、898元/千克;
4、4模型结果分析
针对以上模型建立与预测结果,可以得到以下结论:
(1) 从选取的四类代表性食物来瞧,第一类食品中的豆腐价格在5月份均保持
小幅度波动上升趋势;第二类食品中的鸡蛋保持小幅度下降趋势;第三类食品(香蕉、苹果)价格开始呈现明显上升趋势,后段处于缓与的趋势;第四类食品中,猪肉呈现波动下降趋势,同时豆角也波动下降。
(2) 在图中瞧不出就是食品价格的波动,这就是因为预测的时间只有5月份三
个时间段,时间段很短,价格不足以在这个时间段发生大幅度波动,所以预测结果具有一定的准确度。
五 问题三
5、1问题分析
消费者物价指数(Consumer Price Index),英文缩写为CPI,也称消费价格指数,就是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常
作为观察通货膨胀水平的重要指标,就是与人民生活密切相关的参考指标。由于CPI指数包含衣食住行等众多分类,而题目中要求仅仅通过监控部分食品价格波动,就能相对精确地预测CPI数值,于就是考虑食品类占居民消费总支出的百分比。同时,每一类食品价格变化对CPI 的重要性并不相同。为使用尽量少的食品种类达到较好的预测,考虑对食品进行主成分分析,减少食品种类,提取出少数几个代表性食品。不同地区的CPI指数也不尽相同,则预想不同地区被提取出的食品种类也不同。经过对地域特点的考察,选取陕西与上海两地,通过查找相关CPI与食品价格数据,运用主成分分析法,得出对CPI影响大的几类食品,然后比较两地的影响CPI大的食品类别就是否相同。
5、2 问题求解与模型建立
5、2、1食品消费支出占总支出的比重
恩格尔系数就是食品支出总额占个人消费总额的比重,在中国国家统计局官网( )上,我们得到2010年到2013年的恩格尔系数分别为:
35、7%,36、3%,37、1%,35、0%
取其均值,我们可以得到全国食品消费占总的消费支出为36、025%
在国家统计局陕西调查总队的官网( )上,我们得到了陕西省历年城镇居民人均生活消费支出的数据,采用2010年到2013年的数据,计算得出食品占总消费的比率分别为: 0、37058,0、36567,0、36203,0、36427
取其均值,我们可以得到陕西省食品占总消费的平均比率为:0、36564 在上海统计官网(ts-sh、gov、cn/)上,我们得到了从2009年1季度到2014年1季度的上海城市居民家庭消费支出数据,通过计算食品支出占消费总支出的比例,得到2013年,2012年,2011年,2010年,2009年食品占总消费的比率分别为:
0、34472,0、367778,0、355265,0、335524,0、350695;
取其均值,我们可以得到上海食品占总消费的平均比率为0、350797。
5、2、2主成分分析法的基本思想
在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。主成分分析就是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
5、2、3 主成分分析模型的建立与求解
(1)数据的标准化处理
,1,2,...,,1,2,...,ij j
ij j
x x y i n j j s -=
==
其中ij x 为第i 个分区第j 个指标的值,j x ,j s 为第j 个指标的样本均值与样本标准差。 (2)计算数据表
()
ij
I J
y ?的相关矩阵S 。
(3)求S 的J 个特征值:12...J λλλ≥≥≥,以及对应的特征向量12,,...,J μμμ,
它们标准正交12,,...,J μμμ称为主轴。 (4)求主成分:1
,1,2,...,,1,2,...,J
k j
j j Z X j J k J μ
==
==∑。
(5)精度分析:通过求累计贡献率E 来判断,1
1
m
K
K J j
j E λ
λ
===
∑∑,一般要求取E>85%的
最小m 值,则可得主平面的维数m,从而可对m 个主成分进行综合分析。
()6在获得特征向量与特征值,并确定主超平面的维数之后,可以计算主因子载荷
矩阵,其计算公式为: 12
J m J m D U ??=Λ