因子分析,共分散构造分析.ppt
FF三因子模型风险因子的有效性检验-15页文档资料

FF三因子模型风险因子的有效性检验一、引言众所周知,在资本市场中风险和收益是一对相互依存的变量,即一般而言,高风险会带来较高的收益。
风险收益对等的原则是资本市场运作的规则,也是每个投资者必须遵守的定律。
从而如何权衡风险和收益之间的关系则是投资者必须面临的问题,也是理论界研究的重点。
因此,作为金融理论研究重点之一的风险定价问题一直受到学者们的关注。
回顾研究历程可发现,对于股票风险和收益之间的关系的研究可以追溯到最早的CAPM 模型,该模型基于有效市场假说,将β系数视作衡量风险的唯一因子。
但是,在随后的研究中发现β系数和回报率之间有不契合的地方,即出现了种种异象。
仅仅通过β系数来解释股票回报率略显单薄。
Banz(1981)小公司效应的提出以及Fama、French(1992)的研究拓展了最初的CAPM 模型,使得度量风险的因子由最初的β系数扩展到β系数、规模、账面市值比三因子。
但是,随着资本市场的发展与完善,该模型的适用性是否还成立,对于这一问题国外学者莫衷一是。
我国学者延续了国外的研究范式,将CAPM在我国特有的制度环境下利用我国资本市场的数据进行了CAPM 模型有效性检验,随后国外学者通过对种种异象的捕捉,拓展了CAPM模型,形成三因子模型。
我国学者也随之对拓展后的三因子模型在我国的有效性进行了实证检验。
但是由于样本数据以及相关研究方法的差异,至今尚未得出一致的结论。
本文立足于我国特有的股票市场,通过对沪深两市2001-2011年数据进行大样本实证检验,试图通过大样本数据的验证来探究我国衡量资本市场风险定价的因子以及其相互之间的关系。
二、文献综述(一)国外文献资本资产定价的研究最早可以追溯到1952年美国经济学家马克维茨发表的《资产组合选择》。
该文详细论述了如何进行金融资产的组合以分散投资风险,并实现收益最大化,资本资产投资理论自此兴起。
60年代初,证券估值方法成为金融学家们研究的热点,这一阶段最为典型的研究成果是资本资产定价模型。
第6章多因子定价模型

第6章 多因子定价模型黄万阳(根据肖俊喜译稿整理)在第5章结束部分,我们总结了CAPM 贝塔不能完全解释资产期望收益截面部分的经验证据。
该证据意味着可能需要1或多个其它因子刻画期望收益行为,自然考虑多因子定价模型。
理论争论也表明:由于仅在强假设下CAPM 才被逐期应用,需要多因子定价模型。
有两个主要的理论方法:罗斯(Ross,1976)提出的以套利为基础的套利定价理论(APT )。
默顿(Merton,1973a )提出的以均衡为基础的跨期资本资产定价模型。
在这一章,我们考虑多因子模型计量经济分析。
这章安排如下。
第6.1节简短地讨论多因子方法理论背景。
在第6.2节中我们考虑已知因子模型的估计与检验。
而在第6.3节中我们给出风险溢价(PREMIA )与期望收益的估计量。
既然因子不总是由理论提供,那么在第6.4节我们讨论构造因子的方法。
第6.5节给出了实证结论。
由于缺乏模型设定,离差总能被其余因子解释。
因此,这就产生了解释违背模型问题。
在第6.6节我们将讨论这个问题。
6.1 理论背景作为资本资产定价模型可供选择的模型,罗斯(Ross,1976)引入了套利定价理论。
APT 比CAPM 更一般,由于它考虑多个风险因子。
不像CAPM ,APT 也不要求识别市场投资组合。
然而,这种一般性不是无成本的。
在其一般形式中,APT 给出了资产期望收益与个数不确定的未识别因子之间近似关系。
在这种情况下,否定该理论是不可能的(除非套利机会存在)。
因此,模型可检验性依赖于额外假设的引入1。
套利定价理论假设市场是竞争的、无摩擦的;所考虑的资产收益生成过程为i i i i a R ε+'+=f b (6.1.1)0][=f i E ε (6.1.2)∞<≤=222][σσεi i E (6.1.3)其中i R 是资产i 的收益,i a 是因子模型截距,i b 是资产i 因子敏感度)1(⨯K 向量,f 是共同因子实现(realization ))1(⨯K 向量,i ε是扰动项。
均匀设计法PPT课件

b x 数 的绝对值不能直接进行比较,必须将各回归系数标准化,按式(8-15)求出标准回
归系数 ,然后才能通过比i较
i
xi
y
y
b'i b'的绝对值来判断各因子影响的大小。
i
26
第26页/共44页
标准回归系数
bi' bi Lij / Lyy
(8―15)
标准回系数 与因子 所' 用单位无关,其绝对值越大,表示该因子对 值的影响越大。
j 1
。f u m
Qe QT U
第24页/共44页
(8―11)
(8-12) (8-13)
24
自由度
f e 从而n统计量m 1
给定显著性水平F,从附表2查U出
/
m
检验临界值
Qe /(n m 1)
F ( fu , fe )
,若 (8-14)
F
F F ( fu , f e )
我们可以在显著性水平下 ,认为所建立的回归方程是有显著意义的。反之,则
用的条件下,只需选用实验次数等于因子数的均匀设计表来安排实验就可以的。而 当要考虑因子高次项与因子之间的交互作用时,需用多项式回归来描述指标函数。 若研究的因子数因子数为 ,在回归方程中,一次项与二次项各
m
13
第13页/共44页
14
m 2m C C 有 项,交互效应项有 项,共有( )项2,因此至少要选用有( )次2实验的均匀设
U 5 (54 ) U 5 (54 ) 则U正表5好(的5每4第列)1安列排和一第个2列因;子若。有又3如个前因面子提,到则的将因子表安,排如在果第只1,安2,排4列2因;子若,有则4个可因由子,
的使用表查得应将这2个因子分别
山洪灾害致灾因子分析与防治措施

第11卷第3期中国水运V ol.11N o.32011年3月Chi na W at er Trans port M arch 2011收稿日期:2011-02-29作者简介:章德武(1986-),男,长沙理工大学水利学院,主要研究方向为水灾害防治和灾害风险评价、水环境。
基金项目:湖南省科技厅科技计划项目:农村地下水饮用水源砷污染的地质处理技术研究;湖南省水沙科学和水灾害防治重点实验室资助。
山洪灾害致灾因子分析与防治措施章德武,谌宏伟(长沙理工大学,湖南长沙410004)摘要:山洪灾害是我国重大自然灾害之一。
文中主要通过对降雨、地形地质和人类活动等山洪灾害致灾因子进行分析。
分析表明降雨是诱发山洪灾害的直接因素,地形地质为引发山洪灾害提供下垫面条件,人类的不合理开发及改造自然加剧了山洪灾害的暴发。
通过总结山洪灾害的特点,提出了防治山洪灾害的基本措施。
关键词:山洪灾害;降雨;地形地质;人类活动;防治中图分类号:X 43文献标识码:A 文章编号:1006-7973(2011)03-0146-02一、概述我国幅员辽阔,地形多样,气候多变,频繁发生重大山洪灾害,给国民经济和人民生命财产造成重大损失。
近年来我国发生重大的山洪灾害有:2010年8月8日,甘肃甘南藏族自治州舟曲县发生特大泥石流灾害,共造成1434人遇难,331人失踪;2010年9月,广东省茂名市发生山洪灾害,造成50人遇难,30人失踪,20人受伤。
研究和掌握山洪灾害发生的规律,为防治山洪灾害提供科技支撑是当前我国防治自然灾害重要任务之一。
山洪灾害是指由于降雨在山丘区引发的洪水灾害及由山洪诱发的泥石流、滑坡等对国民经济和人民生命财产造成损失的灾害。
山洪是山丘区小流域由降雨引起的突发性、暴涨暴落的地表径流。
山洪具有灾害性、突发性、局地性等特点,并常伴有泥石流和滑坡等自然灾害。
根据山洪形成原因可分为暴雨山洪、融雪山洪、冰川山洪等。
我国山洪主要是由暴雨引起,故这里所讨论为暴雨山洪。
GIS分析 第7章 三维分析

❖实际应用中一般用来计算土石方量(填、挖方)
DEM的应用:可视化分析—表面面积和体积
洪水淹没分析
❖可交互式改变洪 水的高度
❖水体积计算 ❖淹没表面积计算
DEM的应用:可视化分析—填挖方分析
3.3.3填挖方分析
❖通过分析比较两个表面模型前后的变化, 还可以计算填埋及挖掘土石方量;
Aspect
DEM的应用—坡向提取
7
7
70
52
75
50
75
45
60
6
75
60
6
75
90 100
5
80
80
70
104 70
55 5
65
75 75
490
80
61
4
60
94
90
3
57
48
80
3
55
80
12 05
70
53 70
70
2
1
50
66
50
60
1
0
90 0
1
2
3 45 4
655
640 575
8
295
TU
DEM的应用—等值线
DEM的应用—等值线
石河子市DEM及其等值线
1300 1250 1200 1150 1100 1050 1000 950 900 850 800 750 700 650 600 550 500 450 400 350
DEM的应用—可视化分析
3.3基于DEM的可视化分析
用地面实测记 录生成DEM
数理金融学第4章ROSS套利定价模型

无套利假定下因子模型=APT
CAPM是建立在一系列假设之上的非常理 想化的模型,这些假设包括Harry Markowitz建立均值-方差模型时所作的假 设。这其中最关键的假设是同质性假设。
相反,APT所作的假设少得多。APT的基 本假设之一是:个体是非满足,而不需要 风险规避的假设!
套利不仅仅局限于同一种资产(组合), 对于整个资本市场,还应该包括那些“相 似”资产(组合)构成的近似套利机会。
无套利原则(Non-arbitrage principle): 根据价格同一率(the law of one price), 两种具有相同风险的资产(组合)不能以 不同的期望收益率出售。
(8.1)
其中:
ft是t时期公共因子的预测值; rit在时期t证券i的回报; eit在时期t证券i的特有回报 ai零因子 bi证券i对公共因子f的敏感度(sensitivity),或因
子载荷(factor loading)
为简单计,只考虑在某个特定的时间的因 子模型,从而省掉角标t,从而(8.1)式变 为
数理金融学 第4章
ROSS套利定价模型
4.1 概述
资本资产定价模型提示了在资本市场均衡 状态下证券期望收益率与风险之间的关系, 简洁、明确地回答了证券风险的合理度量 问题以及证券如何在资本市场上被定价。
资本资产定价模型也存在一些缺陷。其中 最主要的一点是缺乏经验验证的有力支持。
CAPM与APT
rt
r6 13.0%
e6 3.2%
4%
IGDP6 2.9%
IGDPt
图中,横轴表示GDP的增长率,纵轴表示 股票A的回报率。图上的每一点表示:在 给定的年份,股票A的回报率与GDP增长 率。
张文彤SPSS统计分析基础教程数据9-11课
@文彤老师
SPSS统计分析系列培训
9
统计软件系列课堂
人大经济论坛—培训中心出品()
案例:各省经济发展情况综合评价
现希望根据全国30个省市自治区经济发展基本 情况的八项指标对其进行分析和排序。具体指 标有:GDP、居民消费水平、固定资产投资、 职工平均工资、货物周转量、居民消费价格指 数、商品零售价格指数、工业总产值,数据文 件见factor1.sav。
20
统计软件系列课堂
人大经济论坛—培训中心出品()
SPSS系列培训之: 对应分析
统计软件系列课堂
人大经济论坛—培训中心出品()
对应分析
问题的提出
分析分类变量间关系时,卡方检验只能给出总体有无 关联的结论,但不能进行精细分析,在变量类别极多 时于事无补 Logistic模型在多分类时过于笨拙 精细建模:对数线性模型 直观展示:对应分析
公因子方差比(Communalities)
@文彤老师
SPSS统计分析系列培训
18
统计软件系列课堂
人大经济论坛—培训中心出品()
有关概念
特征根(Eigenvalue)
可以被看成是主成分影响力度的指标,代表引入该因 子/主成分后可以解释平均多少原始变量的信息。 正因如此,一般对特征根大于1的因子才加以注意
探索性因子分析 证实性因子分析
@文彤老师
SPSS统计分析系列培训
11
统计软件系列课堂
人大经济论坛—培训中心出品()
因子分析
比如在市场调查中收集了食品的五项指标:味 道、价格、风味、是否快餐食品、能量。经过 因子分析后发现结果如下:
主成分分析
第八章 主成分分析与因子分析一、 学习目的与要求主成分分析也称为主分量分析,是由霍特林于1933年首先提出的.主成分分析是利用降维的思想,在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法.通常把转化生成的几个综合指标称为主成分,其中每个主成分都是原始变量的线性组合,它们不仅能综合反映原有指标的信息,而且使各个主成分之间互不相关,因此使得每个主成分比原始变量具有某些更优越的性能.这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量间的规律性,同时使问题得以简化,提高分析效率.本章主要讨论主成分分析及因子分析的基本思想和方法.学习本章要密切联系实际,着重理解主成分分析及因子分析的基本思想方法,了解主成分的性质,了解主成分分析和因子分析的求解方法、实现步骤及其异同.二、 内 容 提 要(一)主成分分析1.主成分分析的基本思想日常生活和科学研究中,人们为了更全面、准确地反映出事物的特征及其变化规律,往往需要考虑与其有关的多个指标,这些指标在应用统计中也称为变量.这样就产生了如下的问题:一方面为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性.同时由于各指标均是对同一事物的反映,不可避免的造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律.因此有必要在尽可能少丢失信息的前提下减少指标的个数(降维),即从所研究的多个指标中,求出几个新指标,它们能综合原有指标的信息,用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的.主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法.既然所研究问题涉及各个变量之间存在一定的相关性,就必然存在着起主导作用的共同因素.据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与化简问题的作用,使得在研究复杂问题时更容易抓住主要矛盾.总之,利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是某些原始变量的线性组合. (2)主成分的数目大大少于原始变量的数目. (3)主成分保留了原始变量绝大多数信息. (4)各主成分之间互不相关.通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系及统计规律.2.主成分分析的基本理论设某研究涉及个指标,分别用表示,这个指标构成的随机向量为.设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ,协方差阵为.Σ对X 进行线性变换,可以形成新的综合变量,用Y 表示,即新的综合变量可以由原始变量线性表示如下:(8-1) ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换,由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同.因此为了取得较好的效果,我们总是希望的方差尽可能的大且各之间不相关,由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数,有c第八章 主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时,可使任意增大,问题将变得没有意义.我们将线性变换约束在下面的原则下:i l i Dy (1),即 (2); 1=′i i l l 122221=+++im i i l l l "(2)与不相关,(i y j y m j i j i ,,2,1,;"=≠); (3)是的一切满足(1)的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者;是与不相关的的所有线性组合中方差达最大者;以此类推,是与均不相关的的所有线性组合中方差达最大者;2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分.其中,各综合变量在总方差中占的比重依次递减.在实际应用中通常只挑选前几个方差较大的主成分,从而达到简化系统结构、抓住问题实质的目的.m y y y ,,,21"3.主成分分析的几何意义我们以两个指标为例说明主成分的直观意义.设有个样品,每个样品有两个指标,,其平面n 1x x 2数据散点图如图8-1所示,显然两指标存在相关关系.这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性, 其分散程度可分别用变量的 1x 方差和的方差定量的表示,2x 显然,若只考虑和中的任 1x 2x 何一个,原始数据中的信息均会有较大的损失.我们的目的是考虑和的线性组合,使原始样品数据可有新的变量和来刻画.在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度,得到新坐标轴和,坐标旋转公式如下:1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为:1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中,U 为旋转变换矩阵,由上式可知它是正交的,即满足,1−′=U U ′=U U I 经过这样的旋转之后,n 个样品点在轴上的分散程度最大,变量代表了原始数据绝大部分信息,这样,即使不考虑变量也无损大局.因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用.进行主成分分析的目的就是找出旋转矩阵U ,进而求的新的综合指标,即可依据实际问题的具体情况选择主成分.1y 1y 2y 1y 4.主成分及其性质设为维随机向量,则),,,(21′=m x x x "X m X 的第1,2,…,主成分定义为m X l i i y ′=,1=′i i l l (m i ,,2,1"=), 它们满足(1)第一主成分是一切形如1y X l ′=y ,1=′l l 使的方差达极大者; y (2)第二主成分是一切形如2y X l ′=y ,1=′l l 且与不相关使的方差达极大者;1y y (3)第i 主成分是一切形如)(m i y i ≤X l ′=y ,1=′l l 且与不相关使的方差达极大者;121,,,−i y y y "y 由协方差矩阵求解主成分:设),,,(21′=m x x x "X 为m 维随机向量,协方差阵为,Σ的m 个特征值为Σ021≥≥≥≥m λλλ",相应的标准正交化特征向量为,则m l l l ,,",21X 的第i 主成分X l i ′=i y ,且i λ=i Dy (). m i ,,2,1"=充要条件:设Y 为维随机向量,m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章 主成分分析与因子分析(1)X T Y ′=,为正交阵;),,,(21m l l l T "=(2)Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ; (3)m λλλ≥≥≥"21.主成分的目的是为了减少变量的个数,因此一般不用个主成分,而是用个主成分,在应用中我们自然要考虑k 应取多大.为此,我们引入累计贡献率.m m k <累计贡献率:称为主成分的贡献率,为主成分的累计贡献率.∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上.累计贡献率表达了个主成分提取原来指标的多少信息,这需要用到下面的概念.k k m x x x ,,,21"因子负荷量:称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量;而称为主成分对原变量的贡献率.∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质:(1),其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ .(2)jj jk k j k t x y σλρ/),(=,其m m ×中ij t =)(T 阵.(3) .(4).(5)2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ.指出的是:为了消除不同量纲可能带来的影响,通常将变量标准化. k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=,应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵,由相关阵出发去求主成分.R R 5.样本主成分上面讨论的主成分是在Σ(或R )已知的情况下,但在实际问题中(或)往往是未知的,这就需要用样本去估计.ΣR 设总体的组观察值为,.令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ, (8-2)jjii ij ij r σσσ=, (8-3)其中∑==Nl li i x Nx 11.则有样本协方差阵 m m ij ×=)(σS , (8-4) 样本相关阵 , (8-5) m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计.有(或S R )出发求得的个标准正交化的特征向量,则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=,称为个样本主成分.将m X 的观察值代入,可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==.(二)因子分析在科学研究中,往往需要从多个角度对反映事物现象进行观测,也就设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律.多变量大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采集和处理的难度.更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性.因子分析就是将大量的彼此可能存在相第八章 主成分分析与因子分析关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法.因子分析最初是从心理学和教育学发展起来的,它也是多元统计分析中数据降维的一种.1. 因子分析模型设X 为维向量,其均值为m µ,协方差阵为Σ.如果X 可以表示为U Λf X ++=µ, (8-6) 其中()ij m k λ×=Λ为常数矩阵,为维向量,可以是随机的,也可以是非随机的,U 为维向量;则称f k m X 有k 个因子的模型,称为公共因子,U 称为特殊因子,称为因子载荷矩阵. f Λ 当为随机向量时,通常假定 f 0=f E ,k I f =)(Cov ,,, (8-7)0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ,0),(Cov =U f 满足(8-9),(8-10)的因子模型称为正交因子模型,此时的分量是相互正交的.f 由上述假设,可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+, (8-8) 上式等价于212i kj ij ij ψλσ+=∑= , (8-9) 22i i h ψ+=),,2,1(m i "=式中,∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响,称为共性方差.i x 需要指出的是:对于一个给定的协方差阵Σ和均值向量µ,如果可分解为(8-8)式,那么即可得到因子模型(8-6).因子分析的目的就是由样本出发给出和ΣΣµ的估计,然后确定分解式(8-8),并给公共因子以实际背景解释,最后得到因子模型.2.建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵,秩为,故存在一个正交矩阵,使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ,且),,2,1(0k i i "=>ϕ.设为的前k 列,1P P ),,,(211k diag ϕϕϕ"=Φ,,则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ,)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解.如果我们能给出ψ的一个合适的估计,则我们可用的前个标准正交化的特征向量来得到的一个估计,这种估计称为主因子法.2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本.µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ, (8-10)()(11ˆ1′−−−=∑=X X X X i Ni i N Σ, (8-11) 估计ψ的方法很多,常用的方法如下:, (8-12))ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中, , (8-16)ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择.尽管k ψ−Σ的特征值都是非负的,但的ψˆˆ−Σ第八章 主成分分析与因子分析特征值有可能是负的.这时选择满足:k (1)使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近,这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值; ψˆˆ−Σ (2)不超过正特征值k j ϕˆ的个数. 主因子法的具体步骤如下:(1)计算Σ的估计、的初始估计,公式有(8-11)、(8-12)给出;Σˆψψˆ (2)求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量;选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近,同时不超过正特征值k j ϕˆ的个数,令 , ,)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为; Λ2/111ˆˆˆΦ=P Λ (3)令, )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负(负值取为零);以ψˆ代替(2)的ψˆ,重复步骤(2)的计算,直到、ΛˆΦˆ稳定为止. 由于,所以由(8-13)估计等价于估计共性方差:22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=. (48-1) 在实际问题中,有时需要由相关阵出发讨论,这时只要将代替作上述分析即可.共性方差常用下面的估计:R R Σ ijij i r h ≠=max ˆ2. (8-15) 此时. (8-16) 22ˆ1ˆii h −=ψ应用统计方法学习指导三、 问 题 与 思 考1.主成分分析的基本思想是什么?如何选择主成分?2.什么是主因子法?四、 例 题 析 解例8-1设),,(321′=x x x X 的协方差阵为,试求: ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 (1)第一、二主成分贡献率和累计贡献率,并计算的第一、二主成分.21,y y )1,2,1(′=X (2)第一、二主成分对原变量的因子负荷量和贡献率. 21,y y 2x 解: (1)求特征值,由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ,22=λ,03=λ.(2) 求特征向量,由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ, 2−=η,1=ζ,即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量(标准化)为第八章 主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y (2)由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ,1),(2122==∑=i j i x y ρν五、自 测 练 习1.设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导(1)试讨论主成分对原变量的贡献率和累计贡献率,并计算的第一、二主成分;321,,y y y )3,2,1(′=X (2))3,1,21(′−==EX µ,试利用主因子法建立因子模型.2. 下表中是10名男中学生的身高(1x )、胸围(2x )、体重(3x )、的数据,试进行主成分分析.身高(1x ) 胸围(2x )体重(3x )149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53.举一个应用因子分析方法的实例.。
案例四 我国各地区城镇居民消费性支出的主成分分析
案例四 我省各地区城镇居民消费性支出的因子分析表1列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。
这八个变量是1x :食品 5x :交通和通讯 2x :衣着6x :娱乐教育文化服务 3x :家庭设备用品及服务 7x :居住4x :医疗保健8x :杂项商品和服务表1消费性支出数据单位:元资料来源:2000年《中国统计年鉴》我们希望对上述八个指标数据进行主成分分析。
从128,,,x x x 的样本相关阵ˆR 出发进行主成分分析,SAS 软件的输出结果如输出1所示。
输出1 对全国31个地区消费性支出的主成分分析从输出1可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第一主成分1ˆy 在所有变量(除在*2x 上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消费性支出的水平,因此第一主成分可称为综合消费性支出成分。
第二主成分2ˆy 在变量*2x 上有很高的正载荷,在变量*4x 上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。
可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着2x ,其次是医疗保健4x ①)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向成分。
第三主成分很难给出明显的解释,因此我们只取前面两个主成分。
表2和表3是把31个地区分别按第一和第二主成分得分从小到大重新排序后的结果。
从表2可以看出,东部地区的第一主成分得分普遍较高,中部地区一般,而西部地区则普遍较低。
从表3可见,北方地区的第二主成分得分普遍较高,而南方地区则普遍较低,这是由于北方地区气候寒冷,用于衣着、医疗保健等消费的比重相对较高,而南方地区则相反。
这也进一步支持了上述对第二主成分的解释。
图1是关于第一和第二主成分得分的散点图,该图等价于各变量经标准化后的八维数据点群在具有最大投影点群分散程度的二维平面上的投影。
因素水平正交试验课件
06
正交试验案例分析
案例一:混合肥料的配方优化
因素
氮、磷、钾、有机质
水平
低、中、高
02
01
03
试验目的
找到最佳的肥料配方,提高农作物的 产量和品质。
结果分析
通过方差分析、极差分析和综合评分 等方法,确定最佳的肥料配方组合。
05
04
试验设计
采用正交表进行试验设计,将4个因素 分别安排在3个水平上,共进行9次试 验。
特点
具有高效性、均衡性和代表性,能够快速地找到最优解,广泛应用于科学研究 、工程实践和产品开发等领域。
试验设计的基本原则
01
02
03
随机性
确保试验结果的随机性, 避免主观偏见和误差。
重复性
在相同条件下进行多次试 验,以提高结果的稳定性 和可靠性。
可比性
确保不同试验条件之间的 可比性,以便于结果的比 较和分析。
因素水平正交试验课件
目录
• 因素水平正交试验概述 • 因素与水平选择 • 正交表及其特性 • 正交试验实施步骤 • 正交试验结果分析方法 • 正交试验案例分析
01
因素水平正交试验概述
定义与特点
定义
因素水平正交试验是一种统计试验设计方法,通过合理地选择因素和水平,利 用正交表来安排多因素多水平的试验,以高效地获取试验数据并进行分析。
案例二:汽车发动机性能优化
因素
压缩比、点火提前角、气门升程
结果分析
通过对比试验结果,找到最佳的发动机性 能参数组合。
水平
低、中、高
试验设计
采用正交表进行试验设计,将3个因素分 别安排在3个水平上,共进行9次试验。
试验目的