主成分回归多重共线性
主成分回归克服多重共线性的R语言实现

主成分回归克服多重共线性的R语言实现作者:汪朋来源:《科技资讯》2015年第28期摘要:多重共线性是回归分析中容易出现的一类重要问题,现有的克服多重共线性的方法有很多,这其中主成分回归是非常有效的一种,但该方法计算复杂,必须借助于计算软件才能完成。
为此,本文在已有R函数的基础上,通过自编一定的R函数和代码,探讨了应用R语言实现主成分回归的过程。
最后的案例表明,通过R语言实现主成分回归来克服模型的多重共线性,过程简单,效果明显,且容易被学习者和应用者掌握。
关键词:主成分回归多重共线性 R语言中图分类号:文献标识码:A 文章编号:1672-3791(2015)03(b)-0000-001引言回归模型是应用最为广泛的统计模型之一,常被用来处理多变量间相依关系问题,而多重共线性问题是回归分析中一个非常棘手的问题,最早是R.Frisch提出。
大量实践表明,当模型存在严重的多重共线性时,模型的参数估计变得不够稳定,甚至出现估计的回归系数与其实际意义不相符,模型的显著性检验和预测功能失效等严重后果。
正因如此,从20世纪六七十年代至今,人们提出了多种方法来克服模型的多重共线性,比较常用的有逐步回归法、岭回归法和主成分回归法等。
逐步回归法是剔除变量,容易造成信息损失和结构分析的预期目的难以实现的问题;岭回归法要求选择比较准确的岭参数,而岭参数的选择主观性很强;相比之下,主成分回归法通过将自变量分解成几个不相关的主成分,能完全克服模型的多重共线性,且选择的主成分能基本上概括原变量的信息,使得主成分回归法成为克服多重共线性中的一种较为有效的方法,但该方法计算复杂,需要借助于计算软件才能完成。
目前主流的统计软件虽一般提供了主成分分析的功能,都基本上没有直接实现主成分回归的模块,因此,本文在R语言提供的主成分分析的函数的基础上,通过自编相关的函数,来探讨如何快速简便地运用主成分回归法克服回归模型的多重共线性。
二、主成分回归法的R语言实现过程主成分回归法是利用主成分分析找到解释变量的若干个主成份,由于主成份之间是互不相关的,因此考虑将被解释变量关于这些主成份进行回归,可以消除模型的多重共线性。
基于主成分回归的企业物流成本多元线性预测模型研究

基于主成分回归的企业物流成本多元线性预测模型研究随着现代物流技术的逐步发展,企业的物流成本越来越成为一个重要的成本项目。
为了准确地预测物流成本,合理规划物流成本预算,企业需要建立一个科学的成本预测模型。
基于主成分回归的企业物流成本多元线性预测模型,可以通过主成分分析,将多个相关性较高的指标合并成一个主成分,从而简化了成本预测模型中的多元线性回归分析。
本文通过对基于主成分回归的企业物流成本多元线性预测模型的研究进行浅析,探讨其优缺点及运用范围。
一、主成分回归的理论基础主成分回归(Principal Component Regression, PCR)是将主成分分析(Principal Component Analysis,PCA)与多元回归分析相结合的一种预测模型。
多元回归模型是指依据多个自变量和一个因变量之间的函数关系,来预测因变量的取值的模型。
主成分分析则是一种在数据预处理中使用的数据降维技术,它可以经过数学转换,将相关性较高的多个指标合并成一个主成分,从而减少数据的冗余信息。
如此一来,我们通过主成分分析可以减少自变量间的相关性,从而研究多个自变量与因变量之间的关系。
将主成分分析与多元回归分析相结合,即可构建主成分回归模型。
该模型的优点在于能够聚焦于重要的自变量,排除高相关性多余自变量的干扰。
二、基于主成分回归的企业物流成本预测模型企业物流成本预测的关键是确定影响物流成本的指标及其权重。
传统的多元线性回归模型通常基于回归系数,难以识别关键自变量。
而基于主成分回归的模型,既可以避免多重共线性的问题,又可以通过主成分权值修正各自变量的权重,有效降低了计算维度。
因此,基于主成分回归的企业物流成本预测模型是一个相对准确和有实际应用价值的预测模型。
对于企业物流成本这一指标,长期来看,常常受到运费、包装、仓储、物流设施等影响。
若用传统的多元线性回归模型来预测企业物流成本,可能出现自变量之间的共线性问题。
在多元回归分析中,如果自变量之间相关程度过高,则会影响模型可靠性,因为模型无法确定某个自变量和因变量之间真实的关系。
多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
数据分析技术中常用的多元回归分析方法简介

数据分析技术中常用的多元回归分析方法简介多元回归分析是一种常用的数据分析技术,用于建立解释一个或多个自变量与一个或多个因变量之间关系的数学模型。
在实际应用中,多元回归分析可以帮助我们理解和预测因变量的变化情况,同时揭示自变量对因变量的影响程度和方向。
在多元回归分析中,我们通常会考虑多个自变量对一个因变量的影响。
这些自变量可以是连续变量,也可以是分类变量。
为了进行多元回归分析,我们需要收集包含自变量和因变量数据的样本,并建立一个数学模型来描述它们之间的关系。
常用的多元回归分析方法有以下几种:1. 线性回归分析:线性回归是最基本的多元回归分析方法之一。
它假设自变量和因变量之间的关系是线性的,即可以通过一条直线来描述。
线性回归可以用于预测新的因变量值或者探究自变量对因变量的影响程度和方向。
2. 多项式回归分析:多项式回归是线性回归的扩展形式,它允许通过非线性方程来描述自变量和因变量之间的关系。
多项式回归可以用于处理具有非线性关系的数据,通过增加自变量的幂次项,可以更好地拟合数据。
3. 逐步回归分析:逐步回归是一种渐进式的回归分析方法,它通过不断添加或删除自变量来选择最优的模型。
逐步回归可以帮助我们识别对因变量影响最显著的自变量,并且去除对模型没有贡献的自变量,以减少复杂度和提高预测准确性。
4. 岭回归分析:岭回归是一种用于处理共线性问题的回归方法。
共线性指的是自变量之间存在高度相关性,这会导致模型参数估计不稳定。
岭回归通过添加一个正则化项来缩小模型参数的值,从而减少共线性的影响。
5. 主成分回归分析:主成分回归结合了主成分分析和回归分析的方法,用于处理多重共线性问题。
主成分分析通过将自变量转换为一组无关的主成分来降维,然后进行回归分析。
这样可以减少自变量之间的相关性,并提高模型的解释力。
6. 逻辑回归分析:逻辑回归是一种广义线性回归,常用于处理二分类问题。
它通过对因变量进行逻辑变换,将线性回归的结果映射到一个[0, 1]的区间,表示某事件发生的概率。
用主成分法解决多重共线性问题

用主成分法解决多重共线性问题一、多重共线性的表现线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。
看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
二、多重共线性的后果1.理论后果多重共线性是因为变量之间的相关程度比较高。
按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数缺测性”问题,就是说多重共线性其实是由样本容量太小所造成,当样本容量越小,多重共线性越严重。
多重共线性的理论主要后果:(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量非有效;(3)模型的预测功能失效;(4)参数估计量经济含义不合理2.现实后果(1)各个解释变量对指标最后结论影响很难精确鉴别;(2)置信区间比原本宽,使得接受假设的概率更大;(3)统计量不显著;(4)拟合优度的平方会很大;(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
三、多重共线性产生的原因1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的相关性2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共性。
例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。
滞后变量的引入也会产生多重共线行,例如本期的消费水平除受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
四、多重共线性的识别1.方差扩大因子法( VIF)一般认为如果最大的VIF超过10,常常表示存在多重共线性。
2.容差容忍定法如果容差(tolerance)<=0.1,常常表示存在多重共线性。
3. 条件索引条件索引(condition index)>10,可以说明存在比较严重的共线性。
五、多重共线性的处理方法处理方法有多重增加样本容量、剔除因子法、PLS(偏最小二乘法)、岭回归法、主成分法。
多重共线性处理方法

多重共线性处理方法
处理多重共线性的方法主要有以下几种:
1. 去除变量:根据变量之间的相关性,剔除其中一个或多个高度相关的变量。
通过领域知识或经验来选择保留哪些变量。
2. 合并变量:将高度相关的变量合并为一个新的变量。
例如,如果变量A和变量B高度相关,可以计算出变量C=A+B,并用C代替A和B。
3. 使用主成分分析(PCA):通过将一组高度相关的变量转换为一组线性无关的主成分,来减少多重共线性的影响。
4. 正则化方法:通过加入正则化项,如岭回归(Ridge Regression)或Lasso 回归(Lasso Regression),来减少多重共线性的影响。
5. 数据采样:如果数据集中某些特定的值导致多重共线性问题,可以考虑采样或调整这些数据点,以减少多重共线性的影响。
需要根据具体的情况选择适当的方法来处理多重共线性。
如果多重共线性问题比较严重,可能需要综合使用多种方法来解决。
多重共线性问题及解决方法

多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。
但无确定的标准判断相关系数的大小与共线性的关系。
有时,相关系数值不大,也不能排除多重共线性的可能。
2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。
其中Ri为自变量xi对其余自变量作回归分析的复相关系数。
当VIFi很大时,表明自变量间存在多重共线性。
该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。
在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。
但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。
如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。
它很有可能是其他自变量的线性组合。
计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。
在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。
什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。
具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。
多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。
2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。
3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。
4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。
多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。
2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。
3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。
4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。
解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。
2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。
3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。
4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。
5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验八:主成分回归
实验题目:对例5.5的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。
例5.5如下:本例为回归经典的Hald水泥问题。
某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(3CaO.Al2O3),x2硅酸三钙(3CaO.SiO2),x3铁铝酸四钙(4CaO.Al2O3.Fe2O3),x4硅酸三钙(2CaO.SiO2)。
现观测到13组数据,如表5-3所示。
表5-3
实验目的:
SPSS输出结果及答案:
一、主成分法:
多重共线性诊断:
已提取了 4 个成份。
由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。
所以主成分取f1,f2。
得到因子得分的数值,并对其进行处理:sqrt(2.236)*FAD1_1,sqrt(1.576)*FAD2_1可以得出
主成分表(f1 f2)。
对f1 f2进行普通最小二乘线性回归
f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4
对f2和x1x2x3x4进行回归
模型非标准化系数标准系数
t Sig.
B 标准误差试用版
1 (常量) -.938 .000 -1119037.661 .000
x1 -.087 .000 -.405 -9710099.545 .000
x2 .027 .000 .330 3071727.057 .000
x3 .094 .000 .482 10459854.955 .000
x4 -.027 .000 -.359 -3177724.589 .000 a.因变量: f2
f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4
所以还原后的主成分回归方程为:
^y=88.951624+0.789567x1+0.359127x2-0.600934x3-0.329481x4
从主成分法得出的方程中我们可以看出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙和硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗0.789567g的铝酸三钙和0.359127g的硅酸三钙;当该水泥吸收1单位的热量时,需要消耗0.600934g的铝酸四钙和0.329481g的硅酸二钙。
二.岭回归法
由系数表中的方差扩大因子VIF可以初步看出直接建立的线性模型具有严重的共线性,所以我们直接用岭回归方法进行处理,与再与主成分法进行比较。
岭回归
INCLUDE 'C:\Program Files\IBM\SPSS\Statistics\19\Samples\English\RIDGE regression.sps'. RIDGEREG enter x1 x2 x3 x4
/dep=y
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x1 x2 x3 x4
______ ______ ________ ________ ________ ________
.00000 .98238 .606512 .527706 .043390 -.160287
.05000 .98092 .465987 .298422 -.092800 -.394132
.10000 .97829 .429975 .299810 -.115702 -.382409
.15000 .97492 .403545 .300180 -.129867 -.370747
.20000 .97105 .382726 .299130 -.139136 -.360181
.25000 .96676 .365601 .297070 -.145317 -.350594
.30000 .96212 .351071 .294335 -.149432 -.341806
.35000 .95717 .338452 .291156 -.152107 -.333674
.40000 .95195 .327295 .287687 -.153747 -.326089
.45000 .94649 .317289 .284036 -.154628 -.318970
.50000 .94082 .308211 .280279 -.154942 -.312254
.55000 .93497 .299900 .276467 -.154827 -.305892
.60000 .92897 .292231 .272638 -.154384 -.299846
.65000 .92284 .285109 .268820 -.153688 -.294083
.70000 .91660 .278460 .265032 -.152797 -.288577
.75000 .91027 .272222 .261287 -.151756 -.283306
.80000 .90386 .266349 .257597 -.150598 -.278251
.85000 .89740 .260798 .253968 -.149351 -.273396
.90000 .89089 .255537 .250406 -.148037 -.268726
.95000 .88436 .250537 .246913 -.146671 -.264228
1.0000 .87780 .245775 .243491 -.145269 -.259892
由上述的岭迹图可以看出,所有的回归系数的岭迹线的稳定性较强,整个系统呈现比较平稳的现象,所以我们可以对最小二乘有信心,且x1,x2的岭迹线一直在零的上,对y产生
正影响,而x3,x4系数的岭迹线一直小于零,所以对y产生负影响。
再做岭回归:
当岭参数k=0.2时,4个自变量的岭回归系数变化幅度较小,此时逐渐稳定,所以我们给定k=0.2,再做岭回归
Run MATRIX procedure:
****** Ridge Regression with k = 0.2 ******
Mult R .976585082
RSquare .953718422
Adj RSqu .944462107
SE 3.545275735
ANOVA table
df SS MS
Regress 2.000 2590.073 1295.037
Residual 10.000 125.690 12.569
F value Sig F
103.0343460 .0000002
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B)
x1 1.2516409 .1468176 .4894165 8.5251441
x4 -.5251646 .0515969 -.5843168 -10.1782125
Constant 101.8388483 2.2617303 .0000000 45.0269638
------ END MATRIX -----
由上述输出结果可以得到岭回归建立的方程为:
y=101.8388483+1.2516409x1-0.5251646x4
从岭回归法得出的方程中我们可以看出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙和硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗1.2516409g的铝酸三钙和0.5251646g的硅酸三钙;当该水泥吸收热量时,需要消耗铝酸四钙和硅酸二钙。
(3)比较:岭回归后建立的方程跟主成分回归法建立的方程保留的系数相同,且得出的系数符号相同,大小相近,即得出的y与x1,x2,x3,x4关系也相同,所以可知主成分法得出的回归方程也解决了共线性问题。