回归模型中多重共线性的情形及其处理
如何处理逻辑回归模型中的多重共线性

逻辑回归模型是一种常用的数据分析方法,它被广泛应用于分类问题的解决。
然而,在使用逻辑回归模型时,研究者常常面临一个问题,那就是多重共线性。
多重共线性是指自变量之间存在高度相关性的情况,这会导致模型的不稳定性和系数估计的不准确性。
因此,如何处理逻辑回归模型中的多重共线性成为了一个重要的问题。
首先,我们需要了解多重共线性对逻辑回归模型的影响。
多重共线性会导致模型的系数估计不准确,使得模型的解释能力下降。
此外,多重共线性还会增加模型的方差,使得模型的预测能力变差。
因此,处理逻辑回归模型中的多重共线性是至关重要的。
一种常用的处理多重共线性的方法是使用正则化技术。
正则化技术通过在目标函数中引入正则化项,对模型进行惩罚,从而减小模型的系数估计值。
常见的正则化方法包括L1正则化和L2正则化。
L1正则化通过在目标函数中加入自变量的绝对值之和,使得一些系数变为零,从而实现特征选择的作用。
L2正则化通过在目标函数中加入自变量的平方和,惩罚系数的绝对值,从而减小系数的估计值。
这两种方法可以有效地处理多重共线性问题,提高模型的稳定性和预测能力。
除了正则化技术,还可以使用主成分分析(PCA)等降维方法来处理多重共线性。
主成分分析是一种常用的数据降维技术,它通过线性变换将原始变量转换为一组新的主成分变量,从而减小变量之间的相关性。
通过主成分分析,我们可以将高度相关的自变量转换为一组新的无关的主成分变量,从而减小多重共线性的影响。
然后,我们可以使用这些主成分变量来构建逻辑回归模型,从而提高模型的稳定性和预测能力。
此外,还可以使用岭回归、套索回归等方法来处理多重共线性。
岭回归通过在目标函数中加入系数的平方和,减小系数的估计值,从而降低模型的方差。
套索回归通过在目标函数中加入系数的绝对值之和,实现特征选择的作用,从而减小模型的复杂度。
这些方法可以有效地处理多重共线性问题,提高模型的稳定性和预测能力。
综上所述,处理逻辑回归模型中的多重共线性是一个重要的问题。
多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
回归模型中多重共线性的情形及其处理

丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%(1.5)在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。
如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。
从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。
2•对多重线性关系的初步估计与识别如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
②实际经验中认为重要的自变量的回归系数检验不显著。
③回归系数的正负号与理论研究或经验相反。
④在相关矩阵中,自变量的相关系数较大。
⑤自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。
多重共线性普遍被认为是数据问题或者说是一种样本现象。
我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
(3)检验解释变量相互之间的样本相关系数。
假设我们有三个解释变量X i、X2、X3,分别以「12、「13、「23 来表示X i 与X2、X i 与X3、X2与X3之间的两两相关系数。
假设r i2 = 0.90,表明X i与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量X3为常数的情况下,X i与X2之间的相关系数。
最新应用回归分析-第6章课后习题参考答案

第6章多重共线性的情形及其处理思考与练习参考答案6.1 试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。
6.3 具有严重多重共线性的回归方程能不能用来做经济预测?答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。
如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X 的列向量(即X 1,X 2, X p )不相关。
6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。
如何处理逻辑回归模型中的多重共线性(十)

逻辑回归模型是一种用于预测二元变量的统计模型,常用于分类和预测。
然而,在实际应用中,往往会面临多重共线性的问题,即自变量之间存在高度相关性。
多重共线性会导致模型参数估计不准确,增加预测误差,降低模型的解释力。
因此,如何处理逻辑回归模型中的多重共线性成为了一个重要的问题。
1. 数据预处理在处理逻辑回归模型中的多重共线性之前,首先需要进行数据预处理。
数据预处理包括缺失值处理、异常值处理、数据转换等步骤。
其中,缺失值处理和异常值处理对于降低多重共线性都有一定的帮助。
对于缺失值,可以选择删除或填充,而对于异常值,则可以进行剔除或者替换。
通过数据预处理,可以减少多重共线性的影响,提高模型的稳定性和准确性。
2. 方差膨胀因子(VIF)分析方差膨胀因子(VIF)是一种用于识别多重共线性的统计方法。
VIF的计算公式为1/(1-R^2),其中R^2是自变量与其他自变量的相关性。
一般来说,VIF大于10表示存在严重的多重共线性,需要进行处理。
对于存在多重共线性的自变量,可以考虑删除或者合并,以降低其对模型的影响。
3. 主成分分析(PCA)主成分分析(PCA)是一种降维方法,可以将原始的高维数据转换为低维的数据。
通过PCA,可以减少自变量之间的相关性,降低多重共线性的影响。
在逻辑回归模型中,可以采用PCA对自变量进行降维处理,以提高模型的稳定性和准确性。
4. 岭回归(Ridge Regression)岭回归是一种用于处理多重共线性的方法,通过对模型参数加上惩罚项,可以减少自变量之间的相关性。
在逻辑回归模型中,可以采用岭回归对自变量进行调整,以降低多重共线性的影响。
岭回归可以有效地提高模型的拟合效果,降低预测误差。
5. 弹性网络(Elastic Net)弹性网络是一种综合了岭回归和Lasso回归的方法,可以同时考虑模型的拟合效果和模型的稳定性。
在逻辑回归模型中,可以采用弹性网络对自变量进行调整,以降低多重共线性的影响。
回归分析中的多重共线性问题及解决方法(七)

回归分析是统计学中常用的一种方法,它用于研究自变量和因变量之间的关系。
然而,在实际应用中,经常会遇到多重共线性的问题,这给回归分析带来了一定的困难。
本文将讨论回归分析中的多重共线性问题及解决方法。
多重共线性是指独立自变量之间存在高度相关性的情况。
在回归分析中,当自变量之间存在多重共线性时,会导致回归系数估计不准确,标准误差增大,对因变量的预测能力降低,模型的解释能力受到影响。
因此,多重共线性是回归分析中需要重点关注和解决的问题之一。
解决多重共线性问题的方法有很多种,下面将介绍几种常用的方法。
一、增加样本量增加样本量是解决多重共线性问题的一种方法。
当样本量足够大时,即使自变量之间存在一定的相关性,也能够得到较为稳健的回归系数估计。
因此,可以通过增加样本量来减轻多重共线性对回归分析的影响。
二、使用主成分回归分析主成分回归分析是一种常用的处理多重共线性问题的方法。
主成分回归分析通过将原始自变量进行线性变换,得到一组新的主成分变量,这些主成分变量之间不存在相关性,从而避免了多重共线性问题。
然后,利用这些主成分变量进行回归分析,可以得到更为准确稳健的回归系数估计。
三、岭回归岭回归是一种经典的解决多重共线性问题的方法。
岭回归通过对回归系数施加惩罚项,从而减小回归系数的估计值,进而降低多重共线性对回归分析的影响。
岭回归的思想是在最小二乘估计的基础上加上一个惩罚项,通过调节惩罚项的系数来平衡拟合优度和模型的复杂度,从而得到更为稳健的回归系数估计。
四、逐步回归逐步回归是一种逐步选择自变量的方法,可以用来解决多重共线性问题。
逐步回归可以通过逐步引入或剔除自变量的方式,来得到一组最优的自变量组合,从而避免了多重共线性对回归系数估计的影响。
以上所述的方法都可以用来解决回归分析中的多重共线性问题。
在实际应用中,应该根据具体的情况选择合适的方法来处理多重共线性问题,从而得到准确可靠的回归分析结果。
总之,多重共线性是回归分析中需要重点关注的问题,通过合适的方法来处理多重共线性问题,可以得到更为准确稳健的回归系数估计,从而提高回归分析的预测能力和解释能力。
多重共线性解决方法

多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。
在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。
什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。
具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。
多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。
2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。
3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。
4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。
多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。
2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。
3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。
4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。
解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。
2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。
3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。
4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。
5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%(1.5)在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。
如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。
从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。
2•对多重线性关系的初步估计与识别如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
②实际经验中认为重要的自变量的回归系数检验不显著。
③回归系数的正负号与理论研究或经验相反。
④在相关矩阵中,自变量的相关系数较大。
⑤自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。
多重共线性普遍被认为是数据问题或者说是一种样本现象。
我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
(3)检验解释变量相互之间的样本相关系数。
假设我们有三个解释变量X i、X2、X3,分别以「12、「13、「23 来表示X i 与X2、X i 与X3、X2与X3之间的两两相关系数。
假设r i2 = 0.90,表明X i与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量X3为常数的情况下,X i与X2之间的相关系数。
假定「12,3 = 0.43,就表明在变量X3保持不变的条件下,X1与X2之间的相关系数仅仅是0.43,但若不考虑X3的影响,两者之间的相关系数却是0.90。
这说明,根据偏相关系数, 我们无法断定X1与X2之间具有很高的共线性。
上述讨论表明,在存在多个解释变量的情况下,不能仅仅依赖两两相关系数来判断多重共线性。
偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据,仅仅是检验多重共线性性质的另一个手段。
(4)从属或者辅助回归。
既然多重共线性是指一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。
其中的每一个回归都被称为从属或者辅助回归,从属于Y对所有变量的回归。
例如,考虑Y对X" X2、X3、X4、X5和X6这6个解释变量的回归。
如果回归结果表明存在多重共线性,比如说,R2值很高,但解释变量的系数很少是统计显著的,其原因,就在于一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,找出这一组合具体方法是:①作X i对其他剩余解释变量的回归,求出拟合优度R i2;②作X2对其他剩余解释变量的回归,求出拟合优度系数R22;,,,重复上述步骤,直到作出所有的6个辅助回归。
如何判断哪些解释变量是共线性的呢?估计的R i2值介于0和1之间。
如果某个解释变量不是其他变量的线性组合,则该回归方程的R i2值不会显著不为零。
根据方程的F值,我们知道应该如何去检验假设:某个方程的拟合优度显著为零假定我们想要检验假设:R I2=0,也就是X i与其他5个解释变量不存在共线性。
根据F与R2定义,我们有:匚R2/(k1)(4.1)尸—2(1-R2)/(n-k)其中n是观察值的个数,k是包括截距在内的解释变量的个数。
具体说明如下:在这个例子中,假设有一个容量为50的随机样本,对每个解释变量作剩余变量的回归分析。
各辅助回归的R2值如下:表4-1检验R2值的显著性如表所示,变量X i、X3、X4、X5、X6看来与其他变量有共线性,尽管共线性的程度差别很大。
由此得出的结论是:“看似”较低的R2,比如0.36, 却可能是统计显著不为零。
可见,此例中存在较高的多重共线性。
辅助回归技术的一个缺陷是它的计算较为繁琐。
如果一个回归方程包含若干个解释变量,则我们不得不计算好几个辅助回归方程,因此,这种方法实用性不强。
但需要指出的是,现在已经有很多统计软件可以用来计算辅助回归方程。
(5)方差膨胀因素。
即使模型并未包括太多的解释变量,从各个辅助的回归方程中得的R 2值也未必可以用于诊断共线性。
以下面的二元回归方 程为例Y = b o + b i X i + b 2 X 2可以证明参数估计量的方差可写为:_ 2 _ 2 var(b j )二一22 - 厂VIF ' X ji (1R i )、x r 1 VIF = (1- R i 2) R 12是X i 和X 2之间辅助回归方程的拟合优度。
VIF 形象地称为方差膨 胀因素,因为随着辅助方程拟合优度 R i 2的增加,斜率系数的方差也增加。
特别地,如果辅助回归方程的拟合优度为1 (即完全多重共线性),斜率系 数的方差和标准差没有任何意义。
当然,如果 R i 2为零,那么就不存在共线 性,VIF 的值为i 。
我们也就不必担心由于方差(标准差)较大而带来的问 题。
现在一个重要问题是,假设在辅助回归方程中,R i 2值很高(但小于i ), 表明存在较高程度的共线性。
但是从(i0)式可以清楚地看到,斜率系数的方 差不仅仅取决于VIF ,而且还取决于的误差项u i 的方差匚2和解释变量X j 的 方差a x2。
因此,以下的情形是很有可能性的:R i 2值很高,比如说是0.96, 但是二2较低或者' 用较高,或者是两种情况同时出现,以至于斜率系数的方 差较低,t 值较高。
换句话说,较高的 R 2可能被一个较低的二2较低或者较2高的Xji值所抵消。
当然,高和低是相对而言的。
所有这些都表明,辅助回归方程中的 R 2可能只是多重共线性的一个表 面指示器。
如前所述,它并不一定扩大估计量的标准差。
更正规的表述为, “辅助回归方程中较高的R 2既不是较高斜率系数标准差的必要条件也不是 充分条件。
多重共线性本身并不一定导致较高的斜率系数标准差。
从上面讨论的各种多重共线性的检验方法中,我们能得出结论:检验 多重共线性有多种不同的方法,却没有一种绝对方法。
毕竟,多重共线性 是一个程度问题,它是一个与样本相关的现象。
有时,可以容易地检验出 多重共线性,但更多的(4.2)(4.3)(4.4)时候要运用各种手段来诊断这一问题的严重程度。
总之,没有一个简单的方法能用来解决这个问题。
5•诊断指标与方法5.1容忍值(Tolerance,以下简记为TOL)在多重回归分析中,设有p个自变量XXX2,…X P,容忍值定义为:2TOL=1- R (5.1)其中为自变量与其他P-1个自变量间的复相关系数,反映了它们之间的线性相关程度。
R愈接近于1,线性相关性越强。
由式(5.1)可见TOL与R只有同样的意义,仅仅是在数值大小上与R恰相反。
因此,其取值也在0~1 之间,TOL的值越接近于1,说明变量间的线性相关性越弱。
由多重共线性的定义可知,TOL很小的变量进入方程后,将导致回归方程的不稳定,偏回归系数的方差,标准误差均增加,影响参数估计的效果。
许多统计分析软件的多元回归程序在逐步引入变量的同时进行TOL检验。
此时,式(5.1)中的Ri为正在进入方程的自变量与已进入方程的若干个自变量间的复相关系数。
因此TOL值反映了它们之间的线性相关程度。
通常用户可以预先指定一个TOC的值,否则将用原程序中指定的标准进行检验。
然而,对于任意一个给定的TOL值,有时既使是通过了容忍性检验的变量进入方程后仍可导致结果的不稳定,因此容忍性检验在某些情况下并不一定能达到预期的目的。
例如P个自变量中除X1外,其余P-1个变量间均无线性相关,设TOL=T=1- R2, t= T ,X1与X2的相关系数为R,与X3的相关系数为tR,与X p的相关系数为t p_2R,那么,X1与其余P-1个自变量的复相关系数的平方Q为:Q = R2TR2T i^R2= R2*(1-f)/(1-T)(5.2)= 1-T即最大特征值与其他各特征值之比的算术平方根。
如果-p接近于零, 则条件数k将很大。
在应用中,如果k>30,则认为存在某种共线关系。
致谢辞在论文的写作过程中,得到了许多老师和单位领导的帮助,学院的老师们严谨治学的教学使我受益非浅,我非常感激我的导师刘树利老师,刘老师治学严谨、知识渊博、诲人不倦,在学术和为人上都为我作出了榜样他是我获得深思熟虑的意见和概念清晰的见解的来源,他不惜花费自己时间对本论文提出许多意见和建议,既激发了我的灵感,又给了我持久不断的鼓励。
最后我还非常感谢那些以一定方式影响本论文的论述思想的作者和同寝室的同学,为我查阅资料提供许多方便。
参考文献[1] 张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982[2] 陈希儒,王松桂.近代回归分析[M].安徽教育出版社,1987,210-211[3] 孟庆和.多元回归分析中多重共线性的处理[J].中国卫生统计,1997,14(1),49-50[4] 袁寿庄,赵彦云等.国民经济核算原理[M].北京:中国人民大学出版社,1999⑸李严洁•多元回归中的多重共线性及其存在的后果[J].中国卫生统计,1992,9(1);24[6] 黄少军.服务业与经济增长[M].北京:经济科学出版社,2000[7] 高惠璇,耿直,李贵斌等.SAS/STAT软件使用手册[M].北京:中国统计出版社,1998[8] 张丕德.COX 模型多因子共线性处理方法的进一步研究[J].中国卫生统计,2000,8(4),207-230[9] 张保法.经济计量学[M].北京:经济科学出版社,2000[10] 赵文奇•经济计量学建模方法论研究[M].成都:西南财经大学出版社,1998[11] [为古扎拉蒂著,林少宫译•经济计量学[M].北京:中国人民大学出版社,2000[12] [ 美]威廉H.格林著,王明舰等译.经济计量分析[M].北京:中国社会科学出版社,1998[13] 陈昌柏.营利机构管理[M].北京:团结出版社,2000[14] 蒋知俭主编.医学统计学[J].北京,人民卫生出版社,1997,263-264。