统计学多元回归分析方法
多元回归分析的关键要点

多元回归分析的关键要点多元回归分析是统计学中常用的一种分析方法,用于研究多个自变量对一个因变量的影响程度。
在实际应用中,多元回归分析可以帮助我们理解各个自变量对因变量的影响,进而进行预测和决策。
下面将介绍多元回归分析的关键要点。
一、多元回归模型的建立在进行多元回归分析时,首先需要建立多元回归模型。
多元回归模型通常表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示模型的系数,ε表示误差项。
通过拟合数据,估计出各个系数的取值,从而建立多元回归模型。
二、多元回归系数的解释在多元回归分析中,系数的解释是非常重要的。
系数βi表示自变量Xi对因变量Y的影响程度,具体来说,βi的正负表示自变量Xi与因变量Y之间的正相关或负相关关系,βi的大小表示自变量Xi对因变量Y的影响程度。
通过系数的解释,可以深入理解各个自变量对因变量的影响。
三、多重共线性的检验在多元回归分析中,多重共线性是一个常见的问题。
多重共线性指的是自变量之间存在高度相关性的情况,这会导致模型的不稳定性和系数估计的不准确性。
因此,在进行多元回归分析时,需要对自变量之间的相关性进行检验,若存在多重共线性问题,需要采取相应的处理方法,如剔除相关性较高的自变量或进行主成分分析等。
四、残差的检验残差是指观测值与模型预测值之间的差异,残差的检验是多元回归分析中的重要步骤。
通过对残差的检验,可以判断模型是否符合多元回归的基本假设,如残差是否呈正态分布、是否具有同方差性等。
若残差不符合基本假设,需要对模型进行修正或转换,以提高模型的拟合度和预测能力。
五、模型的拟合度检验在进行多元回归分析后,需要对模型的拟合度进行检验。
常用的指标包括决定系数(R²)、调整决定系数(Adjusted R²)、F统计量等。
这些指标可以帮助我们评估模型的拟合程度,判断模型是否能够很好地解释因变量的变异性。
统计学中的多元回归分析

统计学中的多元回归分析多元回归分析是一种在统计学中广泛使用的分析方法,用于研究一个或多个自变量对一个因变量的影响。
它可以帮助我们理解变量之间的关系,并预测因变量的值。
在本文中,我们将介绍多元回归分析的概念、方法和应用。
一、概念和基本假设多元回归分析是一种统计建模的技术,它通过建立数学关系模型,描述一个或多个自变量如何与一个因变量相关联。
在多元回归分析中,我们假定自变量和因变量之间存在线性关系,并基于这一假设进行分析。
此外,我们还假设误差项之间是独立且服从正态分布的。
二、多元回归模型多元回归模型可以写成如下形式:Y = β0 + β1*X1 + β2*X2 + … + βn*Xn + ε其中,Y代表因变量,X1至Xn代表自变量,β0至βn代表回归系数,ε代表误差项。
回归系数表示了自变量对因变量的影响程度。
我们可以通过估计回归系数来获得关于自变量与因变量之间关系的更多信息。
三、回归系数的估计估计回归系数是多元回归分析中的重要步骤,常用的方法包括最小二乘法和最大似然法。
最小二乘法通过最小化观测值与回归方程预测值之间的差异来估计回归系数。
最大似然法则基于给定观测数据时回归系数最有可能的取值,求解回归系数的估计值。
四、解释回归方程在进行多元回归分析时,除了估计回归系数,还需要解释回归方程及其统计显著性。
常见的指标包括回归方程的R²值、调整R²值、F统计量以及各个自变量的t统计量等。
R²值表示回归模型可以解释因变量变异程度的百分比,越接近1表示模型拟合效果较好。
F统计量则用于检验自变量的联合显著性。
五、多元共线性问题多元回归分析中常常会遇到多元共线性问题,即自变量之间存在高度相关性,对回归系数的估计造成困扰。
为了检测和解决多元共线性问题,可以使用方差膨胀因子和条件数等指标进行诊断,并采取相应的修正措施。
六、实例分析下面通过一个实例来演示多元回归分析的应用。
假设我们想研究一个地区的人均GDP与教育水平、医疗水平和就业率之间的关系。
多元回归分析的原理和应用

多元回归分析的原理和应用1. 引言多元回归分析是统计学中一种常用的分析方法,用于研究多个自变量和一个因变量之间的关系。
它可以帮助我们理解多个变量对一个变量的影响程度,并通过建立数学模型来预测因变量的值。
2. 基本原理多元回归分析基于线性回归模型进行建模,其中一个因变量可以通过多个自变量的线性组合来描述。
该模型的数学表示为:Y = β0 + β1*X1 + β2*X2 + ... + βn*Xn + ε其中,Y是因变量的值,X1、X2、…、Xn是自变量的值,β0、β1、β2、…、βn是回归系数,ε是误差项。
3. 模型建立与评估在进行多元回归分析时,首先需要选择合适的自变量来建立模型。
可以通过观察变量之间的相关性、领域知识和实际经验来选择自变量。
然后,通过最小二乘法估计回归系数,使得模型在样本中的拟合误差最小化。
模型的拟合优度可以通过判定系数R2来评估。
R2越接近1,说明模型能够较好地解释因变量的变异;R^2越接近0,说明模型解释能力较差。
4. 样本数据分析多元回归分析通常需要一定量的样本数据来建立和验证模型。
样本数据应该具有代表性,并且满足一些基本假设,例如线性关系和误差项的独立性。
在分析样本数据时,可以使用统计软件如SPSS、R或Python等来实现多元回归分析。
这些软件提供了丰富的功能和工具,帮助研究者快速、准确地进行分析。
5. 应用领域多元回归分析在许多领域有着广泛的应用。
以下是一些常见的应用领域:5.1 经济学多元回归分析在经济学中用于研究经济变量之间的关系,如GDP、通货膨胀率、失业率等,帮助经济学家预测经济发展趋势、评估政策效果等。
5.2 社会科学在社会科学领域,多元回归分析被广泛应用于研究人类行为、社会问题等。
通过分析不同因素对社会现象的影响,可以帮助社会科学家理解社会现象的成因和解决途径。
5.3 健康科学多元回归分析在健康科学中用于研究健康影响因素,如疾病发生率、死亡率等。
通过分析各种生活方式、环境因素对健康的影响,可以帮助医生和公共卫生工作者制定合理的防控措施。
统计学中的多元回归分析方法

统计学中的多元回归分析方法统计学是一门研究收集、整理和解释数据的学科,而多元回归分析是其中一种重要的方法。
本文将针对统计学中的多元回归分析方法进行详细讨论和解释。
一、引言多元回归分析是一种用于研究多个自变量与一个因变量之间关系的统计方法。
通过建立一个数学模型,它可以被用来预测或解释因变量的变化。
多元回归分析方法可以帮助我们理解不同自变量与因变量之间的影响程度和相关性。
二、多元回归模型多元回归模型可以表示为Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y是因变量,X1至Xn是自变量,β0至βn是回归系数,ε是误差项。
回归系数表示了自变量对因变量的影响程度,而误差项则表示了模型无法解释的部分。
三、多元回归分析步骤1. 数据准备:收集所需自变量和因变量的数据,并进行预处理,如缺失值填充和异常值处理。
2. 模型选择:根据研究目的和数据特点选择适当的多元回归模型。
3. 参数估计:利用最小二乘法或其他估计方法估计回归系数,找到最优解。
4. 模型检验:通过统计检验和评估指标,检验模型的拟合程度和显著性。
5. 解释结果:解释回归系数的意义和影响,评估模型的可解释性。
6. 预测应用:利用得到的模型对未知数据进行预测,评估模型的预测效果。
四、多元共线性多元共线性是指自变量之间存在高度相关性的情况,会影响回归系数的估计和解释结果的准确性。
通过相关系数矩阵和方差膨胀因子等方法,可以检测和解决多元共线性问题。
五、模型评估指标在多元回归分析中,常用的模型评估指标包括决定系数(R-squared)、调整决定系数(Adjusted R-squared)、标准误差(Standard Error)、F统计量(F-statistic)等。
这些指标可以评估模型的拟合优度和显著性。
六、案例应用以房价预测为例,假设我们想通过多个自变量(如房屋面积、位置、卧室数量等)来预测房屋的价格。
通过收集相关数据并进行多元回归分析,可以建立一个房价预测模型,并根据回归系数解释不同自变量对于房价的影响程度。
统计学中的回归分析方法

统计学中的回归分析方法回归分析是统计学中经常被使用的一种方法,它用于研究两个或多个变量之间的关系。
通过回归分析,我们可以预测一个变量如何随着其他变量的变化而变化,或者确定变量之间的因果关系。
在本文中,我将介绍几种常见的回归分析方法,帮助读者更好地理解和应用这一统计学方法。
一、简单线性回归分析简单线性回归分析是回归分析的最基本形式。
它适用于只涉及两个变量的场景,并且假设变量之间的关系可以用一条直线来描述。
在进行简单线性回归分析时,我们需要收集一组观测数据,并使用最小二乘法来拟合直线模型,从而得到最优的回归方程。
通过该方程,我们可以根据自变量的取值预测因变量的值,或者评估自变量对因变量的影响程度。
二、多元线性回归分析多元线性回归分析扩展了简单线性回归模型,允许多个自变量同时对因变量进行解释和预测。
当我们要考察一个因变量与多个自变量之间的复杂关系时,多元线性回归分析是一种有力的工具。
在进行多元线性回归分析时,我们需收集多组观测数据,并建立一个包含多个自变量的回归模型。
通过拟合最优的回归方程,我们可以分析每个自变量对因变量的影响,进一步理解变量之间的关系。
三、逻辑回归分析逻辑回归分析是回归分析的一种特殊形式,用于处理因变量为二元变量(如真与假)时的回归问题。
逻辑回归分析的目标是根据自变量的取值,对因变量的分类进行概率预测。
逻辑回归模型是通过将线性回归模型的输出映射到一个概率区间(通常为0到1)来实现的。
逻辑回归在实际应用中非常广泛,如市场预测、医学诊断等领域。
四、岭回归分析岭回归是一种用于解决多重共线性问题的回归分析方法。
多重共线性指多个自变量之间存在高度相关性的情况,这会导致回归分析结果不稳定。
岭回归通过在最小二乘法的基础上加入一个惩罚项,使得回归系数的估计更加稳定。
岭回归分析的目标是获得一个优化的回归方程,从而在存在多重共线性的情况下提高预测准确度。
五、非线性回归分析在某些情况下,变量之间的关系不是线性的,而是呈现出曲线或其他非线性形态。
多元回归分析方法

多元回归分析方法一、简介多元回归分析是一种经济学和统计学中常用的分析方法,它可以用来研究多个自变量对一个因变量的影响关系。
在实际问题中,我们往往需要考虑多个因素对某个现象的影响,多元回归分析可以帮助我们揭示这种复杂关系。
二、回归模型回归分析基于回归模型,常见的多元回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βkXk + ε,其中Y是因变量,Xi是自变量,βi是对应的回归系数,ε是随机误差项。
回归系数反映了自变量对因变量的影响程度,通过对样本数据进行估计,我们可以得到回归系数的估计值。
三、数据收集与准备在进行多元回归分析之前,我们需要收集和准备相关的数据。
这包括确定因变量和自变量的测量指标,选择合适的样本规模,保证数据的有效性和可靠性。
同时,对于因变量和自变量之间可能存在的非线性关系,我们需要进行适当的变量转换或添加高阶项,以确保模型的拟合程度。
四、回归模型的选择在进行多元回归分析时,我们需要选择合适的回归模型。
这可以通过观察数据的分布情况、变量之间的关系以及领域知识来进行判断。
常见的回归模型包括线性回归、多项式回归和逻辑回归等。
选择合适的模型能够提高分析的准确性和可解释性。
五、模型拟合与评估在得到回归模型的估计值后,我们需要评估模型的拟合程度和预测能力。
常见的评估指标包括均方误差(MSE)、决定系数(R-squared)和F统计量等。
通过这些指标,我们可以判断模型的拟合优度和自变量的显著性,进而确定模型是否可靠以及变量是否具有统计显著性。
六、多重共线性检验多元回归分析中存在一个重要的问题,即多重共线性。
当自变量之间存在强相关关系时,容易导致模型估计结果的不稳定和不可靠。
因此,在进行多元回归分析之前,必须对自变量进行多重共线性的检验。
常用的方法包括方差膨胀因子(VIF)和特征值分解等。
七、模型解释与应用通过对多元回归模型的估计和评估,我们可以得到自变量对因变量的影响程度和方向,并进行合理的解释。
统计学中的多元回归分析

统计学中的多元回归分析统计学是一门研究数据收集、分析和解释的学科,而多元回归分析是其中一种常用的方法。
多元回归分析是一种统计技术,用于探索和解释多个自变量与一个或多个因变量之间的关系。
在这篇文章中,我们将深入介绍多元回归分析的概念、原理和应用。
一、概述多元回归分析是通过建立多个自变量与一个或多个因变量之间的线性关系,来描述和预测数据的统计技术。
与简单线性回归分析不同,多元回归分析可以考虑多个自变量对因变量的影响,更贴近实际问题的复杂性。
二、原理在多元回归分析中,我们通过最小二乘法来估计回归系数,以找到最好的拟合线性模型。
这一方法的核心思想是,找到一条线(或超平面),使得每个数据点到该线的距离之和最小。
三、多元回归方程多元回归方程可以表示为:Y = β0 + β1X1 + β2X2 + … + βnXn + ε,其中Y表示因变量,X1至Xn表示自变量,β0至βn表示回归系数,ε表示误差项。
通过估计回归系数,我们可以推断自变量对因变量的影响程度,并进行预测。
四、假设检验在多元回归分析中,我们还可以进行各种假设检验,来验证回归模型的有效性。
常见的假设检验包括回归系数的显著性检验、回归模型的整体拟合优度检验等。
这些检验可以帮助我们评估回归模型的可靠性和适用性。
五、变量选择在多元回归分析中,选择适当的自变量对建立有效的回归模型至关重要。
变量选择方法包括前向选择、后向选择和逐步回归等。
通过这些方法,我们可以筛选出对因变量具有显著影响的自变量,提高回归模型的有效性。
六、应用领域多元回归分析在各个领域都得到广泛应用。
例如,在经济学中,多元回归分析可以用于预测和解释经济指标之间的关系;在医学研究中,多元回归分析可以用于探索各种因素对疾病发生和治疗效果的影响;在市场营销中,多元回归分析可以用于预测销售量并解释市场需求的变化等。
七、总结多元回归分析是统计学中常用的方法之一,通过建立多个自变量与一个或多个因变量之间的线性关系,帮助我们解释和预测数据。
统计学中的多元线性回归分析

统计学中的多元线性回归分析多元线性回归分析是统计学中常用的一种回归分析方法,用于研究多个自变量对一个或多个因变量的影响关系。
本文将介绍多元线性回归分析的基本原理、应用场景以及分析步骤。
1. 多元线性回归的基本原理多元线性回归分析是建立在线性回归的基础上的。
线性回归分析是研究一个自变量对一个因变量的影响关系,而多元线性回归分析则是研究多个自变量对一个或多个因变量的影响关系。
在多元线性回归中,我们假设因变量Y与自变量X1、X2、...、Xn之间存在线性关系,即Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中β0、β1、β2、...、βn为回归系数,ε为误差项。
我们的目标是通过样本数据来估计回归系数,以便预测因变量Y。
2. 多元线性回归的应用场景多元线性回归分析广泛应用于各个领域,例如经济学、社会学、医学等。
以下是一些常见的应用场景:2.1 经济学领域在经济学领域,多元线性回归可以用于分析各种经济变量之间的关系。
例如,研究GDP与劳动力、资本投入等因素之间的关系,或者研究物价与通货膨胀、货币供应量等因素之间的关系。
2.2 社会学领域在社会学领域,多元线性回归可以用于分析社会现象与各种因素之间的关系。
例如,研究教育水平与收入、社会地位等因素之间的关系,或者研究犯罪率与社会福利、失业率等因素之间的关系。
2.3 医学领域在医学领域,多元线性回归可以用于分析疾病或健康状况与各种因素之间的关系。
例如,研究心脏病发病率与吸烟、高血压等因素之间的关系,或者研究生存率与年龄、治疗方法等因素之间的关系。
3. 多元线性回归的分析步骤进行多元线性回归分析时,通常需要按照以下步骤进行:3.1 数据收集首先,需要收集相关的自变量和因变量的数据。
这些数据可以通过实地调查、问卷调查、实验等方式获得。
3.2 数据预处理在进行回归分析之前,需要对数据进行预处理。
这包括数据清洗、缺失值处理、异常值处理等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归分析在数量分析中,经常会看到变量与变量之间存在着一定的联系。
要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。
回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。
1.1 回归分析基本概念相关分析和回归分析都是研究变量间关系的统计学课题。
在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。
在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。
在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。
相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。
具体地说,回归分析主要解决以下几方面的问题。
(1)通过分析大量的样本数据,确定变量之间的数学关系式。
(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。
(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。
作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。
在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。
1.2 多元线性回归1.2.1 多元线性回归的定义一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。
其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。
一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。
例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。
因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。
这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。
1.2.2 多元线性回归模型1.2.2.1元线性回归模型及其矩阵表示设y 是一个可观测的随机变量,它受到p 个非随机因索1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关系:εβββ++++=p p x x y 110 (1.1)其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量). 称 p p x x y E βββ+++= 110)((1.2)为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β,…,p β,为此我们要进行n 次独立观测,得到n 组样本数据);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nnp p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (1.3) 其中n εεε,,,21 相互独立且都服从),0(2σN .式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,),0(~2n n I N σε,n I 为n 阶单位矩阵.⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,即1)(+=p X rank .由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即),(~2n n I X N Y σβ.1.2.2.2参数的最小二乘估计及其表示1. 参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p βββ,,,10 仍然可用最小二乘法来估计,即我们选择T p ),,,(10ββββ =使误差平方和∑∑==-----=--===ni ip p i i i T T n i i x x x y X Y X Y Q 122211012)()()(ˆ)(ββββββεεεβ达到最小.由于)(βQ 是关于p βββ,,,10 的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂=------=∂∂∑∑∑∑====n i ipip p i i i p n i ikip p i i i k n i i ip p i i i n i ip p i i i x x x x y Q x x x x y Q x x x x y Q x x x y Q 1221101221101122110112211000)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(ββββββββββββββββββββββββ 这里),,1,0(ˆp i i=β是),,1,0(p i i =β的最小二乘估计.上述对)(βQ 求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:0)ˆ(=-βX Y X T 移项得Y X X X T T =βˆ(1.5)称此方程组为正规方程组.依据假定1)(+=p X R ,所以1)()(+==p X R X X R T .故1)(-X X T 存在.解正规方程组(1.5)得Y X X X T T 1)(ˆ-=β(1.6)称pp x x x y ββββˆˆˆˆˆ22110++++= 为经验回归方程. 2.误差方差2σ的估计将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为βˆ)ˆ,,ˆ,ˆ(ˆ221X y y y Yp ==向量Y H I Y X X X X I X Y Y Y e nT T n )(])([ˆˆ1-=-=-=-=-β称为残差向量,其中T T X X X X H 1)(-=为n 阶对称幂等矩阵,n I 为n 阶单位阵.称数Y X Y Y Y H I Y e e T T T n T T βˆ)(-=-=为残差平方和(Error Sum of Squares,简写为SSE ).由于βX Y E =)(且0)(=-X H I n ,则)]()[(]})([{)(T n n T T E H I tr H I tr E e e E εεεε-=-=])([12T T n X X X X I tr --=σ]})[({12X X X X tr n T T --=σ)1(2--=p n σ从而e e p n T 11ˆ2--=σ为2σ的一个无偏估计. 3.估计量的性质性质1 βˆ为β的线性无偏估计,且12)()ˆ()ˆ(-==X X Var D T σββ.证 由于Y X X X T T 1)(ˆ-=β是Y 的线性函数,故其为线性估计,且有ββββ====--X X X X Y E X X X E T T T T 11)(ˆ)()()ˆ( 1211)()()()()ˆ(---==X X X X X Y D X X X D T T T T T σβ这一性质说明βˆ为β的线性无偏估计,又由于1)(-X X T 一般为非对角阵,故βˆ的各个分量间一般是相关的. 性质2 )()(,)(2H I e D O e E -==σ.证 由于Y H I e )(-= ,故O X H I Y E H I e E =-=-=β)()()()()())(()()(2H I H I Y D H I e D T -=--=σ这一性质表明残差向量的各个分量间一般也是相关的. 性质3 O e Cov =)ˆ,(β. 证 ))(,)(()ˆ,(1Y X X X Y H I Cov e Cov T T --=βO X X X Y D H I T =-=-1)()()(.这一性质表明残差e与β的最小二乘估计βˆ是不相关的,又由于残差平方和SSE 是e的函数,故它与βˆ也不相关.在正态假定下不相关与独立等价,因而SSE 与βˆ独立. 性质4 2)1()(σ--=p n SSE E . 证明略性质5 (Gauss-Markov 定理)在假定βX Y E =)(,nI Y D 2)(σ=时,β的任一线性函数βT ∂的最小方差线性无偏估计(BLUE )为βˆT ∂,其中α是任一1+p维向量,βˆ是β的最小二乘估计.性质6 当2(,)n YN X I βσ,有以下几点结论:(1)21ˆ(,())T N X X ββσ-; (2)SSE 与βˆ独立; (3)2(1)SSE n p χ--.性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用回归分析》.1.2.3回归方程和回归系数的显著性检验给定因变量y 与1x ,2x ,…,p x 的n 组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的F 检验和回归系数的t 检验,同时介绍衡量回归拟合程度的拟合优度检验1.2.3.1回归方程显著性的检验对多元线性回归方程作显著性检验就是要看自变量1x ,2x ,…,p x 从整体上对随机变量y 是否有明显的影响,即检验假设:0121:0:0,1p i H H i pββββ====⎧⎪⎨≠≤≤⎪⎩ 如果0H 被接受,则表明y 与1x ,2x ,…,p x 之间不存在线性关系.为了说明如何进行检验,我们首先建立方差分析表.1. 离差平方和的分解我们知道:观测值1y ,2y ,…,n y 之所以有差异,是由于下述两个原因引起的,一是y 与1x ,2x ,…,p x 之间确有线性关系时,由于1x ,2x ,…,p x 取值的不同而引起(1,2,...,)i y i n =值的变化;另一方面是除去y 与1x ,2x ,…,p x 的线性关系以外的因素,如1x ,2x ,…,p x 对y的非线性影响以及随机因素的影响等.记11ni i y y n ==∑,则数据的总离差平方和(Total Sum of Squares )21()ni i SST y y ==-∑ (1.7)反映了数据的波动性的大小. 残差平方和21ˆ()ni i i SST y y==-∑ (1.8) 反映了除去y 与1x ,2x ,…,p x 之间的线性关系以外的因素引起的数据1y ,2y ,…,n y 的波动.若0SSE =,则每个观测值可由线性关系精确拟合,SSE 越大,观测值和线性拟合值间的偏差也越大.回归平方和(Regression Sum of Squres )21ˆ()ni i SSR yy ==-∑ (1.9) 由于可证明11ˆni i y y n ==∑,故SSR 反映了线性拟合值与它们的平均值的宗偏差,即由变量1x ,2x ,…,p x 的变化引起1y ,2y ,…,n y 的波动.若0SSR =,则每一个拟合值均相当,即ˆi y不随1x ,2x ,…,p x 而变化,这意味着120p βββ====.利用代数运算和正规方程组(4.8)可以证明:222111ˆˆ()()()n n niiiii i i y y yy y y ===-=-+-∑∑∑即 SST SSR SSE =+(1.10)因此,SSR 越大,说明由线性回归关系所描述的1y ,2y ,…,n y 的波动性的比例就越大即y 与1x ,2x ,…,p x 的线性关系就越显著.线性模型的拟合效果越好.另外,通过矩阵运算可以证明SST 、SSE 、SSR ,有如下形式的矩阵表示:11()()11()T T Tn T T T Tn T T T SST Y Y Y JY Y I J Y n n SSE e e Y Y X Y Y I H Y SSR X Y Y JY Y H J Y n n ββ⎧=-=-⎪⎪⎪==-=-⎨⎪⎪=-=-⎪⎩(1.11) 其中J 表示一个元素全为1的n 阶方阵. 2. 自由度的分解对应于SST 的分解,其自由度也有相应的分解,这里的自由度是指平方中独立变化项的数目.在SST 中,由于有一个关系式1()0ni i y y =-=∑,即(1,2,,)i y y i n -=彼此并不是独立变化的,故其自由度为1n -.可以证明,SSE 的自由度为1n p --,SSR 的自由度为p ,因此对应于SST 的分解,也有自由度的分解关系1(1)n n p p -=--+ (1.12)3. 方差分析表基于以上的SST 和自由度的分解,可以建立方差分析表1.11.2.3.2线性回归方程的显著性检验与一元线性回归时一样,可以用F 统计量检验回归方程的显著性,也可以用P 值法(P-Value )作检验. F 统计量是//(1)MSR SSR pF MSE SSE n p ==-- (1.13) 当0H 为真时,~(,1)F F p n p --,给定显著性水平α,查F 分布表得临界值(,1)F p n p α--,计算F 的观测值0F ,若0(,1)F F p n p α≤--,则接受0H ,即在显著性水平α之下,认为y 与1x ,2x ,…,p x 的线性关系就不显著;当0(,1)F F p n p α≥--时,这种线性关系是显著的.利用P 值法作显著性检验性检验十分方便:这里的P 值是0()P F F >,表示第一、第二自由度分别为p ,1n p --的F 变量取值大于0F 的概率,利用计算机很容易计算出这个概率,很多统计软件(如SPSS )都给出了检验的P 值,这省去了查分布表的麻烦,对于给定的显著性水平α,若p α<,则拒绝0H ,反之,接受0H .如果检验的结果是接受原假设0H ,那意味着什么呢?这时候表明,与模型的误差相比,自变量对因变量的影响是不重要的.这可能有两种情况.其一是模型的各种误差太大,即使回归自变量对因变量y 有一定的影响,但相比于误差也不算大.对于这种情况,我们要想办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量与y 是否有非线性关系等;其二是自变量对y 的影响确实 很小,这时建立y 与诸自变量的回归方程没有实际意义. 1.2.3.3回归系数的显著性检验回归方程通过了显著性检验并不意味着每个自变量(1,2,,)i x i p =都对y 有显著地影响,可能其中的某个或某些自变量对y 的影响并不显著。