统计学多元回归研究分析方法

合集下载

多元统计分析回归分析

多元统计分析回归分析

03
多元线性回归分析
多元线性回归模型的建立
确定自变量和因变量
01
在建立多元线性回归模型时,首先需要明确哪些变量是自变量
(解释变量),哪些是因变量(响应变量)。
确定模型形式
02
根据研究目的和数据特征,选择合适的多元线性回归模型形式,
如线性、多项式、逻辑回归等。
确定模型参数
03
根据选择的模型形式,确定模型中的参数,如回归系数、截距
04
多元非线性回归分析
多元非线性回归模型的建立
确定因变量和自变量
首先需要确定回归分析中的因变量和自变量, 并收集相关数据。
确定模型形式
根据理论或经验,选择合适的非线性函数形式 来表示自变量与因变量之间的关系。
确定模型参数
根据数据,使用适当的方法确定模型中的参数。
多元非线性回归模型的参数估计
01
详细描述
在社会调查中,回归分析可以帮助研究者了解不同因素对人类行为的影响,例如 教育程度、收入、性别等因素对个人幸福感的影响。通过回归分析,可以揭示变 量之间的关联和因果关系,为政策制定和社会干预提供科学依据。
生物医学数据的回归分析
总结词
生物医学数据的回归分析是多元统计分析在生命科学领域的应用,用于研究生物标志物和疾病之间的 关系。
详细描述
在经济领域,回归分析被广泛应用于股票价格、通货膨胀率 、GDP等经济指标的分析和预测。通过建立回归模型,可以 分析不同经济变量之间的因果关系,为政策制定者和投资者 提供决策依据。
社会调查数据的回归分析
总结词
社会调查数据的回归分析是多元统计分析在社会科学领域的应用,用于研究社会 现象和人类行为。
特点
多元统计分析具有多维性、复杂性和实用性。它可以处理多个变量之间的交互 作用和综合效应,广泛应用于各个领域,如经济学、社会学、生物学等。

统计学中的多元回归分析方法

统计学中的多元回归分析方法

统计学中的多元回归分析方法统计学是一门研究收集、整理和解释数据的学科,而多元回归分析是其中一种重要的方法。

本文将针对统计学中的多元回归分析方法进行详细讨论和解释。

一、引言多元回归分析是一种用于研究多个自变量与一个因变量之间关系的统计方法。

通过建立一个数学模型,它可以被用来预测或解释因变量的变化。

多元回归分析方法可以帮助我们理解不同自变量与因变量之间的影响程度和相关性。

二、多元回归模型多元回归模型可以表示为Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y是因变量,X1至Xn是自变量,β0至βn是回归系数,ε是误差项。

回归系数表示了自变量对因变量的影响程度,而误差项则表示了模型无法解释的部分。

三、多元回归分析步骤1. 数据准备:收集所需自变量和因变量的数据,并进行预处理,如缺失值填充和异常值处理。

2. 模型选择:根据研究目的和数据特点选择适当的多元回归模型。

3. 参数估计:利用最小二乘法或其他估计方法估计回归系数,找到最优解。

4. 模型检验:通过统计检验和评估指标,检验模型的拟合程度和显著性。

5. 解释结果:解释回归系数的意义和影响,评估模型的可解释性。

6. 预测应用:利用得到的模型对未知数据进行预测,评估模型的预测效果。

四、多元共线性多元共线性是指自变量之间存在高度相关性的情况,会影响回归系数的估计和解释结果的准确性。

通过相关系数矩阵和方差膨胀因子等方法,可以检测和解决多元共线性问题。

五、模型评估指标在多元回归分析中,常用的模型评估指标包括决定系数(R-squared)、调整决定系数(Adjusted R-squared)、标准误差(Standard Error)、F统计量(F-statistic)等。

这些指标可以评估模型的拟合优度和显著性。

六、案例应用以房价预测为例,假设我们想通过多个自变量(如房屋面积、位置、卧室数量等)来预测房屋的价格。

通过收集相关数据并进行多元回归分析,可以建立一个房价预测模型,并根据回归系数解释不同自变量对于房价的影响程度。

统计学中的回归分析方法

统计学中的回归分析方法

统计学中的回归分析方法回归分析是统计学中经常被使用的一种方法,它用于研究两个或多个变量之间的关系。

通过回归分析,我们可以预测一个变量如何随着其他变量的变化而变化,或者确定变量之间的因果关系。

在本文中,我将介绍几种常见的回归分析方法,帮助读者更好地理解和应用这一统计学方法。

一、简单线性回归分析简单线性回归分析是回归分析的最基本形式。

它适用于只涉及两个变量的场景,并且假设变量之间的关系可以用一条直线来描述。

在进行简单线性回归分析时,我们需要收集一组观测数据,并使用最小二乘法来拟合直线模型,从而得到最优的回归方程。

通过该方程,我们可以根据自变量的取值预测因变量的值,或者评估自变量对因变量的影响程度。

二、多元线性回归分析多元线性回归分析扩展了简单线性回归模型,允许多个自变量同时对因变量进行解释和预测。

当我们要考察一个因变量与多个自变量之间的复杂关系时,多元线性回归分析是一种有力的工具。

在进行多元线性回归分析时,我们需收集多组观测数据,并建立一个包含多个自变量的回归模型。

通过拟合最优的回归方程,我们可以分析每个自变量对因变量的影响,进一步理解变量之间的关系。

三、逻辑回归分析逻辑回归分析是回归分析的一种特殊形式,用于处理因变量为二元变量(如真与假)时的回归问题。

逻辑回归分析的目标是根据自变量的取值,对因变量的分类进行概率预测。

逻辑回归模型是通过将线性回归模型的输出映射到一个概率区间(通常为0到1)来实现的。

逻辑回归在实际应用中非常广泛,如市场预测、医学诊断等领域。

四、岭回归分析岭回归是一种用于解决多重共线性问题的回归分析方法。

多重共线性指多个自变量之间存在高度相关性的情况,这会导致回归分析结果不稳定。

岭回归通过在最小二乘法的基础上加入一个惩罚项,使得回归系数的估计更加稳定。

岭回归分析的目标是获得一个优化的回归方程,从而在存在多重共线性的情况下提高预测准确度。

五、非线性回归分析在某些情况下,变量之间的关系不是线性的,而是呈现出曲线或其他非线性形态。

《医学统计学》之多元(重)线性回归

《医学统计学》之多元(重)线性回归

多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系,即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立,即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差,即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开 始,逐步添加自变量,选择 最佳的组合。
后向消除法
从包含所有自变量的全模型 开始,逐步删除自变量,选 择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除 法,逐步调整自变量,找到 最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治 疗效果的影响。
市场分析
用于预测市场需求和销售量,并确定最佳的市场推 广策略。
财务预测
社会科学
用于预测企业的财务状况,并制定相应的经营决策。
用于研究社会现象和群体行为,解释和预测社会现 象的变化。
通过方差膨胀因子等指标,判断自变量之间是否存在高度相关性,以避免估计结果的不 准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式,检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标(如决定系数R²)和假设分布,评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响,判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中,多元(重)线性回归是一种强大的数据分析方法,可用于探索 和建立多个自变量与因变量之间的关系。

统计学中的多元统计分析方法

统计学中的多元统计分析方法

统计学中的多元统计分析方法多元统计分析是统计学的一个重要分支,用于处理多个变量之间的关系和相互作用。

它提供了一种全面理解和解释数据的方式,使我们能够更好地理解现象和预测未来趋势。

在本文中,我们将介绍几种常见的多元统计分析方法,并讨论它们的应用场景和计算步骤。

一、主成分分析(Principal Component Analysis,PCA)主成分分析是一种无监督学习方法,用于降低数据维度并发现主要成分。

其目标是通过线性变换将高维数据转化为低维表示,以便更好地解释数据的方差。

主成分分析通过计算特征值和特征向量来确定主要成分,并将数据投影到这些主成分上。

主成分分析常用于数据降维和可视化。

二、因子分析(Factor Analysis)因子分析是一种用于统计数据降维和变量关系分析的方法。

它通过将一组观测变量解释为一组潜在因子来发现数据背后的结构。

因子分析可以帮助我们理解变量之间的相关性,发现潜在的构成因素,并将多个变量归纳为更少的几个因子。

因子分析在市场研究、心理学和社会科学等领域得到广泛应用。

三、判别分析(Discriminant Analysis)判别分析是一种监督学习方法,用于寻找最佳分类边界,并将数据点分配到不同的类别中。

判别分析通过计算组间方差和组内方差来确定最优的分类边界。

它常用于模式识别、生物医学和金融领域等。

通过判别分析,我们可以了解变量对于区分不同类别的贡献程度,并进行有效的样本分类。

四、聚类分析(Cluster Analysis)聚类分析是一种无监督学习方法,用于将相似的数据点组合成不同的类别或群集。

聚类分析通过度量数据点之间的相似性来揭示数据的内在结构。

常见的聚类方法包括K均值聚类和层次聚类。

聚类分析在市场细分、图像分析和生物学分类等领域具有重要应用。

五、回归分析(Regression Analysis)回归分析是一种用于建立变量之间关系模型的方法。

它通过拟合一个数学模型来预测一个或多个自变量对应因变量的值。

多元回归分析方法

多元回归分析方法

多元回归分析方法一、简介多元回归分析是一种经济学和统计学中常用的分析方法,它可以用来研究多个自变量对一个因变量的影响关系。

在实际问题中,我们往往需要考虑多个因素对某个现象的影响,多元回归分析可以帮助我们揭示这种复杂关系。

二、回归模型回归分析基于回归模型,常见的多元回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βkXk + ε,其中Y是因变量,Xi是自变量,βi是对应的回归系数,ε是随机误差项。

回归系数反映了自变量对因变量的影响程度,通过对样本数据进行估计,我们可以得到回归系数的估计值。

三、数据收集与准备在进行多元回归分析之前,我们需要收集和准备相关的数据。

这包括确定因变量和自变量的测量指标,选择合适的样本规模,保证数据的有效性和可靠性。

同时,对于因变量和自变量之间可能存在的非线性关系,我们需要进行适当的变量转换或添加高阶项,以确保模型的拟合程度。

四、回归模型的选择在进行多元回归分析时,我们需要选择合适的回归模型。

这可以通过观察数据的分布情况、变量之间的关系以及领域知识来进行判断。

常见的回归模型包括线性回归、多项式回归和逻辑回归等。

选择合适的模型能够提高分析的准确性和可解释性。

五、模型拟合与评估在得到回归模型的估计值后,我们需要评估模型的拟合程度和预测能力。

常见的评估指标包括均方误差(MSE)、决定系数(R-squared)和F统计量等。

通过这些指标,我们可以判断模型的拟合优度和自变量的显著性,进而确定模型是否可靠以及变量是否具有统计显著性。

六、多重共线性检验多元回归分析中存在一个重要的问题,即多重共线性。

当自变量之间存在强相关关系时,容易导致模型估计结果的不稳定和不可靠。

因此,在进行多元回归分析之前,必须对自变量进行多重共线性的检验。

常用的方法包括方差膨胀因子(VIF)和特征值分解等。

七、模型解释与应用通过对多元回归模型的估计和评估,我们可以得到自变量对因变量的影响程度和方向,并进行合理的解释。

统计学中的多元回归分析

统计学中的多元回归分析

统计学中的多元回归分析统计学是一门研究数据收集、分析和解释的学科,而多元回归分析是其中一种常用的方法。

多元回归分析是一种统计技术,用于探索和解释多个自变量与一个或多个因变量之间的关系。

在这篇文章中,我们将深入介绍多元回归分析的概念、原理和应用。

一、概述多元回归分析是通过建立多个自变量与一个或多个因变量之间的线性关系,来描述和预测数据的统计技术。

与简单线性回归分析不同,多元回归分析可以考虑多个自变量对因变量的影响,更贴近实际问题的复杂性。

二、原理在多元回归分析中,我们通过最小二乘法来估计回归系数,以找到最好的拟合线性模型。

这一方法的核心思想是,找到一条线(或超平面),使得每个数据点到该线的距离之和最小。

三、多元回归方程多元回归方程可以表示为:Y = β0 + β1X1 + β2X2 + … + βnXn + ε,其中Y表示因变量,X1至Xn表示自变量,β0至βn表示回归系数,ε表示误差项。

通过估计回归系数,我们可以推断自变量对因变量的影响程度,并进行预测。

四、假设检验在多元回归分析中,我们还可以进行各种假设检验,来验证回归模型的有效性。

常见的假设检验包括回归系数的显著性检验、回归模型的整体拟合优度检验等。

这些检验可以帮助我们评估回归模型的可靠性和适用性。

五、变量选择在多元回归分析中,选择适当的自变量对建立有效的回归模型至关重要。

变量选择方法包括前向选择、后向选择和逐步回归等。

通过这些方法,我们可以筛选出对因变量具有显著影响的自变量,提高回归模型的有效性。

六、应用领域多元回归分析在各个领域都得到广泛应用。

例如,在经济学中,多元回归分析可以用于预测和解释经济指标之间的关系;在医学研究中,多元回归分析可以用于探索各种因素对疾病发生和治疗效果的影响;在市场营销中,多元回归分析可以用于预测销售量并解释市场需求的变化等。

七、总结多元回归分析是统计学中常用的方法之一,通过建立多个自变量与一个或多个因变量之间的线性关系,帮助我们解释和预测数据。

经济统计学中的多元线性回归分析

经济统计学中的多元线性回归分析

经济统计学中的多元线性回归分析经济统计学是研究经济现象的一门学科,通过对经济数据的收集、整理和分析,帮助我们了解经济运行规律和预测未来走势。

而多元线性回归分析是经济统计学中一种常用的分析方法,用来研究多个自变量对一个因变量的影响程度。

多元线性回归分析的基本原理是通过建立一个数学模型,来描述自变量与因变量之间的关系。

在经济统计学中,自变量通常是影响经济现象的各种因素,如GDP、通货膨胀率、利率等;而因变量则是我们想要研究的经济现象本身,比如消费水平、投资额等。

通过多元线性回归分析,我们可以了解各个因素对经济现象的贡献程度,从而更好地理解和预测经济运行情况。

在进行多元线性回归分析之前,我们首先需要收集相关的数据。

这些数据可以通过各种途径获得,如调查问卷、统计年鉴、金融报表等。

然后,我们需要对数据进行整理和清洗,以确保数据的准确性和可靠性。

接下来,我们可以使用统计软件,如SPSS、Excel等,来进行回归分析。

多元线性回归分析的核心是建立回归模型。

回归模型可以用数学公式表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示回归系数,ε表示误差项。

回归系数表示自变量对因变量的影响程度,而误差项则代表模型无法解释的部分。

在建立回归模型之后,我们需要进行模型的检验和解释。

模型检验可以通过各种统计指标来进行,如R方、调整R方、F统计量等。

R方表示回归模型对因变量变异的解释程度,数值越接近1,说明模型的拟合程度越好。

F统计量则表示回归模型的整体显著性,数值越大,说明模型的拟合程度越好。

除了模型检验,我们还可以通过回归系数的显著性检验来解释模型。

回归系数的显著性检验可以通过计算t值和p值来进行。

t值表示回归系数与零之间的差异程度,而p值则表示这种差异是否显著。

一般来说,当p值小于0.05时,我们可以认为回归系数是显著的,即自变量对因变量的影响是存在的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学多元回归分析方法————————————————————————————————作者:————————————————————————————————日期:多元线性回归分析在数量分析中,经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。

回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

1.1 回归分析基本概念相关分析和回归分析都是研究变量间关系的统计学课题。

在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。

在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。

相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说,回归分析主要解决以下几方面的问题。

(1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。

在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

1.2 多元线性回归1.2.1 多元线性回归的定义一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。

其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。

例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

1.2.2 多元线性回归模型1.2.2.1元线性回归模型及其矩阵表示设y 是一个可观测的随机变量,它受到p 个非随机因索1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关系:εβββ++++=p p x x y 110 (1.1)其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量). 称 p p x x y E βββ+++= 110)((1.2)为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β,…,p β,为此我们要进行n 次独立观测,得到n 组样本数据);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nnp p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (1.3) 其中n εεε,,,21 相互独立且都服从),0(2σN .式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,),0(~2n n I N σε,n I 为n 阶单位矩阵.⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,即1)(+=p X rank .由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即),(~2n n I X N Y σβ.1.2.2.2参数的最小二乘估计及其表示1. 参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p βββ,,,10 仍然可用最小二乘法来估计,即我们选择T p ),,,(10ββββ =使误差平方和∑∑==-----=--===ni ip p i i i T T ni i x x x y X Y X Y Q 122211012)()()(ˆ)(ββββββεεεβ达到最小.由于)(βQ 是关于p βββ,,,10 的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂=------=∂∂∑∑∑∑====n i ipip p i i i p n i ikip p i i i k n i i ip p i i i n i ip p i i i x x x x y Q x x x x y Q x x x x y Q x x x y Q 1221101221101122110112211000)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(ββββββββββββββββββββββββ 这里),,1,0(ˆp i i=β是),,1,0(p i i =β的最小二乘估计.上述对)(βQ 求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:0)ˆ(=-βX Y X T 移项得Y X X X T T =βˆ(1.5)称此方程组为正规方程组.依据假定1)(+=p X R ,所以1)()(+==p X R X X R T .故1)(-X X T 存在.解正规方程组(1.5)得Y X X X T T 1)(ˆ-=β(1.6)称pp x x x y ββββˆˆˆˆˆ22110++++= 为经验回归方程. 2.误差方差2σ的估计将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为βˆ)ˆ,,ˆ,ˆ(ˆ221X y y y Yp ==向量Y H I Y X X X X I X Y Y Y e nT T n )(])([ˆˆ1-=-=-=-=-β称为残差向量,其中T T X X X X H 1)(-=为n 阶对称幂等矩阵,n I 为n 阶单位阵.称数Y X Y Y Y H I Y e e T T T n T T βˆ)(-=-=为残差平方和(Error Sum of Squares,简写为SSE ).由于βX Y E =)(且0)(=-X H I n ,则)]()[(]})([{)(T n n T T E H I tr H I tr E e e E εεεε-=-=])([12T T n X X X X I tr --=σ]})[({12X X X X tr n T T --=σ)1(2--=p n σ从而e e p n T 11ˆ2--=σ为2σ的一个无偏估计. 3.估计量的性质性质1 βˆ为β的线性无偏估计,且12)()ˆ()ˆ(-==X X Var D T σββ.证 由于Y X X X T T 1)(ˆ-=β是Y 的线性函数,故其为线性估计,且有ββββ====--X X X X Y E X X X E T T T T 11)(ˆ)()()ˆ( 1211)()()()()ˆ(---==X X X X X Y D X X X D T T T T T σβ这一性质说明βˆ为β的线性无偏估计,又由于1)(-X X T 一般为非对角阵,故βˆ的各个分量间一般是相关的. 性质2 )()(,)(2H I e D O e E -==σ.证 由于Y H I e )(-= ,故O X H I Y E H I e E =-=-=β)()()()()())(()()(2H I H I Y D H I e D T -=--=σ这一性质表明残差向量的各个分量间一般也是相关的. 性质3 O e Cov =)ˆ,(β. 证 ))(,)(()ˆ,(1Y X X X Y H I Cov e Cov T T --=βO X X X Y D H I T =-=-1)()()(.这一性质表明残差e与β的最小二乘估计βˆ是不相关的,又由于残差平方和SSE 是e的函数,故它与βˆ也不相关.在正态假定下不相关与独立等价,因而SSE 与βˆ独立. 性质4 2)1()(σ--=p n SSE E . 证明略性质5 (Gauss-Markov 定理)在假定βX Y E =)(,nI Y D 2)(σ=时,β的任一线性函数βT ∂的最小方差线性无偏估计(BLUE )为βˆT ∂,其中α是任一1+p维向量,βˆ是β的最小二乘估计.性质6 当2(,)n YN X I βσ,有以下几点结论:(1)21ˆ(,())T N X X ββσ-; (2)SSE 与βˆ独立; (3)2(1)SSE n p χ--.性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用回归分析》.1.2.3回归方程和回归系数的显著性检验给定因变量y 与1x ,2x ,…,p x 的n 组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的F 检验和回归系数的t 检验,同时介绍衡量回归拟合程度的拟合优度检验1.2.3.1回归方程显著性的检验对多元线性回归方程作显著性检验就是要看自变量1x ,2x ,…,p x 从整体上对随机变量y 是否有明显的影响,即检验假设:0121:0:0,1p iH H i p ββββ====⎧⎪⎨≠≤≤⎪⎩ 如果0H 被接受,则表明y 与1x ,2x ,…,p x 之间不存在线性关系.为了说明如何进行检验,我们首先建立方差分析表.1. 离差平方和的分解我们知道:观测值1y ,2y ,…,n y 之所以有差异,是由于下述两个原因引起的,一是y 与1x ,2x ,…,p x 之间确有线性关系时,由于1x ,2x ,…,p x 取值的不同而引起(1,2,...,)i y i n =值的变化;另一方面是除去y 与1x ,2x ,…,p x 的线性关系以外的因素,如1x ,2x ,…,p x 对y的非线性影响以及随机因素的影响等.记11ni i y y n ==∑,则数据的总离差平方和(Total Sum of Squares )21()ni i SST y y ==-∑ (1.7)反映了数据的波动性的大小. 残差平方和21ˆ()ni i i SST y y==-∑ (1.8) 反映了除去y 与1x ,2x ,…,p x 之间的线性关系以外的因素引起的数据1y ,2y ,…,n y 的波动.若0SSE =,则每个观测值可由线性关系精确拟合,SSE 越大,观测值和线性拟合值间的偏差也越大.回归平方和(Regression Sum of Squres )21ˆ()ni i SSR yy ==-∑ (1.9) 由于可证明11ˆni i y y n ==∑,故SSR 反映了线性拟合值与它们的平均值的宗偏差,即由变量1x ,2x ,…,p x 的变化引起1y ,2y ,…,n y 的波动.若0SSR =,则每一个拟合值均相当,即ˆi y不随1x ,2x ,…,p x 而变化,这意味着120p βββ====.利用代数运算和正规方程组(4.8)可以证明:222111ˆˆ()()()n n niiiii i i y y yy y y ===-=-+-∑∑∑即 SS T S S=+(1.10)因此,SSR 越大,说明由线性回归关系所描述的1y ,2y ,…,n y 的波动性的比例就越大即y 与1x ,2x ,…,p x 的线性关系就越显著.线性模型的拟合效果越好.另外,通过矩阵运算可以证明SST 、SSE 、SSR ,有如下形式的矩阵表示:11()()11()T T Tn T T T Tn T T T SST Y Y Y JY Y I J Y n n SSE e e Y Y X Y Y I H Y SSR X Y Y JY Y H J Y n n ββ⎧=-=-⎪⎪⎪==-=-⎨⎪⎪=-=-⎪⎩(1.11) 其中J 表示一个元素全为1的n 阶方阵. 2. 自由度的分解对应于SST 的分解,其自由度也有相应的分解,这里的自由度是指平方中独立变化项的数目.在SST 中,由于有一个关系式1()0ni i y y =-=∑,即(1,2,,)i y y i n -=彼此并不是独立变化的,故其自由度为1n -.可以证明,SSE 的自由度为1n p --,SSR 的自由度为p ,因此对应于SST 的分解,也有自由度的分解关系1(1)n n p p -=--+ (1.12)3. 方差分析表基于以上的SST 和自由度的分解,可以建立方差分析表1.1 方差来源 平方和自由度 均方差F 值SSR 1()T Y H J Y n-pSSRMSR p=MSRF MSE=SSE ()T Y I H Y -1n p --1SSEMSE n p =--SST1()T Y I J Y n-1n -1.2.3.2线性回归方程的显著性检验与一元线性回归时一样,可以用F 统计量检验回归方程的显著性,也可以用P 值法(P-Value )作检验. F 统计量是//(1)MSR SSR pF MSE SSE n p ==-- (1.13) 当0H 为真时,~(,1)F F p n p --,给定显著性水平α,查F 分布表得临界值(,1)F p n p α--,计算F 的观测值0F ,若0(,1)F F p n p α≤--,则接受0H ,即在显著性水平α之下,认为y 与1x ,2x ,…,p x 的线性关系就不显著;当0(,1)F F p n p α≥--时,这种线性关系是显著的.利用P 值法作显著性检验性检验十分方便:这里的P 值是0()P F F >,表示第一、第二自由度分别为p ,1n p --的F 变量取值大于0F 的概率,利用计算机很容易计算出这个概率,很多统计软件(如SPSS )都给出了检验的P 值,这省去了查分布表的麻烦,对于给定的显著性水平α,若p α<,则拒绝0H ,反之,接受0H .如果检验的结果是接受原假设0H ,那意味着什么呢?这时候表明,与模型的误差相比,自变量对因变量的影响是不重要的.这可能有两种情况.其一是模型的各种误差太大,即使回归自变量对因变量y 有一定的影响,但相比于误差也不算大.对于这种情况,我们要想办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量与y 是否有非线性关系等;其二是自变量对y 的影响确实 很小,这时建立y 与诸自变量的回归方程没有实际意义. 1.2.3.3回归系数的显著性检验回归方程通过了显著性检验并不意味着每个自变量(1,2,,)i x i p =都对y 有显著地影响,可能其中的某个或某些自变量对y 的影响并不显著。

相关文档
最新文档