多元回归分析法的介绍及具体应用

合集下载

多元回归模型及其应用

多元回归模型及其应用

多元回归模型及其应用多元回归模型是统计学中的一种常见方法,它可以帮助我们分析多个自变量与一个因变量之间的关系。

在实际应用中,多元回归模型在预测和解释变量之间的复杂关系方面非常重要。

本文将介绍多元回归模型的基本概念、构建方法和应用场景。

一、多元回归模型的基本概念多元回归模型是指,用于分析多个自变量和一个因变量之间关系的一种统计模型。

假设我们有一个因变量Y和k个自变量X1、X2…Xk,我们可以建立下面的模型来描述它们之间的关系:Y = β0 + β1X1 + β2X2 + … + βkXk + ε其中,β0是截距项,β1、β2、…、βk是自变量的系数,ε是误差项。

误差项代表了模型中无法被自变量解释的部分,通常假设误差项符合正态分布。

二、多元回归模型的构建方法1. 变量选择在构建多元回归模型时,选择自变量非常重要。

首先要考虑每个自变量与因变量的相关性,只有当自变量与因变量的相关性显著时,才有可能对因变量做出有用的解释。

此外,还要考虑多个自变量之间的相关性,若存在高度相关的自变量,这将会让回归模型变得不稳定。

2. 模型拟合模型拟合是指,通过计算模型参数,将模型调整到最适合样本数据的状态。

在多元回归模型中,可以用最小二乘法来拟合模型,该方法试图让模型预测的值与实际值之间的差异最小化。

3. 模型评估模型评估是指对多元回归模型的性能进行评估,主要包括判断模型的拟合效果、检验自变量系数的显著性以及判断模型是否存在过拟合等。

一些常见的评估指标包括拟合优度(R2)、均方根误差(RMSE)、Akaike信息准则(AIC)和贝叶斯信息准则(BIC)等。

三、多元回归模型的应用场景多元回归模型可以应用于许多领域,例如社会科学、自然科学和商业领域等。

以下是一些应用场景的举例:1. 销售预测在商业领域,多元回归模型可以用于预测销售数量。

我们可以通过收集历史销售数据和相关的自变量来建立回归模型,例如促销活动、价格、产品质量等。

这些自变量能够帮助我们解释销售数量的变化,并预测未来销售趋势。

多元回归分析的原理和应用

多元回归分析的原理和应用

多元回归分析的原理和应用1. 引言多元回归分析是统计学中一种常用的分析方法,用于研究多个自变量和一个因变量之间的关系。

它可以帮助我们理解多个变量对一个变量的影响程度,并通过建立数学模型来预测因变量的值。

2. 基本原理多元回归分析基于线性回归模型进行建模,其中一个因变量可以通过多个自变量的线性组合来描述。

该模型的数学表示为:Y = β0 + β1*X1 + β2*X2 + ... + βn*Xn + ε其中,Y是因变量的值,X1、X2、…、Xn是自变量的值,β0、β1、β2、…、βn是回归系数,ε是误差项。

3. 模型建立与评估在进行多元回归分析时,首先需要选择合适的自变量来建立模型。

可以通过观察变量之间的相关性、领域知识和实际经验来选择自变量。

然后,通过最小二乘法估计回归系数,使得模型在样本中的拟合误差最小化。

模型的拟合优度可以通过判定系数R2来评估。

R2越接近1,说明模型能够较好地解释因变量的变异;R^2越接近0,说明模型解释能力较差。

4. 样本数据分析多元回归分析通常需要一定量的样本数据来建立和验证模型。

样本数据应该具有代表性,并且满足一些基本假设,例如线性关系和误差项的独立性。

在分析样本数据时,可以使用统计软件如SPSS、R或Python等来实现多元回归分析。

这些软件提供了丰富的功能和工具,帮助研究者快速、准确地进行分析。

5. 应用领域多元回归分析在许多领域有着广泛的应用。

以下是一些常见的应用领域:5.1 经济学多元回归分析在经济学中用于研究经济变量之间的关系,如GDP、通货膨胀率、失业率等,帮助经济学家预测经济发展趋势、评估政策效果等。

5.2 社会科学在社会科学领域,多元回归分析被广泛应用于研究人类行为、社会问题等。

通过分析不同因素对社会现象的影响,可以帮助社会科学家理解社会现象的成因和解决途径。

5.3 健康科学多元回归分析在健康科学中用于研究健康影响因素,如疾病发生率、死亡率等。

通过分析各种生活方式、环境因素对健康的影响,可以帮助医生和公共卫生工作者制定合理的防控措施。

多元回归分析方法及应用

多元回归分析方法及应用

多元回归分析方法及应用多元回归分析是一种常用的统计方法,用于研究多个自变量与一个因变量之间的关系。

通过多元回归分析,我们可以了解各个自变量对因变量的影响程度,并建立预测模型。

一、多元回归分析方法多元回归分析方法包括以下几个步骤:问题陈述、数据采集、变量选择、模型建立、模型检验以及结果解释。

下面将逐一介绍这些步骤。

1. 问题陈述在进行多元回归分析前,首先需要明确研究的问题。

例如,我们想研究某个公司的销售额与广告费用、价格和季节因素之间的关系。

2. 数据采集在问题明确后,需要收集相关数据。

这些数据应包括自变量(广告费用、价格、季节因素)和因变量(销售额)的观测值。

3. 变量选择变量选择是多元回归分析中的一个关键步骤。

我们需要考虑自变量之间的相关性,以及它们与因变量之间的相关性。

当自变量之间存在较强的相关性时,我们可以选择其中一个代表性的变量,以避免多重共线性问题。

4. 模型建立在选择了适当的变量后,可以通过建立回归模型来描述自变量与因变量之间的关系。

假设我们选择了广告费用、价格和季节因素作为自变量,销售额作为因变量,可以建立如下的线性回归模型:销售额= β0 + β1 × 广告费用+ β2 × 价格+ β3 × 季节因素+ ε5. 模型检验建立回归模型后,需要对模型进行检验,以评估其拟合程度和预测能力。

常用的方法包括判定系数(决定系数)R²、F检验、残差分析等。

6. 结果解释最后,在模型通过检验后,可以对结果进行解释。

回归系数β1、β2、β3反映了自变量对因变量的影响程度。

例如,如果β1>0,则说明广告费用对销售额有正向影响;如果β2<0,则说明价格对销售额有负向影响。

二、多元回归分析的应用多元回归分析在实际问题中有广泛的应用,以下以几个典型的领域为例进行介绍。

1. 经济学领域多元回归分析在经济学研究中有着重要的地位。

例如,研究生产率与劳动力、资本和技术水平之间的关系,可以使用多元回归方法。

多元线性回归的原理和应用

多元线性回归的原理和应用

多元线性回归的原理和应用1. 原理介绍多元线性回归是一种统计分析方法,用于研究多个自变量与一个因变量之间的关系。

它是线性回归分析的一种拓展,可以同时考虑多个自变量对因变量的影响。

多元线性回归的基本原理可以通过以下公式表示:**Y = β0 + β1X1 + β2X2 + … + βn*Xn + ε**其中,Y表示因变量,X1、X2、…、Xn表示自变量,β0、β1、β2、…、βn表示自变量的系数,ε表示误差项。

多元线性回归通过最小二乘法来估计自变量的系数,使得预测值与实际观测值之间的平方误差最小化。

通过最小二乘法的计算,可以得到自变量的系数估计值,进而可以进行预测和解释因变量的变化。

2. 应用领域多元线性回归在各个领域都有广泛的应用,以下列举了一些常见的应用领域:2.1 经济学多元线性回归在经济学中是一个重要的工具,可以用于研究不同变量对经济发展的影响。

例如,可以通过多元线性回归来分析GDP增长率与投资、消费、出口等变量之间的关系,并进一步预测未来的经济发展趋势。

2.2 市场营销在市场营销领域,多元线性回归可以用于研究市场需求的影响因素。

通过分析不同的市场变量(如产品价格、广告投入、竞争对手的行为等),可以预测市场需求的变化,并制定相应的营销策略。

2.3 医学研究多元线性回归在医学研究中也有广泛的应用。

例如,可以使用多元线性回归来研究不同的遗传、环境和生活方式因素对人体健康的影响。

通过分析这些因素,可以预测患病风险并制定相应的预防措施。

2.4 社会科学多元线性回归在社会科学领域中被广泛应用,用于研究各种社会现象。

例如,可以使用多元线性回归来研究教育、收入、职业等因素对犯罪率的影响,并进一步分析这些因素的相互关系。

2.5 工程与科学研究多元线性回归在工程和科学研究中也有一定的应用。

例如,在工程领域中可以使用多元线性回归来研究不同因素对产品质量的影响,并优化生产过程。

在科学研究中,多元线性回归可以用于分析实验数据,探索不同变量之间的关系。

利用多元线性回归分析进行预测

利用多元线性回归分析进行预测

利用多元线性回归分析进行预测多元线性回归是一种重要的统计分析方法,它可以使用多个自变量来预测一个连续的因变量。

在实际生活中,多元线性回归分析广泛应用于各个领域,如经济学、金融学、医学研究等等。

本文将介绍多元线性回归分析的基本原理、应用场景以及注意事项,并通过实例来展示如何进行预测。

首先,我们来了解一下多元线性回归的基本原理。

多元线性回归建立了一个线性模型,它通过多个自变量来预测一个因变量的值。

假设我们有p个自变量(x1, x2, ..., xp)和一个因变量(y),那么多元线性回归模型可以表示为:y = β0 + β1*x1 + β2*x2 + ... + βp*xp + ε其中,y是我们要预测的因变量值,β0是截距,β1, β2, ..., βp是自变量的系数,ε是误差项。

多元线性回归分析中,我们的目标就是求解最优的系数估计值β0, β1, β2, ..., βp,使得预测值y与实际观测值尽可能接近。

为了达到这个目标,我们需要借助最小二乘法来最小化残差平方和,即通过最小化误差平方和来找到最佳的系数估计值。

最小二乘法可以通过求解正规方程组来得到系数估计值的闭式解,也可以通过梯度下降等迭代方法来逼近最优解。

多元线性回归分析的应用场景非常广泛。

在经济学中,它可以用来研究经济增长、消费行为、价格变动等问题。

在金融学中,它可以用来预测股票价格、利率变动等。

在医学研究中,它可以用来研究疾病的风险因素、药物的疗效等。

除了以上领域外,多元线性回归分析还可以应用于市场营销、社会科学等各个领域。

然而,在进行多元线性回归分析时,我们需要注意一些问题。

首先,我们需要确保自变量之间不存在多重共线性。

多重共线性可能会导致模型结果不准确,甚至无法得出可靠的回归系数估计。

其次,我们需要检验误差项的独立性和常态性。

如果误差项不满足这些假设,那么回归结果可能是不可靠的。

此外,还需要注意样本的选取方式和样本量的大小,以及是否满足线性回归的基本假设。

报告中的多元回归和相关性分析

报告中的多元回归和相关性分析

报告中的多元回归和相关性分析引言:多元回归和相关性分析是统计学中常用的分析方法,它们能够帮助我们理解变量之间的关系,从而做出科学的预测和决策。

本文将详细讨论多元回归和相关性分析的相关概念、方法和应用,并结合实际案例进行解析。

一、多元回归分析多元回归分析是一种建立数学模型,通过统计方法探究因变量与多个自变量之间的关系的分析方法。

它可以帮助我们确定自变量对因变量的影响程度,并揭示变量之间的相互作用。

在多元回归分析中,我们需要解决共线性、选择合适的变量和模型拟合等问题,通过逐步回归法和变量筛选等方法进行优化。

二、多元回归的应用1. 预测房价通过多元回归分析来预测房价是房地产行业常用的方法。

我们可以将房价作为因变量,面积、位置、房屋年龄等因素作为自变量,建立回归模型来预测房价。

通过分析模型的系数和显著性水平,我们可以了解各自变量对房价的影响程度,为购房者和开发商提供决策依据。

2. 分析消费者行为在市场营销中,多元回归分析可以帮助企业了解消费者行为和购买决策的影响因素。

例如,我们可以将销售量作为因变量,广告投入、促销力度、竞争对手销售量等因素作为自变量,建立回归模型来分析各个因素对销售量的影响。

通过分析模型结果,企业可以制定有针对性的市场策略,以提高销售业绩。

三、相关性分析相关性分析是一种用于测量两个变量之间关系强度的统计方法。

它可以帮助我们了解变量之间的相关关系,进一步了解变量的影响机制。

在相关性分析中,我们通常使用皮尔逊相关系数、斯皮尔曼相关系数等指标来度量相关关系的程度。

四、相关性分析的应用1. 测量市场风险在金融领域,相关性分析可以帮助投资者测量不同资产的相关关系,从而评估市场风险。

通过计算各资产之间的相关系数,投资者可以了解资产之间的关联程度,从而进行风险分散和资产配置。

2. 确定特征与目标的相关性在机器学习和数据挖掘领域,相关性分析可以帮助我们确定输入特征与目标变量之间的相关性。

通过分析各个特征与目标变量的相关系数,我们可以选择最有价值的特征,提高机器学习模型的准确性和解释能力。

多元线性回归算法实现及其在数据拟合中的应用

多元线性回归算法实现及其在数据拟合中的应用

多元线性回归算法实现及其在数据拟合中的应用多元线性回归是一种常见的统计学方法,可以用于分析多个自变量与因变量之间的关系。

它的应用十分广泛,可以用于商业、科学、工业等多个领域中的数据分析与预测。

本文将介绍多元线性回归算法的基本原理,并使用Python语言实现这种方法,并通过数据分析案例展示其在实际应用中的效果与价值。

一、多元线性回归算法的基本原理多元线性回归是一种用于分析多个自变量与因变量之间的关系的统计方法。

在多元线性回归中,我们会将多个自变量与一个因变量进行回归分析,并预测因变量的值。

其数学模型可以表示为:Y = β0 + β1X1 + β2X2 + … + βnXn + ε其中,Y表示因变量,X1、X2、…、Xn表示自变量,β0、β1、β2、…、βn是回归系数,ε是随机误差。

回归系数表示因变量与自变量之间的关系,我们需要通过对数据进行回归分析来估计这些系数。

多元线性回归的求解需要使用最小二乘法。

最小二乘法是一种通过最小化数据点与拟合曲线之间的距离来求解回归系数的方法。

具体来说,我们需要通过将回归模型中的误差平方和最小化来求解回归系数。

最小二乘法可以保证得出的回归系数是最符合实际数据的。

二、使用Python实现多元线性回归算法Python是一种强大的编程语言,可以用于数据分析、机器学习等多个领域。

在Python中,我们可以使用statsmodels库来实现多元线性回归算法。

statsmodels提供了几种不同的回归模型,其中包括多元线性回归模型。

在实现多元线性回归算法之前,我们需要准备好数据。

在下面的示例中,我们将使用一个来自于sklearn库的著名的波士顿房价数据集:```pythonfrom sklearn.datasets import load_bostonboston = load_boston()boston_df = pd.DataFrame(boston.data,columns=boston.feature_names)boston_df['PRICE'] = boston.target```接下来,我们可以使用statsmodels库中的OLS方法来实现多元线性回归算法:```pythonimport statsmodels.api as smX = boston_df.drop('PRICE', axis=1)y = boston_df['PRICE']X = sm.add_constant(X)model = sm.OLS(y, X).fit()predictions = model.predict(X)```在上面的代码中,我们首先将数据分为自变量和因变量。

多元回归分析在统计学中的作用

多元回归分析在统计学中的作用

多元回归分析在统计学中的作用多元回归分析是一种常用的统计分析方法,用于研究多个自变量与一个因变量之间的关系。

它在统计学中具有重要的作用,能够揭示变量之间的相互影响和预测未来趋势。

本文将从多元回归的定义、基本原理、应用领域以及其在统计学中的作用等方面进行探讨。

一、多元回归的定义和基本原理多元回归分析是研究多个自变量对一个因变量的影响程度和方向的统计分析方法。

它可以帮助我们了解多个自变量的综合作用,找出主要影响因素,并用于预测和解释研究对象的变化。

多元回归的基本原理是建立一个数学模型,通过最小二乘法求解模型的参数,从而得到最佳的拟合曲线或平面。

二、多元回归的应用领域多元回归分析广泛应用于各个领域,包括经济学、社会学、心理学、医学等。

在经济学领域,多元回归可用于分析各种经济指标之间的关系,如GDP与消费支出、投资等的关系;在社会学领域,多元回归可以用于研究社会现象与人口特征、社会背景等之间的联系;在医学领域,多元回归可以用于分析多个危险因素对某种疾病的影响,并建立疾病预测模型。

三、多元回归在统计学中的作用1. 揭示变量间的相互关系:多元回归可以帮助我们了解变量之间的相互作用与关系。

通过分析各个自变量与因变量之间的回归系数,可以判断它们的正负相关性以及相对重要程度。

这对于统计学研究和实践具有重要意义,能够揭示数据背后的规律与本质。

2. 预测与预警:多元回归可以用于预测未来的趋势与变化。

通过建立回归模型,我们可以根据已有的自变量数据对未来因变量的取值进行估计。

这对于决策者来说具有重要参考价值,可以帮助他们制定合理的策略与计划。

3. 变量筛选与控制:多元回归可以帮助我们找出主要影响因素,并排除次要因素的干扰。

通过分析自变量的显著性检验和变量的共线性,可以筛选出对因变量影响显著的变量,从而更好地控制其他因素的影响。

4. 解释与验证研究结果:多元回归可以帮助我们解释研究结果的合理性与可靠性。

通过回归模型的拟合程度和模型显著性检验,可以评估模型的解释能力和预测准确度,为研究结论的合理性提供统计上的支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元回归分析法的介绍及具体应用————————————————————————————————作者: ————————————————————————————————日期:ﻩ多元回归分析法的介绍及具体应用在数量分析中,经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。

回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

这里主要讲的是多元线性回归分析法。

1. 多元线性回归的定义说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。

其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。

例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

2. 多元回归线性分析的运用具体地说,多元线性回归分析主要解决以下几方面的问题。

(1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;(2)、根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;(3)、进行因素分析。

例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。

3. 多元线性回归分析 3.1多元线性回归分析的原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。

回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

3.2多元线性回归模型及其矩阵表示设y 是一个可观测的随机变量,它受到p 个非随机因索1x ,2x ,…,p x 和随机因素ε的影响,若y 与1x ,2x ,…,p x 有如下线性关系:εβββ++++=p p x x y 110 (1.1)其中0β,1β,…,p β是1+p 个未知参数,ε是不可测的随机误差,且通常假定),(20N ~σε.我们称式(1.1)为多元线性回归模型.称y 为被解释变量(因变量),),,2,1(p i x i =为解释变量(自变量).称 p p x x y E βββ+++= 110)(ﻩﻩﻩ (1.2) 为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数0β,1β, …,p β,为此我们要进行n 次独立观测,得到n 组样本数据);,,,(21i ip i i y x x x ,n i ,,2,1 =,他们满足式(1.1),即有⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=nnp p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (1.3)其中n εεε,,,21 相互独立且都服从),0(2σN .式(1.3)又可表示成矩阵形式: εβ+=X Y (1.4)这里,T n y y y Y ),,,(21 =,T p ),,,(10ββββ =,T n ),,,(21εεεε =,),0(~2n n I N σε,n I 为n 阶单位矩阵.⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x xx x x X 212222111211111 )1(+⨯p n 阶矩阵X 称为资料矩阵或设计矩阵,并假设它是列满秩的,即1)(+=p X rank .由模型(1.3)以及多元正态分布的性质可知,Y 仍服从n 维正态分布,它的期望向量为βX ,方差和协方差阵为n I 2σ,即),(~2n n I X N Y σβ. 3.3参数的最小二乘估计及其表示1. 参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p βββ,,,10 仍然可用最小二乘法来估计,即我们选择T p ),,,(10ββββ =使误差平方和∑∑==-----=--===ni ip p i i i T T n i i x x x y X Y X Y Q 122211012)()()(ˆ)(ββββββεεεβ达到最小.由于)(βQ 是关于p βββ,,,10 的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂=------=∂∂∑∑∑∑====n i ipip p i i i p n i ik ip p i i i k n i i ip p i i i n i ipp i i i x x x x y Q x x x x y Q x x x x y Q x x x y Q 1221101221101122110112211000)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(0)ˆˆˆˆ(2)ˆ(ββββββββββββββββββββββββ 这里),,1,0(ˆp i i =β是),,1,0(p i i =β的最小二乘估计.上述对)(βQ 求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:0)ˆ(=-βX Y X T 移项得 ﻩY X X X T T =βˆ (1.5) 称此方程组为正规方程组.ﻩ依据假定1)(+=p X R ,所以1)()(+==p X R X X R T .故1)(-X X T 存在.解正规方程组(1.5)得Y X X X T T 1)(ˆ-=β(1.6) 称p p x x x y ββββˆˆˆˆˆ22110++++= 为经验回归方程. ﻩ2.误差方差2σ的估计ﻩ将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为βˆ)ˆ,,ˆ,ˆ(ˆ221X y y y Yp ==向量Y H I Y X X X X I X Y Y Y e nT T n )(])([ˆˆ1-=-=-=-=-β 称为残差向量,其中T T X X X X H 1)(-=为n 阶对称幂等矩阵,n I 为n 阶单位阵.称数Y X Y Y Y H I Y e e T T T n T T βˆ)(-=-= 为残差平方和(Error Su m o f Square s,简写为SSE ).ﻩ由于βX Y E =)(且0)(=-X H I n ,则)]()[(]})([{)(T n n T T E H I tr H I tr E e e E εεεε-=-=ﻩ])([12T T n X X X X I tr --=σﻩﻩ ﻩﻩ ]})[({12X X X X tr n T T --=σﻩﻩﻩ )1(2--=p n σ从而e e p n T 11ˆ2--=σ为2σ的一个无偏估计.3.4 逐步回归当自变量的个数不多时,利用某种准则,从所有可能的回归模型中寻找最优回归方程是可行的.但若自变量的数目较多时,求出所有的回归方程式很不容易的.为此,人们提出了一些较为简便实用的快速选择最优方程的方法,我们先根据“前进法”和“后退法”的思想,再详细介绍“逐步回归法”。

1.前进法和后退法前进法:设所考虑的回归问题中,对因变量y 有影响的自变共有m 个,首先将这m 个自变量分别与y 建立m 个一元线性回归方程,并分别计算出这m 个一元回归方程的偏F 检验值,记为(1)(1)(1)12{,,,}m F F F ,若其中偏F 值最大者(为方便叙述起见,不妨设为(1)1F )所对应的一元线性回归方程都不能通过显著性检验,则可以认为这些自变量不能与y 建立线性回归方程;若该一元方程通过了显著性检验,则首先将变量1x 引入回归方程;接下来由y 与1x 以及其他自变量(1)j x j ≠建立1m -个二元线性回归方程对这1m -个二元回归方程中的23,,,m x x x 的回归系数做偏F 检验,检验值记为(2)(2)(2)23{,,,}m F F F ,若其中最大者(不妨设为(2)2F )通过了显著性检验,则又将变量2x 引入回归方程,依此方法继续下去,直到所有未被引入方程的自变量的偏F 值都小于显著性检验的临界值,即再也没有自变量能够引入 回归方程为止.得到的回归方程就是最终确定的方程.后退法:首先用m 个自变量与y 建立一个回归方程,然后在这个方程中剔除一个最不重要的自变量,接着又利用剩下的1m -个自变量与y 建立线性回归方程,再剔除一个最不重要的自变量,依次进行下去,直到没有自变量能够剔除为止.前进法和后退法都有其不足,人们为了吸收这两种方法的优点,克服它们的不足,提出了逐步回归法. 2. 逐步回归法逐步回归法的基本思想是有进有出,具体做法是将变量一个一个得引入,引入变量的条件是通过了偏F 统计量的检验.同时,每引入一个新的变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔除老变量为止.设模型中已有1l -个自变量,记这1l -个自变量的集合为A ,当不在A 中的一个自变量k x 加入到这个模型中时,偏F 统计量的一般形式为()()(,)(,)1(,)k k k k SSR x A SSE A SSE A x F SSE A x n l MSE A x -==-- (2.1) 如下逐步回归法的具体步骤:首先,根据一定显著水平,给出偏 统计量的两个临界值,一个用作选取自变量,记为E F ;另一个用作剔除自变量,记为D F .一般地,取E D F F >,然后按下列步骤进行. ﻩ第一步:对每个自变量(1)i x i m ≤≤,拟合m 个一元线性回归模型0i i y x ββε=++ (2.2)这时,相当于统计量(2.1)中集合A 为空集,因此,()SSE A SST =,故()()i i SSR x A SSR x =,(,)()i i MSE A x MSE x =,对每一个i ,计算(1)(),1,2,,MSE()i i i SSR x F i m x == (2.3)设11(1)(1)1max{}i i i mF F ≤≤=若1(1)i E F F >,则选择含自变量1i x 的回归模型为当前模型,否则,没有自变量能进入模型,选择过程结束,即认为所有自变量对 的影响均不显著.ﻩ第二步:在第一步的选出模型的基础上,再将其余的1m -个自变量分别加入到此模型中个,得到1m -个二元回归方程,计算11(2)1(),MSE(,)i i i i i SSR x x F i i x x =≠(2.4)设21(2)(2)max{}i i i i F F ≠=ﻩ若2(2)i E F F >,则选取过程结束.第一步选择的模型为最优模型.若2(2)i E F F >,则将自变量2i x 选入模型中,即得第二步的模型11220i i i i y x x βββε=+++(2.5)ﻩ进一步考察,当2i x 进入模型后,1i x 对y 的影响是否仍然显著.为此计算12112(2)()MSE(,)i i i i i SSR x x F x x =(2.6)ﻩ若2(2)i D F F ≤ ,则剔除1i x .这时仅含有2i x 的回归模型为当前模型.ﻩ第三步:在第二步所选模型的基础上,在将余下的2m -个自变量逐个加入,拟合各个模型并计算F 统计量值,与E F 比较决定是否有新变量引入,如果有新变量进入模型,还需要检验原模型中的老变量是否因这个新变量的进入而不再显著,那样就应该被剔除.重复以上步骤,直到没有新的自变量能进入模型,同时在模型之中的老变量都不能剔除,则结束选择过程,最后一个模型即为所求的最优回归模型。

相关文档
最新文档