现代统计分析方法与应用课件第七章自变量选择与逐步回归

合集下载

数理统计CH回归分析课件

2024/10/4
21
回归最小二乘估计
(2)最小二乘思想
n
n
| i |
2 i
i 1
i 1
残差计算：
yi a bxi i
i yi a bxi
➢用残差(误差)平方和代表试验点与回归直线旳总距离
2024/10/4
➢回归方程旳最小二乘
估计可归结为求解下
面旳优化模型：
n
Min a,b
n i 1
yi
a
bxi
2
n i 1
b
yi a bxi
2
n
2 yi a bxi xi i 1
2024/10/4
24
回归最小二乘估计
(3)回归最小二乘估计
x
1 n
n i 1
xi
y
1 n
n i 1
yi
Q 0 a aˆ,b bˆ a
n
即 2 yi aˆ bˆxi 0 i 1
2024/10/4
40
回归明显性检验
(3)模型和假设
线性回归模型线性有关假设
➢由线性回归模型可推论：
E yi E a bxi i a bxi
Var yi Var a bxi i Var i 2
2024/10/4
10
7.2 一元线性回归
(1)案例和问题
x称作自变量 y称作响应变量
案例：某特种钢抗拉强度试抗拉强度试验成果验，控制某稀有金属含量x
x(%) y(MPa) 测得不同抗拉强度y，试验
2.07 128 成果如表所示。
3.10 194 4.14 273 5.17 372 6.20 454
yi

回归变量的选择与逐步回归

回归变量的选择与逐步回归1 变量选择问题在实际问题中，影响因变量的因素（自变量）很多，人们希望从中挑选出影响显著的自变量来建立回归关系式，这就涉及自变量选择的问题。

在回归方程中若漏掉对因变量影响显著的自变量，那么建立的回归式用于预测时将会产生较大的偏差。

但回归式若包含的变量太多，且其中有些对因变量影响不大，显然这样的回归式不仅使用不方便，而且反而会影响预测的精度。

因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题。

选择“最优”子集的变量筛选法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法。

向前引入法是从回归方程仅包括常数项开始，把自变量逐个引入回归方程。

具体地说，首先，从零模型开始——只含有截距，但不含有预测变量的模型。

然后，在m个自变量中选择一个与因变量线性关系最密切的变量，记为x i，在剩余的m-1个自变量中选择一个变量x i，使得{x i,x i}联合起来二元回归效果最好，在剩下的m-2个自变量中选择一个变量x i，使得{x i,x i,x i}联合起来回归效果最好，如此下去，直至得到“最优”回归方程为止。

向前引入法中的终止条件为：给定显著性水平α，当对某一个将被引入变量的回归系数做显著性检查时，若p-value≥α，则引入变量的过程结束，所得方程为“最优”回归方程。

向前引入法有一个明显的缺点，它是一种贪婪的方法。

就是由于各自变量可能存在着相互关系，因此后续变量的选入可能会使前面已选入的自变量变得不重要。

这样最后得到的“最优”回归方程可能包含一些对因变量影响不大的自变量。

向后剔除法与向前引入法正好相反，首先将全部m个自变量引入回归方程，然后逐个剔除对因变量作用不显著的自变量。

具体地说，首先从回归式m个自变量中选择一个对因变量贡献最小的自变量，如x j，将它从回归方程中剔除；然后重新计算因变量与剩下的m-1个自变量的回归方程，再剔除一个贡献最小的自变量，如x j，依次下去，直到得到“最优”回归方程为止。

自变量的选择与逐步回归实用回归分析ppt课件

§5.2 所有子集回归
准则2 赤池信息量AIC达到最小
设回归模型的似然函数为L(θ,x), θ的维数为p，x为样本，在回归分析中样本为y=（y1，y2，…yn）′，则AIC定义为：
AIC=-2lnL(θˆ L ,x)+2p 其中θˆ L 是θ的极大似然估计，p 是未知参数的个数。
§5.2 所有子集回归
βˆ p (Xp X p )-1 Xpy
ˆ
2 p
n
1 p
1 SSEp
§5.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况：第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而误用了全模型式。
§5.1 自变量选择对估计和预测的影响
（一）全模型正确而误用选模型的情况
性质 1. 在 xj与 xp+1, …,xm的相关系数不全为 0 时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即
E(ˆ jp ) jp j （j=1,2， …,p）。
§5.1 自变量选择对估计和预测的影响
（一）全模型正确而误用选模型的情况性质 2. 选模型的的预测是有偏的。给定新自变量值x0p (x01, x02,, x0m ) ，因变量新值为 y0=β0+β1x01+β2x02+…+βmx0m+ε0 用选模型的预测值为
(ˆ 0p ,ˆ 1p ,,ˆ pp )
全模型的最小二乘参数估计为βˆ m (ˆ 0m ,ˆ 1m ,,ˆ mm )
这条性质说明 D(ˆ jp ) D(ˆ jm ), j 0,1,, p 。
§5.1 自变量选择对估计和预测的影响
（一）全模型正确而误用选模型的情况

自变量选择与逐步回归

自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有m 个，由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。

如果从可供选择的m 个变量中选出p 个，由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。

二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑，第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而无用了全模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1，在j x 与m p x x ,,1 +的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即jjp jp E βββ≠=)ˆ(（p j ,,2,1 =）性质2，选模型的预测是有偏的。

性质3，选模型的参数估计有较小的方差。

性质4，选模型的预测残差有较小的方差。

性质5，选模型的均方误差比全模型预测的方差更小。

性质1和性质2表明，当全模型正确时，而舍去了m-p 个自变量，用剩下的p 个自变量去建立选模型，参数估计值是全模型相应参数的有偏估计，用其做预测，预测值也是有偏的。

这是误用选模型产生的弊端。

性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测残差的方差下降了，这说明尽管全模型正确，误用选模型是有弊也有利的。

性质5说明，即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，丢掉这些变量之后，用选模型去预测，可以提高预测的精度。

由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。

2、选模型正确而误用全模型的情况全模型的预测值是有偏估计；选模型的预测方差小于全模型的预测方差；全模型的预测误差将更大。

李金昌《统计学》(最新版)精品课件第七章相关回归分析

• 所谓假设检验，就是事先对总体参数或总体分布形态做出一个规定或假设，然后利用样本提供的信息，以一定的概率来检验假设是否成立（或是否合理），或者说判断总体的真实情况是否与原假设存在显著的系统性差异。
Statistics
• 在统计中，常见的统计假设有：总体均值（或总体成数、总体方差等）等于（或大于、小于）某一数值，总体相关系数等于0，两总体均值（或两总体成数、两总体方差）相等，总体分布服从正态分布等。 • 根据检验的目的不同，假设检验可以分为双侧检验和单侧检验两类。双侧检验是指同时注意总体参数估计值与其假设值相比的偏高和偏低倾向的检验。单侧检验是指只注意总体参数估计值比其假设值偏高或偏低倾向的检验,它是单方向的。
Statistics
第七章相关回归分析
第一节假设检验的基本问题第二节几种常见的假设检验第三节假设检验的两类错误与功效
Statistics
第一节假设检验的基本问题
• • • • 一、假设检验的概念与种类二、原假设和备择假设三、显著性水平和拒绝域四、假设检验的基本步骤
Statistics
Statistics

2
接受域1
Z

2
拒绝域
2
拒绝域
0
Z
2
图5-1 正态分布双侧检验接受域与拒绝域示意图

1 接受域
接受域 1

拒绝域
Z
拒绝域
0
0
Z
（a）左单侧检验（b）右单侧检验图5-2 正态分布单侧检验接受域与拒绝域示意图
Statistics
假设检验的基本原理（一）提出原假设和备择假设；（二）确定检验的显著性水平；（三）根据样本统计量的概率分布确定出与相对应的临界值，即确定接受域和拒绝域；（四）构造检验统计量，并根据样本观测数据计算出检验统计值；（五）比较检验统计值与临界值，做出接受或拒绝原假设的判断。

统计分析回归分析课件演示文稿(共74张PPT)

(10)在“线性回归”主对话框中，单击“确定”按钮，完成SPSS 操作，输出结果。
2、结果分析
(1)选入和删除的变量
•在本例中，只有一个自变量“雏鸭重”，所以如下表所示，在
选入的变量中只有“雏鸭重”，没有删除的变量，使用的方法是 “选入”。
•
(3)方差分析
•如下表所示为回归模型的方差分析摘要表，其中的变异量显著
7.3 多元线性回归分析
• 自然界的万事万物都是相互联系和关联的，所以一个因变量往往
同时受到很多个自变量的影响。如本章开篇时讲到的那个例子，男性胃癌患者发生术后院内感染的影响因素有很多，如年龄、手术创伤程度、营养状态、术前预防性抗菌、白细胞数以及癌肿病理分度。这时我们如果要更加精确的、有效的预测男性胃癌患者发生术后院内感染的具体情况这个因变量，就必须引入多个自变量，建立多元回归模型。
• （3）阶层回归分析法 • （4）方法的选择
7.3.2 各种回归分析方法的实例分析
• 接下来会举三个例子来分别说明“强迫选入法”、“逐步回
归法”和“阶层多元回归法”是如何运用的。
• 【例7.2】强迫选入法：某医院的一位优秀的男医生，想研究男性胃
癌患者发生术后院内感染的影响因素，在研究了多名病人之后，他得到了数据资料，请通过多元线性回归统计方法找出哪些因素是对术后感染产生影响的。其中数据资料如下页所示。
• （4）线性关系
• （5）各个残差之间相互独立假定
• （6）残差的等分散性假定
7.1.3 回归分析的基本步骤
• 具体地说，回归分析的一般过程分成四步，分别是：
• （1）提出回归模型的假设
• （2）获取数据
• （3）建立回归方程
• （4）回归方程的检验

应用统计学：回归分析PPT课件

03
使用方法
通过菜单和对话框选择分析方法，导入数据，设置参数，运行分析并查
看结果。
Stata软件介绍
适用范围
Stata（Statistical Data Analysis）是一款适用于各种统计分析和数据管理的软件，尤其适用于回归分析。
特点
功能强大、命令语言简洁，支持多种数据管理操作，提供多种统计分析方法，结果输出详细且可视化效果好。
使用方法
通过命令行输入分析命令，导入数据，设置参数，运行分析并查看结果。
R软件介绍
适用范围
R（Software for Statistical Computing）是一款开源的统计软件，适用于各种统计分析，
包括回归分析。
特点
功能强大、社区活跃、可扩展性强，支持多种编程语言和数据可视化工具，提供丰富的统计函数
分层回归分析的基本思想是将多个自变量分为若干个层次，每个层次内部的自变量之间存在较强的相关性，而不同层次的自变量之间相关性较
弱。
分层回归分析在生态学、社会学、医学等领域有广泛应用，例如研究不同层次的人口特征对健康状况的影响、研究不同层次的社会经济因素对犯罪率的影响等。
主成分回归分析
主成分回归分析的基本思想是将多个自变量进行主成分分析，得到少数几个主成分，这些主成分能够反映原始数据的大部分变异，然后利用这些主成分进行回归分析。
线性回归模型
线性回归模型是回归分析中最常用的一种模型，其形式为 (Y = beta_0 + beta_1X_1 + beta_2X_2 + ldots + beta_pX_p + epsilon)。
其中 (Y) 是因变量，(X_1, X_2, ldots, X_p) 是自变量，(beta_0, beta_1, ldots, beta_p) 是回归系数，(epsilon) 是误差项。

数据分析与Stata软件应用第7章变量间回归关系分析与Stata实现

n
( y j yˆ j )2 (n k 1)
j 1
7 变量间回归关系分析与Stata实现
ቤተ መጻሕፍቲ ባይዱ
• （3）回归系数的显著性检验（t检验）
• H0: i 0(i 1, 2, , k)
t i
Si
t(n k1)
7 变量间回归关系分析与Stata实现
• （4）多重共线性检验 • Stata提供了多种多重共线性的诊断方法。 • ①容许度（Tolerance） • ②方差膨胀因子（Variance Inflation Factor, VIF） • ③条件指数（Condition Index, CI） • ④特征值和方差比例
• 7.2.3 Stata基本命令
• 引入虚拟变量的回归分析使用的主要命令仍为 regress，其语法与经典回归分析中的语法是相同的，唯一区别之处在于首先要将类别变量设置为虚拟变量，将虚拟变量引入回归模型中，只需将其看作普通的变量即可。
变量间回归关系分析与Stata实现
7 变量间回归关系分析与Stata实现经典线性回归分析与Stata实现含虚拟自变量的线性回归分析可转化为线性形式的非线性回归分析 Logistic回归分析
变量间回归关系分析与Stata实现
变量间回归关系分析与Stata实现
线性回归分析
经
含
典线性回归分
7 变量间回归关系分析与Stata实现
• 1. regress命令 • regress命令用于完成基本回归分析，regress命令
的输出结果包括参数估计，参数的标准差，F检验、 t检验的统计量值和相伴概率，以及95%的置信区间。
• regress命令的基本语法为： . regress depvar indepvars [if] [in] [weight] [, reg_options]

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

然而，尽管估计量是有偏的，但预测偏差的方差会下降。另外，如果保留下来的自变量有些对因变量无关紧要，那么，方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。
自变量的选择有重要的实际意义。在建立实际问题的回归模型时，我们应尽可能剔除那些可有可无的自变量。
2019/1/30 14
目录上页下页返回结束
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
9
§7.1 自变量选择对估计和预测的影响
性质1和性质2表明，当全模型（9.1）式正确时，而我们舍去了m - p个自变量，用剩下的p个自变量去建立选模型（9.2）式，参数估计值是全模型相应参数的有偏估计，用其作预测，预测值也是有偏的。这是误用选模型产生的弊端。
§7.2 所有子集回归
在第五章，曾从数据与模型拟合优劣的直观考虑出发，认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。但是当自变量子集在扩大时，残差平方和随之减少，而复判定系数随之增大。
中国人民大学六西格玛质量管理研究中心
§7.2 所有子集回归
一、所有子集的数目
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
15
§7.2 所有子集回归
二、关于自变量选择的几个准则
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
16
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
13
§7.1 自变量选择对估计和预测的影响
哪怕我们丢掉了一些对因变量y还有些影响的自变量，由选模型估计的保留变量的回归系数的方差，要比由全模型所估计的相应变量的回归系数的方差小。而且，对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后，所付出的代价是估计量产生民大学六西格玛质量管理研究中心
目录上页下页返回结束
6
§7.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况考虑，第一种情况是全模型（7.1）式正确而误用了选模型（7.2）式；第二种情况是选模型（7.2）式正确而误用了全模型（7.1）式。以下分别考虑这两种情况对回归的影响。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
2
第7章自变量选择与逐步回归
从20世纪60年代开始，关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则，并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始，介绍自变量选择常用的几个准则；扼要介绍所有子集回归选元的几个方法；详细讨论逐步回归方
目录上页下页返回结束
5
§7.1 自变量选择对估计和预测的影响
自变量的选择我们可以看成是对一个实际问题是用（7.1）式全模型还是用（7.2）式选模型去描述。如果应该用（7.1）式全模型去描述实际问题，而我们误选了（7.2）式选模型，这就说明我们在建模时丢掉了一些有用的变量；如果应该选用（7.2）式选模型，而我们误选了模型（7.1）式，这就说明我们把一些不必要的自变量引进了模型。模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
3
§7.1 自变量选择对估计和预测的影响
一、全模型和选模型
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
4
§7.1 自变量选择对估计和预测的影响
2019/1/30
中国人民大学六西格玛质量管理研究中心
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
11
§7.1 自变量选择对估计和预测的影响
（二）选模型正确而误用全模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
12
§7.1 自变量选择对估计和预测的影响
一个好的回归模型，并不是考虑的自变量越多越好。在建立回归模型时，选择自变量的基本指导思想是“少而精”。
第 7章
• §7.1 自变量选择对估计和预测的影响 • §7.2 所有子集回归 • §7.3 逐步回归 • §7.4 实例与评注
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
1
第 7章
• 在建立一个实际问题的回归模型时，首先碰到的问题便是如何确定回归自变量，一般情况，大都是根据所研究问题的目的，结合实际问题理论罗列出对因变量可能有影响的一些因素作为自变量。 • 如果遗漏了某些重要的变量，回归方程的效果肯定不会好； • 如果担心遗漏了重要的变量，而考虑过多的自变量，在这些变量中，某些自变量对问题的研究可能并不重要，有些自变量数据的质量可能很差，有些变量可能和其他变量有很大程度的重叠。如果回归模型把这样一些变量都选进来，不仅计算量增大好多，而且得到的回归方程稳定性也很差，直接影响到回归方程的应用。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
10
§7.1 自变量选择对估计和预测的影响
性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测偏差的方差下降了。这说明尽管全模型正确，误用选模型是有弊也有利的。性质5说明即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，我们丢掉这些变量之后，用选模型去预测，可以提高预测的精度。由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
7
§7.1 自变量选择对估计和预测的影响
（一）全模型正确而误用选模型的情况
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录上页下页返回结束
8
§7.1 自变量选择对估计和预测的影响
2019/1/30