回归与路径分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
又称复回归分析法,层次式进入法。 强迫所有变量有顺序进入回归方程。 用于研究者有事先建立似,决定变量重要性层次。
逐步回归
stepwise
应用最多,最广泛的复回归分析方法,它结合顺向选择与瓜向 剔除二种方法的优点
向前法(顺向选择法)forward
即自变量一个一个进入回归方程
向后法(反向剔除法)backward
建立回归方程时“元”的选择
在多元线性回归分析中, 在多元线性回归分析中,有时候自变量的数目是一 个令人头痛的问题, 个令人头痛的问题,自变量的个数的增加或多或 少总能减少残差,提高模型的拟合精度, 少总能减少残差,提高模型的拟合精度,但势必 导致模型的复杂性。 导致模型的复杂性。如果将它们删除又有些舍不 说不定系数还有统计学意义。那么, 得,说不定系数还有统计学意义。那么,有没有 什么徇标准可用呢?答案是肯定的。 什么徇标准可用呢?答案是肯定的。 在建立回归方程时,要遵循一个原则, 在建立回归方程时,要遵循一个原则,即“少而 具体地说:既要尽可能地提高拟合的精度, 精”。具体地说:既要尽可能地提高拟合的精度, 又要尽可能地使模型简单。为了保证这一原则, 又要尽可能地使模型简单。为了保证这一原则, 常用的量化指标有: 常用的量化指标有: 1.复相关系数 与校正复相关系数 ad 与校正复相关系数R .复相关系数R与校正复相关系数 2.剩余标准差 .剩余标准差Syx1x2…Xn
回归与路径分析
一 回归分析
Analyze/Regression/Linear…
研究问题
不同学生性别、数学焦虑、数学 态度与数学投入动机等变量对数 学成绩是否有显著预测作用? 其预测力如何? 统计方法 回归分析
第八章 源自文库归分析
1、一元线性回归方程与标准回归方程: 、一元线性回归方程与标准回归方程:
Statistics选项
回归系数估计值 输出回归系数B的 模型适合度检验
95%置信区间 提供一些变量描述,如 有效例数,均值、标准 输出各个自变量的相关 常选用: 常选用: 差等。 矩阵和方差、协方差矩 阵 模型拟合过程中进入、退出 的变量列表,以及一些有关 拟合优度的检验: 复相关系数R、 决定系数R2和调整的R2, 标准误及方差分析表。
为避免共线性问题,进行多元回归前,应对自变量进行相关 为避免共线性问题,进行多元回归前, 分析,如果相关系数在0.75以上,就要选择其中比较重 以上, 分析,如果相关系数在 以上 要的变量导入回归分析。 要的变量导入回归分析。
4.虚拟变量
当自变量不是连续变量时,确需要导入时,要 先转化为虚拟变量,其数量为N-1个。 如:我们用1表示完整家庭;2表示单亲家庭; 3表示他人照顾家庭;4隔代教养家庭; 转成虚拟变量为:
1.复相关系数R与校正复相关系数Rad 复相关系数R的含义有点类似于相关系数 , 复相关系数 的含义有点类似于相关系数r,只不过 的含义有点类似于相关系数 用于反映所有自变量和应变量关系的密切程度。 用于反映所有自变量和应变量关系的密切程度。 其值在0- 之间 越大越好。 之间, 其值在 -1之间,越大越好。它的平方也称决定 系数, 表示。 占总SS的比重 系数,用R2表示。反映回归的 占总 的比重。 表示 反映回归的SS占总 的比重。 实际上, 反映的是 反映的是y与 的估计值的相关关系 的估计值的相关关系。 实际上,R反映的是 与y的估计值的相关关系。 但是,直接使用复相关系数有一个缺点: 但是,直接使用复相关系数有一个缺点:当方程中 变量增加时,复相关系数总是增加的, 变量增加时,复相关系数总是增加的,即使增加 的变量无统计学意义也是如此。当根据R2的大 的变量无统计学意义也是如此。当根据 的大 小判断方程的优劣时, 小判断方程的优劣时,结论总是变量最多的方程 最好,显然存在缺陷。 最好,显然存在缺陷。为此人们又提出了校正复 相关系数,它也反映模型的拟合优度, 相关系数,它也反映模型的拟合优度,但同时考 虑了方程中自变量的个数。 虑了方程中自变量的个数。 校正复相关系数是衡量方程优劣的常用指标之一。 校正复相关系数是衡量方程优劣的常用指标之一。
如果对所选择的自变量有特殊要求,如有些必须包括 即强迫进入,而另一些则要用逐步回归法,可以使用 该区。 即选择需要强制进入的变量,使用强迫进入法,按 next再选择另一些变量使用逐步回归法。
给出一些用于共线性诊 输出回归系数B及其标 断的统计量。特征根 准误、t值和P值,还有 (Eigenvalues)、方差膨 显示模型拟合过程中R2、F 标准化的回归系数Beta; 显示自变量间的相关、 2个默认选项: 个默认选项: 个默认选项 值和P值的改变情况 胀因素(VIF)等。 部分相关和偏相关系数
Save 对话框
存储各种残差 提供用于判断强影响点的统 1. 原始残差 计量 2. 标准化后的残差 1.3. 学生化残差 去除该观察值后回归系数 的变化值 4. 去掉当前记录时, 2. 当它大于2/Sqrt(N)时, 当前模型对该应变 该点可能为强影响点 量的预测值对应变 3. 表示去除该观测值后预测 量观测值的原始残 值的变化值 差。 4.5. 上一个预测值进行 当它大于2/Sqrt(N)时, 该点可能为强影响点 t变换后的结果。 5. 去除该观察值后协方差阵 与含全部观察值的协方差 阵的比率。若绝对值大于 3*P/N时,观察值可能为 强影响点 预测值: 1. 原始预测值 2. 标准化后的预测值 3. 去掉当前记录时,当 前模型对该记录应变 量的预测值 给出一系列用于测量数 给出均数的可信区间或 4. 预测值的标准差。 据点离拟合模型距离的 个体参考值范围的上下 指标。 界限。
ˆ Y = a + bX
ˆ Z y = βZ x
2、多元线性回归方程与标准回归方程: 、多元线性回归方程与标准回归方程:
ˆ Y = b0 + b1 X 1 + b2 X 2 + L + bk X k
ˆ Z y = β1Z x1 + β 2 Z x 2 + L + β k Z x k
第八章 回归分析
多重共线性的确认
除了依据以上现象来判断是否可能存在多重共线性 中还可以使用如下指标来辅助判断: 外,在SPSS中还可以使用如下指标来辅助判断: 中还可以使用如下指标来辅助判断
做出自变量间或系数间的相关系数阵,观察是否有某些 自变量的相关系数非常高。一般来说,相关系数超过 0.9的变量在分析时将会存在共线性的问题,在0.8以上 时可能会有问题。但这种方法只能对共线性作初步的判 断,并不全面。 容忍度(Tolerance):由Nonusis等提出,容忍度即以 每个自变量作为应变量对其他自变量进行回归分析时得 到的残差比例,大小用1-R2来表示。该指标越小,则 说明该自变量被其余自变量预测的越精确,共线性可能 就越严重。陈希孺等根据经验得出:如果某个自变量的 容忍度小于0.1则可能共线性问题严重。
对强影响点的处理对策
最小一乘法:顾名思义,最小一乘法就是保证 各实测点至直线纵向距离绝对值之和为最小, 显然比最小二乘法对强影响点有更强的耐受力。 该方法在SPSS中采用Nonlinear过程实现。 采用加权最小二乘法:利用Weight Estimation 过程对强影响点赋予较小的权重,从而削弱对 回归方程的影响。这实际上是稳健回归 (Robust Regression)思想的一种应用。由于 加权最小最小二乘法中需要找到能够准确预测 变异程度的指标,此处可以先进行普通的回归 分析,将残差存为新变量,然后将它指定为分 析中的加权变量,这样就可能较准确的预测残 差,从而得到较满意的方程。
3、回归分析的条件 、
线性关系 自变量无测量误差 因变量的独立性 正态性 方差齐性
第八章 回归分析
4、多元回归中自变量的选择 、
强迫进入法(Enter) 强迫进入法 强迫删除法(Move) 强迫删除法 向前选择(Forward) 向前选择 向后剔除(Backward) 向后剔除 逐步选择(Stepwise) 逐步选择
2.剩余标准差Syx1x2…Xn .剩余标准差
剩余标准差,即残差的标准差, 剩余标准差,即残差的标准差,用于反映回归 方程的估计精度,它的平方是残差的方差, 方程的估计精度,它的平方是残差的方差, 又称为均方误差( ),其值越小越好 又称为均方误差(MSE),其值越小越好。 ),其值越小越好。 一般它随回归方程中自变量的增加而减少, 一般它随回归方程中自变量的增加而减少, 但当增加一些无统计意义的自变量后, 但当增加一些无统计意义的自变量后,剩余 标准差反而会增大。 标准差反而会增大。这一性质与校正复相关 系数相似。因此, 系数相似。因此,剩余标准差也是衡量方程 好坏的重要指标之一。 好坏的重要指标之一。
ID 001 002 003 004 虚拟变量 原始 答案 var1 var2 var3 var4 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1
5 操作程序及选项
程序(数据文件: 程序(数据文件:吴Cha-7) ) Analyze/Regression/Linear… 1. 选择因变量(成绩)-- )--Dependent 选择因变量(成绩)-- 2. 选择自变量(性别及另10个分量表 个分量表)-- 选择自变量(性别及另 个分量表)-- Independent 3. 选择自变量的进入方法-- --Method 选择自变量的进入方法--Method(stepwise) ) 4. Block-next选择区: 选择区: 选择区
对强影响点的处理对策
如果确认存在强影响点, 如果确认存在强影响点,首先应当做的工作是检查 原始记录,看看是不是数据录入错误。 原始记录,看看是不是数据录入错误。如果确认 数据无误,则分析中可能采取的策略有: 数据无误,则分析中可能采取的策略有:
去除:如果只有一两个强影响点,可以考虑将其不纳入 分析,以确保分析结果能够代表大多数数据的特征。毕 竞统计分析是一个少数服从多数的民主过程,可以在分 析报告后对这几个强影响点进行单独描述,以全面概括 样本信息。 变量变换:采用适当的变量变换方法可能会消除强影响 点的存在,如倒数变换、对数变换等。这些方法的实质 就是弱化极端值的离群趋势,把这些异已分子拉回到集 体中来。 非参数分析:可以考虑对存在强影响点的变量求秩次, 然后采用秩次代替原变量进行回归分析,这是秩分析思 想的一种应用,在样本量较大时非常有效。详情看非参 数分析一章。
R squared change (R的 用于选择输出残差诊断 平方的改变量) 信息,有两个可选项。 Collinearity 如果残差间相互独立, diagnostics(共 则Durbin-Watson的取 线性诊断) 值在2附近。
用于选择需要绘制的回 作图对话框 归分析诊断或预测图, 左侧为可用的中间变量 列表。 对每一个自变量绘出它与应 变量残差的散点图,用于回 归诊断。 绘制标准化残差图,可 代选择的有直方图和正 态P-P图。
第八章 回归分析
5、结果的解释 、
回归系数 方差分析 回归系数显著性检验 测定系数R 测定系数 2
1.适用条件
因变量 连续变量 自变量 连续变量
类别变量最好不要导入回归方程,除非它与因 变量关系很密切 要将类别变量导入回归方程,要先转化为虚拟 变量
2.SPSS提供5种选取变量的方法
强迫进入 enter
先将所有自变量均纳入回归模型中,再逐一将贡献最小的移出, 直到所有自变量均达到标准为止。
删除(移出)法
remove
3.应该注意的问题
1. 优先使用强迫进入或逐步回归法 2. 要根据相关理论选择所需要的变量 3. 要注意“共线性”问题(诊断)
判别标准: 判别标准:
容忍度(1-R2) R2为此自变量与其他自变量间的多元相关系 数的平方,若变量间相关明显则R2较大,则1-R2越小,共线性 越明显。 方差膨胀因素(VIF)=1/(1- R2 )即容忍度的倒数 其值越大,容忍度(1- R2 )越小, R2越大,共线性越明显。 条件指针(CI) CI值愈大,愈有共线性问题。
相关文档
最新文档