回归与路径分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

又称复回归分析法，层次式进入法。强迫所有变量有顺序进入回归方程。用于研究者有事先建立似，决定变量重要性层次。
逐步回归
stepwise
应用最多，最广泛的复回归分析方法，它结合顺向选择与瓜向剔除二种方法的优点
向前法（顺向选择法）forward
即自变量一个一个进入回归方程
向后法（反向剔除法）backward
建立回归方程时“元”的选择
在多元线性回归分析中，在多元线性回归分析中，有时候自变量的数目是一个令人头痛的问题，个令人头痛的问题，自变量的个数的增加或多或少总能减少残差，提高模型的拟合精度，少总能减少残差，提高模型的拟合精度，但势必导致模型的复杂性。导致模型的复杂性。如果将它们删除又有些舍不说不定系数还有统计学意义。那么，得，说不定系数还有统计学意义。那么，有没有什么徇标准可用呢？答案是肯定的。什么徇标准可用呢？答案是肯定的。在建立回归方程时，要遵循一个原则，在建立回归方程时，要遵循一个原则，即“少而具体地说：既要尽可能地提高拟合的精度，精”。具体地说：既要尽可能地提高拟合的精度，又要尽可能地使模型简单。为了保证这一原则，又要尽可能地使模型简单。为了保证这一原则，常用的量化指标有：常用的量化指标有： 1．复相关系数与校正复相关系数 ad 与校正复相关系数R ．复相关系数R与校正复相关系数 2．剩余标准差．剩余标准差Syx1x2…Xn
回归与路径分析
一回归分析
Analyze/Regression/Linear…
研究问题
不同学生性别、数学焦虑、数学态度与数学投入动机等变量对数学成绩是否有显著预测作用？其预测力如何？统计方法回归分析
第八章源自文库归分析
1、一元线性回归方程与标准回归方程：、一元线性回归方程与标准回归方程：
Statistics选项
回归系数估计值输出回归系数B的模型适合度检验
95％置信区间提供一些变量描述，如有效例数，均值、标准输出各个自变量的相关常选用：常选用：差等。矩阵和方差、协方差矩阵模型拟合过程中进入、退出的变量列表，以及一些有关拟合优度的检验：复相关系数R、决定系数R2和调整的R2，标准误及方差分析表。
为避免共线性问题，进行多元回归前，应对自变量进行相关为避免共线性问题，进行多元回归前，分析，如果相关系数在0.75以上，就要选择其中比较重以上，分析，如果相关系数在以上要的变量导入回归分析。要的变量导入回归分析。
4．虚拟变量
当自变量不是连续变量时，确需要导入时，要先转化为虚拟变量，其数量为N－1个。如：我们用1表示完整家庭；2表示单亲家庭； 3表示他人照顾家庭；4隔代教养家庭；转成虚拟变量为：
1．复相关系数R与校正复相关系数Rad 复相关系数R的含义有点类似于相关系数，复相关系数的含义有点类似于相关系数r，只不过的含义有点类似于相关系数用于反映所有自变量和应变量关系的密切程度。用于反映所有自变量和应变量关系的密切程度。其值在0－之间越大越好。之间，其值在－1之间，越大越好。它的平方也称决定系数，表示。占总SS的比重系数，用R2表示。反映回归的占总的比重。表示反映回归的SS占总的比重。实际上，反映的是反映的是y与的估计值的相关关系的估计值的相关关系。实际上，R反映的是与y的估计值的相关关系。但是，直接使用复相关系数有一个缺点：但是，直接使用复相关系数有一个缺点：当方程中变量增加时，复相关系数总是增加的，变量增加时，复相关系数总是增加的，即使增加的变量无统计学意义也是如此。当根据R2的大的变量无统计学意义也是如此。当根据的大小判断方程的优劣时，小判断方程的优劣时，结论总是变量最多的方程最好，显然存在缺陷。最好，显然存在缺陷。为此人们又提出了校正复相关系数，它也反映模型的拟合优度，相关系数，它也反映模型的拟合优度，但同时考虑了方程中自变量的个数。虑了方程中自变量的个数。校正复相关系数是衡量方程优劣的常用指标之一。校正复相关系数是衡量方程优劣的常用指标之一。
如果对所选择的自变量有特殊要求，如有些必须包括即强迫进入，而另一些则要用逐步回归法，可以使用该区。即选择需要强制进入的变量，使用强迫进入法，按 next再选择另一些变量使用逐步回归法。
给出一些用于共线性诊输出回归系数B及其标断的统计量。特征根准误、t值和P值，还有 (Eigenvalues)、方差膨显示模型拟合过程中R2、F 标准化的回归系数Beta；显示自变量间的相关、 2个默认选项：个默认选项：个默认选项值和P值的改变情况胀因素(VIF)等。部分相关和偏相关系数
Save 对话框
存储各种残差提供用于判断强影响点的统 1. 原始残差计量 2. 标准化后的残差 1.3. 学生化残差去除该观察值后回归系数的变化值 4. 去掉当前记录时， 2. 当它大于2／Sqrt(N)时，当前模型对该应变该点可能为强影响点量的预测值对应变 3. 表示去除该观测值后预测量观测值的原始残值的变化值差。 4.5. 上一个预测值进行当它大于2／Sqrt(N)时，该点可能为强影响点 t变换后的结果。 5. 去除该观察值后协方差阵与含全部观察值的协方差阵的比率。若绝对值大于 3*P/N时，观察值可能为强影响点预测值： 1. 原始预测值 2. 标准化后的预测值 3. 去掉当前记录时，当前模型对该记录应变量的预测值给出一系列用于测量数给出均数的可信区间或 4. 预测值的标准差。据点离拟合模型距离的个体参考值范围的上下指标。界限。
ˆ Y = a + bX
ˆ Z y = βZ x
2、多元线性回归方程与标准回归方程：、多元线性回归方程与标准回归方程：
ˆ Y = b0 + b1 X 1 + b2 X 2 + L + bk X k
ˆ Z y = β1Z x1 + β 2 Z x 2 + L + β k Z x k
第八章回归分析
多重共线性的确认
除了依据以上现象来判断是否可能存在多重共线性中还可以使用如下指标来辅助判断：外，在SPSS中还可以使用如下指标来辅助判断：中还可以使用如下指标来辅助判断
做出自变量间或系数间的相关系数阵，观察是否有某些自变量的相关系数非常高。一般来说，相关系数超过 0.9的变量在分析时将会存在共线性的问题，在0.8以上时可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。容忍度（Tolerance）：由Nonusis等提出，容忍度即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例，大小用1－R2来表示。该指标越小，则说明该自变量被其余自变量预测的越精确，共线性可能就越严重。陈希孺等根据经验得出：如果某个自变量的容忍度小于0.1则可能共线性问题严重。
对强影响点的处理对策
最小一乘法：顾名思义，最小一乘法就是保证各实测点至直线纵向距离绝对值之和为最小，显然比最小二乘法对强影响点有更强的耐受力。该方法在SPSS中采用Nonlinear过程实现。采用加权最小二乘法：利用Weight Estimation 过程对强影响点赋予较小的权重，从而削弱对回归方程的影响。这实际上是稳健回归（Robust Regression）思想的一种应用。由于加权最小最小二乘法中需要找到能够准确预测变异程度的指标，此处可以先进行普通的回归分析，将残差存为新变量，然后将它指定为分析中的加权变量，这样就可能较准确的预测残差，从而得到较满意的方程。
3、回归分析的条件、
线性关系自变量无测量误差因变量的独立性正态性方差齐性
第八章回归分析
4、多元回归中自变量的选择、
强迫进入法(Enter) 强迫进入法强迫删除法(Move) 强迫删除法向前选择(Forward) 向前选择向后剔除(Backward) 向后剔除逐步选择(Stepwise) 逐步选择
2．剩余标准差Syx1x2…Xn ．剩余标准差
剩余标准差，即残差的标准差，剩余标准差，即残差的标准差，用于反映回归方程的估计精度，它的平方是残差的方差，方程的估计精度，它的平方是残差的方差，又称为均方误差（），其值越小越好又称为均方误差（MSE），其值越小越好。），其值越小越好。一般它随回归方程中自变量的增加而减少，一般它随回归方程中自变量的增加而减少，但当增加一些无统计意义的自变量后，但当增加一些无统计意义的自变量后，剩余标准差反而会增大。标准差反而会增大。这一性质与校正复相关系数相似。因此，系数相似。因此，剩余标准差也是衡量方程好坏的重要指标之一。好坏的重要指标之一。
ID 001 002 003 004 虚拟变量原始答案 var1 var2 var3 var4 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1
5 操作程序及选项
程序（数据文件：程序（数据文件：吴Cha-7）） Analyze/Regression/Linear… 1. 选择因变量（成绩）－－）－－Dependent 选择因变量（成绩）－－ 2. 选择自变量（性别及另10个分量表个分量表）－－选择自变量（性别及另个分量表）－－ Independent 3. 选择自变量的进入方法－－－－Method 选择自变量的进入方法－－Method（stepwise）） 4. Block-next选择区：选择区：选择区
对强影响点的处理对策
如果确认存在强影响点，如果确认存在强影响点，首先应当做的工作是检查原始记录，看看是不是数据录入错误。原始记录，看看是不是数据录入错误。如果确认数据无误，则分析中可能采取的策略有：数据无误，则分析中可能采取的策略有：
去除：如果只有一两个强影响点，可以考虑将其不纳入分析，以确保分析结果能够代表大多数数据的特征。毕竞统计分析是一个少数服从多数的民主过程，可以在分析报告后对这几个强影响点进行单独描述，以全面概括样本信息。变量变换：采用适当的变量变换方法可能会消除强影响点的存在，如倒数变换、对数变换等。这些方法的实质就是弱化极端值的离群趋势，把这些异已分子拉回到集体中来。非参数分析：可以考虑对存在强影响点的变量求秩次，然后采用秩次代替原变量进行回归分析，这是秩分析思想的一种应用，在样本量较大时非常有效。详情看非参数分析一章。
R squared change （R的用于选择输出残差诊断平方的改变量）信息，有两个可选项。 Collinearity 如果残差间相互独立， diagnostics（共则Durbin-Watson的取线性诊断）值在2附近。
用于选择需要绘制的回作图对话框归分析诊断或预测图，左侧为可用的中间变量列表。对每一个自变量绘出它与应变量残差的散点图，用于回归诊断。绘制标准化残差图，可代选择的有直方图和正态P－P图。
第八章回归分析
5、结果的解释、
回归系数方差分析回归系数显著性检验测定系数R 测定系数 2
1．适用条件
因变量连续变量自变量连续变量
类别变量最好不要导入回归方程，除非它与因变量关系很密切要将类别变量导入回归方程，要先转化为虚拟变量
2．SPSS提供5种选取变量的方法
强迫进入 enter
先将所有自变量均纳入回归模型中，再逐一将贡献最小的移出，直到所有自变量均达到标准为止。
删除(移出)法
remove
3．应该注意的问题
1. 优先使用强迫进入或逐步回归法 2. 要根据相关理论选择所需要的变量 3. 要注意“共线性”问题（诊断）
判别标准：判别标准：
容忍度（1－R2） R2为此自变量与其他自变量间的多元相关系数的平方，若变量间相关明显则R2较大，则1－R2越小，共线性越明显。方差膨胀因素（VIF）＝1／（1－ R2 ）即容忍度的倒数其值越大，容忍度（1－ R2 ）越小， R2越大，共线性越明显。条件指针（CI） CI值愈大，愈有共线性问题。