多元回归分析的精辟分析spss
SPSS—回归—多元线性回归结果分析

SPSS—回归—多元线性回归结果分析(二),最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却无能为力,也许要学习“步步惊心”里面“四阿哥”的座右铭:“行到水穷处”,”坐看云起时“。
接着上一期的“多元线性回归解析”里面的内容,上一次,没有写结果分析,这次补上,结果分析如下所示:结果分析1:由于开始选择的是“逐步”法,逐步法是“向前”和“向后”的结合体,从结果可以看出,最先进入“线性回归模型”的是“price in thousands"建立了模型1,紧随其后的是“Wheelbase"建立了模型2,所以,模型中有此方法有个概率值,当小于等于0.05时,进入“线性回归模型”(最先进入模型的,相关性最强,关系最为密切)当大于等0.1时,从“线性模型中”剔除结果分析:1:从“模型汇总”中可以看出,有两个模型,(模型1和模型2)从R2 拟合优度来看,模型2的拟合优度明显比模型1要好一些(0.422>0.300)2:从“Anova"表中,可以看出“模型2”中的“回归平方和”为115.311,“残差平方和”为153.072,由于总平方和=回归平方和+残差平方和,由于残差平方和(即指随即误差,不可解释的误差)由于“回归平方和”跟“残差平方和”几乎接近,所有,此线性回归模型只解释了总平方和的一半,3:根据后面的“F统计量”的概率值为0.00,由于0.00<0.01,随着“自变量”的引入,其显著性概率值均远小于0.01,所以可以显著地拒绝总体回归系数为0的原假设,通过ANOVA方差分析表可以看出“销售量”与“价格”和“轴距”之间存在着线性关系,至于线性关系的强弱,需要进一步进行分析。
结果分析:1:从“已排除的变量”表中,可以看出:“模型2”中各变量的T检的概率值都大于“0.05”所以,不能够引入“线性回归模型”必须剔除。
从“系数a” 表中可以看出:1:多元线性回归方程应该为:销售量=-1.822-0.055*价格+0.061*轴距但是,由于常数项的sig为(0.116>0.1) 所以常数项不具备显著性,所以,我们再看后面的“标准系数”,在标准系数一列中,可以看到“常数项”没有数值,已经被剔除所以:标准化的回归方程为:销售量=-0.59*价格+0.356*轴距2:再看最后一列“共线性统计量”,其中“价格”和“轴距”两个容差和“vif都一样,而且VIF 都为1.012,且都小于5,所以两个自变量之间没有出现共线性,容忍度和膨胀因子是互为倒数关系,容忍度越小,膨胀因子越大,发生共线性的可能性也越大从“共线性诊断”表中可以看出:1:共线性诊断采用的是“特征值”的方式,特征值主要用来刻画自变量的方差,诊断自变量间是否存在较强多重共线性的另一种方法是利用主成分分析法,基本思想是:如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是就可以从这些自变量中提取出既能反应自变量信息(方差),而且有相互独立的因素(成分)来,该方法主要从自变量间的相关系数矩阵出发,计算相关系数矩阵的特征值,得到相应的若干成分。
实验四 用SPSS进行多元回归分析

实验四用SPSS进行多元回归分析某农场通过试验取得早稻收获量与春季降雨和春季温度的数据如下表,计算回归参数和检验统计量。
表1 春季降雨和春季温度的数据1.数据录入。
将收获量作为因变量,降雨量和温度作为自变量分别输入数据区域,格式如下图。
图1 数据输入界面2.统计分析。
逐一选取“Analyze”、“Regression”、“Linear”展开对话框如下图所示。
将X选入independent(自变量框),将Y选入dependent(因变量框)。
图2 选择分析工具图3 选择变量进入右侧的分析列表然后点击Statistics 按钮,出现一个有关各种统计选项的对话框。
点击Plot 按钮可绘制残差分布图、直方图、极端值图或正态概率图。
Options 按钮可改变进行逐步回归时的内部数值的设定以及对缺失值的处理方式。
Method 框中可选取不同的筛选自变量的回归方法。
默认项为强制进入法Enter。
本次检验使用默认选项Estimates 和Model fit,单击OK 键进行统计分析。
图4 回归选项设置表2 选入或删除的变量表3 模型总结模型汇总模型R R 方调整 R 方标准估计的误差1 .996a.991 .987 174.28736a. 预测变量: (常量), x2, x1。
表4 方程配合适度检验结果表5 回归结果第一个表格显示了选入或删除的变量,本试验有两个自变量,x1,x2被选入方程,无删除的变量。
第二个表格为模型总结。
给出了复相关系数R ,复相关系数平方R Square,调整复相关系数平方Adjusted R Square,估计值的标准误Std. Error of the Estimate。
第三个表格为方程配合适度检验结果,F=228.444,P(Sig.)=0.0005,说明自变量和应变量之间有回归关系存在。
第四个表格给出了直线回归方程系数的值及偏回归系数的检验结果。
Unstandardized Coefficients B 为偏回归系数系数,Std Error 为偏回归系数系数标准误差,Standardized Coefficients Beta 为标准化偏回归系数。
多元线性回归SPSS实验报告

49%;可以认为:这些变量存在多重共线性。需要建立回归方程。
2.重建回归方程
模型
输入/移去的变量b
输入的变量
移去的变量
方法
1
教职工总数(万
人), 专利申请授
权数(件), 研究
b. 预测变量: (常量), 教职工总数(万人), 专利申请授权数(件), 研究与试验发展机构数(个), 普通高校数(所), 发表 科技论文数量(篇)。 c. 预测变量: (常量), 教职工总数(万人), 专利申请授权数(件), 研究与试验发展机构数(个), 发表科技论文数量(篇)。 d. 预测变量: (常量), 教职工总数(万人), 专利申请授权数(件), 发表科技论文数量(篇)。 e. 预测变量: (常量), 教职工总数(万人), 发表科技论文数量(篇)。 f. 因变量: 毕业生数(万人)
. 输入
a. 已输入所有请求的变量。
模型汇总
模型
R
R 方 调整 R 方 标准 估计的误差
1
.999a
.998
.997
a. 预测变量: (常量), 教职工总数(万人), 专利申请授权数(件), 研究与试验发展机构数(个), 普通高校数(所), 发表科技论文数 量(篇), 在校学生数(万人)。
注解:模型的拟合优度检验:
第五列:回归方程的估计标准误差=
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
6
.000a
残差
7
总计
13
a. 预测变量: (常量), 教职工总数(万人), 专利申请授权数(件), 研究与试验发展机构 数(个), 普通高校数(所), 发表科技论文数量(篇), 在校学生数(万人)。 b. 因变量: 毕业生数(万人)
SPSS多元线性回归分析实例操作步骤

SPSS多元线性回归分析实例操作步骤在数据分析领域,多元线性回归分析是一种强大且常用的工具,它能够帮助我们理解多个自变量与一个因变量之间的线性关系。
接下来,我将为您详细介绍使用 SPSS 进行多元线性回归分析的具体操作步骤。
首先,准备好您的数据。
数据应该以特定的格式整理,通常包括自变量和因变量的列。
确保数据的准确性和完整性,因为这将直接影响分析结果的可靠性。
打开 SPSS 软件,在菜单栏中选择“文件”,然后点击“打开”,找到您存放数据的文件并导入。
在导入数据后,点击“分析”菜单,选择“回归”,再点击“线性”。
这将打开多元线性回归的对话框。
在“线性回归”对话框中,将您的因变量拖放到“因变量”框中,将自变量拖放到“自变量”框中。
接下来,点击“统计”按钮。
在“统计”对话框中,您可以选择一些常用的统计量。
例如,勾选“估计”可以得到回归系数的估计值;勾选“置信区间”可以得到回归系数的置信区间;勾选“模型拟合度”可以评估模型的拟合效果等。
根据您的具体需求选择合适的统计量,然后点击“继续”。
再点击“图”按钮。
在这里,您可以选择生成一些有助于直观理解回归结果的图形。
比如,勾选“正态概率图”可以检查残差的正态性;勾选“残差图”可以观察残差的分布情况等。
选择完毕后点击“继续”。
然后点击“保存”按钮。
您可以选择保存预测值、残差等变量,以便后续进一步分析。
完成上述设置后,点击“确定”按钮,SPSS 将开始进行多元线性回归分析,并输出结果。
结果通常包括多个部分。
首先是模型摘要,它提供了一些关于模型拟合度的指标,如 R 方、调整 R 方等。
R 方表示自变量能够解释因变量变异的比例,越接近 1 说明模型拟合效果越好。
其次是方差分析表,用于检验整个回归模型是否显著。
如果对应的p 值小于给定的显著性水平(通常为 005),则说明模型是显著的。
最重要的是系数表,它给出了每个自变量的回归系数、标准误差、t 值和 p 值。
回归系数表示自变量对因变量的影响程度,p 值用于判断该系数是否显著不为 0。
多元线性回归分析spss

多元线性回归分析spss
多元线性回归分析是一种常用的统计分析技术,用于对各因素之间的相互关系进行研究。
使用多元线性回归分析,可以检验一个或多个自变量对因变量具有统计学显著性的影响,从而推断出实际世界存在的不同因素可能带来的影响。
在spss中,我们使用下拉菜单选择“分析”>“回归”>“多元”来开始多元线性回归分析。
在多元线性回归窗口中,我们可以在右边的“可用变量”列中选择变量,拖拽到“因变量”和“自变量”栏中。
接下来,我们可以选择要使用的模型类型,其中包括多元线性回归,截距,变量中心以及相关的其他预测结果。
在进行模型拟合之前,我们可以在“多重共线性”复选框中对共线性进行调整,进行预测和显著性检验,并调整“参数估计”和“残差”复选框,自由地绘制结果。
在运行了多元线性回归分析之后,在spss中,我们可以在输出窗口中查看多元回归方程的系数和检验的结果,以及它们对回归系数的影响,残差分布情况,多重共线性分析和其他一些输出参数。
总而言之,spss中多元线性回归分析是一种有效的统计分析方法,可以用来检验多个自变量对回归方程的影响。
它具有许多内置功能,可以容易地针对回归系数和其他参数进行各种分析,提供了可信的结果,帮助人们深入了解各类因素对研究结果的影响。
SPSS多元线性回归分析实例操作步骤

SPSS多元线性回归分析实例操作步骤多元线性回归是一种常用的统计分析方法,用于探究多个自变量对因变量的影响程度。
SPSS(Statistical Package for the Social Sciences)是一款常用的统计软件,可以进行多元线性回归分析,并提供了简便易用的操作界面。
本文将介绍SPSS中进行多元线性回归分析的实例操作步骤,帮助您快速掌握该分析方法的使用。
步骤一:准备数据在进行多元线性回归分析之前,首先需要准备好相关的数据。
数据应包含一个或多个自变量和一个因变量,以便进行回归分析。
数据可以来自实验、调查或其他来源,但应确保数据的质量和可靠性。
步骤二:导入数据在SPSS软件中,打开或创建一个新的数据集,然后将准备好的数据导入到数据集中。
可以通过导入Excel、CSV等格式的文件或手动输入数据的方式进行数据导入。
确保数据被正确地导入到SPSS中,并正确地显示在数据集的各个变量列中。
步骤三:进行多元线性回归分析在SPSS软件中,通过依次点击"分析"-"回归"-"线性",打开线性回归分析对话框。
在对话框中,将因变量和自变量移入相应的输入框中。
可以使用鼠标拖拽或双击变量名称来快速进行变量的移动。
步骤四:设置分析选项在线性回归分析对话框中,可以设置一些分析选项,以满足具体的分析需求。
例如,可以选择是否计算标准化回归权重、残差和预测值,并选择是否进行方差分析和共线性统计检验等。
根据需要,适当调整这些选项。
步骤五:获取多元线性回归分析结果点击对话框中的"确定"按钮后,SPSS将自动进行多元线性回归分析,并生成相应的分析结果。
结果包括回归系数、显著性检验、残差统计和模型拟合度等信息,这些信息可以帮助我们理解自变量对因变量的贡献情况和模型的拟合程度。
步骤六:解读多元线性回归分析结果在获取多元线性回归分析结果之后,需要对结果进行解读,以得出准确的结论。
多元回归分析的精辟分析spss
1、利用OLS(ordinary least squares)来做多元回归可能是社会学研究中最常用的统计分析方法。
利用此法的基本条件是应变项为一个分数型的变项(等距尺度测量的变项),而自变项之测量尺度则无特别的限制。
当自变项为类别变项时,我们可依类别数(k)建构k-1个数值为0与1之虚拟变项(dummy variable)来代表不同之类别。
因此,如果能适当的使用的话,多元回归分析是一相当有力的工具。
2、多元回归分析主要有三个步骤:5 G7 M5 K" T5 d z. p" I8 N─ 第一、利用单变项和双变项分析来检视各个准备纳入复回归分析的变项是否符合OLS线性回归分析的基本假定。
─ 选定回归模式,并评估所得到的参数估计和适合度检定(goodness of fit)。
2 L! ]2 Z3 o, A$ J* g─ 在我们认真考虑所得到的回归分析结果前,应做残余值(residuals)之诊断分析(diagnosis)。
但通常我们是先确定回归模式之设定(specification)是否恰当后,才会做深入之残余值分析。
3、回归分析的第一步是一一检视每个即将纳入回归分析模式的变项。
首先,我们必须先确定应变项有足够的变异(variability),而且是接近常态分配(回归系数的估计并不要求应变项是常态分配,但对此估计做假设测定时,则是要求残余值应为常态分配。
而应变项离开常态分配的状态很远时,残余值不是常态分配的可能性增大)。
其次,各自变项也应该有适当的变异,并且要了解其分配之形状和异常的个案(outlying cases;outliers)。
7 t% `+ K3 y2 Y9 P% o7 n1 ^-Y我们可用直方图(histogram)和Normal P-P(probability plot)图等来测定应变项是否拒绝其为常态分配的假设,以及是否有异常之个案。
同样的,我们可用直方图和其它单变项之统计来检视各个自变项之分配形状、程度,以及异常个案等。
SPSS中多元回归分析实例解析
SPSS中多元回归分析实例解析多元回归分析是一种统计方法,用于研究一个因变量与多个自变量之间的关系。
在SPSS中,可以使用该方法来构建、估计和解释多元回归模型。
下面将以一个实例来解析SPSS中的多元回归分析。
假设我们想要研究一个教育投资项目的效果,该项目包括多个自变量,例如教育资金、教育设施、学生人数等,并且我们希望预测该项目对学生学习成绩的影响。
首先,我们需要准备好数据并导入SPSS中。
数据应包含每个教育投资项目的多个观测值,以及与之相关的自变量和因变量。
例如,可以将每个项目作为一个观测值,并将教育资金、教育设施、学生人数等作为自变量,学生学习成绩作为因变量。
在SPSS中,可以通过选择“Analyze”菜单中的“Regression”选项来打开回归分析对话框。
然后,选择“Linear”选项来进行多元回归分析。
接下来,可以将自变量和因变量添加到对话框中。
在自变量列表中,选择教育资金、教育设施、学生人数等自变量,并将它们移动到“Independent(s)”框中。
在因变量框中,选择学生学习成绩。
然后,点击“OK”按钮开始进行分析。
SPSS将输出多元回归的结果。
关键的统计指标包括回归系数、显著性水平和拟合度。
回归系数表示每个自变量对因变量的影响程度,可以根据系数的大小和正负来判断影响的方向。
显著性水平表示自变量对因变量的影响是否显著,一般以p值小于0.05为标准。
拟合度指示了回归模型对数据的拟合程度,常用的指标有R方和调整后的R方。
在多元回归分析中,可以通过检查回归系数的符号和显著性水平来判断自变量对因变量的影响。
如果回归系数为正且显著,表示该自变量对因变量有正向影响;如果回归系数为负且显著,表示该自变量对因变量有负向影响。
此外,还可以使用其他方法来进一步解释和验证回归模型,例如残差分析、模型诊断等。
需要注意的是,在进行多元回归分析时,需要满足一些前提条件,例如自变量之间应该独立、与因变量之间应该是线性关系等。
spss多元线性回归分析结果解读
spss多元线性回归分析结果解读SPSS多元线性回归分析结果解读1. 引言多元线性回归分析是一种常用的统计分析方法,用于研究多个自变量对因变量的影响程度及相关性。
SPSS是一个强大的统计分析软件,可以进行多元线性回归分析并提供详细的结果解读。
本文将通过解读SPSS多元线性回归分析结果,帮助读者理解分析结果并做出合理的判断。
2. 数据收集与变量说明在进行多元线性回归分析之前,首先需要收集所需的数据,并明确变量的含义。
例如,假设我们正在研究学生的考试成绩与他们的学习时间、家庭背景、社会经济地位等因素之间的关系。
收集到的数据包括每个学生的考试成绩作为因变量,以及学习时间、家庭背景、社会经济地位等作为自变量。
变量说明应当明确每个变量的测量方式和含义。
3. 描述性统计分析在进行多元线性回归分析之前,我们可以首先对数据进行描述性统计分析,以了解各个变量的分布情况。
SPSS提供了丰富的描述性统计方法,如均值、标准差、最小值、最大值等。
通过描述性统计分析,我们可以获得每个变量的分布情况,如平均值、方差等。
4. 相关性分析多元线性回归的前提是自变量和因变量之间存在一定的相关性。
因此,在进行回归分析之前,通常需要进行相关性分析来验证自变量和因变量之间的关系。
SPSS提供了相关性分析的功能,我们可以得到每对变量之间的相关系数以及其显著性水平。
5. 多元线性回归模型完成了描述性统计分析和相关性分析后,我们可以构建多元线性回归模型。
SPSS提供了简单易用的界面,我们只需要选择因变量和自变量,然后点击进行回归分析。
在SPSS中,我们可以选择不同的回归方法,如逐步回归、前向回归、后向回归等。
6. 回归结果解读在进行多元线性回归分析后,SPSS将提供详细的回归结果。
我们可以看到每个自变量的系数、标准误差、t值、显著性水平等指标。
系数表示自变量与因变量之间的关系程度,标准误差表示估计系数的不确定性,t值表示系数的显著性,显著性水平则表示系数是否显著。
线性回归分析的SPSS操作(多元线性回归)
线性回归分析的SPSS操作本节内容主要介绍如何确定并建立线性回归方程。
包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。
为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。
也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。
另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。
一、一元线性回归分析1.数据以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。
数据编辑窗口显示数据输入格式如下图7-8(文件7-6-1.sav):图7-8:回归分析数据输入2.用SPSS进行回归分析,实例操作如下:2.1.回归方程的建立与检验(1)操作①单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。
从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x选入到自变量(Independent)框中。
在方法即Method一项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。
所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。
具体如下图所示:图7-9 线性回归分析主对话框②请单击Statistics…按钮,可以选择需要输出的一些统计量。
如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。
Model fit项可输出相关系数R,测定系数R2,调整系数、估计标准误及方差分析表。
上述两项为默认选项,请注意保持选中。
设置如图7-10所示。
设置完成后点击Continue返回主对话框。
图7-10:线性回归分析的Statistics选项图7-11:线性回归分析的Options选项回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、利用OLS(ordinary least squares)来做多元回归可能是社会学研究中最常用的统计分析方法。
利用此法的基本条件是应变项为一个分数型的变项(等距尺度测量的变项),而自变项之测量尺度则无特别的限制。
当自变项为类别变项时,我们可依类别数(k)建构k-1个数值为0与1之虚拟变项(dummy variable)来代表不同之类别。
因此,如果能适当的使用的话,多元回归分析是一相当有力的工具。
2、多元回归分析主要有三个步骤:5 G7 M5 K" T5 d z. p" I8 N─ 第一、利用单变项和双变项分析来检视各个准备纳入复回归分析的变项是否符合OLS线性回归分析的基本假定。
─ 选定回归模式,并评估所得到的参数估计和适合度检定(goodness of fit)。
2 L! ]2 Z3 o, A$ J* g─ 在我们认真考虑所得到的回归分析结果前,应做残余值(residuals)之诊断分析(diagnosis)。
但通常我们是先确定回归模式之设定(specification)是否恰当后,才会做深入之残余值分析。
3、回归分析的第一步是一一检视每个即将纳入回归分析模式的变项。
首先,我们必须先确定应变项有足够的变异(variability),而且是接近常态分配(回归系数的估计并不要求应变项是常态分配,但对此估计做假设测定时,则是要求残余值应为常态分配。
而应变项离开常态分配的状态很远时,残余值不是常态分配的可能性增大)。
其次,各自变项也应该有适当的变异,并且要了解其分配之形状和异常的个案(outlying cases;outliers)。
7 t% `+ K3 y2 Y9 P% o7 n1 ^-Y我们可用直方图(histogram)和Normal P-P(probability plot)图等来测定应变项是否拒绝其为常态分配的假设,以及是否有异常之个案。
同样的,我们可用直方图和其它单变项之统计来检视各个自变项之分配形状、程度,以及异常个案等。
在SPSS中,我们可用Analyze内的Descriptive Statistics中的Explore来得到上述之统计和图。
2 a( Q- s. ]' i* w M% @: ?( z4、做双变项相关之分析之主要目的是检视变项间之关系是否为线性关系(linearity)和是否为共线性(collinearity)之情况。
最基本的作法是看双变项之相关矩阵。
如果应变项与自变项间之关系很弱或比自变项间之相关弱的话,就应质疑所设定之多元回归模式是否适当。
9 A9 I6 e- o, @0 [: F- W检视自变项与应变项间是否为线性关系的基本作法是看双变项间之散布图(scatter plot)。
进阶且比较好的作法是在控制其它自变项后,再看某一自变项与应变项间之部分线性关系(partial linear ity)。
线性关系是回归分析重要的假定,而且指的是自变项与应变项间之部份线性关系。
我们并不用太关心自变项间是否为线性关系,但如对自变项间关系之设定有误时,也会导致我们对虚假关系不适当的控制和解释上的错误。
# N9 o# G8 m8 ~0 N- W探索自变项与应变项间部分线性关系的方式是在控制其它自变项后,逐一检视某一自变项及进一步加入此自变项之平方后,看看两个回归模式间是否达显著之差异。
如果是的话,则此自变项与应变项间之关系并不是线性关系。
当发现自变项与应变项间并非线性关系时,除了将该自变项之平方加入回归分析的方法外,也可将该自变项做对数转换(log transformation),例如我们常将个人之收入做对数转换之处理。
究竟如何处理是适当的,是以理论为基础。
在SPSS中,我们可用Analyze内之Correlate中的Bivariate及Graphs中的Scatter来得到双变项之相关矩阵及散布图。
部份线性相关之检视则需用到Transform内的Compute来建构一个变项的平方,然后用Analyze内之Regression中的Linear来检视。
3 k8 ]' A- j; ]/ I0 i4 D( Y: b6 P v5、在决定回归分析的模式后,我们应进一步检视自变项间是否有多元共线性(multicolli nearity)的问题,也就是自变项间是否有高度相关的问题。
如果自变项间高度相关的话,会影响到对回归系数之假设测定。
我们可以用因素分析来检查自变项间是否有多元共线性,或者是逐一将某一自变项(当成为应变项)和所有其它自变项做多元回归分析。
在以SPSS做回归分析时,我们也可在其Statistic之选项中选择partial correlation与colline arity之统计。
SPSS所提供之collinearity的统计包括Tolerance、VIF(variance inflation factor)和Condition Index等。
这些统计是有关连性的。
如Tolerance与VIF就是互为倒数,如果是Tolerance越小,就表示该自变项与其它自变项间之共线性越高或几乎是其它自变项的线性组合。
3 k! p' g" [+ X; O$ n4 N6、如果自变项是类别的变项,我们可以将这些类别一一建构成为虚拟变项。
依照类别数目(k),我们只需建构k-1个虚拟变项即可。
如性别有两类,因此我们只需建构一个「男性」的虚拟变项。
如果受访者为男性,则其「男性」变项为1,如为女性,则其「男性」变项为0。
同理,如果一个类别变项有四类,如台湾地区别是分成北、中、南、东等四区,则我们可将此类别变项建构成「中部」、「南部」及「东部」等三个虚拟变项。
当受访者是在北部时,其在此三虚拟变项的值会都是0。
至于将那个类别做为参考类别(reference category),也就是不建构为虚拟变项的类别,通常是次数最多的类别。
我们也可依理论或研究假设的需要,来考虑是将那个类别做为参考类别。
& p$ O: t: G" h+ @1 p* X当我们将这些虚拟变项纳入回归模式后,个别虚拟变项的回归系数(如果达统计显著的话),就是此虚拟变项所代表之类别与参考类别间在截距上的差距。
如果我们假设此类别变项对应变项的影响,不只是在截距上的不同,且会有不同的斜率,也就是与另一自变项间有交互作用(interaction),我们可以进一步将虚拟变项与此另一自变项相乘而成另一新变项(如「男性*受教育年数」)。
我们可将原来的两个自变项及此新变项一起纳入回归分析中。
如果此新变项之回归系数达显著的话,则其意义是与虚拟变项相乘之自变项(如受教育年数)对应变项的影响会因虚拟变项所代表的类别不同(如性别)而有不同的斜率(即影响力)。
例如当受教育年数对收入的影响,男性比女性来得大时,则回归分析结果可能一方面表现在「男性」此一虚拟变项的正向系数达显著,表示在受同样教育年数的条件下,男性的起薪比女性高,另一方面也表现在「男性*受教育年数」之正向系数达显著,表示男性每年受教育对收入的回报大过女性。
此外,当我们假设自变项与应变项的关系为∩型时,或是应变项会随自变项之数值增大而变化趋缓时,我们就可建构一自变项的平方,将此自变项及其平方一起纳入,如果此平方的变项达显著,则我们可知此自变项对应变项的影响不是直线性的。
7、在完成以上之基础工作后,而且发现没有问题或将问题做了适当的处理后,我们就可开始做多元回归的分析。
* o+ I/ r/ B; D/ i: x6 T5 R检视多元回归分析之结果的步骤是先检视整体模式之适合度(goodness of fit)。
这是看回归分析结果之ANOVA表中之F test是否达到显著。
如果是的话,我们可说此模式在母群体之R2不是0,或自至少有一个自变项对应变项有解释力。
R2(或纳入自变项数目做了调整后之adju sted R2)的意义是所有自变项解释了多少比例之应变项的变异量。
在检视完整体模式之解释力后,下一步是逐一检视各自变项之斜率(slope),也就是回归系数是否达到显著(即测定其是否为0之虚无假设)。
这是要看每一自变项回归系数的T-test及p 值(通常应至少小于0.05)。
如果某一自变项之系数达显著水平的话,则其意义是在控制其它自变项的情况下,此一自变项对应变项之独特影响力(unique effect)为何。
另一说法是,自变项每增加一个测量时用的单位,会改变多少应变项测量时之单位。
我们可代入此自变项一个数值(如此变项之平均数),然后计算在此数值和B(unstandardized coefficient)乘积,这乘积就是此自变项在此数值时,应变项的数值有多大。
1 ?7 ^7 b, u: L) U2 f* e如果我们要知道和其它自变项比较,那一个自变项对应变项之独特影响力比较大,则我们是要看Beta(standardized coefficient)或部分相关系数(看此比较好)。
3 z! s! }/ L" @ Q8、如果我们的回归分析是建立在一个因果模式上,那我们可进行阶层式回归分析(hierarchical r egression)。
看我们研究的焦点为何,我们可逐一将自变项加入回归模式中,然后看不同阶段之回归模式的整体解释力和各个自变项解释力的变化。
. C- w$ o& f& R T& x' U9、严谨的回归分析是要进一步对residuals做检视后,才报告分析所得到之结果。
残余值是指每个个案将其自变项之数值代入回归模式中计算在应变项之预测值,然后将实际观察到之值与此预测值相减后所得到之残余。
对残余值之诊断主要有两项:6 T/ ?4 N& g# _ k- p7 a4 {. J! ~, ]9 `─ Influence diagnosis:此诊断要看的是有无一些异常的个案可能对回归模式的估计造成不当之的影响,并膨胀standard errors。
特别是当样本数较小时,我们要当心此可能性。
在SP SS的回归分析之Save的选项中,可将标准化处理后之残余值(standardized residuals)储存起来。
SPSS也会将标准化之残余值大于3的个案之ID报告出来。
如果此类个案数目不多的话(依机率,每一百个标准化之残余值中会有5个残余值之z值大于2),那我们就可说是没有异常个案影响回归模式估计的问题。
─ Normality与hetroskedasticity:OLS回归分析假定在prediction function之不同level的残余值是常态分配,而且变异量是相同的。
因此,我们可利用单变项之分析来看检视预测值和残余值是否为常态分配,以及两者间是否有相关(依照假定回归模式之残余项应和自变项间没有相关),以及残余值在prediction function之各level是否有相同之变异。