spss统计分析方法应用期末作业
spss期末考试上机试题及答案

spss期末考试上机试题及答案SPSS期末考试上机试题及答案一、选择题(每题2分,共20分)1. 在SPSS中,数据视图指的是:A. 数据编辑器B. 输出视图C. 变量视图D. 语法视图答案:A2. 以下哪个选项不是SPSS的数据文件类型?A. .savB. .csvC. .xlsxD. .txt答案:C3. 在SPSS中,要对数据进行排序,应该使用哪个命令?A. Sort CasesB. RecodeC. ComputeD. Transform答案:A4. 以下哪个不是SPSS的统计分析方法?A. 描述性统计分析B. 相关性分析C. 回归分析D. 数据可视化分析答案:D5. 在SPSS中,要计算一个新变量的平均值,应该使用哪个命令?A. ComputeB. AggregateC. Split FileD. Sort Cases答案:A二、填空题(每题3分,共15分)6. 在SPSS中,数据文件的扩展名通常是________。
答案:.sav7. 要将数据从Excel导入SPSS,可以使用________功能。
答案:Get Data8. 在SPSS中,进行频率分析时使用的命令是________。
答案:Frequencies9. 为了进行方差分析,需要在SPSS中选择________菜单下的ANOVA 命令。
答案:Analyze10. 在SPSS中,如果需要对数据进行标准化处理,可以使用________命令。
答案:Standardize三、简答题(每题5分,共10分)11. 请简述SPSS中数据清洗的一般步骤。
答案:数据清洗通常包括以下步骤:检查缺失值、异常值识别、数据类型转换、数据标准化等。
12. 描述性统计分析在SPSS中如何进行?答案:在SPSS中进行描述性统计分析,可以通过选择Analyze菜单下的Descriptive Statistics,然后根据需要选择Frequencies、Descriptives、Explore等命令来进行。
spss期末试题及答案

spss期末试题及答案一、选择题(每题2分,共20分)1. SPSS中,用于描述数据集中的变量分布情况的统计量是()。
A. 平均值B. 中位数C. 众数D. 标准差答案:ABC2. 在SPSS中,进行数据录入时,如果需要输入缺失值,应该使用以下哪个符号表示?()A. 0B. 9C. -D. *答案:C3. 以下哪个选项不是SPSS中的数据类型?()A. 数值型B. 字符串C. 逻辑型D. 图像型答案:D4. 在SPSS中,进行相关性分析时,通常使用哪种统计方法?()A. t检验B. 方差分析C. 卡方检验D. 皮尔逊相关系数答案:D5. SPSS中,用于创建数据文件的命令是()。
A. GET FILEB. SAVEC. OPEN DATAD. NEW DATA答案:A6. 在SPSS中,如果要对数据进行分组处理,应该使用以下哪个功能?()A. 分类汇总B. 数据筛选C. 数据排序D. 数据转换答案:A7. SPSS中,用于绘制数据分布直方图的命令是()。
A. GRAPHB. CHARTC. PLOTD. HISTOGRAM答案:B8. 在SPSS中,如果要进行回归分析,应该使用以下哪个菜单选项?()A. 分析B. 描述统计C. 预测D. 回归答案:D9. SPSS中,用于计算数据集中变量的方差的命令是()。
A. DESCRIPTIVESB. FREQUENCIESC. MEANSD. CORRELATIONS答案:A10. 在SPSS中,如果要对数据进行因子分析,应该使用以下哪个菜单选项?()A. 因子B. 聚类C. 多变量D. 描述统计答案:A二、填空题(每题3分,共15分)1. 在SPSS中,数据视图的窗口分为三个部分:________、变量视图和数据视图。
答案:数据结构视图2. SPSS中,用于计算数据集中变量的均值的命令是________。
答案:MEANS3. 在SPSS中,进行独立样本t检验的命令是________。
spss统计分析期末考试题及答案

spss统计分析期末考试题及答案一、选择题(每题2分,共20分)1. 在SPSS中,数据视图和变量视图分别对应于:A. 变量列表和数据表B. 数据表和变量列表C. 数据集和变量集D. 变量集和数据集答案:B2. SPSS中用于描述数据分布特征的统计量不包括:A. 平均值B. 中位数C. 众数D. 方差答案:D3. 在SPSS中进行独立样本T检验时,需要满足的假设条件不包括:A. 独立性B. 正态性C. 方差齐性D. 线性答案:D4. 下列哪个选项不是SPSS中的数据类型?A. 数值型B. 字符串型C. 日期型D. 图片型答案:D5. 在SPSS中,进行相关分析时,通常使用的统计方法是:A. 回归分析B. 方差分析C. 卡方检验D. 皮尔逊相关系数答案:D6. SPSS中,用于创建新变量的命令是:A. COMPUTEB. DESCRIPTIVESC. T-TESTD. FREQUENCIES答案:A7. 在SPSS中,执行因子分析时,通常使用的方法是:A. 主成分分析B. 聚类分析C. 回归分析D. 判别分析答案:A8. SPSS中,用于检验两个分类变量之间关系的统计方法是:A. 相关分析B. 回归分析C. 卡方检验D. 方差分析答案:C9. 在SPSS中,进行多变量回归分析时,需要满足的假设条件不包括:A. 线性关系B. 误差项独立C. 误差项同方差性D. 变量之间独立答案:D10. SPSS中,用于创建数据集的命令是:A. GET FILEB. SAVEC. OPEN DATAD. NEW答案:D二、简答题(每题10分,共40分)1. 简述SPSS中数据清洗的常用步骤。
答案:数据清洗的常用步骤包括:数据导入、数据预览、缺失值处理、异常值检测、数据转换和数据编码。
2. 解释SPSS中因子分析的目的和基本步骤。
答案:因子分析的目的是将多个变量简化为几个不相关的因子,以揭示变量之间的内在关系。
基本步骤包括:确定因子数量、提取因子、旋转因子和因子得分计算。
spss统计软件期末课程考试题

《SPSS统计软件》课程作业要求:数据计算题要求注明选用的统计分析模块和输出结果;并解释结果的意义。
完成后将作业电子稿发送至1. 某单位对100名女生测定血清总蛋白含量,数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。
解:样本均值为:73.6680;中位数为:73.5000;方差为:15.515;标准差为:3.93892;最大值为:84.30;最小值为:64.30;极差为:20.00;偏度为:0.054;峰度为:0.037;均值的置信水平为95%的置信区间为:【72.8864,74.4496】。
2. 绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。
《SPSS统计软件》期末复习题答案

《SPSS 统计软件》期末复习题答案1. 某单位对100名女生测定血清总蛋白含量,数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。
2. 绘出习题1所给数据的直方图、盒形图和QQ 图,并判断该数据是否服从正态分布。
3. 正常男子血小板计数均值为922510/L , 今测得20名男性油漆工作者的血小板计数值(单位:910/L )如下:220 188 162 230 145 160 238 188 247 113126 245 164 231 256 183 190 158 224 175问油漆工人的血小板计数与正常成年男子有无异常?4. 在某次考试中,随机抽取男女学生的成绩各10名,数据如下:男:99 79 59 89 79 89 99 82 80 85女:88 54 56 23 75 65 73 50 80 65假设总体服从正态分布,比较男女得分是否有显著性差异。
SPSS调查报告 - 期末作业

--------------------------------- --------- 订 -----------------------------------------线----------------------------------------姓名 学号二、调查目的我们希望通过本次调查了解广东财经大学本部学生选择收费代课的原因,以及对本专业学习、实习实践的认知程度,是否支持放弃学习去实习或者做自己的事情,是否支持收费代课。
同时,我们也希望通过这份调查报告揭露出的一些情况,一方面,帮助学生更好地权衡学习与实习的利弊,更加理性地对待收费代课的行为,做出对自己正确合适的选择;另一方面,引起学校对这种收费代课现象的重视,给学校提一些建议,希望学校采取一些措施改善这种不良校风。
三、调查方法从可行性角度出发,本次调查采用非概率随机抽样的街头拦截法,集中对象为本部大三大四的同学,以自愿形式对本部同学分发调查问卷,总共发出80份问卷,回收80份,有效问卷80份。
收集问卷之后,利用spss软件进行数据整理与分析,最后把结论整理成调查报告。
调查报告中采用的数据分析方法主要有:频数分析、多选项分析、交叉列联表行列变量间关系的分析、单因素方差分析等。
四、描述统计1、对样本性别作频数分析从上表可以看出,这次填写问卷的女生较多,占了样本的66.3%,这与我们学校男女比例不均衡有很大的关系,样本的男女比例不相等,也可以较好地接近学校的实际情况,有利于我们得到更为准确的结论。
2、对样本年级作频数分析从上表可知,参加问卷调查的大三大四学生比例明显比较高,这与一开始我们预期相符,样本中大三大四学生所占比例较多,有利于我们得到更为有针对性的结论。
3、对年级与班级出勤率作交叉列联表行列变量间关系的分析由表可知,大三班级出勤率处于一般水平的班级多达14个,总体为46,占的比例超过30%;大四班级出勤率处于一般水平的班级达到4个,总体15,占的比例接近26.7%。
SPSS期末大作业-完整版

第1题:基本统计分析1分析:本题要求随机选取80%的样本,因而需要选用随机抽样的方法,在此选择随机抽样中的近似抽样方法进行抽样。
其基本操作步骤如下:数据→选择个案→随机个案样本→大约(A)80 所有个案的%。
1、基本思路:(1)由于存款金额为定距型变量,直接采用频数分析不利于对其分布形态的把握,因而采用数据分组,先对数据进行分组再编制频数分布表。
此处分为少于500元,500~2000元,2000~3500元,3500~5000元,5000元以上五组。
分组后进行频数分析并绘制带正态曲线的直方图。
(2)进行数据拆分,并分别计算不同年龄段储户的一次存取款金额的四分位数,并通过四分位数比较其分布上的差异。
操作步骤:(1)数据分组:【转换→重新编码为不同变量】,然后选择存取款金额到【数字变量→输出变量(V)】框中。
在【名称(N)】中输入“存取款金额1”,单击【更改(H)】按钮;单击【旧值和新值】按钮进行分组区间定义。
存取款金额1频率百分比有效百分比累积百分比有效1.00 82 34.6 34.6 34.62.00 76 32.1 32.1 66.73.00 104.2 4.2 70.94.00 22 9.3 9.3 80.25.00 47 19.8 19.8 100.0 合计237 100.0 100.0(2)【分析→描述统计→频率】;选择“存款金额分组”变量到【变量(V)】框中;单击【图标(C)】按钮,选择【直方图】和【在直方图上显示正态曲线】;选中【显示频率表格】,确定。
(3)【数据→拆分文件】,选择“年龄”变量到【分组方式】框中,选中【比较组】和【按分组变量排序文件】,确定;【分析→描述统计→频率】,选择“存款金额”到【变量】框中,单击【统计量】按钮,选择【四分位数】→继续→确定。
统计量存(取)款金额20岁以下N有效1缺失0 百分位数25 50.00 50 50.00 7550.00 20~35岁N有效 131 缺失0 百分位数25 500.00 50 1000.00 755000.0035~50岁N有效 73 缺失0 百分位数25 500.00 50 1000.00 75 4500.0050岁以上N有效32缺失0 百分位数25 525.00 50 1000.00 752000.00结果及结果描述:频数分布表表明,有一半以上的人的一次存取款金额少于2000元,且有34.6%的人的存取款金额少于500元,19.8%的人的存取款金额多于5000元,下图为相应的带正态曲线的直方图。
统计学基于spss期末考试题库及答案

统计学基于spss期末考试题库及答案统计学基于SPSS期末考试题库及答案一、选择题(每题2分,共20分)1. 在SPSS中,数据视图和变量视图分别对应于:A. 表格和图表B. 表格和变量C. 变量和表格D. 图表和变量答案:B2. 以下哪个选项不是SPSS中的数据类型?A. 数字B. 文本C. 日期D. 图像答案:D3. 在SPSS中进行描述性统计分析时,通常使用哪个菜单?A. 分析B. 转换C. 描述统计D. 报告答案:C4. SPSS中,进行t检验的正确步骤是:A. 分析 > 比较均值 > 独立样本T检验B. 分析 > 描述统计 > 描述C. 分析 > 相关性 > 双变量D. 分析 > 回归 > 线性答案:A5. 如果要在SPSS中创建一个饼图,应该选择:A. 图表 > 图表构建器B. 图表 > 图形C. 分析 > 图表D. 转换 > 图表答案:A6. 在SPSS中,要进行方差分析(ANOVA),应该选择哪个菜单?A. 分析 > 比较均值B. 分析 > 描述统计C. 分析 > 相关性D. 分析 > 回归答案:A7. 在SPSS中,进行因子分析时,通常使用哪个菜单?A. 分析 > 降维B. 分析 > 回归C. 分析 > 描述统计D. 分析 > 比较均值答案:A8. 在SPSS中,要进行信度分析,应该选择哪个菜单?A. 分析 > 描述统计B. 分析 > 相关性C. 分析 > 降维D. 分析 > 回归答案:C9. 在SPSS中,进行聚类分析时,通常使用哪个菜单?A. 分析 > 降维B. 分析 > 回归C. 分析 > 描述统计D. 分析 > 比较均值答案:A10. SPSS中,进行相关性分析时,通常使用哪个菜单?A. 分析 > 描述统计B. 分析 > 相关性C. 分析 > 回归D. 分析 > 比较均值答案:B二、简答题(每题5分,共20分)1. 简述在SPSS中进行数据清洗的一般步骤。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.作业1(基本统计+参数检验+方差分析1)利用城际出行行为数据,从中随机选取90%的样本,实现以下分析目标:(1)分析出行时间的分布,需做直方图。
(2)分析不同性别的出行方式是否一致。
(3)检验老年人(≥60)与其他人的出行时间是否有显著差异。
(4)检验是否老年人和出行目的两因素对其它时间的影响(考虑交互作用)。
1.1 分析出行时间的分布,需做直方图1.1.1 解题思路首先,根据题目要求在城际出行行为数据中随机选择90%的样本;由于出行时间分布数据是定距变量,且出行时间数据数量较多,不宜使用频数进行分析。
因此在分析之前先对出行时间进行分组,再进行频数分布。
根据公式(1-(1-1)中n为数据个数,对结果四舍五入取整后为理论分组数目。
原样本数为235,随机选择之后剩余样本是n为213个,根据公式(1-1)计算得到分组数目为9。
选中的数据中出行时间的最大值为150,出行时间的最1.1.2操作步骤数据选择:【数据→选择个案】,选择【随机个案样本】→【样本】→在【大约】中填入“90%”→选择【删除未选定的个案】,点击确认。
剩下的即为随机选择之后的数据。
数据分组:【转换】→【重新编码为不同变量】→将“出行时间”加入到有边框中,输出变量名称改为“城市出行时间分组”,点击【更改】,在点击【旧值和新值】,按照60-70、70-80、80-90、90-100、100-110、110-120、120-130、130-140、140-150,分别对应1,2,3,4,5,6,7,8,9。
点击【完成】。
频数分析:【分析】→【描述统计】→【频率】,将“城市出行时间分组”加入到【变量】中。
点击【图表】→【直方图】→选中【在直方图上显示正态曲线】→【确定】。
1.1.3输出结果与分析总计213 100.0 100.0图1-1城市出行时间分布直方图从表1-1中可以看出,出行时间分布中,出行时间在60-70分钟的比较少,占比为4.7%,出行时间在120-130分钟、130-140分钟和140-150分钟的都比较少,三组总和占比仅为6.1%。
出行时间在70-120分钟之间的人数最多,总体占比为89.2%。
这其中90-100分钟的出行人数比较少。
整体来看大部分的出行时间为与70-120分钟之内,也就是位于中间位置。
从图1-1可以看出,用户的出行分布时间基本符合正态分布,主要集中在70-120分钟之间,两边的用户出行时间分布较少。
这也与表1-1结果所对应。
1.2 分析不同性别的出行方式是否一致1.2.1 解题思路分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。
对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。
具体来说,在1.1.1随机抽选的90%数据的基础上,借助通用的非参数检验方法—卡方检验,编制交叉列联表,即两个或两个以上变量交叉分组后形成的频数分布表。
原假设:不同性别的出行方式不一致。
1.2.2 操作步骤交叉列联表:【分析→描述统计→交叉表】,将“出行方式”加入【行(O)】中,将“性别”加入【列(C)】中,点击【统计】,选择【卡方】,点击【单元格】,选择【计数→实测值、期望值,百分比→行、列、总计,非整数权重→单元格计数四舍五入】→选择【选择簇状条形图】点击【确定】。
1.2.3 输出结果与分析得到结果,交叉列联表如表1-2所示。
在213份调查样本中,选择小汽车的人数为134人,选择轨道交通的人数为79人,分别占样本总数的62.9%和37.1%。
在男、女期望值分别为119、94,分别占样本总数的55.9%和44.1%。
对不同性别进行分析:在119位男性中,66.4%选择小汽车出行,33.6%选择轨道交通出行,小汽车选择比例略高于总比例(62.9%),轨道交通略低于总比例(37.1%);在94位女性中,58.5%选择小汽车出行,41.5%选择轨道交通出行,小汽车选择比例略低于总比例(62.9%),轨道交通略高于总比例(37.1%)。
由此可知男性和女性都更愿意乘坐小汽车出行。
对不同出行方式分别分析:选择小汽车的134人中,男性、女性的人数分别是79和55人,各占小汽车出行总数的59%和41%,其中,男性的比例略高于总比例(55.9%),女性略低于总比例(44.1%);选择轨道交通的79人中,男性、女性的人数分别是40和39人,各占本行总数的50.6%和49.4%,其中,男性的比例略低于总比例(55.9%),女性略高于总比例(44.1%)。
由此可知,男性比女性更愿意乘坐小汽车出行。
表1-3卡方检验结果表从表1-3可以看出,概率P值为0.237,大于显著性水平 (0.05),因此接受原假设,认为行列变量不具有相关性。
得出结论:性别与出行方式相互独立,不具有相关性。
图1-2出行方式条形图1.3 检验老年人(≥60)与其他人的出行时间是否有显著差异1.3.1 解题思路该问题中,由于考虑老年人和其他人的出行时间是否存在差异,可以将老年人(≥60)与其他人分为两个样本,两种类型的人可以看成两个总体,并且两个样本是来自两个总体的独立样本。
且出行时间可以近似认为服从正态分布,因此,可以采用两独立样本t检验的方法进行分析。
两独立样本t检验的目的是:利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异,比较符合本题的要求。
原假设为来老年人与其他人对出行时间无显著性差异。
1.3.2 操作步骤两独立样本t检验:选择菜单【分析→比较平均值→独立样本T检验】,将“出行时间”加入【检测变量T】框,将“年龄”加入到【分组变量G】框,并点击【定义组】,选择【割点】,输入“4”,点击【确定】。
1.3.3 输出结果与分析表1-5t检验结果表通过表1-4可以看出,老年人的平均出行时间为105分钟,其他人为96.10分钟,可以看出老年人和其他人的出行时间二者存在一定差距。
通过检验应推断这种差异是是抽样误差造成的还是存在系统误差。
表1-5是老年人和其他人出行时间均值差的检验结果。
分析结论分两步完成。
第一步,两总体方差是否相等的F检验。
该检验的F统计量观测值为0.125,概率P为0.724,大于显著性水平0.05,可认为两总体方差不存在显著性差异;第二步,两总体均值差的检验。
在第一步中,由于两总体方差无显著差异,因此应看第一行(假定等方差)t检验的结果。
其中,t统计量的观测值为1.724,对应的双尾概率P值为0.086.如果显著性水平 为0.05,由于概率P 值大于0.05,不能拒绝零假设,因此得出结论:老年人(≥60)与其他人的出行时间无显著差异。
1.4 检验是否老年人和出行目的两因素对其它时间的影响(考虑交互作用)。
1.4.1 解题思路检验是否老年人和出行目的两因素对其它时间的影响并且考虑交互作用,因而选择多因素方差分析解决问题。
多因素方差分析可用来研究两个及两个以上控制变量是否对观测变量产生显著影响。
多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响。
在本题目中,首先,将是否老年人进行数据分组,定义新的变量,再进行多因素方差分析。
1.4.2 操作步骤数据分组:数据分组:【转换】→【重新编码为不同变量】→将“年龄”加入到右边框中,输出变量名称改为“老年人分组”,点击【更改】,在点击【旧值和新值】,按照最小值到3、4到最大值分别对应0和1。
点击【确定】。
多因素方差分析:【分析】→【一般线性模型】→【单变量】,选择“其它时间”到【因变量(D )】,选择“老年人分组”和“出行目的”到【固定因子(F )】,【选项】→勾选【描述统计】,点击【确定】。
1.4.3 输出结果及分析表 1-6 主体因子情况表首先,这里以是否为老年人和出行目的为控制变量,其它时间为观测变量,建立固定效应的饱和模型。
其中零假设为是否为老年人对其它时间没有产生显著影响(即是否为老年人对其它时间的效应同时为0);不同出行目的对其它时间没有显著差异(即不同的出行目的对其它时间的效应同时为0);是否为老年人和出行目的的不同对其它时间没有产生显著的交互影响(即交互效应对其它时间的效应同时为0)。
由表1-8克制各F 检验统计量的观测值在一定自由度下的概率P 值。
F 老年人分组、4X F 、4*X F 老年人分组的概率P 值分别为0.001、0.006和0.520。
如果显著水平 为0.05,由于F 老年人分组、4X F 的概率P 值小于显著性水平,则应拒绝零假设,可以认为是否为老年人、出行目的不同对其它时间总体均值存在显著差异,对其它时间的效应不同时为不同时为0,各自不同的水平给其它时间带来了显著影响。
同时,由于4*X F 老年人分组的概率P 大于显著性水平,因此不应拒绝零假设,可以认为是否为老年人和出行目的没有对其它时间产生显著的交互作用,是否为老年人以及出行目的的不同对其它时间都将不产生显著影响。
2.作业10(回归分析5)在城际出行行为数据中以“出行方式”为因变量,分析出行时间、其他时间、出行目的、和性别四个变量对城际出行方式的影响。
(用强制进入策略,需给出最终模型的数学表达式,并对显著影响因素进行分析)。
2.1 解题思路”出行方式“为二分类变量,当回归分析中的被解释变量为二分类型变量时,通常采用二项Logistic 回归分析方法。
“出行方式”是被解释变量,其余的变量时解释变量。
由于解释变量中“出行目的”、“性别”为分类变量,分类变量通常不能像数值型变量那样直接作为解释变量进入回归方程,需要转化为虚拟变量才能进行分析。
2.2 操作步骤【分析】→【回归】→【二元Logistic 】,然后将把被解释变量“出行方式”选到【因变量】框,解释变量“出行时间、其他时间、出行目的、和性别”选择到【协变量】框中。
单击【分类】按钮,将“性别和出行目的“导入【分类协变量】中,选择【指示符】。
点击【选项→分类图、霍斯默-莱梅肖拟合优度、Exp(B)的置信区间→95】,点击【保存→概率、组成员、包括协方差矩阵】2.3 输出结果与分析表2-1给出了虚拟解释变量的取值编码和分布情况。
对由分类型变量派生出的虚拟解释变量,SPSS自动命名为原变量名。
例如出行目的派生出的两个虚拟变量分别命名为收入(1)和收入(2),依次表示“是否为办公”和“是否为购物或娱乐”,两变量均为0表示“其他”;性别派生出一个虚拟变量为性别(1),表示“是否男性”,取值为0表示女性。
表2-2显示了二项Logistic分析初始步,也即零模型(第0步,方程中只有常数项,其他回归系数均为0)的混淆矩阵。
可以看到,134人实际乘坐小汽车且模型预测正确,正确率为100%;79人实际实际选择了轨道交通但模型均预测错误,正确率为0%,模型总的预测正确率为62.9%。