应用统计学实验报告(spss软件)
spss实验报告,心得体会

spss实验报告,心得体会篇一:SPSS实验报告SPSS应用——实验报告班级:统计0801班学号:1304080116 姓名: 宋磊指导老师:胡朝明2010.9.8一、实验目的:1、熟悉SPSS操作系统,掌握数据管理界面的简单的操作;2、熟悉SPSS结果窗口的常用操作方法,掌握输出结果在文字处理软件中的使用方法。
掌握常用统计图(线图、条图、饼图、散点、直方图等)的绘制方法;3、熟悉描述性统计图的绘制方法;4、熟悉描述性统计图的一般编辑方法。
掌握相关分析的操作,对显著性水平的基本简单判断。
二、实验要求:1、数据的录入,保存,读取,转化,增加,删除;数据集的合并,拆分,排序。
2、了解描述性统计的作用,并1掌握其SPSS的实现(频数,均值,标准差,中位数,众数,极差)。
3、应用SPSS生成表格和图形,并对表格和图形进行简单的编辑和分析。
4、应用SPSS做一些探索性分析(如方差分析,相关分析)。
三、实验内容:1、使用SPSS进行数据的录入,并保存: 职工基本情况数据:操作步骤如下:打开SPSS软件,然后在数据编辑窗口(Data View)中录入数据,此时变量名默认为var00001,var00002,…,var00007,然后在Variable View窗口中将变量名称更改即可。
具体结果如下图所示:输入后的数据为:将上述的数据进行保存:单击保存即可。
2、读取上述保存文件:选择菜单File--Open—Data;选择数据文件的类型,并输入文件名进行读取,出现如下窗口:选定职工基本情况.sav文件单击打开即可读取数据。
3、对上述数据新增一个变量工龄,其操作步骤为将当前数据单元确定在某变量上,选择菜单Data—Insert Variable,SPSS自动在当前数据单元所在列的前一列插入一2个空列,该列的变量名默认为var00016,数据类型为标准数值型,变量值均是系统缺失值,然后将数据填入修改。
结果如下图所示:篇二:SPSS相关分析实验报告本科教学实验报告(实验)课程名称:数据分析技术系列实验实验报告学生姓名:一、实验室名称:二、实验项目名称:相关分析三、实验原理相关关系是不完全确定的随机关系。
统计学实验SPSS实习报告

统计学实验SPSS实习报告实验报告二实验项目:描述性统计分析实验的目的:1。
掌握数据集中趋势和离中趋势分析方法2.熟悉掌握各个分析过程的基本步骤以及彼此之间的联系和区别.实验内容:(1)Frequencies过程(2)Descriptives过程(3)Expiore 过程(4)Croostabs过程一、数据和输入与保存频率[数据集1] E:\案例数据资料\数据集\第五章\5.1陕西省城市居民消费状况研究\数据集\陕西省城市居民消费状况研究.sav实验数据的统计量数目为21 实际检验统计量数目为21 全部检验。
统计量时间分组N 有效21缺失0该组检验是我根据软件数据,依据年限的不同分为了一共4组数据的时间分组数据,从而大大的减少了数据的分析复杂性。
最后得出的时间分组的表格如下。
时间分组频率百分比有效百分比累积百分比有效1980以下 3 14.3 14.3 14.31980到1990 10 47.6 47.6 61.91990到1995 5 23.8 23.8 85.71995以上 3 14.3 14.3 100.0合计21 100.0 100.0描述统计分析[数据集1] E:\案例数据资料\数据集\第五章\5.1陕西省城市居民消费状况研究\数据集\陕西省城市居民消费状况研究.sav[数据集1] E:\案例数据资料\数据集\第五章\5.1陕西省城市居民消费状况研究\数据集\陕西省城市居民消费状况研究.sav有表格可以看出数据数目一共21个有小数据21个,其中极小值为1.00极大值为4.00.均值为2.3810.我们是以时间分组的一组描述数据量,既可以得出下列的数据分析表格。
如下为数据的执行命令。
EXAMINE VARIABLES=时间分组/PLOT BOXPLOT STEMLEAF/COMPARE GROUPS/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.数据的游览分析[数据集1] E:\案例数据资料\数据集\第五章\5.1陕西省城市居民消费状况研究\数据集\陕西省城市居民消费状况研究.sav描述统计量标准误时间分组均值 2.3810 .20090均值的 95% 置信区间下限 1.9619上限 2.80005% 修整均值 2.3677中值 2.0000方差.848标准差.92066极小值 1.00极大值 4.00范围 3.00四分位距 1.00偏度.387 .501峰度-.456 .972 时间分组时间分组 Stem-and-Leaf PlotFrequency Stem & Leaf3.00 1 . 000.00 1 .10.00 2 . 0000000000.00 2 .5.00 3 . 00000.00 3 .3.00 4 . 000Stem width: 1.00Each leaf: 1 case(s)CROSSTABS/TABLES=时间分组 BY 消费性支出(元)/FORMAT=AVALUE TABLES/CELLS=COUNT/COUNT ROUND CELL.交叉表[数据集1] E:\案例数据资料\数据集\第五章\5.1陕西省城市居民消费状况研究\数据集\陕西省城市居民消费状况研究.sav计数最后实验总结:在该组的实验中,我们利用的是spss软件来实现的一系列的数据分析与统计,我们选择的是数据中以自己独立的时间分组来实现数据的整理以及一系列的数据处理,最后得出了上面的一系列内容,这次实验内容我学到了很多,也从中学习到了spss软件的实际操作。
应用统计学实验报告(spss软件)

应⽤统计学实验报告(spss软件)我国31个省市⾃治区第三产业发展状况分析(数据来源:中宏统计数据库)2010年31个省市第三产业增加值⼀、因⼦分析1.考察原有变量是否适合进⾏因⼦分析为研究全国各地区第三产业的发展状况,现⽐较其第三产业增加值的差异性和相似性,收集到2010年全国31个省市⾃治区各类第三产业包括交通运输、仓储和邮政业,批发和零售业,住宿和餐饮业,⾦融业,房地产业及其他产业的年增产值数据。
由于涉及的变量较多,直接进⾏地区间的⽐较分析⾮常繁琐,因此⾸先考虑采⽤因⼦分析⽅法减少变量个数,之后再进⾏⽐较和综合评价。
表1-1(a)原有变量的相关系数矩阵由表1-1(a)可以看到,所有的相关系数都很⾼,各变量呈较强的线性关系,能够从中提取公因⼦,适合做因⼦分析。
表1-1(b)巴特利特球度检验和KMO检验由表1(b)可知,巴特利特球度检验统计量的观测值为295.349,相应的概率p接近0,。
如果显著性⽔平a为0.5,由于概率p⼩于显著性⽔平a,应拒绝零假设,认为相关系数矩阵与单位矩阵有显著差异。
同时,KMO值为0.860,根据Kaiser给出了KMO 度量标准可知原有变量适合进⾏因⼦分析。
2.提取因⼦⾸先进⾏尝试性分析。
根据原有变量的相关系数矩阵,采⽤主成分分析法提取因⼦并选取特征根值⼤于1的特征根。
表1-2(a)因⼦分析的初始解(⼀)表1-2(a)显⽰了所有变量的共同度数据。
第⼀列是因⼦分析初始解下的变量共同度,表明对原有6个变量如果采⽤主成分分析法提取所有特征根(6个),那么原有变量的所有⽅差都可被解释,变量的共同度均为1。
第⼆列是在按指定提取条件提取特征根时的共同度。
可以看到,所有变量的绝⼤部分信息(⼤于84%)可被因⼦解释,这些变量的共同度均较⾼,变量的信息丢失较少,只有交通运输这个变量的信息丢失较多(近20%),因此本次因⼦提取的总体效果不理想。
重新指定特征根的标准,指定提取两个因⼦,结果如下:表1-2(b)因⼦分析的初始解(⼀)表1-2(c)因⼦解释变量原有变量总⽅差的情况表1-2(c)中,第⼀列是因⼦编号,第⼆列到第四列(第⼀组数据项)描述了初始因⼦解的情况,第五列到第七列(第⼆组数据项)描述了因⼦解的情况。
SPSS统计软件实训报告

SPSS统计软件实训报告第一篇:SPSS统计软件实训报告一、实训目的SPSS统计软件实训课是在我们在学习《统计学》理论课程之后所开设的一门实践课。
其目的在于,通过此次实训,使学生在掌握了理论知识的基础上,能具体的运用所学的统计方法进行统计分析并解决实际问题,做到理论联系实际并掌握统计软件SPSS的使用方法。
,二、实训时间与地点:时间:2012年1月9日至2012年1月13日地点:唐山学院北校区A座502机房三、实训要求:这次实训内容为上机实训,主要学习SPSS软件的操作技能,以及关于此软件的一些理论和它在统计工作中的重要作用。
对我们的主要要求为,运用SPSS软件功能及相关资料来完成SPSS操作,选择有现实意义的课题进行计算和分析,最后递交统计分析报告,加深学生对课程内容的理解的。
我们小组的研究课题是社会消费品零售总额的分析。
四、实训的主要内容与过程:此次实训,我大概明白了SPSS软件的基本操作流程,也掌握了如何排序、分组、计算、合并、增加、删除以及录入数据;学会了如何计算定基发展速度、环比发展速度等动态数列的计算;明白了如何进行频数分析、描述分析、探索分析以及作图分析;最大的收获是学会了如何运用SPSS软件对变量进行相关分析、回归分析和计算平均值、T检验和假设性检验。
通过这次试训,我基本上掌握了SPSS软件的主要操作过程,也学会了运用SPSS软件进行各种数据分析。
这些内容,也就是我们SPSS统计软件实训的主要内容。
四、实训结果与体会五天的SPSS软件实训终于结束了,虽然实训过程充满了酸甜苦辣,但实训结果却是甜的。
看着小组的课题报告,心里有种说不出来的感触。
高老师在对统计理论及SPSS 软件功能模块的讲解的同时更侧重于统计分析在各项工作中的实际应用,使我们不仅掌握SPSS 软件及技术原理而且学会运用统计方法解决工作和学习中的实际问题这个实训。
我真真正正学到了不少知识,另外,也提高了自己分析问题解决问题的能力。
spss统计学软件实验报告

西安邮电大学统计软件实习报告书系部名称:经济与管理学院营销策划系学生姓名:陈志强专业名称:商务策划管理时间:2012年5月21日至2012年5月25日实习内容:熟悉和学习SPSS软件,包括1.基本统计实验(均值、中位数、众数、全距、方差与标准差、四分位数、十分位数、频数、峰度、偏度);2均值比较和T检验(均值比较、单一样本T检验、两独立样本T检验和两配对样本T检验);3.相关分析(二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关分析);4.回归分析(一元线形回归和多元线形回归)。
实习目的:掌握SPSS基本的统计描述方法,可以对要分析的数据的总体特征有比较准确的把握,从而为以后实验项目选择其他更为深入的统计分析方法打下基础。
实习过程:实验1:二元定距变量的相关分析★研究问题:某工厂生产多种产品,分别对其进行两标准评分,评分结果如下表,现在要研究这两个标准之间是否具有相关性。
★实现步骤『步骤1』在“Analyze”菜单“Correlate”中选择Bivariate命令,如图3-1所示。
图3-1 选择Bivariate Correlate 菜单『步骤2』在弹出的如图3-2所示Bivariate Correlate对话框中,从对话框左侧的变量列表中分别选择“标准1”和“标准2”变量,单击按钮使这两个变量进入Variables框。
在Correlation Coefficients框中选择相关系数,本例选用Pearson项。
在Test of significance框中选择相关系数的双侧(Two-tailed)检验,检验两个变量之间的相关取向,也就是从结果中来得到是正相关还是负相关。
图3-2 Bivariate Correlate对话框选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示。
一个星号表示当用户指定的显著性水平为0.05时,统计检验的相伴概率值小于等于0.05,即总体无显著性相关的可能性小于等于0.05;两个星号表示当用户指定的显著性水平为0.01时,统计检验的相伴概率值小于等于0.01,即总体无显著线形相关的可能性小于等于0.01。
应用统计SPSS实验报告

姓名 年级专业
课程名称
实验小组 成员
《SPSS》实验报告
Spss统计分析
成绩 学号 实验名称
——
指导教师
教师 评语
教师签名:
年月 日 实验内容
某班级同学基本信息如表,试作基本的描述性统计分析(将数据 文件保存为“实验5-4) (1)对性别进行频数分析,并作出条形图; (2)求身高的均值、中位数、最大值、最小值、标准差; (3)求体重的均值、标准差,并用体重做带正态曲线的直方图; (4)分性别求英语成绩和数学成绩的最大值、最小值、平均值和标 准差; (5)分性别求生活费的平均值、中位数和标准差; (6)求体重的峰度、偏度,对照带正态曲线的直方图理解结果
(5)
由图可知:一共20人,按性别分类,男女各10人, 男生的生活费平均值为680.63,中位数为 552.85,标准差为463.49275。女生的生活费平均 值为555.9860,中位数为495.18,标准差为 295.01911。由上述数据可知:从总体上说男生的生 活费要高于女生。
(6)
由图可知:一共20人,体重的峰度系数为0.992,偏度系数为 0.512,属于右偏曲线。
实验结果 (1)
Statistics
ÐÔ±ðBiblioteka N Valid20Missing
0
由图可知:一共20人,按性别进行分析,男女数量 是一致的各10人,所占比重一致。
(2)
由图可知:一共有20人,身高的平均值为 158.6730,标准差为159.2500,最小值为 144.00,最大值为176.10,说明身高集中在160左 右。
(3)
由图可知:一共有20个人,按体重划分,体重的均 值为44.092,标准差为44.3500;最小值为 30.17,说明大部分人的体重集中在45左右,最大 值为58.87
spss统计实验报告

spss统计实验报告SPSS统计实验报告引言:SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,广泛应用于社会科学、经济学、医学和教育等领域。
本文将以一项关于学生学习成绩的统计实验为例,展示如何使用SPSS进行数据处理和分析。
一、实验目的本次实验的目的是探究学生的学习时间和学习成绩之间的关系。
通过对一组学生进行调查,收集他们的学习时间和成绩数据,然后使用SPSS进行统计分析,以揭示学习时间与学习成绩之间的相关性。
二、实验设计与数据收集我们选择了100名高中生作为实验对象,通过问卷调查的方式收集他们的学习时间和成绩数据。
学习时间以每周学习小时数为单位,成绩以百分制表示。
通过这种方式,我们可以得到一个包含学习时间和成绩两个变量的数据集。
三、数据处理与清洗在进行统计分析之前,我们需要对数据进行处理和清洗,以确保数据的准确性和一致性。
首先,我们检查数据是否存在缺失值或异常值。
如果发现有缺失值或异常值,我们可以选择删除这些数据或进行适当的填充和修正。
其次,我们对数据进行变量命名和编码,以便后续的分析和解释。
最后,我们对数据进行了简单的描述性统计,包括计算平均值、标准差和分布情况等。
四、数据分析与结果在进行数据分析时,我们首先进行了相关性分析,以确定学习时间和成绩之间的关系。
通过SPSS的相关性分析功能,我们计算了学习时间和成绩之间的皮尔逊相关系数。
结果显示,学习时间和成绩之间存在显著的正相关关系(r=0.75,p<0.01),即学习时间越长,成绩越好。
接下来,我们进行了回归分析,以进一步探究学习时间对成绩的影响程度。
通过SPSS的线性回归功能,我们建立了一个学习时间与成绩之间的回归模型。
回归分析的结果显示,学习时间对成绩的解释程度为56%,即学习时间可以解释学生成绩的变异程度的56%。
此外,回归模型的显著性检验结果也显示,该模型的回归系数是显著的(p<0.01)。
《统计实习》SPSS实验报告

《统计实习》SPSS实验报告实验报告二实验项目:描述性统计分析实验目的:1、掌握数据集中趋势和离中趋势的分析方法;2、熟练掌握各个分析过程的基本步骤以及彼此之间的联系和区别。
实验内容及步骤一、数据输入案例:对6名男生和6名女生的肺活量的统计,数据如下:1.打开SPSS软件,进行数据输入:通过打开数据的方式对XLS的数据进行输入其变量视图为:二、探索分析进行探索分析得出如下输出结果:浏览由上表可以看出,6例均为有效值,没有记录缺失值得情况。
由上表可以看出,男女之间肺活量的差异,男生明显优于女生,范围更广,偏度大。
男男 Stem-and-Leaf PlotFrequency Stem & Leaf2.00 1 . 342.00 1 . 892.00 2 . 02Stem width: 1000Each leaf: 1 case(s)女女 Stem-and-Leaf PlotFrequency Stem & Leaf2.00 1 . 233.00 1 . 568 1.00 2 . 0Stem width: 1000Each leaf: 1 case(s)三、频率分析进行频率分析得出如下输出结果:由上图可知,分析变量名:肺活量。
可见样本量N为6例,缺失值0例, 1500以下的33%,1500-2000男生33%女生50%,2000以上女生16.7%,男生33%。
四、描述分析进行描述分析得出如下输出结果:由上图可知,分析变量名:工资,可见样本量N为6例,极小值为男1342女1213,极大值为男2200女2077,说明12人中肺活量最少的为女生是1213,最多的为男生有2200,均值为1810.50/1621.33,.标准差为327.735/325.408,离散程度不算大。
五、交叉分析实验报告三实验项目:均值比较实验目的:.学习利用SPSS进行单样本、两独立样本以及成对样本的均值检验。
实验内容及步骤(一)描述统计案例:某医疗机构为研究某种减肥药的疗效,对15位肥胖者进行为期半年的观察测试,测试指标为使用该药之前和之后的体重。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我国31个省市自治区第三产业发展状况分析(数据来源:中宏统计数据库) 2010年31个省市第三产业增加值一、因子分析1.考察原有变量是否适合进行因子分析为研究全国各地区第三产业的发展状况,现比较其第三产业增加值的差异性和相似性,收集到2010年全国31个省市自治区各类第三产业包括交通运输、仓储和邮政业,批发和零售业,住宿和餐饮业,金融业,房地产业及其他产业的年增产值数据。
由于涉及的变量较多,直接进行地区间的比较分析非常繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。
表1-1(a)原有变量的相关系数矩阵由表1-1(a)可以看到,所有的相关系数都很高,各变量呈较强的线性关系,能够从中提取公因子,适合做因子分析。
表1-1(b)巴特利特球度检验和KMO检验由表1(b)可知,巴特利特球度检验统计量的观测值为295.349,相应的概率p接近0,。
如果显著性水平a为0.5,由于概率p小于显著性水平a,应拒绝零假设,认为相关系数矩阵与单位矩阵有显著差异。
同时,KMO值为0.860,根据Kaiser给出了KMO度量标准可知原有变量适合进行因子分析。
2.提取因子首先进行尝试性分析。
根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根。
表1-2(a)因子分析的初始解(一)表1-2(a)显示了所有变量的共同度数据。
第一列是因子分析初始解下的变量共同度,表明对原有6个变量如果采用主成分分析法提取所有特征根(6个),那么原有变量的所有方差都可被解释,变量的共同度均为1。
第二列是在按指定提取条件提取特征根时的共同度。
可以看到,所有变量的绝大部分信息(大于84%)可被因子解释,这些变量的共同度均较高,变量的信息丢失较少,只有交通运输这个变量的信息丢失较多(近20%),因此本次因子提取的总体效果不理想。
重新指定特征根的标准,指定提取两个因子,结果如下:表1-2(b)因子分析的初始解(一)表1-2(c)因子解释变量原有变量总方差的情况表1-2(c)中,第一列是因子编号,第二列到第四列(第一组数据项)描述了初始因子解的情况,第五列到第七列(第二组数据项)描述了因子解的情况。
从第一组数据项中可以看到,第一个因子的特征根值为5.389,解释6个变量总方差的89.825%,累积方差贡献率也为89.825%。
从第二组数据项中可以看到,指定提取的一个因子解释了原有变量总方差的94.999%,原有变量丢失较少,因子分析效果理想。
图1-2(d)因子的碎石图在图1-2(d)中,横坐标为因子数目,纵坐标为特征根。
可以看到,第一个因子的特征根值很高,对解释原有变量的贡献最大;第三个开始,因子的特征根值都较小,对原有解释变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取两个因子是合适的。
表1-2(e) 因子载荷矩阵表1-2(e)显示了因子载荷矩阵,是因子分析的核心内容,根据此表可以写出本案例的因子分析模型:批发和零售业=0.980a+0.028b房地产业=0.979a-0.078b其他=0.973a-0.108b住宿和餐饮业=0.934a+0.140b金融业=0.919a-0.352b交通运输、仓储和邮政业=0.898a+0.386b由表5可知,6个变量在提取的第一个因子a上的载荷都很高,意味着它们与第一个因子的相关程度高,第一个因子很重要;第二个因子b与原有变量的相关性均很小,它对原有变量的解释作用不显著。
另外还可以看到,这两个因子的实际含义比较模糊。
3.因子的命名解释采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。
指定按第一个因子载荷降序的顺序输出旋转后的因子载荷以及旋转后的因子载荷图,结果如下:表1-3(a)旋转后的因子载荷矩阵由上表可知,金融业,其他,房地产业在第一个因子是上有较高的载荷,第一个因子主要解释了这几个变量,可解释为生产和生活服务的产业;交通运输和邮政业,住宿和餐饮业,批发和零售业在第二个因子上有较高的载荷,第二个因子主要解释了这几个变量,可解释为流通服务的产业。
(其中,批发和零售业在两个因子上的载荷大致相同,这里把它归为在第二个因子上的载荷较高。
)与旋转前相比,因子含义较为清晰。
表1-3(b)因子旋转中的正交表1-3(c)因子协方差矩阵由表1-3(c)因子的协方差矩阵,可以看出,两个因子没有线性相关性,实现了因子分析的设计目标。
图1-3(d)旋转后的因子载荷图由上图可以清晰的看出,交通运输和邮政业、金融业比较靠近两个因子坐标轴,表明如果分别用第一个因子刻画金融业,用第二个因子刻画交通运输和邮政业,信息丢失效果较少,效果较好。
但如果用一个因子分别刻画其他变量,则效果不是很理想。
4.计算因子得分采用回归分析法估计因子得分系数,并输出因子得分系数。
表1-4 因子得分系数矩阵根据该表,可写出一下因子得分函数:A=-0.733交通运输+0.071批发和零售-0.184住宿和餐饮+0.903金融+0.304房地产+0.369其他B=1.016交通运输+0.190批发和零售+0.447住宿和餐饮-0.706金融-0.057房地产-0.128其他可见,计算两个因子得分变量的变量值时,交通运输邮政业和金融业的权重较高,但方向恰好相反,这与因子的实际含义是相吻合的。
5.各省市自治区第三产业增值的综合评价计算因子综合得分,并按降序排列,如下表1-5:表1-5 因子综合得分观察上表可见,广东,江苏,山东,浙江的综合得分较高,与其他地区差异较大,其他地区较相似。
则第三产业增加值较高的省市有广东,江苏,山东,浙江四个省,第三产业发展最为迅速,它们多属于沿海地区,是中国的四个最强省;从北京到福建,因子的综合得分都还是正数,说明这些地区的第三产业的发展较为迅速,没有明显差异;而从内蒙古开始,一直到西藏,因子综合得分为负,其发展较缓慢,这些地区的第三产业增产值比较相似。
二、回归分析对提取的两个因子做回归分析,因为有两个因子,所以是多元回归分析,步骤如下:1.拟合优度检验表2-1 强制进入策略依据此表进行拟合优度检验。
由于是此分析多元回归分析,方程有多个解释变量,因此参考调整的判定系数(Adjusted R Square),由上表:由于R2(0.998)非常接近于1,因此认为拟合优度很高,被解释变量税收合计能被模型充分解释。
2.回归方程的显著性检验(F检验)表2-2强制进入策略由此表进行回归方程的显著性检验。
由表可知,被解释变量的回归平方和的均方为359431842.0,剩余平方和及其均方分别为1675533和59840.476,对应的概率p值近似为0.。
显著性水平a为0.05,由于概率p小于显著性水平a,应拒绝回归方程显著性检验的零假设,认为各回归系数与0存在显著性差异,不同时为0,被解释变量税收合计与解释变量全体的线性关系显著,可建立线性模型。
3.回归系数显著性检验(t检验)表2-3 强制进入策略依据此表进行回归系数显著性检验。
由表可知,如果显著性水平a为0.05,所有变量的回归系数显著性t检验的概率p值都小于显著水平a,因此这些偏回归系数与0有显著差异,它们与被解释变量税收合计的线性关系是显著的,先全部保留在方程中。
同时,从容忍度和方差膨胀因子看,两个因子的容忍度和方差膨胀因子都等于1.000(接近于1),所以构建模型时两个因子都不必剔除。
4.多重共线性检测表2-4 强制进入策略依据此表进行多重共线性检测。
由表3-4可知,变量的条件指数均小于10,说明多重共线性较弱;另外由表3-3看出,所有变量的容忍度(Tolerance)都接近于1,方差膨胀因子(VIF)都等于1,表示变量间的共线性很弱。
因此不必重新建模。
因此,由上述分析可以确定回归方程为:第三产业增加值=5691.774+3704.595第1因子+3199.702第2因子5.残差分析图2-5(a)第三产业多元回归分析的残差图由图2-5(a)可以看出,残差图中的点在纵坐标为0的上下随机散落着,残差的均值为0。
图2-5(b)第三产业增加值多元线性回归分析的残差累计概率图由图2-5(b)可知,所有的观测值都接近于直线,表明标准化残差与正态分布不存在显著差异,即观测值符合正态分布,则残差满足了线性模型的前提要求。
6.异方差分析表2-6 标准化残差和标准化预测值的Spearman等级相关分析结果由表2-6可见,残差与预测值的Spearman等级相关系数为0.129,且因为p(0.490)>a(0.05)检验并不显著,因此认为异方差现象并不明显。
7.异常值和强影响点分析由下图数据编辑窗口中的异常值检验结果可知,所有的异常值的绝对值都小于3,所以在所有的观测值中,不存在异常值和强影响点。
图2-7 异常值检测三、K-Means聚类分析下面仍然利用这组数据(2010年全国31个省市自治区第三产业增加值),对地区进行K-Means聚类分析,在本次实验中,要求将其分成3类,初始类中心点由SPSS自行确定(K-Means聚类分析中类的归属是不断调整的,而层次聚类分析中样本所属类一旦确定就不会再改变,其执行效果不理想,所以这里选用K-Means聚类分析)。
结果如下:表3-1(a)31个省市自治区第三产业增加值的K-Means聚类分析结果(一)表3-1(a)展示了3个类的初始类中心的情况。
3个初始类中心点的数据分别是表中Cluster中第1、2、3列所示,其中3中的各指数都是最高的,2最低,1的各指数都处在2,3的中间,由此可知,第3类各指数都是最优的,第1类次之,第2类各指数最不理想。
表3-2 31个省市自治区第三产业增加值的K-Means聚类分析结果(二)。