用spss分析我国各省城镇居民消费水平差异
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析随着中国经济的持续发展,城镇居民的生活水平不断提高,消费水平也呈现出明显的差异。
消费水平的差异性不仅直接反映了城镇居民的经济实力和生活水平,也对整个国民经济的发展有着重要的影响。
对于城镇居民消费水平的差异分析具有重要的理论和现实意义。
一、研究内容本文主要基于SPSS统计软件,对全国城镇居民的消费水平进行差异性分析。
主要研究内容包括以下几个方面:1. 基本情况分析:分析全国城镇居民的基本情况,包括性别、年龄、教育程度、职业等因素对消费水平的影响。
2. 消费水平差异分析:分析不同城镇居民的消费水平情况,包括食品、衣着、居住、交通、通信、教育文化娱乐等方面的消费水平。
3. 影响消费水平的因素:分析影响城镇居民消费水平的主要因素,包括收入水平、家庭人口数、职业类型等。
4. 消费结构分析:分析不同城镇居民的消费结构情况,包括生活必需品和非生活必需品的消费占比。
二、研究方法1. 数据来源:本文所用数据主要来自国家统计局的全国城镇居民收入和消费水平调查数据。
2. 数据处理:利用SPSS软件对收集到的数据进行处理和分析,包括描述性统计分析、方差分析、相关分析等。
3. 统计模型:采用多元线性回归模型来分析影响城镇居民消费水平的主要因素,探讨各因素对消费水平的影响程度。
三、基本情况分析1. 性别差异:通过对全国城镇居民中男女消费水平的比较发现,男性在食品、交通、通信等方面的消费相对较高,而女性在衣着、教育文化娱乐等方面的消费相对较高。
2. 年龄差异:随着年龄的增长,城镇居民的消费水平也呈现出不同的特点。
年轻人更注重时尚和娱乐消费,而中年人更注重家庭生活和子女教育消费。
3. 教育程度差异:受教育程度的影响,不同城镇居民在教育文化娱乐方面的消费水平存在较大差异,受教育程度高的人群更愿意用钱提高生活品质。
4. 职业差异:不同职业的城镇居民在消费水平上也存在明显差异,高收入职业人群的消费水平显著高于低收入职业人群。
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析作者:王津来源:《大经贸》 2019年第6期王津【摘要】本文通过SPSS软件,运用因子分析法,对全国31个省市的城镇居民人均消费水平进行分析,通过对影响居民消费水平的各项指标进行分析,并在此基础上提出相关的建议。
【关键词】城镇居民消费水平因子分析随着居民消费水平的提高,全国不同地区的消费支出和消费结构存在着很大的差异。
例如2018年北京市居民人均消费支出39843元,陕西省居民人均消费支出为20635元,北京接近陕西的两倍,其消费结构千差万别。
所以有必要对全国不同地区的消费结构进行比较分析,以期发现经济水平与城市居民的消费水平之间的关系。
一、数据来源及整理在《2018年中国统计年鉴》上查到2017年全国31个省市城镇居民人均消费支出,包括消费支出总量、食品烟酒、衣着、居住、生活用品及服务、交通通信、教育文化娱乐、医疗保健、其他用品及服务。
并对其进行整理。
二、方法及原理因子分析法是研究以最少的信息丢失,将众多原始的变量浓缩成少数几个因子变量,以及如何使用因子变量具有较强的解释性的一种多元统计分析方法。
模型如下:(三)元件旋转矩阵根据方差最大化旋转后的因子载荷矩阵表可以看出:第一因子F1主要集中在食品烟酒、居住、交通通信、教育文化、生活用品及服务、其他生活用品及服务方面;第二因子主要集中在衣着、医疗保健。
(四)31个省市综合得分分析由上表可得知最终的因子得分公式:F1=0.428*食品烟酒-0.244*衣着+...+0.155*其他用品及服务;F2=-0.372*食品烟酒+0.508*衣着+...+0.096*其他用品及服务。
所以31个省市居民的消费水平支出综合得分公式为:Z=47.059%*F1+19.716%*F2计算出全国31个省市城镇居民消费水平的综合因子,并对其进行排名。
其中城镇居民消费水平最高的是上海,其次是北京,。
最低的三个省市为山西、黑龙江。
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析全国城镇居民消费水平的差异分析是经济学和社会学中一项重要的研究内容。
本文使用SPSS软件,对全国城镇居民消费水平的差异进行分析,并对其影响因素进行探讨。
一、数据收集与变量设定本研究使用的数据为全国范围内的城镇居民消费调查数据。
主要变量设定如下:1. 自变量a. 城镇地区GDP:代表居民所在地区的经济水平。
b. 居民收入:代表居民个人经济状况。
c. 教育水平:代表居民受教育程度。
d. 年龄:代表居民的年龄分布情况。
2. 因变量居民消费水平:代表居民的实际生活水平。
二、数据处理与分析1. 数据预处理a. 缺失值处理:对于缺失值较多的变量,可以使用均值或中位数进行填充;对于缺失值较少的变量,可以删除缺失值或使用混合模型处理。
b. 异常值处理:使用箱线图等方法检测并处理异常值。
c. 数据转换:对于不符合正态分布的变量,可以进行对数转换或标准化处理。
2. 描述性分析对各变量进行描述性统计分析,包括均值、中位数、标准差、最大值和最小值等。
3. 相关分析利用相关系数分析各变量之间的关系,检验自变量与因变量之间的相关程度。
4. 多元回归分析使用多元线性回归模型,建立居民消费水平与自变量之间的回归模型。
通过回归系数和显著性检验,探讨自变量对居民消费水平的影响程度。
五、结果解释根据多元回归分析结果,得出自变量对居民消费水平的影响程度,并进行解释。
以城镇地区GDP为例,如果回归系数为正且显著,说明城镇地区的经济水平与居民消费水平呈正相关关系,即经济水平越高,居民消费水平越高。
六、讨论与结论在分析结果的基础上,结合已有研究成果进行讨论,探讨全国城镇居民消费水平差异的原因及其对经济社会发展的影响,并提出相应的政策建议。
基于SPSS的全国城镇居民消费水平差异分析涉及数据收集与变量设定、数据处理与分析、结果解释以及讨论与结论等步骤。
通过这一研究方法,可以深入了解全国城镇居民消费水平差异的影响因素,为相关部门提供决策依据。
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析全国城镇居民消费水平差异分析是对全国不同城镇居民的消费水平进行比较和分析的研究。
本文将使用SPSS软件来进行统计分析和数据可视化,以便更好地理解全国城镇居民消费水平的差异。
一、数据收集和整理我们需要收集全国各城镇的消费水平数据。
可以通过调查问卷、官方统计数据或者是公开发布的数据来获得这些数据。
收集到的数据应包括以下几个方面的指标:人均可支配收入、食品消费支出、非食品消费支出、居住消费支出、交通通信消费支出、教育文化娱乐消费支出、医疗保健消费支出等。
然后,我们需要将收集到的数据整理成适合SPSS分析的形式。
可以使用Excel软件来整理数据,将不同城镇的数据分别放在不同的列中,并为每个指标添加适当的标签。
二、数据描述和概括统计在进行数据分析之前,首先需要对数据进行描述和概括统计。
可以使用SPSS软件中的“描述统计”功能来计算每个指标的平均值、标准差、最小值、最大值等。
这些统计指标可以帮助我们更好地了解数据的分布情况。
三、差异分析接下来,我们可以使用SPSS软件中的t检验或者方差分析等方法来比较不同城镇之间的消费水平差异。
在进行差异分析之前,需要对数据进行正态性检验和方差齐性检验。
正态性检验可以通过SPSS软件中的“相关-一样本Kolmogorov-Smirnov检验”来进行。
当样本满足正态分布假设时,我们可以使用t检验来比较两个城镇之间的差异。
如果样本不满足正态分布假设,我们可以使用方差分析来比较多个城镇之间的差异,即在因变量中考虑城镇这个分类变量,并进行多个分类的方差分析。
在SPSS软件中,可以使用“分组统计”功能来进行方差分析。
四、数据可视化数据可视化是对分析结果进行直观展示和解释的重要步骤。
可以使用SPSS软件中的图表功能来生成不同城镇消费水平的柱状图、折线图、箱线图等图形,以便更好地比较和展示数据的差异。
还可以根据需要生成散点图、气泡图等,将不同城镇的消费水平与其他指标(如居住面积、教育水平等)进行关联分析,以探索不同因素对消费水平的影响。
SPSS论文-对各地区城镇居民消费水平主要影响因素的浅析

对各地区城镇居民消费水平主要影响因素的浅析摘要:改革开放以来,随着我国经济的飞速发展,人民生活水平不断提高,居民消费水平也不断增长。
由于居民消费在社会经济生活中具有重要作用,研究居民消费的影响因素具有较强的经济意义。
虽然我国整体的居民消费水平呈增长的趋势,但是,在各个地区的增长速度却不尽相同。
本文希望运用SPSS软件,通过分析全国31个省、直辖市的相关数据,建立相关的回归模型;再通过回归分析找出各个因素的影响力水平的大小,以其为根据原因提出解决建议。
关键词:居民消费水平收入消费价格指数影响因素SPSS分析引言:近年来,随着我国经济的不断发展,我国的经济地位在国际上不断地得以巩固,国内生产总值一举超越日本成为世界第二。
与此同时,各地区城镇居民平均每人全年家庭收入也发生了变化,各地区居民消费价格指数也波动起伏,带动了各地区城镇居民消费水平的变化。
所以说,观察并发现这几个变量间的关系具有重大意义,我们可以发现过去存在的问题,避免同样的问题在未来还会出现,让国民经济健康发展,让人民的生活水平以及质量得以提高。
一、各个概念解释1、居民消费水平居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
通过消费的物质产品和劳务的数量和质量反映出来。
居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
它主要通过消费的物质产品和劳务的数量和质量来反映。
城镇居民消费水平是专门反应城镇地区居民对满足人们生存、发展和享受需要方面所达到的程度。
2、城镇居民人均可支配收入城镇居民人均可支配收入是指反映居民家庭全部现金收入能用于安排家庭日常生活的那部分收入。
它是家庭总收入扣除交纳的所得税、个人交纳的社会保障费以及调查户的记账补贴后的收入。
主要包括工资性收入、经营性收入、财产性收入、转移性收入的总和,不包括出售财物和借贷收入。
3、居民消费价格指数消费物价指数英文缩写为CPI,是根据与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标。
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析全国城镇居民消费水平差异分析是一个重要的经济研究课题,它可以帮助我们了解不同地区、不同人群的消费行为和消费能力,为政府制定相关经济政策提供科学依据。
本文将基于SPSS软件对全国城镇居民消费水平的差异进行分析和解读。
我们需要获取全国城镇居民的消费水平数据。
可以通过调查问卷、面访等方式获取样本数据,并对数据进行清洗和整理。
在SPSS中,可以使用数据编辑模块完成数据清洗和整理工作。
在数据清洗和整理完成后,我们可以进行描述性统计分析。
通过描述性统计分析,可以计算出各个指标的均值、标准差、最大值和最小值等统计量,从而了解数据的基本情况。
在SPSS中,可以使用统计分析模块中的描述统计功能进行计算。
接下来,我们可以进行多样本t检验分析。
多样本t检验可以比较不同地区、不同人群的消费水平是否存在显著差异。
在SPSS中,可以使用统计分析模块中的t检验功能进行多样本t检验分析。
在进行多样本t检验前,需要先设置组别变量和待比较的指标变量。
组别变量应该包含不同地区、不同人群的分类信息,指标变量则是我们需要比较的消费水平指标。
通过多样本t检验分析的结果,我们可以判断不同地区、不同人群之间的消费水平是否存在显著差异,并可以比较差异的大小和方向。
我们还可以进行相关分析或回归分析。
通过相关分析,可以计算出各个指标之间的相关系数,从而了解不同指标之间的关系。
在SPSS中,可以使用统计分析模块中的相关功能进行相关分析。
通过回归分析,我们可以建立消费水平和其他相关因素之间的数学模型,并判断这些因素对消费水平的影响程度。
在SPSS中,可以使用统计分析模块中的线性回归功能进行回归分析。
通过相关分析和回归分析的结果,我们可以了解不同指标之间的相关关系,并揭示消费水平的影响因素。
我们可以进行差异分析结果的解读。
根据上述分析结果,我们可以比较不同地区、不同人群之间的消费水平差异,并解释差异产生的原因。
通过解读分析结果,我们可以为政府制定相关经济政策提供科学依据,促进消费水平的均衡和提高。
基于SPSS的全国城镇居民消费水平差异分析

基于SPSS的全国城镇居民消费水平差异分析全国城镇居民消费水平的差异分析是一个重要的社会经济问题,它关系到国家的经济发展和居民生活水平的提高。
本文将基于SPSS软件对全国城镇居民消费水平的差异进行分析,以了解各地区之间的消费差异,并从政府政策制定的角度,提出相应的对策。
我们需要准备全国城镇居民消费水平数据。
这些数据可以从国家统计局、各地区的统计局等机构获取。
数据包括各省、直辖市和自治区的城镇居民的平均消费水平,可以是每人每月的消费金额或者每人每年的消费金额。
在SPSS中,我们可以使用描述性统计功能对数据进行初步的分析。
我们可以计算各地区的平均消费水平,并绘制柱状图或饼图来显示各地区的消费水平差异。
通过观察图表,我们可以看出各地区之间的消费差异的大致情况。
接下来,我们可以使用方差分析功能对消费水平差异进行更深入的分析。
方差分析可以帮助我们判断各地区的消费差异是否具有统计学上的显著性。
我们可以使用城镇居民消费水平作为因变量,地区作为自变量,并进行方差分析。
如果方差分析的结果表明各地区的消费差异具有统计学上的显著性,那么我们可以进一步使用事后多重比较方法(如Tukey HSD方法)对各地区的消费水平进行比较,找出具体哪些地区之间的差异是显著的。
我们还可以使用回归分析功能来分析城镇居民消费水平的影响因素。
我们可以将城镇居民的消费水平作为因变量,将一些可能影响消费水平的因素作为自变量,如人均可支配收入、就业率、教育水平等。
通过回归分析,我们可以了解这些自变量对于城镇居民消费水平的影响程度,以及各个因素之间的相互关系。
基于分析的结果,政府可以制定相应的政策来提高城镇居民的消费水平。
如果某些地区的消费水平较低,政府可以采取措施来促进当地经济的发展,提高居民的收入水平,以提高消费水平。
政府也可以通过改善当地的消费环境、鼓励消费创新等方式来提高城镇居民的消费水平。
我国城镇居民人均消费的SPSS统计分析报告

2013年我国城镇居民人均消费的SPSS统计分析一、搜集到的2013年我国31个城市城镇居民人均消费水平的数据数据来源:国家统计局/workspace/index?m=hgnd 二、对数据的基本分析在数据文件建立好后,通常还需要对待分析的数据进行必要的预加工处理,这是数据分析过程中不可缺少的一个关键环节.(一)、对数据按人均消费(expend)进行降序排列操作步骤:(1):选择“数据”→“排序个案”菜单项(2):将“人均消费(expend)”选入“排序依据”列表框,选中“降序”(3):点击“确认”按钮,生成如下降序排列的数据集由数据的降序排列可以看出,全国只有上海、北京、广东等九个城市的城镇人均消费在全国城镇人均消费水平以上.(二)、作出人均收入和人均消费的直方图操作步骤:(1):选择“图形”,打开“图表构建程序”菜单项(2):从“库”中选择“直方图”将其拉入“图表预览使用数据实例”(3):将变量“地区”设置为x轴,将“人均收入”和“人均消费”设置为y轴(4):点击“确认”按钮,即生成如下直方图通过一个复合条形图,可以很明确的发现我国城镇居民生活水平存在很大的地区差异,地区发展很不平衡,从图中的生活消费支出和人均收入来看,北京,上海,浙江这些省市城镇居民消费水平最高,人均收入也是最高的,各省市的城镇居民消费水平差异较大,大多数省份城镇居民人均消费集中在15000元左右.(三)、对数据按照人均消费作出直方图,以统计我国农村人均消费的水平1、首先对数据分组,分组数目的确定.lg n,计算得组数为6.按照Sturges提出的经验公式来确定组数K,K=1+2lg2、确定组距组距=(最大值-最小值)/组数=(28155.00-12231.90)/6=2653.85,可近似取值为3000.00元.操作步骤:(1):选择“转换”→“可视离散化”菜单项,将“人均消费”选入“要离散的变量”列表框中,单击“继续”按钮进入主对话框.(2):单击“生成分割点”按钮,设定分割点数量为6,宽度为3000.00,可见系统会自动会填充第一个分割点的位置为12231.90,单击“应用”返回到主对话框.(3):此时可以看到下部数值标签网格里的“值”列已被自动填充,单击“生成标签”按钮,是标签列也得到自动填充.(4):将离散的变量名设定为expendNew.(5):单击“确定”按钮.3、频数分析操作步骤:(1):选择“分析”→“描述统计”→“频率”,打开频率对话框.(2):选定“expendNew”,点击“图表”,选择“条形图”点击继续.(3):点击“确认”,生成如下三张表.Statistics人均消费(已离散化)N Valid 32Missing 0Mean 3.13Median 3.00Std. Deviation 1.314Minimum 1Maximum 7Percentiles 25 2.0050 3.0075 3.75人均消费(已离散化)Frequency Percent Valid Percent Cumulative Percent Valid <= 12231.90 1 3.1 3.1 3.110 31.3 31.3 34.412231.91 -15231.9015231.91 -13 40.6 40.6 75.018231.903 9.4 9.4 84.418231.91 -21231.903 9.4 9.4 93.821231.91 -24231.9024231.91 -1 3.1 3.1 96.927231.9027231.91+ 1 3.1 3.1 100.0 Total 32 100.0 100.0由上图的频数分析可以看出,我国2013年城镇居民人均消费支出集中在第二组和第三组,大约占到百分之七十.由于在表格中不存在缺失值,因此频数分布表中的百分比和有效百分比相同.从此次分析中可以看出,我国城镇家庭居民人均消费的总体水平比较集中,大约在12000元--18000元之间,还有少数省市的消费水平处在中等阶段,而有上海、北京、浙江等一些经济较发达的地区的城镇家庭居民人均消费达到了21000元以上.三、对数据的回归分析(一)、作出人均收入与消费支出散点图,以观察他们的线性关系如何操作步骤:(1):选择“图形”,打开“图表构建程序”菜单项(2):从“库”中选择“散点图”将其拖入“图表预览使用数据实例”(3):将“人均收入”选定为x轴,将“人均消费”选定为y轴(4):点击“确认”生成如下散点图由散点图可以看出,人均消费Y和人均收入X大概呈一元线性关系,因此可以建立一元线性模型进行回归分析.(二)假设回归模型为Y=a+b X,其中,Y表示城镇人均消费支出,为被解释变量,X表示人均收入,为解释变量,b为回归系数.操作步骤:(1)选择“分析”→“回归”→“线性”菜单项,打开“线性回归”对话框.(2)将“人均消费”选入“因变量”列表框,将“人均收入”选入“自变量”列表框.(3)单击“确定”按钮.得到如下(1)、(2)、(3)、(4)四张表格,依次分析如下:表(1):移入/移出的变量Variables Entered/Removed bModel VariablesEnteredVariablesRemoved Method1 人均收入a. EnterVariables Entered/Removed bModel VariablesEnteredVariablesRemoved Method1 人均收入a. Entera. All requested variables entered.b. Dependent Variable: 人均消费从上表可以看出,放入模型的变量只有一个即“人均收入”,选择变量的方法为强行进入法,也就是说将所有的自变量都放入模型中,模型的因变量为“人均消费”.表(2):模型汇总Model SummaryModel R R Square Adjusted RSquareStd. Error of theEstimate1 .960a.922 .920 1106.90715a. Predictors: (Constant), 人均收入上表是对模型的简单汇总,其实就是对回归方程拟合情况的描述,通过这张表可以知道相关系数R=0.960,决定系数2R=0.922,调整决定系数2R=0.920,和回归系数的标准误=31106.90715.由于决定系数接近于1,说明模型的拟合程度较好.表(3):方差分析表ANOVA bModel Sum of Squares df Mean Square F Sig.1 Regression 4.353E8 1 4.353E8 355.256 .000aResidual 36757303.474 30 1225243.449Total 4.720E8 31a. Predictors: (Constant), 人均收入b. Dependent Variable: 人均消费F=355.256,P=0.000<0.05,表明回归方程高度显著,即农民人均收入对消费有高度影响.表(4):系数Coefficients aModel Unstandardized CoefficientsStandardizedCoefficientst Sig.B Std. Error Beta1 (Constant) 1897.504 835.983 2.270 .031人均收入.599 .032 .960 18.848 .000 a. Dependent Variable: 人均消费由上表知a=1897.504,b=0.599,由此可以得出以下回归方程:人均消费Y=1897.504+0.599人均收入X上述回归方程给出了如下信息:2013年中国城镇居民人均可支配收入增加1元,人均消费支出增加0.599元.四、单样本的T检验(一):由频数分析可知,分组后,全国31个省市的城镇家庭居民平均每人生活消费支出合计,大约有23个城市都集中在第一组,数额主要12231.91——18231.90元之间,其中在15231.91 - 18231.90之间的占到了百分之四十,因此可推断,全国农村家庭居民平均每人生活消费支出的平均数应该在15000--20000元之间,假设为18000元,由于该问题涉及的是单个总体,且要进行总体均值检验,同时农村家庭居民平均每人消费的总体可近似认为服从正态分布,因此,应采用单样本t检验来分析推断全国农村家庭居民人均消费的平均值是否为18000元.分析结果如下:(二):操作步骤:1、选择“分析”→“比较均值”→“单样本天t检验”菜单项,打开“单样本t检验”对话框如下图所示:2、单击“确定”按钮.生成如下两张图表:表(1):One-Sample StatisticsN Mean Std. Deviation Std. Error Mean人均消费32 17216.6031 3902.16064 689.81106表(2):One-Sample TestTest Value = 18000t df Sig. (2-tailed)MeanDifference95% Confidence Interval of theDifferenceLower Upper人均消费-1.136 31 0.265 -783.39688 -2190.2758 623.4821 由表(1)可知样本均值为17216.6031,低于基准线18000.00,标准差3902.16064,均值标准差689.81106.由表(2)为单样本t检验的分析结果,第一行注明了用于比较的假设总体均数为18000,下面从左到右依次为t值、自由度、p值、两均数的差值、差值.根据上面的检测结果t=-1.136,p=0.256,由于p>0.05,所以不能拒绝原假设,可以认为人均消费水平在18000元.同时,可知全国城镇居民2013年人均消费在95%的置信水平下的置信区间为:(15809.7242,18623.4821).五、非参数检验——多配比样本分参数检验数据中我国城镇家庭居民人均消费包括食品、衣着、居住、家庭设备、交通及通讯、文教娱乐、医疗保健、和其他8个指标,为了比较清楚的了解这8项指标对我国城镇居民人均消费总体的影响,以及其大概的消费动向,可以利用多配比样本的非参数检验Friedman 检验对各个指标进行检验.(一):操作步骤:(1)选择“分析”→“非参数检验”→“旧对话框”→“k个相关样本”菜单项,打开如下对话框:(2):单击“确定”按钮,得到如下两张表格:表(1):RanksMean Rank食物消费8.00衣物消费 5.09居住消费 4.50家居设备 2.66交通通讯 6.38医疗保健 2.34文教娱乐 5.88其它 1.16表(2):Test Statistics aN 32Chi-Square 198.604df 7Asymp. Sig. .000a. Friedman Test(二)、结果分析检验结果中的p值小于给定水平0.05,故拒绝原假设,认为八个指标对我国城镇居民人均消费的影响是有显著差异的.由表(1)知食物消费对人均消费的影响最大,其次是交通通讯和衣物消费,而影响最小的是其它.六、因子分析在研究我国城镇居民的消费情况时收集了食物、衣物、居住等八个影响居民消费情况的因素,以期对问题能够有比较全面、完整的把握和认识.由于数据过多,在实际建模时,这些变量未必能真正发挥预期的作用,会给统计分析带来许多问题,可以表现在:计算量的问题和变量间的相关性问题.为了解决这些问题,最简单和最直接的解决方案是削减变量个数,但这又必然会导致信息丢失和信息不完整等问题的产生.为此,人们希望探索一种更有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失.因子分析正是解决这种问题的方法.(一)操作步骤(1)、选择菜单“分析”→“降维”→“因子分析”,出现因子分析对话框;(2)、把参与因子分析的样本选到变量对话框中,如下图:(3)单击“确定”按钮,得到如下11张图:图(1)原有变量的相关系数矩阵:Correlation Matrix食物消费衣物消费居住消费家居设备医疗保健交通通讯文教娱乐其它Correlatio n 食物消费1.000 .288 .656 .744 .295 .787 .782 .732衣物消费.288 1.000 .337 .517 .694 .368 .374 .634居住消费.656 .337 1.000 .676 .505 .849 .750 .771家居设备.744 .517 .676 1.000 .441 .830 .853 .767医疗保健.295 .694 .505 .441 1.000 .479 .414 .600交通通讯.787 .368 .849 .830 .479 1.000 .860 .782文教娱乐.782 .374 .750 .853 .414 .860 1.000 .831 其它.732 .634 .771 .767 .600 .782 .831 1.000从上图可以看到,大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析.图(2)巴特利特球度检验和KMO检验KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy. .833Bartlett's Test of Sphericity Approx. Chi-Square 233.009df 28Sig. .000由上图知,巴特利特球度检验统计量的观测值为233.009,相应的概率p为0.如果给出的显著性水平为0.05,由于概率p小于显著性水平,应拒绝零假设,认为相关系数矩阵与单位阵有显著地差异.同时,KMO值为0.833,根据Kaiser 给出了KMO度量标准可知原有变量适合进行因子分析.图(3)因子分析的初始解CommunalitiesInitial Extraction食物消费 1.000 .798衣物消费 1.000 .862居住消费 1.000 .750家居设备 1.000 .812医疗保健 1.000 .821交通通讯 1.000 .897文教娱乐 1.000 .885其它 1.000 .872Extraction Method: PrincipalComponent Analysis.由上图第二列可知,所有变量的共同度均较高,各个变量的信息丢失较少.因此,本次因子提取的总体效果较理想.图(4)因子解释原有变量总方差的情况:Total Variance ExplainedComponent Initial Eigenvalues Extraction Sums of SquaredLoadingsRotation Sums of SquaredLoadingsTotal% ofVarianceCumulative % Total% ofVarianceCumulative % Total% ofVarianceCumulative %1 5.504 68.794 68.794 5.504 68.794 68.794 4.524 56.545 56.5452 1.192 14.898 83.692 1.192 14.898 83.692 2.172 27.147 83.6923 .473 5.910 89.6024 .258 3.222 92.8245 .237 2.961 95.7856 .178 2.227 98.0127 .091 1.136 99.1478 .068 .853 100.000Extraction Method: Principal Component Analysis.上图◎第一组数据项描述了初始因子解的情况.可以看到,第一个因子解的特征根值为 5.504,解释原有八个变量总方差的68.794%,累计方差贡献率为68.794%.其余数据含义类似.在初始解中由于提取了八个因子,因此原有变量的总方差均被解释掉.◎第二组数据项描述了因子解的情况.可以看到,由于指定提取两个因子,两个因子共解释了原有变量总方差的83.692%.总体上,原有变量的信息丢失较少,因子分析效果较理想.◎第三组数据项描述了最终因子解的情况.可见,因子旋转后,累计方差比没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因子解释原有变量的方差,改变了各因子的方差贡献,使得因子更容易解释.图(5)因子的碎石图:上图横坐标为因子数目,纵坐标为特征根.可以看到,第一个因子的特征根值很高,对原有变量的贡献最大;第3个以后的因子特征根都较小,对解释原有变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取两个因子是合适的.图(6)因子载荷矩阵:Component Matrix aComponent1 2其它.929 .097交通通讯.921 -.222文教娱乐.909 -.241家居设备.895 -.103居住消费.854 -.143食物消费.822 -.350衣物消费.599 .710医疗保健.635 .646a. 2 components extracted.上图因子载荷矩阵是因子分析的核心内容.根据该表可以写出本案例的因子分析模型:其它=0.9291f +0.0972f 交通通讯=0.9211f -0.2222f 文教娱乐=0.9091f -0.2412f 家居设备=0.8951f -0.1032f 居住消费=0.8541f -0.1432f 食物消费=0.8221f -0.3502f 衣物消费=0.5991f +0.7102f 医疗保健=0.6351f +0.6462f 由上表知,八个变量在第一个因子上的载荷都很高,意味着他们与第一个因子的相关度高,第一个因子很重要. 图(7)旋转后的因子载荷矩阵:Rotated Component Matrix aComponent 1 2交通通讯 .915 .244 文教娱乐 .914 .222 食物消费 .889 .084 家居设备 .836 .336 居住消费 .819 .281 其它 .770 .528 衣物消费 .188 .909 医疗保健 .250.871a. Rotationconvergedin3 iterations.由上图知,交通通讯、文教娱乐、食物消费、家居设备、居住消费、其它在第一个因子上有较高的载荷,第一个因子主要解释了这几个变量;衣物消费、医疗保健在第二个因子上的载荷较高,第二个因子主要解释了这几个变量.图(8)因子旋转中的正交矩阵Component Transformation MatrixComponent 1 21 .879 .4772 -.477 .879图(9)因子协方差矩阵:Component Score Covariance MatrixComponent 1 21 1.000 .0002 .000 1.000从上表可以看出,两因子没有线性相关性,实现了因子分析的设计目标.图(10)旋转后的因子载荷图:由上图可以直观的看出,衣物消费和食物消费比较靠近两个因子坐标轴,表明如果分别用第一个因子刻画食物消费,用第二个因子刻画衣物消费,信息丢失较少,效果较好.图(11)因子得分系数矩阵:Component Score CoefficientMatrixComponent1 2食物消费.271 -.187衣物消费-.188 .576居住消费.194 -.032家居设备.184 .001医疗保健-.157 .532交通通讯.236 -.084文教娱乐.241 -.099其它.110 .152根据上表可以得到以下因子得分函数:F=0.271食物消费-0.188衣物消费+0.194居住消费+0.184家居设备-0.157医1疗设备+0.236交通通讯+0.241文教娱乐+0.110其它F=-0.187食物消费+0.576衣物消费-0.032居住消费+0.001家居设备+0.532 2医疗设备-0.084交通通讯-0.099文教娱乐+0.152其它可见计算两个因子得分变量的变量值时,食物消费和衣物消费的权重较高,但方向恰好相反,这与因子的实际含义是相吻合的.七、实验心得本科的时候有概率统计和数理分析的基础,但是从来没有接触过应用统计分析的东西,SPSS也只是听说过,从来没有学过.一直以为这一块儿会比较难,这学期最初学的时候,因为没有认真看教材,课下也没有认真搜集相关资料,所以学起来有些吃力,总感觉听起来一头雾水.老师说最后的考核是通过提交学习报告,然后我从图书馆里借了些教材查了些资料,发现很多问题都弄清楚了.结合软件和书上的例子,实战一下,发现SPSS的功能相当强大.这门课要学习完了,整个学习的过程是充满曲折和挑战的,我见证了自己从一无所知到困惑迷茫再到略懂再到会用的过程.甚至学完之后有些问题还没有彻底搞清楚,自己接下来还会不断的探索的.SPSS是个很神奇的工具,结合AMOS和EXCEL更是如虎添翼,相信学习了SPSS在以后的论文和数据分析中很有用.这门课给我的感觉是看起来很难,但是实际学起来就好很多,因为当我结合具体实例和软件的时候,很多抽象的问题就豁然开朗了.但是想给老师一个建议,这门课需要很强的统计和概率论的基础,要不然就会很难听懂或者听得半懂.然后这门课的很多方法的相关资料都是用在医疗卫生、自然科学领域的,在管理中的应用的资料不怎么多.老师希望我们上课的时候结合在管理中的应用来学习,但是资料有限,希望老师在这个方面多给学生一些引导.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用spss分析我国各省城镇居民消费水平差异分析文章结构1 研究背景及意义 (1)2 研究方法 (1)3 数据来源与数据处理 (2)4. 实证分析 (3)4.1因子分析 (3)4.2 聚类分析 (8)5 结论 (11)1 研究背景及意义我国地域广阔,各省份的经济发展很不平衡,各省之间的居民消费水平差距较大。
经济快速发展的同时我国居民收入稳步增加,各省居民的消费支出也强劲增长,消费结构发生了巨大变化。
为了正确引导消费,进一步改善消费结构,提高我国城市居民的消费水平和生活的质量,有必要对全国各省居民消费结构之间的异同进行考察并做比较研究,以期发现经济水平和城市居民的消费水平之间的关系.2 研究方法本文运用多元统计分析中的主成分分析方法和聚类分析方法,将描述各省份城镇居民全年现金消费支出的八个指标压缩成两个综合指标( 称为主成分) , 这两个主成分保留了原始八个指标的绝大部分信息,在指标压缩的同时能够最大限度地反映出各省份城镇居民消费水平差异。
在综合因子基础上进行层次聚类分析,根据消费差异将全国31个省分为四类。
因子分析模型是根据变量间的相关性大小,把变量分组,利用同组内的变量之间相关性较高而不同组的变量之间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。
因子分析的出发点是用较少的相互独立的因子变量来代替原来变量的大部分信息,可以通过下面的数学模型来表示:X1=α11F1+α12F2+…+α1m Fm+α1ε1,X2=α21F1+α222+…+α2m Fm+α2ε2,…Xp=αp1F1+αp2F2+…+αpm Fm+αpεp,其中:x1,x2,x3,…,xp 为p 个原有变量,是均值为零、标准差为1 的标准化变量;F1,F2,F3,…,Fm 为m 个因子变量,m 小于p,表示成矩阵形式为X=AF+αε,其中:F=(F1,F2,…,Fm)为因子变量或公共因子;ε=(ε1,ε2,…,εp)为特殊因子;F 与ε均为不可观测的随机变量. A=(αij)p×m 为因子载荷矩阵,αj 称为第j 个因子对第i 个变量的载荷系数. 在模型中,特殊因子起着残差的作用,被定义为彼此不相关且与公因子也不相关。
系统聚类分析的基本思想是认为所研究的样品(或指标)之间存在不同程度的相似性. 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样品都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。
利用SPSS 中的聚类分析,以层次分析法结果中的因子得分为基础,在聚类分析中采用离差平方和法及欧氏平方距离对综合因子得分进行最优分割,将31个省按城市居民消费水平的高低分成4类。
3 数据来源与数据处理2012年我国“分地区城镇居民家庭平均每人全年现金消费支出”,来自于中国统计年鉴全国31 个省、直辖市和自治区(港、澳、台不在其中)的城镇居民年平均现金消费支出的97项主要指标(单位:元) ,指标代码和指标名称列于表1,原始数据列于表2。
表1 指标名称及代码指标代码指标名称指标代码指标名称X1食品X5交通通讯X2衣服X6文教娱乐X3居住X7医疗保险X4家庭设备表2 原始数据地区X1 X2 X3 X4 X5 X6 X7上海9655.6 2111.17 1790.48 1906.49 4563.8 3723.74 1016.65北京7535.29 2638.9 1970.94 1610.7 3781.51 3695.98 1658.37广东8258.44 1520.59 2099.75 1467.2 4176.66 2954.13 1048.28浙江7552.02 2109.58 1551.69 1161.39 4133.5 2996.59 1228.02天津7343.64 1881.43 1854.22 1151.16 3083.37 2254.22 1556.35江苏6658.37 1915.97 1437.08 1288.42 2689.51 3077.76 1058.11内蒙古5463.18 2730.23 1583.56 1242.64 2572.93 1971.78 1354.09福建7317.42 1634.21 1753.86 1254.71 2961.78 2104.83 773.22辽宁5809.39 2042.4 1433.28 1069.65 2323.29 1843.89 1309.62山东5201.32 2196.98 1572.35 1125.99 2370.23 1655.91 1005.25重庆6870.23 2228.76 1177.02 1196.03 1903.24 1470.64 1101.56吉林4635.27 2044.8 1594.14 871.46 1780.67 1642.7 1447.5陕西5550.71 1789.06 1322.22 986.82 1788.38 2078.52 1212.44安徽5814.92 1540.66 1396.97 811.23 1809.72 1932.74 1142.96湖南5441.63 1624.57 1301.6 1034.3 2084.15 1737.64 918.41湖北5837.93 1783.41 1371.15 978.26 1476.98 1651.92 1029.55四川6073.86 1651.14 1284.09 1097.93 1946.72 1587.43 772.75广西5552.56 1146.46 1377.26 1125.39 2088.64 1626.05 883.56河南4607.47 1885.99 1190.81 1145.42 1730.35 1525.33 1085.47宁夏4768.91 1875.7 1193.37 929.01 2110.41 1515.91 1063.09海南6556.1 864.96 1521.04 777.2 2004.34 1319.54 993.24新疆5238.89 2031.14 1166.59 950.17 1660.27 1280.81 1027.6河北4211.16 1541.99 1502.41 876.1 1723.75 1203.8 1047.28黑龙江4687.23 1806.92 1336.85 742.22 1462.61 1216.56 1180.67甘肃4602.33 1631.4 1287.93 833.15 1575.67 1388.21 1049.65山西3855.56 1529.47 1438.88 832.52 1672.29 1506.2 905.88云南5468.17 1759.89 973.76 634.09 2264.23 1434.3 939.13江西5071.61 1476.63 1173.91 966.23 1501.34 1487.3 670.71青海4667.34 1512.24 1232.39 923.7 1549.76 1097.21 906.14贵州4992.85 1399 1013.53 849.94 1891.03 1396 654.53西藏5517.69 1361.57 845.18 474.69 1387.45 550.48 467.234. 实证分析4.1因子分析表3 描述统计量均值标准差分析N食品5832.8094 1299.82194 31衣服1782.8135 388.89271 31居住1411.2358 283.12264 31家庭设备1042.3939 283.24540 31交通通讯2260.2768 861.61451 31文教娱乐1836.3910 739.15111 31医疗保险1048.6229 253.74984 31食品、衣服等七个消费支出指标的描述性统计量,可以看出,食品支出消费所占的比重最大,其次是交通通讯。
在所有的消费支出中,医疗保险支出所占比重最小。
表4 KMO 和Bartlett 的检验取样足够度的Kaiser-Meyer-Olkin 度量。
.698Bartlett 的球形度检验近似卡方187.287 df 21 Sig. .000表5 公因子方差初始提取食品 1.000 .865衣服 1.000 .780居住 1.000 .706家庭设备1.000 .829交通通讯1.000 .911文教娱乐1.000 .902医疗保险1.000 .844提取方法:主成份分析。
通过SPSS软件得出Bartlett值为21,P值<0.05,可考虑进行因子分析;KMO值为0.698,接近1,适合进行因子分析。
变量的绝大部分信息(70%以上)都可以被因子解释,这些变量信息丢失较少,本次因子提取的总体效果理想。
表6 解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的% 累积% 合计方差的% 累积% 合计方差的% 累积%1 4.623 66.048 66.048 4.623 66.048 66.048 3.881 55.448 55.4482 1.214 17.345 83.392 1.214 17.345 83.392 1.956 27.945 83.3923 .563 8.042 91.4354 .257 3.667 95.1025 .148 2.109 97.2116 .140 1.994 99.2047 .056 .796 100.000提取方法:主成份分析。
第一个因子的特征根值为4.623,解释了原有8个变量总方差的55.448%,第二个因子的特征根值为1.214,解释了原有8个变量总方差的27.945,前两个因子的累计方差贡献率为83.392%,并且只有他们的取值大于1,说明前两个公因子基本上包含来全部变量的主要信息,选择前两个因子为主因子即可。
图1 碎石图碎石图横坐标为因子数目,纵坐标为特征根,可以看出第一个因子的特征值很高,对解释原油变量的贡献率极大,第二个以后的特征根值都很小,取值都小于1,说明他们对解释原有变量的共享率极小。
旋转前的因子载荷矩阵,从结果看,大部分因子解释性很好,但是仍有少部分指标解释能力较差。
如医疗保险和衣服在两个因子的载荷系数区别不大,因此接着采用因子旋转方法使得因子载荷系数向着0和1两极分化,使大的载荷更大,小的载荷更小,使结果更具有解释性。
表8 旋转成份矩阵a成份1 2交通通.933 .203讯食品.930 .000文教娱.882 .351乐家庭设.854 .315备居住.747 .385医疗保.202 .896险衣服.197 .861提取方法:主成份。