(整理)基于SPSS的多元统计分析三种算法的实例研究.
完整版本多元统计分析实例汇总

多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。
利用spss对某个班成绩的多元统计分析.doc

对一所重点学校某个班成绩的综合分析摘要随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。
本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。
关键词:综合分析;SPSS软件;成绩目录1.对应分析的概述 (1)2.聚类分析的概述 (3)2.1聚类分析的定义 (3)2.2聚类的方法分类 (3)2.3系统聚类法的基本步骤 (3)3.判别分析的概述 (4)3.1判别分析的基本思想 (4)3.2判别分析与聚类分析的关系 (4)4.在SPSS软件上的操作步骤 (5)4.1对应分析的操作步骤 (5)4.2聚类分析与判别分析的操作步骤 (6)5.结果分析 (7)5.1对应表 (7)5.2汇总 (7)5.3概述行点和概述列点 (8)5.6 特征值 (11)5.7 显著性检验 (11)5.8 标准化典型判别式函数系数 (11)5.9 结构矩阵 (12)5.10 群组重心的函数 (12)5.11 分类函数系数 (13)6.结论 (14)7.对创新的认识 (15)参考文献 (16)附录 (17)1.对应分析的概述对应分析(correspondence analysis )又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
对应分析实际是在R 型因子分析和Q 型因子分析的基础上发展起来的一种方法。
基于SPSS的多元统计分析三种算法的实例研究

摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y (22110)Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1rank X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
SPSS多元统计分析实验报告

实 验 课名称:SPSS统计分析
实验项目名称:多元线性回归分析
专 业 名 称:统计学
班 级:
学 号:
学 生 姓 名:
教 师 姓 名:
2014年12月20日
组别同组同学
实验日期2014年12月20日 实验名称多元统计分析
一、实验名称:
多元统计分析
二、实验目的和要求:
通过运用SPSS软件的多元统计分析揭示主管性格与雇员对其整体满意度之间的关系掌握多元统计分析的原理及建模过程。
六、实验结果与分析
通过以上建模和检验过程,最后得到的符合实际且具有统计意义的方程为:Y=0.78X1,即雇员对主管的满意程度只与主管处理雇员的抱怨有关,且成正相关。
七、讨论和回答问题及体会:
1.通过学习,我掌握了多元线性回归的基本原理和步骤,并学会运用SPSS软件进行处理该类问题和比较熟练地分析结果。
设随机变量y与一般变量x1,x2……xk的线性回归模型为:
y=β0+β1*x1+β2*x2+……+βk*xk+ε
其中β0,β1,β2……+βk是k+1个未知参数,β0称为回归常数,β1,β2……+βk称为回归系数,y称为被解释变量;x1,x2……xk称为解释变量。通过最小二乘法估算出各系数,并测定方程的拟合程度、检验回归方程和回归系数的显著性,得到最后的方程。
3运用SPSS软件进行多元分析对模型进行整理,比较调整的R系数、方差分析表、回归分析结果(各系数机器t检验等)、共显性检验等统计方法,得出结果。
四、实验仪器与设备:
SPSS软件、兼容SPSS软件的电脑一台、老师给的数据素材。
五、实验原理:
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一员线性回归模型类似,计算公式如下:
运用SPSS做多元回归分析

结果二:方差分析表
• 表中显著度(Sig)<0.001,表明整个方程是显著的,也 就是说自变量与因变量之间具有显著的线性关系。 • 但这并不意味着每个自变量与因变量都具有显著的线性关 系,具体的结论还需要看后面对每个自变量的回归系数的 检验结果。
结果三:回归系数表
• 表中B栏的非标准化回归系数表明:
FOR EXAMPLE
一个变量的变化直接与另一组变量的变化有关:
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂
多元回归分析数据格式
编号 1 2 ┇ i ┇ n
X1
X 11
X2
X 12
┅ ┅ ┅ ┇ ┅ ┇ ┅
多元回归模型必须满足的假定条件
1. 2.
因变量是连续随机变量; 自变量是固定数值型变量,且相互独立;
3.
4. 5. 6.
每一个自变量与因变量呈线性关系;
每一个自变量与随机误差相互独立; 观察个体的随机误差之间相互独立; 残差是随机变量,均值为零。
不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个) 本年固定资产投资额(亿元) 0.9 67.3 6.8 5 51.9 1.1 111.3 19.8 16 90.9 4.8 173 7.7 17 73.7 3.2 80.8 7.2 10 14.5 7.8 199.7 16.5 19 63.2 12.5 185.4 27.1 18 43.8 1 96.1 1.7 10 55.9 2.6 72.8 9.1 14 64.3 0.3 64.2 2.1 11 42.7 4 132.2 11.2 23 76.7 0.8 58.6 6 14 22.8 3.5 174.6 12.7 26 117.1 10.2 263.5 15.6 34 146.7 0.2 14.8 0.6 2 42.1 0.4 73.5 5.9 11 25.3 1 24.7 5 4 13.4 6.8 139.4 7.2 28 64.3 11.6 368.2 16.8 32 163.9 1.6 95.7 3.8 10 44.5 1.2 109.6 10.3 14 67.9 7.2 196.2 15.8 16 39.7
SPSS中多元回归分析实例解析

SPSS中多元回归分析实例解析多元回归分析是一种统计方法,用于研究一个因变量与多个自变量之间的关系。
在SPSS中,可以使用该方法来构建、估计和解释多元回归模型。
下面将以一个实例来解析SPSS中的多元回归分析。
假设我们想要研究一个教育投资项目的效果,该项目包括多个自变量,例如教育资金、教育设施、学生人数等,并且我们希望预测该项目对学生学习成绩的影响。
首先,我们需要准备好数据并导入SPSS中。
数据应包含每个教育投资项目的多个观测值,以及与之相关的自变量和因变量。
例如,可以将每个项目作为一个观测值,并将教育资金、教育设施、学生人数等作为自变量,学生学习成绩作为因变量。
在SPSS中,可以通过选择“Analyze”菜单中的“Regression”选项来打开回归分析对话框。
然后,选择“Linear”选项来进行多元回归分析。
接下来,可以将自变量和因变量添加到对话框中。
在自变量列表中,选择教育资金、教育设施、学生人数等自变量,并将它们移动到“Independent(s)”框中。
在因变量框中,选择学生学习成绩。
然后,点击“OK”按钮开始进行分析。
SPSS将输出多元回归的结果。
关键的统计指标包括回归系数、显著性水平和拟合度。
回归系数表示每个自变量对因变量的影响程度,可以根据系数的大小和正负来判断影响的方向。
显著性水平表示自变量对因变量的影响是否显著,一般以p值小于0.05为标准。
拟合度指示了回归模型对数据的拟合程度,常用的指标有R方和调整后的R方。
在多元回归分析中,可以通过检查回归系数的符号和显著性水平来判断自变量对因变量的影响。
如果回归系数为正且显著,表示该自变量对因变量有正向影响;如果回归系数为负且显著,表示该自变量对因变量有负向影响。
此外,还可以使用其他方法来进一步解释和验证回归模型,例如残差分析、模型诊断等。
需要注意的是,在进行多元回归分析时,需要满足一些前提条件,例如自变量之间应该独立、与因变量之间应该是线性关系等。
多元统计分析与SPSS

图 系统聚类法主界面
• 2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类 分析统计量。这里我们选择系统默认值,点击Continue按 钮,返回主界面。 • 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析 统计图。选中Dendrogram复选框和Icicle栏中的None单选 按钮,即只给出聚类树形图,而不给出冰柱图。单击 Continue按钮,返回主界面。
K均值聚类分析主界面
2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数, Convergence Criterion参数框用于设定算法的收敛判据, 其值应该介于0和1之间。例如判据设置为0.02,则当一次 完整的迭代不能使任何一个类中心距离的变动与原始类中 心距离的比小于2时,迭代停止。设置完这两个参数之后, 只要在迭代的过程中先满足了其中的参数,则迭代过程就 停止。这里我们选择系统默认的标准。单击Continue,返 回主界面。
我国各地区三次产业产值(单位:亿元)
第二产 业 X2 1311.86 1245.29 3657.19 1389.33 973.94 2898.89 1143.39 2532.45 3130.72 6787.11 4941.00 1780.60 2492.73 1227.38 6656.85 3551.94 第三产 业 X3 2255.60 1112.71 2377.04 852.07 756.38 2487.85 892.33 1396.75 3029.45 4567.37 3726.00 1458.97 2046.50 1043.08 4298.41 2256.95 地区 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 第一产 业 X1 798.35 886.47 1093.52 652.28 248.33 336.36 1128.61 298.37 502.84 40.62 320.03 236.61 46.15 55.50 412.90 第二产 业 X2 2580.58 1794.21 7307.08 1007.96 151.16 977.30 2266.06 579.31 1069.29 47.99 1133.56 607.62 184.26 192.00 796.84 第三产 业 X3 2022.78 1958.05 5225.27 1074.89 271.44 936.90 2061.65 478.43 893.16 95.89 944.99 460.37 159.80 137.84 667.87
第8讲.SPSS的多元统计分析:因子分析、聚类分析、判别分析

该方法假设变量是因子的纯线性 组合。第一主成份有最大的方差, 后续成分可解释的方差逐个递减。
输出未经旋转的因 子提取结果。 该图显示了按特征值大小排列的 因子序号,有助于确定保留多少 个因子。典型的碎石图会有一个 明显的拐点,在该拐点之前是与 大因子连接的陡峭的折线,之后 是与小因子相连的缓坡折线。 提取特征值大于指定数值的因子。 系统默认特征值为1.
输出原始分析变量间 的相关系数矩阵。 相关系数的逆矩阵
因子分析后的相关矩 阵以及残差矩阵
前者用于检验变量间的偏相关是否 很小;后者用于检验相关系数矩阵 是否为单位矩阵,如果是,则表明 不合适采用因子模型。
反映像相关矩阵包括偏相关系数 的负数;反映像协方差矩阵包括 偏协方差的负数;一个好的因子 模型,对角线上的元素应较大, 非对角线元素则较小。
因子分析
整体分析与设计的内容
四、输出分析
5.旋转后的因子载荷矩阵(待续)
从表中可知:第一主因子在 “交通和通信”、“医疗保健” 等 5 个指标上具有较大的载荷 系数; 第二主因子在“居住”和“衣 着”指标上系数较大。 第三主因子在“杂项商品与服 务”上的系数最大。 此时,各个因子的含义更加突 出。 第一主因子,是享受性消费因子,从系数的正负值可知:有的消费在递增,有的则递减。 第二主因子,是发展性消费因子,也包含了递增和递减的消费项目。 第三主因子,是其他类型的消费因子。
确定因子
因子旋转 求各因子得分 综合得分
因子分析
整体分析与设计的内容
三、操作
数据文件:“居民消费结构的变化.sav” 菜单:“分析→降维→因子分析”
选择符合条件的样本进行分析
因子分析
整体分析与设计的内容
三、操作
1.“描述”统计量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于SPSS的多元统计分析三种算法的实例研究摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y ......22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1r a n k X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
表1-1 输入的变量输入/移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a. 输入a. 已输入所有请求的变量。
描述性统计量均值标准偏差N Y 1847.2585 983.03837 20 X1 2391.890 1292.8874 20 X2 335.255 59.9815 20 X3 298.050 69.4300 20 X4 50.952 6.3407 20 X5 24.943 4.8762 20⑵拟合优度检验表1-2 拟合优度检验模型汇总b模型RR方调整 R方标准估计的误差更改统计量Durbin-WatsonR 方更改 F 更改df1df2Sig. F 更改1 .999a .998.997 56.89386 .998 1131.6725 14 .000 1.197a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数20.998R ,说明自变量可以解释因变量99.8%的变化,而调整后的样本决定系数2211(1)0.9971n R R n p -=--=--,这两个值非常接近1,所以拟合程度比较高。
⑶方程显著性检验表1-3 方程显著性检验Anova b模型平方和 df 均方 F Sig. 1回归 1.832E7 5 3663121.534 1131.672.000a 残差 45316.766 14 3236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-3是对回归方程显著性检验的说明统计量1131.672F =,对应的概率值0.000p =,说明回归方程显著成立(我们给定显著水平为0.05)。
⑷参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数 tSig.相关性共线性统计量B标准 误差 试用版 零阶 偏 部分 容差 VIF 1(常量) -1457.646 936.744-1.556 .142X1 .836.065 1.100 12.808 .000 .998 .960 .170 .024 41.819 X23.417 3.837 .209 .891 .388 .755 .232.012 .003310.892 X3 -5.293 4.780 -.374 -1.107 .287 .888 -.284 -.015 .002 646.608X4 16.657 11.904 .107 1.399 .184 -.896 .350.019 .030 33.443X5 35.611 24.308 .177 1.465 .165 .969 .365.019 .012 82.463a. 因变量: Y表1-4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量()012345,,,,,Tβββββββ=的估计值,其中01457.646β∧=-,10.836β∧=,2 3.417β∧=,3 5.293β∧=-,416.657β∧=,535.611β∧= 则拟合的回归方程为123451457.6460.836 3.417 5.29316.65735.611Y X X X X X =-++-++另外,由上表中的t 检验(我们给定显著水平为0.10)知:只有自变量X 1(其对应的概率p=0.000)与因变量Y 在总体上存在比较显著的线性关系,其余自变量与因变量的线性关系不显著。
⑸多重共线性检验表1-5 共线性检验共线性诊断a模型 维数 特征值 条件索引方差比例(常量) X1 X2 X3 X4 X5 11 5.782 1.000 .00 .00 .00 .00 .00 .00 2.201 5.357 .00 .01 .00 .00 .00 .00 3 .014 20.626 .00 .04 .00 .00 .00 .00 4 .003 44.800 .00 .36 .00 .00 .04 .06 5 .000218.270.88 .29 .01 .01 .49 .87 63.947E-5 382.720.12.29.99.99.47.06a. 因变量: Y关于多重共线性的检测,我们采用计算条件索引或方差膨胀因子的方式。
当条件索引小于30的时候,说明共线性不明显。
从表1-5中可以看出,X 3、X 4、X 5所对应的条件索引都大于30,说明有一定的共线性。
另外从表1-4中可以看出方差膨胀因子VIF i (一般认为该值小于10时,说明不存在共线性)都大于10,说明变量之间存在严重的共线性。
⑹自相关检验从表1-2的Durbin-Watson 列我们得到回归模型的 1.197DW =,在(0,2)区间范围内,属于部分正自相关。
1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度,并且方程的显著性也很高,但是部分参数的显著性并不高且具有比较严重的多重共线性关系。
所以本文又分别用逐步回归、向前回归、向后回归、岭回归对模型进行一定的修正,所得结果如下。
㈠逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除。
通过SPSS对附表一中的数据做逐步回归分析,得到下列数据表格:表1-6输入/移去的变量a模型输入的变量移去的变量方法1 X1 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2 X4 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
3 X3 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: Y表1-7模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .998a.995 .995 70.621792 .998b.996 .996 63.892823 .999c.997 .997 57.49027 1.045a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-8Anova d模型平方和df 均方 F Sig.1 回归 1.827E7 1 1.827E7 3663.434 .000a 残差89773.881 18 4987.438总计 1.836E7 192 回归 1.829E7 2 9145762.730 2240.350 .000b 残差69398.978 17 4082.293总计 1.836E7 193 回归 1.831E7 3 6102680.780 1846.426 .000c 残差52882.098 16 3305.131总计 1.836E7 19a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-9系数a模型非标准化系数标准系数t Sig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1 (常量)33.053 33.879 .976 .342X1 .758 .013 .998 60.526 .000 .998 .998 .998 1.000 1.0002 (常量)-741.801348.188-2.130 .048X1 .815 .028 1.071 29.525 .000 .998 .990 .440 .169 5.923 X4 12.569 5.626 .081 2.234 .039 -.896 .476 .033 .169 5.9233 (常量)-605.786319.15-1.898 .076X1 .866 .034 1.138 25.696 .000 .998 .988 .345 .092 10.903 X4 13.275 5.072 .086 2.617 .019 -.896 .548 .035 .168 5.946 X3 -.985 .441 -.070 -2.235 .040 .888 -.488 -.030 .186 5.385a. 因变量: Y表1-10共线性诊断a模型维数特征值条件索引方差比例(常量) X1 X4 X3 11 1.885 1.000 .06 .062 .115 4.044 .94 .942 1 2.805 1.000 .00 .00 .002 .194 3.800 .00 .13 .003 .001 53.599 1.00 .87 1.003 1 3.793 1.000 .00 .00 .00 .002 .200 4.359 .00 .06 .00 .003 .007 24.004 .01 .54 .02 .994 .001 62.482 .99 .40 .98 .01a. 因变量: Y从上述表格可以看出,SPSS在做逐步回归的时候,共得到了三个比较好的回归方程,及三种剔除变量的情况。