居民消费价格指数的统计回归模型

居民消费价格指数的统计回归模型
居民消费价格指数的统计回归模型

Statistical and Application 统计学与应用, 2015, 4, 9-14

Published Online March 2015 in Hans. https://www.360docs.net/doc/6812413322.html,/journal/sa

https://www.360docs.net/doc/6812413322.html,/10.12677/sa.2015.41002

The Statistical Regression Model of

Consumer Price Index

Yi Zhang

School of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan

Email: zgws9999@https://www.360docs.net/doc/6812413322.html,

Received: Feb. 10th, 2015; accepted: Feb. 21st, 2015; published: Feb. 28th, 2015

Copyright ? 2015 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

https://www.360docs.net/doc/6812413322.html,/licenses/by/4.0/

Abstract

We obtain the best regression model by using stepwise regression method and analyzing the con-sumer price index and its impact factors; then we get some most important impact factors of it.

The feasibility of the regression model is proved in the paper. The results show that the accuracy of model reaches to 99.8982%, so it have feasibility. Some suggestions based on the results are given at last.

Keywords

Consumer Price Index, Stepwise Regression Method, Model Accuracy

居民消费价格指数的统计回归模型

张艺

云南财经大学统计与数学学院,云南昆明

Email: zgws9999@https://www.360docs.net/doc/6812413322.html,

收稿日期:2015年2月10日;录用日期:2015年2月21日;发布日期:2015年2月28日

摘要

对居民消费价格指数及各影响因子进行分析,运用逐步回归法得到最优回归模型,得出居民消费价格指

居民消费价格指数的统计回归模型

数最重要的几个影响因子;对回归模型的可行性进行了验证,结果显示所得模型精度达到99.8982%,具有可行性,并对结果进行分析,提出一些建议。

关键词

居民消费价格指数,逐步回归法,模型精度

1. 引言

居民消费价格指数(CPI),是一个反映居民家庭一般所购买的消费商品和服务价格水平变动情况的宏观经济指标。它是度量一组代表性消费商品及服务项目的价格水平随时间而变动的相对数,是用来反映居民家庭购买消费商品及服务的价格水平的变动情况。

居民消费价格统计调查的是社会产品和服务项目的最终价格,一方面同人民群众的生活密切相关,同时在整个国民经济价格体系中也具有重要的地位。它是进行经济分析和决策、价格总水平监测和调控及国民经济核算的重要指标。其变动率在一定程度上反映了通货膨胀或紧缩的程度。它主要包括食品类、烟酒及用品类、衣着类、家庭设备用品及维修服务类、医疗保健和个人用品类、交通和通信类、娱乐教育文化用品及服务类、居住类。了解CPI 的变化规律和价格波动对居民消费的影响程度,为采取相应的措施提供依据,具有重要的意义[1]。

关于居民消费价格指数的研究也比较多,例如王晖[2]对不同地区居民消费价格水平做了比较分析;何维,炜田皓[3]对居民消费价格指数影响因素进行了分析;石柱鲜,吴泰岳,邓创[4]分析了我国居民消费价格变动的主要影响因素;杨凌云,王凡彬,潘瑞,梁杰[5]研究了CPI 指数预测的统计回归模型;张愿章,王淑敏[6]基于多元回归分析研究了河南省居民消费价格指数的数学模型。

本文主要运用SPSS 软件对居民消费价格指数进行多元回归分析[7],首先对自变量进行共线性诊断,然后运用逐步回归法得到最优回归模型,得出居民消费价格指数最重要的几个影响因子;并对回归模型的可行性进行了验证,结果显示所得模型精度达到99.8982%,说明所得结果具有可行性,可以通过对结论中影响最大的几个影响因子进行合理的调控,从而更好进行经济分析和决策、国民经济核算以及监测价格的总水平。

2. 数据来源及变量

为了研究居民消费价格指数,本论文收集了2002年至2012年之间居民消费价格指数及食品类居民消费价格指数等9个变量的数据,此数据来源于中华人民共和国国家统计局网站。

其中y 是指居民消费价格指数;1x 是指食品类居民消费价格指数;2x 是指烟酒及用品类居民消费价格指数;3x 是指衣着类居民消费价格指数;4x 是指家庭设备用品及维修服务类居民消费价格指数;5x 是指医疗保健和个人用品类居民消费价格指数;6x 是指交通和通信类居民消费价格指数;7x 是指娱乐教育文化用品与服务类居民消费价格指数;8x 是指居住类居民消费价格指数。

3. 共线性诊断

变量间的关系可由所谓的方差膨胀因子VIF 来判断。记2j R 为预测变量j x 关于所有其他预测变量作回归得到的复相关系数的平方。因此j x 的方差膨胀因子为:

21

VIF , 1,,1j

j

j p R ==?

居民消费价格指数的统计回归模型

其中,p 为预测变量的个数。若j x 与其他预测变量有较强的线性关系,则2j R 将接近1,从而VIF j 会很大。当方差膨胀因子的值大于10时,通常被看做数据有共线性问题。

另外,对预测变量做主成分分析得出的特征向量的特征值λ。若某个λ比其他小很多(接近于0),那就存在多重共线性。接近0的λ的个数就等于数据中存在的不同多重共线性的组数。此外,主成分分析得出的相关矩阵的条件数也是各变量总的多重共线性的一种度量,较大的表明强共线性。当条件数超过15时,数据中的共线性的负面效应变得很强。

因此,为了判断哪些自变量是造成多重共线性的,通过SPSS [8]做主成分,计算自变量的方差膨胀因子VIF 、特征向量的特征值及相关矩阵的条件数。结果见表1、表2。

从表2可以看出各变量的方差膨胀因子VIF 。可以看出1x 、2x 、4x 、6x 、8x 的方差膨胀因子较大,均大于10。因此更加确定这8个变量间存在共线性。

从表1可以看出各变量的特征值和条件数。其中除了常数项外,其余变量的特征值都接近0。相关矩阵的条件数也是除了常数项外都大于15。因此该数据存在多组多重共线性,并且具有很强的负效应。为此,必须要对数据的多重共线性进行处理。

4. 逐步回归法的应用

对于数据的多重共线性,可以采用逐步回归法进行处理,通过SPSS 对变量进行线性回归分析,筛选和剔除不合适的变量,得到以下6组模型,即表3。

从表3可以看出,6组模型中F 检验的概率值均小于0.05,且6组模型的决定系数2R 均接近1。下面继续判定6组模型中那一组成立。

由表4至表9中6种模型的回归系数,这6种模型可以分别表示为: 模型1:156.4740.434y

x +

模型2:167.8050.3910.538y x x =++

模型3:16814.8410.3610.3790.115y x x x =+++ 模型4:12687.9510.3020.2830.120.214y x x x x =++++ 模型5:1288.4310.2830.3750.253y x x x =+++

模型6:123816.0330.3090.2130.0920.224y x x x x =++++

对于以上模型,系数估计值显著的模型需要符合以下条件:回归系数的估计值在T 检验中的概率均小于显著性水平0.05,且其变量的方差膨胀因子小于10。由表4至表9可知,符合此条件的模型为模型1和模型6。

由以上的分析可知,只有模型1和模型6的拟合效果最好。比较模型1和模型6,模型1的2R 等于0.947;模型6的2R 等于0.999。由于模型6的拟合优度比模型1的拟合优度更大,所以优先选取模型6,从表9中也可以看到模型6的回归系数估计值。因此,利用逐步回归法建立的回归模型为:

123816.0330.3090.2130.0920.224y x x x x =++++

5. 回归模型的可行性检验

利用建立的回归模型,对模型精度进行检验,所得结果如表10。

由表10可知,该模型的平均相对误差为0.001018,模拟精度达到99.8982%,模拟精度较高,具有可行性。

6. 结论

通过以上的讨论,首先得出了回归方程的模型,通过对模型的分析可知,食品类居民消费价格指数

居民消费价格指数的统计回归模型

Table 1. Collinearity diagnosis table

表1. 共线性诊断表

模型(常量) x1x2x3x4x5x6x7x8

特征值8.997 0.002 0.000 0.000 0.000 5.409E?05 1.472E?05 5.883E?06 1.982E?06 条件数 1.000 72.987 136.980 209.617 286.565 407.835 781.864 1236.660 2130.772 Table 2. Inspection table of VIF

表2. 方差膨胀因子检验表

模型(常量) x1x2x3x4x5x6x7x8

VIF 21.105 18.876 8.241 12.386 3.715 22.447 6.631 30.470 Table 3. F-test of each regression model and inspection table of coefficient of determination

表3. 各回归模型的F检验及决定系数检验表

模型 1 2 3 4 5 6

F值162.035 291.631 440.227 581.420 781.115 1114.056

Sig 0.000 0.000 0.000 0.000 0.000 0.000

R方0.947 0.986 0.995 0.997 0.997 0.999

因变量y

模型1 预测变量(常量) x1

模型2 预测变量(常量) x1x6

模型3 预测变量(常量) x1x6x8

模型4 预测变量(常量) x1x6x8x2

模型5 预测变量(常量) x1x8x2

模型6 预测变量(常量) x1x8x2x3 Table 4. T-test of model 1 and inspection table of VIF

表4. 模型1的T检验及方差膨胀因子检验表

预测变量(常量) x1

回归系数56.474 0.434

Sig 0.000 0.000

VIF 1.000 Table 5. T-test of model 2 and inspection table of VIF

表5. 模型2的T检验及方差膨胀因子检验表

预测变量(常量) x1x6

回归系数7.805 0.391 0.538

Sig 0.471 0.000 0.001

VIF 1.240 1.240 ()

x、烟酒及用品类居民消费价格指数()2x、衣着类居民消费价格指数()3x、居住类居民消费价格指数1

()

x对居民消费价格指数有显著性的影响,且有正向的推动作用,它们之间呈一种线性关系。

8

居民消费价格指数的统计回归模型Table 6. T-test of model 3 and inspection table of VIF

表6. 模型3的T检验及方差膨胀因子检验表

预测变量(常量) x1x6x8

回归系数14.841 0.361 0.379 0.115 Sig 0.078 0.000 0.004 0.013

VIF 1.797 1.749 2.535 Table 7. T-test of model 4 and inspection table of VIF

表7. 模型4的T检验及方差膨胀因子检验表

预测变量(常量) x1x6x8x2

回归系数7.951 0.302 0.120 0.214 0.283 Sig 0.239 0.000 0.369 0.004 0.046

VIF 8.299 5.933 8.249 7.470 Table 8. T-test of model 5 and inspection table of VIF

表8. 模型5的T检验及方差膨胀因子检验表

预测变量(常量) x1x8x2

回归系数8.431 0.283 0.253 0.375 Sig 0.206 0.000 0.000 0.000

VIF 3.735 2.129 2.202 Table 9. T-test of model 6 and inspection table of VIF

表9. 模型6的T检验及方差膨胀因子检验表

预测变量(常量) x1x8x2x3

回归系数16.033 0.309 0.224 0.213 0.092 Sig 0.022 0.000 0.000 0.029 0.036

VIF 5.846 2.972 6.272 3.139 Table 10. The result of simulate data

表10. 模拟数据检验结果

年份原值模拟值误差相对误差

2002 99.2 99.3831 ?0.1831 0.00185

2003 101.2 101.109 0.091 0.000899

2004 103.9 104.1073 ?0.2073 0.002

2005 101.8 101.8675 ?0.0675 0.00066

2006 101.5 101.6467 ?0.1467 0.00145

2007 104.8 104.9486 ?0.1486 0.00142

2008 105.9 105.9634 ?0.0634 0.0006

2009 99.3 99.3784 ?0.0784 0.00079

2010 103.3 103.3146 ?0.0146 0.00014

2011 105.4 105.456 ?0.056 0.00053

2012 102.6 102.6895 ?0.0895 0.00087

居民消费价格指数的统计回归模型

食品价格的上涨对CPI的上涨有很强的推动作用。因此,应该促进第一产业的发展,提高农业生产效率,保证农产品的供求平衡。加大对农业科技创新的投资,鼓励对农业科技的研究,推广节约成本又成效高的农业技术。政府可制定相关的措施进行主要农产品的市场调控,稳定食品价格;也可指派专业人员深入农户,对种植和养殖技术及产品的储存进行指导,对运送农产品的物流公司给予相关福利政策,从而使农业成本和浪费率降低,产量增高,进而达到稳定农产品价格的效果。

烟酒及用品类价格的上涨对CPI的上涨的推动作用也很大。一些香烟和酒类等通过炒作等手段使价格增长的较高,甚至出现天价,政府也可制定相关措施和政策对其价格进行调控,例如给各个档次的烟酒制定一个价格最高的上限,且不同档次的区间长度选取要适中,不宜过大,从而避免出现价格失调的现象。

衣着类价格的上涨也是CPI上涨的一个主要推动因素。对此,我们可以通过鼓励棉花等原料的种植以及绵羊等动物的养殖,通过增大衣着原料的产量来降低工厂的原料采集成本,进而达到降低衣着类价格的效果。

CPI持续上涨的主要驱动因素中居住类的上涨趋势也非常明显。近年来,房地产价格上涨幅度较大,对整体物价的上涨具有很大的刺激作用。对此应继续加强和改善房地产调控,在引导商品房产业健康发展的同时,结合旧城区改造,大力建设保障性住房,增加住房的有效供应,采取长效措施遏制房价的过快上涨[9]。

致谢

审稿人及编辑提出的修改意见使本文的内容更加完善,在此对审稿人及编辑表示衷心的感谢!

参考文献(References)

[1]李慧(2014) 我国居民消费价格指数存在的问题及改进措施. 赤峰学院学报(自然科学版), 11, 139-141.

[2]王晖(2005) 不同地区居民消费价格水平比较分析. 经济师, 8, 30-31.

[3]何维, 炜田皓(2007) 居民消费价格指数影响因素分析. 统计与决策, 23, 66-68.

[4]石柱鲜, 吴泰岳, 邓创(2009) 我国居民消费价格变动的主要影响因素分析, 延边大学学报, 2, 99-103.

[5]杨凌云, 王凡彬, 潘瑞, 梁杰(2010) CPI指数预测的统计回归模型. 重庆文理学院学报, 1, 38-41.

[6]张愿章, 王淑敏(2010) 基于多元回归分析的河南省居民消费价格指数的数学模型. 华北水利水电学院, 1,

103-105.

[7]于秀林, 任雪松(2006) 多元统计分析. 中国统计出版社, 北京.

[8]杨小平, 刘刚, 赵晋(2008) 统计分析方法与SPSS应用教程. 清华大学出版社, 北京.

[9]王泸怡, 尹长明(2011) 广西CPI指数统计数据多元回归分析. 合作经济与科技, 417, 12-13.

统计学原理-回归分析案例0204192330

美国各航空公司业绩的统计数据公布在《华尔街日报1998年鉴》(The Wall Street Journal Almanac 1998)上,有关航班正点到达的比率和每10万名乘客投诉的次数的数据如下: 航空公司名称航班正点率(%)投诉率(次/10万名乘客)西南(Southwest)航空公司81.8 0.21 大陆(Continental) 航空公司76.6 0.58 西北(Northwest)航空公司76.6 0.85 美国(US Airways)航空公司75.7 0.68 联合(United)航空公司73.8 0.74 美洲(American)航空公司72.2 0.93 德尔塔(Delta)航空公司71.2 0.72 70.8 1.22 美国西部(America West)航空公 司 环球(TWA)航空公司68.5 1.25 a. 画出这些数据的散点图 b. 根据再(a)中作出的散点图,表明二变量之间存在什么关系? c. 求出描述投诉率是如何依赖航班按时到达正点率的估计的回归方程 d. 对估计的回归方程的斜率作出解释 e. 如何航班按时到达的正点率是80%,估计每10万名乘客投诉的次数是多少?

1)作散点图: 2)根据散点图可知,航班正点率和投诉率成负直线相关关系。 3)作简单直线回归分析: SUMMARY OUTPUT 回归统计 Multiple R0.882607 R Square0.778996 Adjusted R Square0.747424 标准误差0.160818 观测值9 方差分析  df SS MS F Significance F 回归分析10.6381190.63811924.673610.001624残差70.1810370.025862 总计80.819156  Coefficient s标准误差t Stat P-value Lower 95%Upper 95%下限95.0%上限95.0% Intercept 6.017832 1.05226 5.7189610.000721 3.5296358.506029 3.5296358.506029 X Variable 1-0.070410.014176-4.967250.001624-0.10393-0.03689-0.10393-0.03689 4)y = -0.0704x + 6.0178

SPSS多元线性回归分析实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method 选择Stepwise.

进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue.

3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

统计学多元回归分析实例

某农场负责人认为早稻收获量(y:单位为kg/公顷)与春季降雨(x i:单位为mm)和春季温度(X2:单位为C )有一定的联系,通过7组试验获得了相关的数据。利用Excel得到下面的回归结果(a =0.1): 方差分析表 (1)将方差分析表中的所缺数值补齐。 (2 )写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3 )检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? 2 (5)计算判定系数R,并解释它的实际意义。 (6)计算估计标准误差Se,并解释它的实际意义。 (每个空格为0.5分) 2、设总体回归模型为Y= 口+ P 1X^^ 2X2+ & ?x^ ?x2,由EXCEL输出结果可知,?= -0.39 14.92x1估计回归方程为? = ? 218.45x2,回归系数 ?的意义指在温度不变的条件下,当降雨量每增加1mm早稻收获量平均增加 14.92 kg/公顷;回归系数:?的意义指在降雨量不变的条件下, 2 当温度增加1C,早稻收获量平均增加218.45 kg/公顷。---5 分 3、由于p值=0.000075 < a =0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。

4、由于各回归系数的P值均小于a ( 0.05 ),所以各回归系数是显著的。 ---2 分5、2二§臾二1387849567二0.99,表示早稻收获量的总变异中有99%的部分可以由降 R SST 14000000 雨量、温度的联合变动来解释。---4 分 6、S =」SS E =V MST = J30376.08 =174.29(k为自变量个数),是总体回归模型 e n - k -1 中随机扰动项&的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,S e越大,拟合程度越低;S e越小,拟合程度越高? —4 分

统计学案例——相关回归分析

《统计学》案例——相关回归分析 案例一质量控制中的简单线性回归分析 1、问题的提出 某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。 通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。 2、数据的收集

目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。 3.方法的确立 设线性回归模型为εββ++=x y 10,估计回归方程为x b b y 10?+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。因此,建立描述y 与x 之间关系的模型时,首选直线型是

合理的。 从线性回归的计算结果,可以知道回归系数的最小二乘估计值 b 0=21.263和b 1=-0.229,于是最小二乘直线为 x y 229.0263.21?-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。 (3)残差分析 为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。

从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。 (4)回归模型检验 a.显著性检验 在90%的显著水平下,进行t 检验,拒绝域为︱t ︱=︱b 1/ s b1︱>t α/2=1.7011。 由输出数据可以找到b 1和s b1,t=b 1/ s b1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。 b.拟合度检验 判定系数r 2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。 2r r ==-0.89 这样,r 值为y 与x 之间存在中高度的负线性关系提供了进一步的证据。 由于n ≥30,我们近似确定y 的90%置信区间为: s z y )(?2 α±=21.263-0.229x ±1.282×0.388 = 21.263-0.229x ± 0.497

统计学多元回归分析实例

某农场负责人认为早稻收获量(y :单位为kg/公顷)与春季降雨(x 1:单位为mm )和春季温度(x 2:单位为℃)有一定的联系,通过7组试验获得了相关的数据。利用Excel 得到下面的回归结果(α=0.1): 方差分析表 (2)写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3)检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? (5)计算判定系数2 R ,并解释它的实际意义。 (6)计算估计标准误差Se ,并解释它的实际意义。 (每个空格为0.5分) -----3分 2、设总体回归模型为Y =1 2 1 2 x x αεββ+ ++ 估计回归方程为y ?=1 2 1 2 ???x x αββ++,由EXCEL 输出结果可知,y ?=120.3914.92218.45-++x x ,回归系数1 ?β 的意义指在温度不变的条件下,当降雨量每增加1mm ,早稻收获量平均增加14.92kg/公顷;回归系数 2 ?β 的意义指在降雨量不变的条件下, 当温度增加1℃,早稻收获量平均增加218.45kg/公顷。 ---5分

3、由于p 值=0.000075<α=0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。 ---2分 4、由于各回归系数的P 值均小于α(0.05),所以各回归系数是显著的。 ---2分 5、 2 13878495.67 0.9914000000 = ==SSR SST R ,表示早稻收获量的总变异中有99%的部分可以由降雨量、温度的联合变动来解释。 ---4分 6、 174.29= ===e S (k 为自变量个数) ,是总体回归模型中随机扰动项ε的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,e S 越大, 拟合程度越低;e S 越小,拟合程度越高. ---4分

spss多元回归分析案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 总消费(C:亿元) 总GDP(亿元)消费率(%) 1995 1095.97 2109.38 51.96 1997 1438.12 2856.47 50.35 2000 1594.08 3545.39 44.96 2001 1767.38 3880.53 45.54 2002 1951.54 4212.82 46.32 2003 2188.05 4757.45 45.99 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

(注:数据来自《湖北省统计年鉴》) 一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y :消费率(%) X1:总收入 (亿元) X2:人口 增长率 (‰) X3:居民 消费价格指数增长率 X4:少儿抚养系数 X5:老年 抚养系数 X6:居民 消费比重(%) 1995 51.96 1590.75 9.27 17.1 45.3 9.42 68.9 1997 50.35 2033.68 8.12 2.8 41.1 9.44 70.72 2000 44.96 2247.25 3.7 0.4 39 9.57 70.93 2004 2452.62 5633.24 43.54 2005 2785.42 6590.19 42.27 2006 3124.37 7617.47 41.02 2007 3709.69 9333.4 39.75 2008 4225.38 11328.92 37.30 2009 4456.31 12961.1 34.38 2010 5136.78 15806.09 32.50

回归模型案例

案例一:城镇居民收入与支出关系 一、研究的目的 研究影响各地居民消费水平变动的原因。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是某年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X 。 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图, 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立的计量经济模型为如下线性模型: 12i i i Y X u ββ=++ 三、估计参数 1、建立工作文件 首先,双击EViews 图标,进入EViews 主页。在菜单一次点击File\New\Workfile ,出现对话框“Workfile Range ”。在“Workfile frequency ”中选择数据频率: Annual (年度) Weekly ( 周数据 ) Quartrly (季度) Daily (5 day week ) ( 每周5天日数据 ) Semi Annual (半年) Daily (7 day week ) ( 每周7天日数据 ) Monthly (月度) Undated or irreqular (未注明日期或不规则的) 在本例中是截面数据,选择“Undated or irreqular ”。并在“Start date ”中输入开始时间

(整理)SPSS多元回归分析实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1

第八章 统计回归模型

第八章 统计回归模型 回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数. 回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等. 回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归. 一、多项式回归 (1) 一元多项式回归 一元多项式回归模型的一般形式为εβββ++++=m m x x y ...10. 如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归. 1. 用函数polyfit 估计模型参数,其具体调用格式如下: p=polyfit(x,y,m) p 返回多项式系数的估计值;m 设定多项式的最高次数;x ,y 为对应数据点值. [p,S]=polyfit(x,y,m) S 是一个矩阵,用来估计预测误差. 2. 输出预估值与残差的计算用函数polyval 实现,其具体调用格式如下: Y=polyval(p,X) 求polyfit 所得的回归多项式在X 处的预测值Y . [Y ,DELTA]=polyval(p,X,S) p ,S 为polyfit 的输出,DELTA 为误差估计.在线性回归模型中,Y ±DELTA 以50%的概率包含函数在X 处的真值. 3. 模型预测的置信区间用polyconf 实现,其具体调用格式如下: [Y ,DELTA]=polyconf(p,X,S,alpha) 求polyfit 所得的回归多项式在X 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y±DELTA ,alpha 缺省时为0.05. 4. 交互式画图工具polytool ,其具体调用格式如下: polytool(x,y,m); polytool(x,y,m,alpha); 用m 次多项式拟合x ,y 的值,默认值为1,alpha 为显著性水平,默认值为0.05. 例1 观测物体降落的距离s 与时间t 的关系,得到数据如下表,求s . 解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下: %%%输入数据

数学建模方法之统计回归总结

统计回归总结 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以我们通过对数据的统计分析,找出与数据拟合最好的模型。 我们通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进: 回归分析步骤如下: ●收集一组因变量和自变量的数据 ●选定因变量和自变量之间的模型,利用数据最小二乘准则计算模 型中的系数 ●利用统计分析方法对不同的模型进行比较找出与数据拟合得最好 的模型 ●判断这组模型是否适合于这组数据诊断有无不适合回归模型的异 常数据 ●利用模型对因变量做出预测与解释 实例分析 一、牙膏的销售量 题目: 收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,请根据对数据的处理建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙

膏销售量。 分析与假设 根据对题目中数据进行处理,作散点图分析(MATLAB )应用格式 Plot(x,y,’’) Plotfit(x,y,1),其中x 表示y 模型建立与求解 假设y ~公司牙膏销售量,x 1~其它厂家与本公司价格差 (1)x 2~公司广告费用 (2)将(1)、(2)式子联立可以得到 εββ++=110x y εβββ+++=2 22210x x y ε ββββ++++=22322110x x x y

(3) y~被解释变量(因变量) x1,x2~解释变量(回归变量,自变量) β0,β1,β2,β3~回归系数 ε~随机误差(均值为零的正态分布随机变量) 利用MATLAB工具求解可以得到。 格式如下 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入: y~n维数据向量 x=[1 x1 x2 x22 ]~n×4数据矩阵,第一列为全1向量 alpha(置信水平,0.05) 输出: b~β的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~检验统计回归模型;检验统计量:R2,F,p 注:其中R2越接近1越好,F远超过F检验的临界值,p远小于α=0.05 则可行

多元线性回归实例分析报告

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

一元线性回归模型的统计检验概述(doc 8页)

一元线性回归模型的统计检验概述(doc 8页)

§2.3 一元线性回归模型的统计检验 回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。 一、拟合优度检验

拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。 . . ....

. . . . . 图2.3.1 图2.3.2 1、总离差平方和的分解 已知由一组样本观测值),(i i Y X ,i =1,2…,n 得到如 下样本回归直线 i i X Y 10???ββ+= 而Y 的第i 个观测值与样本均值的离差) (Y Y y i i -=可 分解为两部分之和: i i i i i i i y e Y Y Y Y Y Y y ?)?()?(+=-+-=-= (2.3.1) 图2.3.3示出了这种分解,其中,)?(?Y Y y i i -=是样 本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分; )?(i i i Y Y e -=是实际观测值与回归拟合值之差,是回 归直线不能解释的部分。显然,如果i Y 落在样本回归线上,则Y 的第i 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离

逐步回归分析实例

逐步回归分析 在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x 之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x 因子的筛选,这样建立的多元回归模型预测效果会更较好。 逐步回归分析,首先要建立因变量y 与自变量x 之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y 影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。 回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。 逐步回归在病虫预报中的应用实例: 以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls ),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。 变量说明如下: y :历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株) x2:前年冬季极端气温 x3:5月份最高气温 x4:5月份最低气温 x11:5月份均温 x12:5月份降水量 x13:6月份均温 x14:6月份降水量 x15:第一次蚜迁高峰期百株烟草有翅蚜量

相关文档
最新文档