第11章多重线性回归分析案例辨析及参考答案

第11章多重线性回归分析案例辨析及参考答案
第11章多重线性回归分析案例辨析及参考答案

第11章多重线性回归分析

案例辨析及参考答案

案例11-1预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男

性的健康调查资料。一共调查了 7个指标,分别是吸氧效率(Y , %)、年龄(X1,岁)、体重(X2, kg )、

跑1.5 km所需时间(X3, min )、休息时的心跳频率(X4,次/min )、跑步时的心跳频率(X5,次/min)

和最高心跳频率(X6,次/min )(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。

教材表11 -9 吸氧效率调查数据

Y X1 X2X3 X4 X5 X6 Y X1 X2X3 X4 X5 X6

44.609 44 89.47 11.37 62 178 182 40.836 51 69.63 10.95 57 168 172

45.313 40 75.07 10.07 62 185 185 46.672 51 77.91 10.00 48 162 168

54.297 44 85.84 8.65 45 156 168 46.774 48 91.63 10.25 48 162 164

59.571 42 68.15 8.17 40 166 172 50.388 49 73.37 10.08 67 168 168

49.874 38 89.02 9.22 55 178 180 39.407 57 73.37 12.63 58 174 176

44.811 47 77.45 11.63 58 176 176 46.080 54 79.38 11.17 62 156 165

45.681 40 75.98 11.95 70 176 180 45.441 56 76.32 9.63 48 164 166

49.091 43 81.19 10.85 64 162 170 54.625 50 70.87 8.92 48 146 155

39.442 44 81.42 13.08 63 174 176 45.118 51 67.25 11.08 48 172 172

60.055 38 81.87 8.63 48 170 186 39.203 54 91.63 12.88 44 168 172

50.541 44 73.03 10.13 45 168 168 45.790 51 73.71 10.47 59 186 188

37.388 45 87.66 14.03 56 186 192 50.545 57 59.08 9.93 49 148 155

44.754 45 66.45 11.12 51 176 176 48.673 49 76.32 9.40 56 186 188

47.273 47 79.15 10.60 47 162 164 47.920 48 61.24 11.50 52 170 176

51.855 54 83.12 10.33 50 166 170 47.467 52 82.78 10.50 53 170 172

49.156 49 81.42 8.95 44 180 185

资料来自:张家放主编?医用多元统计方法?武汉:华中科技大学出版社,2002。

该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。

教材表11-10 多重线性回归模型的参数估计

Table 11-10 Parameter estimati on of regressi on model

Variable

Un sta ndardized Coefficie nts Stan dardized

Coefficie nts t P

B Std. Error

In tercept 100.079 11.577 8.644 0.000 X1 -0.213 0.091 -0.214 -2.337 0.027 X3 -2.768 0.331 -0.721 -8.354 0.000 X5 -0.339 0.116 -0.653 -2.939 0.007 X6 0.255 0.132 0.439 1.936 0.064

* F 34.90, P 0.001 R2 0.843

对模型进行方差分析的结果认为模型有统计学意义(P<0.05),确定系数的数值(0.843)也说明模型

拟合的效果较好。考察各个自变量的偏回归系数,研究者发现,X6的偏回归系数符号为正,认为最高心

跳频率越大,人的吸氧效率就越高,这与专业结论相反。出现这种悖论的原因是什么呢?

案例辨析我们先分析一下各个自变量之间的简单相关系数,结果发现X5和X6存在有较强的相关

(r=0.930, P<0.001),对回归模型进行共线性诊断,结果发现自变量X5的容忍度为0.122,方差膨胀因子

等于8.188,自变量X6的容忍度为0.117,方差膨胀因子等于 8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。

正确做法在这里,我们可以把自变量X6从模型中删除以消除多重共线性的影响,应重新建立多重

线性回归方程。最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。

案例11-2医院住院人数的预测石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次X1、病床利用率X2、病床周转次数X3和住院人数Y的数据(教材表11-11),建立由X1、X2、X3预测Y的线性回归方程[中国卫生统计,1991,8(6)]。下面列出了多重线性回归分析的主要结果(教材表11-12)。

教材表11-11 重庆医科大学附属第二医院1970-1989年若干统计资料

年份住院人数

Y

门诊人数/万人

X1

病床利用率/ %

X2

病床周转次数

X3

1970 6 349 49.8 94.25 19.84 1971 6 519 38.1 98.50 20.37

1972 5 952 36.6 89.86 18.80 1973 5 230 36.0 86.00 16.34

1974 5 411 32.3 83.29 16.91 1975 5 277 37.8 77.88 18.07

1976 3 772 34.1 92.62 17.96 1977 3 846 42.2 86.57 18.31

1978 3 866 38.1 84.29 18.41 1979 5 142 39.5 89.29 20.61

1980 7 724 55.8 97.63 21.72

1981 8 167 63.0 96.53 23.33 1982 8 107 65.2 93.43 21.91

1983 7 998 66.1 94.45 21.05 1984 7 331 65.4 93.03 19.96 1985 6 447 60.1 91.79 18.81 1986 4 869 56.9 88.94 15.82 1987 5 506 57.7 91.79 16.01

1988 5 741 53.4 99.03 16.59 1989 5 568 48.7 94.93 19.09

教材表11-12 多重线性回归模型的参数估计

Table 11-12 Parameter estimation of regression model

Variable -

Un sta ndardized Coefficie nts

Stan dardized P

Coefficie nts t

B Std. Error In tercept

-3219.628 1505.165

-2.139

0.047 X 1 59.834 15.780 0.512 3.792 0.001 X 3

327.553

85.725

0.515

3.821

0.001

* F 24.39, P 0.001

R 2

0.861

作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程,得到表 11-12的结果,认为回归效果很好。但是,读者小明作了残差分析图(教材图 11-4 ),认为回归效果不好。

请仲裁一下,到底谁对谁错?

1 5C0 - 1 000 - 50D -

0 -

-500 -

OCO -

-1 500

4 000

5000 6OT 7003

8000

r 的预测值

教材图11-4

残差分析图

案例辨析

作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程。

从结果中可以看出,整个方程是有统计学意义的,各个总体偏回归系数不为零,确定系数等于

0.861,说

明回归的效果也很好。但是,回头考虑资料是否适合进行多重线性回归分析,也就是资料是否满足多重回 归分析的前提条件 LINE ?于是,对回归分析的结果进行残差分析,

上面的残差图提示资料不满足方差齐性

的要求。Durbin-Watson 统计量等于0.580,结果提示资料不满足独立性的要求。其实,常识也认为同一 医院不同年份之间的数据不是独立的。因此,可以认为本资料不满足多重线性回归分析的前提条件,不宜 进行多重线性回归分析。

正确做法 由于各年数据前后可能存在关联性,即其取值与时间有关,故可以考虑采用时间序列等分 析方法,此处从略。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

第十一章 多重线性回归分析

一、作业 教材P214 三。 二、自我练习 (一)教材P213 一。 (二)是非题 1.当一组资料的自变量为分类变量时,对这组资料不能做多重线性回归分析。( ) 2.若多重线性方程模型有意义.则各个偏回归系数也均有统计学意义。〔) 3.回归模型变量的正确选择在根本上依赖于所研究问题本身的专业知识。() 4.从各自变量偏回归系数的大小.可以反映出各自变量对应变量单位变化贡献的大小。( ) 5.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数不变。( ) (三)选择题 1. 多重线性回归分析中,共线性是指(),导致的某一自变量对Y的作用可以由其他自变量的线性函数表示。 A. 自变量相互之间存在高度相关关系 B. 因变量与各个自变量的相关系数相同 C. 因变量与自变量间有较高的复相关关系

D. 因变量与各个自变量之间的回归系数相同 2. 多重线性回归和Logistic 回归都可应用于()。 A. 预测自变量 B. 预测因变量Y 取某个值的概率π C. 预测风险函数h D. 筛选影响因素(自变量) 3.在多重回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数: A.不变 B.增加相同的常数 C.减少相同的常数 D.增加但数值不定 4.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则: A.该偏回归系数不变 B.该偏回归系数变为原来的 1/k倍 C.所有偏回归系数均发生改变 D.该偏回归系数改变,但数值不定 5.作多重线性回归分析时,若降低进入的F 界值,则进入方程的变量一般会: A.增多 B.减少 C.不变 D.可增多也可减少(四)筒答题

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: 2010年中国各地区城市居民人均年消费支出和可支配收入

2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b 表3 相关性 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

表4 系数a 3、结果分析 表2模型汇总:相关系数为0.965,判定系数为0.932,调整判定系数为0.930,估计值的标准误877.29128 表3是相关分析结果。消费性支出Y与可支配收入X相关系数为0.965,相关性很高。 表4是回归分析中的系数:常数项b=704.824,可支配收入X的回归系数a=0.668。a的标准误差为0.034,回归系数t的检验值为19.921,P值为0,满足95%的置信区间,可认为回归系数有显著意义。得线性回归方程Y=0.668X+704.824. 【实验结论】 (1)结果显示,变量之间具有如下关系式:Y=0.668X+704.824.也就是说消费与收入之间存在稳定的函数关系。随着收入的增加,消费将增加,但消费的增长低于收入的增长。这与凯尔斯的绝对收入消费理论刚好吻合。但为了研究方便,这里假设边际消费倾向为常数。由公式知X每增长1个单位,Y增加0.668个单位。

主成分回归多重共线性

实验八:主成分回归 实验题目:对例5、5的Hald水泥问题用主成分方法建立模型,并与其她方法的结果进行比较。例5、5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别就是x1铝酸三钙(3CaO、Al2O3),x2硅酸三钙(3CaO、SiO2),x3铁铝酸四钙(4CaO、Al2O3、Fe2O3),x4硅酸三钙(2CaO、SiO2)。现观测到13组数据,如表5-3所示。 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

N 13 13 13 13 13 **、在、01 水平(双侧)上显著相关。 由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性 主成分回归: 解释的总方差 成份 初始特征值提取平方与载入 合计方差的 % 累积 % 合计方差的 % 累积 % 1 2、236 55、893 55、893 2、236 55、893 55、893 2 1、576 39、402 95、294 1、576 39、402 95、294 3 、187 4、665 99、959 、187 4、665 99、959 4 、002 、041 100、000 、002 、041 100、000 提取方法:主成份分析。 输出结果显示有四个特征根,最大的就是λ1=2、236,最小的就是λ4=0、002。 方差百分比显示第一个主成分Factor1的方差百分比近56%的信息量;前两个主成 分累计包含近95、3%的信息量。因此取两个主成分就已经足够。 由于前两个主成分的方差累计已经达到95、3%,故只保留前两个主成分。 成份矩阵a 成份 1 2 3 4 x1 、712 -、639 、292 、010 x2 、843 、520 -、136 、026 x3 -、589 、759 、275 、011 x4 -、819 -、566 -、084 、027 提取方法:主成分 a.已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1与f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。 得到因子得分的数值,并对其进行处理:sqrt(2、236)* FAD1_1, sqrt(1、576)* FAD2_1可以得出主成分表(f1 f2)。

一元线性回归案例spss

下图为25个职业人群的肺癌死亡指数(100=平均水平)和抽烟指数(100=平均水平)。 职业抽烟指数肺癌死亡指数 农业、林业工人77.0 84.0 挖掘、采石工人110.0 118.0 玻璃陶器制造者94.0 120.0 天然气、化工生产者117.0 123.0 锻造锻压工人116.0 135.0 电气及电子工人102.0 101.0 工程及相关行业人员111.0 118.0 木工业工人93.0 113.0 建筑工人113.0 141.0 皮革业工人92.0 104.0 服装业工人91.0 102.0 造纸印刷业工人107.0 102.0 纺织业工人102.0 93.0 其他产品制造者112.0 96.0 油漆工、装潢工110.0 137.0 发动机、起重机等操作员115.0 113.0 食品行业工人104.0 112.0 交通运输业工人115.0 128.0 库管员等105.0 114.0 服务业场所工人105.0 111.0 文书办事员87.0 81.0 销售员91.0 88.0 行政、经理人员76.0 61.0 艺术家、科学家66.0 55.0 其他劳动力113.0 123.0

散点图呈线性关系 令Y=肺癌死亡指数,X=抽烟指数,做线性回归分析如下: 表2中R=0.839 表示两变量高度相关 R方=0.703 表示拟合较好,散点相对集中于回归线 表3中sig.<0.05 则自变量与因变量具有显著的线性关系,即可以用回归模型表 示 表4中自变量sig.<0.05 则自变量对因变量的线性影响是显著的 由此得到抽烟指数及肺癌死亡指数的一元回归方程: Y=-24.421+1.301X 即抽烟指数每变动一个单位则肺癌死亡指数平均变动1.301个单位

多元线性回归中多重共线问题的解决方法综述

多元线性回归中多重共线问题的解决方法综述 摘 要 在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。 关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归 引言 在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。 1、 多元线性回归模型 1.1 回归模型的建立 设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系 我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计 一般要求n>P 。于是回归关系可写为 采用矩阵形式来表示 0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1???=???-1011121211(1)1 2012122212(1)2 011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++??=+++++?? ? ?=+++++?11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n p X X X Y X X X Y Y X Y X X X ---??????????????==??????????????)1(10,,,p -???βββ

一般线性回归分析研究案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康地影响,随机抽取了30个观测数据,基于多员线性回归分析地理论方法,对儿童体内几种必需元素与血红蛋白浓度地关系进行分析研究.这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu). 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30y(g) 7.00 7.25 7.75 8.00 8.25 8.25 8.50 8.75 8.75 9.25 9.50 9.75 10.00 10.25 10.50 10.75 11.00 11.25 11.50 11.75 12.00 12.25 12.50 12.75 13.00 13.25 13.50 13.75 14.00 14.25 ca 76.90 73.99 66.50 55.99 65.49 50.40 53.76 60.99 50.00 52.34 52.30 49.15 63.43 70.16 55.33 72.46 69.76 60.34 61.45 55.10 61.42 87.35 55.08 45.02 73.52 63.43 55.21 54.16 65.00 65.00 fe 295.30 313.00 350.40 284.00 313.00 293.00 293.10 260.00 331.21 388.60 326.40 343.00 384.48 410.00 446.00 440.01 420.06 383.31 449.01 406.02 395.68 454.26 450.06 410.63 470.12 446.58 451.02 453.00 471.12 458.00 cu 0.840 1.154 0.700 1.400 1.034 1.044 1.322 1.197 0.900 1.023 0.823 0.926 0.869 1.190 1.192 1.210 1.361 0.915 1.380 1.300 1.142 1.771 1.012 0.899 1.652 1.230 1.018 1.220 1.218 1.000

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

岭回归解决多重共线性

一、引言 回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。 二、认识多重共线性 (一)多重共线性的定义 设回归模型01122p p y x x x ββββε=+++?++如果矩阵X 的列向量存在一组不全 为零的数012,,p k k k k ?使得011220i i p i p k k x k x k x +++?+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+?+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在 近似的多重共线性。 (二)多重共线性的后果 1.理论后果 对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可 能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。 多重共线性的理论后果有以下几点: (1)保持OLS 估计量的BLUE 性质; (2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的 情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。 (3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样 的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。 (4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体 取样时仍存在样本间的共线性。 2.现实后果 (1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差, 估计精度不高; (2)置信区间比原本宽,使得接受0H 假设的概率更大;

多元线性回归实习实际例题分析

多元线性回归分析实习 线性回归过程(Linear Regression)可用于分析一个或多个自变量与一个因变量之间的线性数量关系,并可进行回归诊断分析。 ●[例题3.1] 某地29名13岁男童身高x1(cm),体重x2(kg),肺活量y(L)的实测值数据见表3.1,试建立肺活量与身高、体重的回归关系。 [ 操作过程] ①[ 数据格式] 见数据文件< 多元线性回归例题.sav > 该数据库有4列29行,即4个变量、29个记录(Observation),每个变量占1列,每个记录占1行,该数据格式为一般多元分析的数据格式。 ②[ 过程] 单击后可弹出线性回归对话框。该对话框内有诸多选项,现分别介绍。 ③[ 选项] ◆因变量。只能选入1个因变量,本例选入变量“肺活量”。 ◆自变量。可以是1个或多个,本例选入变量“身高、体重”。 ◆当选择不同组合的自变量进行回归分析时,可保存每次选择的自 变量,用按钮和按钮可分别向前、向后翻找各种自变量的组合。

◆选择回归模型拟合的分析方法,有5种可供选择。 Enter 强迫引入法,即一般回归分析,所选自变量全部进入方程,为系统默认方式。 Stepwise 逐步回归法, 加入有显著性意义的变量和剔除无显著性意义的变量,直到所建立的方程式 中不再有可加入和可剔除的变量为止。 Remove 强迫剔除法。根据设定的条件剔除自变量。 Backward向后逐步法。所选自变量全部进入方程,根据Options对话框中设定的标准在计算过程中逐个剔除变量,直到所建立的方程式中不再含有可剔 除的变量为止。 Forward:向前逐步法。根据Options对话框中设定的标准在计算过程中逐个加入单个变量,直到所建立的方程式中不再有可加入的变量为止。 ◆选择符合某变量条件的观察单位进行分析,每次只能选入1 位范围,有6种方式供选择,在Value框内输入设定值。 equal to 等于设定值。 not equal to不等于设定值。 less than小于设定值。 Less than or equal to 小于或等于设定值。 greater than 大于设定值。 greater than or equal to大于或等于设定值。 ◆对话框。 Regression coefficient回归系数 Estimate一般回归系数和标准回归系数及其标准误和显著性检验。 Confidence interval 输出一般回归系数的95%可信区间。 Covarience matrix 方差及协方差知阵和相关矩阵。 Model fit 模型检验,给出复相关系数R,决定系数R2及方差分析结果。 R squared change 输出调整R2及相应的F值和P值。 Descriptive 输出每个变量的均数,标准差,样本容量,相关系及单侧检验P值

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

多元线性回归模型练习题及答案

多元线性回归模型练习 一、单项选择题 1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中,计算得可决系数为,则调整后的可决系数为( D ) A. B. C. 用一组有30个观测值的样本估计模型01122t t t t y b b x b x u =+++后,在的显著性水平上对1b 的显著性作t 检验,则1b 显著地不等于零的条件是其统计量t 大于等于( C ) A. )30(05.0t B. )28(025.0t C. )27(025.0t D. )28,1(025.0F 3.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验 0:0(0,1,2,...)t H b i k ==时,所用的统计量 服从( C ) (n-k+1) (n-k-2) (n-k-1) (n-k+2) 4. 调整的可决系数 与多元样本判定系数 之间有如下关系( D ) A.2211n R R n k -=-- B. 22 111n R R n k -=--- C. 2211(1)1n R R n k -=-+-- D. 2211(1)1n R R n k -=---- 5.对模型Y i =β0+β1X 1i +β2X 2i +μi 进行总体显著性F 检验,检验的零假设是 ( A ) A. β1=β2=0 B. β1=0 C. β2=0 D. β0=0或β1=0 6.设k 为回归模型中的参数个数,n 为样本容量。则对多元线性回归方程进行 显著性检验时,所用的F 统计量可表示为( B ) A. )1()(--k RSS k n ESS B . C .)1()1() (22---k R k n R D .)()1/(k n TSS k ESS -- ) 1 ( ) 1 ( k R k R n

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

主成分回归多重共线性

实验八:主成分回归 实验题目:对例5.5的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。 例5.5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(3CaO.Al2O3),x2硅酸三钙(3CaO.SiO2),x3铁铝酸四钙(4CaO.Al2O3.Fe2O3),x4硅酸三钙(2CaO.SiO2)。现观测到13组数据,如表5-3所示。 表5-3 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。

得到因子得分的数值,并对其进行处理:sqrt(2.236)*FAD1_1,sqrt(1.576)*FAD2_1可以得出 主成分表(f1 f2)。 对f1 f2进行普通最小二乘线性回归 f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4 对f2和x1x2x3x4进行回归 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -.938 .000 -1119037.661 .000 x1 -.087 .000 -.405 -9710099.545 .000 x2 .027 .000 .330 3071727.057 .000 x3 .094 .000 .482 10459854.955 .000 x4 -.027 .000 -.359 -3177724.589 .000 a.因变量: f2 f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4

多重共线性和非线性回归及解决方法

多重共线性和非线性回归的问题 (1)多重共线性问题 我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看: 第一个,是最熟悉也是最方便的——逐步回归法。 逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。 第二个,通过因子分析(或主成分分析)再进行回归。 这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。 第三个,岭回归。 通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。 岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子k,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。在SPSS中没有提供岭回归的模块,可以直接点击使用,只能通过编程来实现,当然在SAS、Matlab中也可以实现。做岭回归的时候,需要进行多次调试,选择适当的k值,才能得到比较满意的方程,现在这个方法应用

实验六多元线性回归和多重共线性

实验六多元线性回归和多重共线性 姓名:何健华 学号:201330110203 班级:13金融数学2班 一 实验目的: 掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。 二 实验要求: 应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。 三 实验原理: 普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。 四 预备知识: 最小二乘法估计的原理、t 检验、F 检验、R 2值。 五 实验步骤: 有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型: 01122334455y x x x x x ββββββμ=++++++ 为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。 1、 请用普通最小二乘方法估计模型参数; 2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。

1. 用普通最小二乘方法估计模型参数 1.1设定并估计多元线性回归模型 01122334455y x x x x x ββββββμ=++++++ ------- (1-1) 1.2建立工作工作文件并录入数据,得到图1.1。 图1.1 点击主界面菜单Quick\Estimate Equation ,在弹出的对话框中输入Y C X1 X2 X3 X4 X5,点击确定即可得到回归结果图1.2。 图1.2

SPSS实现一元线性回归分析实例

SPSS实现一元线性回归分析实例 2009-12-14 15:31 1、准备原始数据。为研究某一大都市报开设周日版的可行性,获得了34种报纸的平日和周日的发行量信息(以千为单位)。数据如图1所示。 SPSS17.0 图1 2、判断是否存在线性关系。制作直观散点图: (1)SPSS:菜单Analyze/Regression/linear Regression,如图2所示:

图2 (2)打开对话框如图3 图3

图3中,Dependent是因变量,Independent是自变量,分别将左栏中的sunday选入因变量,daily选入自变量,newspaper作为标识标签选入case labels. (3)点击图3对话框中的plots按钮,如图4所示: 图4 将因变量DEPENTENT 选入Y:,自变量 ZPRED 选入X: continue 返回上级对话框。单击主对话框OK.便生成散点图如图5所示:

图5 从以上散点图可看出,二者变量之间关系趋势呈线性关系。 2、回归方程 菜单Analyze/Regression/linear Regression, 在图3对话框的右边单击statistics如图6所示:

图6 regression coefficient回归系数,estimates估计值,confidence intervals level:95%置信区间,model fit拟合模型。点击continue返回主对话框,单击OK.结果如图7、图8所示: 图7 图7中第一个图是变量的输入与输出,从图下的提示可知所有变量均输入与输出,没有遗漏。图7中的第二图是模型总和R值,R平方值,R调整后的平方值,及标准误。

多重共线性和非线性回归的问题

多重共线性和非线性回归的问题 前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。。。 (1)多重共线性问题 我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看: 第一个,是最熟悉也是最方便的——逐步回归法。 逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。 第二个,通过因子分析(或主成分分析)再进行回归。 这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。 第三个,岭回归。 通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。

相关文档
最新文档