一元线性回归模型的统计检验概述(doc 8页)

一元线性回归模型的统计检验概述(doc 8页)
一元线性回归模型的统计检验概述(doc 8页)

一元线性回归模型的统计检验概述(doc 8页)

§2.3 一元线性回归模型的统计检验

回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。

一、拟合优度检验

拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。

....

. . . . .

图2.3.1 图2.3.2

1、总离差平方和的分解

已知由一组样本观测值),(i

i

Y X ,i =1,2…,n 得到如

下样本回归直线

i

i X Y 10???ββ+=

而Y 的第i 个观测值与样本均值的离差)

(Y Y y

i i

-=可

分解为两部分之和:

i

i

i

i

i

i

i

y

e Y Y Y Y Y Y y ?)?()?(+=-+-=-= (2.3.1)

图2.3.3示出了这种分解,其中,)?(?Y Y y

i

i

-=是样

本回归直线理论值(回归拟合值)与观测值i

Y 的平均值之差,可认为是由回归直线解释的部分;

)?(i

i i Y Y e -=是实际观测值与回归拟合值之差,是回

归直线不能解释的部分。显然,如果i

Y 落在样本回归线上,则Y 的第i 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离

差,即完全可由样本回归线解释。表明在该点处实现完全拟合。

Y

i

e =来自残差

SRF

i

y =总离差

i

Y

?

i y

?=来自回归

Y

i

X X

图2.3.3

对于所有样本点,则需考虑这些点与样本均值离差的平方和。由于 ∑∑∑∑++=i i i i i

e y e y

y

?2?222

i

Y

可以证明∑=0?i

i e y

,所以有 ∑∑∑+=222?i i i

e y

y

(2.3.2)

记TSS Y Y y i

i

=-=∑∑2

2

)(,称为总离差平方和(Total

Sum of Squares ),反映样本观测值总体离差的大

小;ESS Y Y y

i

i

=-=∑∑2

2

)?(?,称为回归平方和(Explained Sum of Squares ),反映由模型中解释变量所解释

的那部分离差的大小;∑∑=-=RSS Y Y e i

i

i

2

2

)?(,称为残差平方和(Residual Sum of Squares ),反映样本

观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。

(2.3.2)表明Y 的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的回归平方和占Y 的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。 读者也许会问,既然RSS 反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即作为检验统计量的一般应该是相对量,而不能用绝对量。因为用绝对量作为检验统计量,无法设置标准。在这里,RSS ,即残差平方和,与样本

多项式回归、非线性回归模型

多项式回归、非线性回归模型 关键词:回归方程的统计检验、拟合优度检验、回归方程的显著性检验、F 检验、回归系数的显著性检验、残差分析、一元多项式回归模型、一元非线性回归模型 一、回归方程的统计检验 1. 拟合优度检验 1. 概念介绍 SST 总离差平方和total SSR 回归平方和regression SSE 剩余平方和error ∑∑∑∑====--= --- =n i i i n i i i n i i i n i i i y y y y y y y y R 1 2 1 2 12 12 2)()?()()?(1 2. 例题1 存在四点(-2,-3)、(-1,-1)、(1,2)、(4,3)求拟合直线与决定系数。 2. 回归方程的显著性检验 ) 2/()2/()?()?(1 212 -= ---= ∑∑==n SSE SSA n y y y y F n i i i n i i i 例6(F 检验) 在合金钢强度的例1中,我们已求出了回归方程,这里考虑关于回归方程的显著性检验,经计算有: 表5 X 射线照射次数与残留细菌数的方差分析表 这里值很小,因此,在显著性水平0.01下回归方程是显著的。 3. 回归系数的显著性检验 4. 残差分析 二、一元多项式回归模型

模型如以下形式的称为一元多项式回归模型: 0111a x a x a x a y n n n n ++++=-- 例1(多项式回归模型) 为了分析X 射线的杀菌作用,用200千伏的X 射线来照射细菌,每次照射6分钟,用平板计数法估计尚存活的细菌数。照射次数记为t ,照射后的细菌数为y 见表1。试求: (1)给出y 与t 的二次回归模型。 (2)在同一坐标系内作出原始数据与拟合结果的散点图。 (3)预测16=t 时残留的细菌数。 (4)根据问题的实际意义,你认为选择多项式函数是否合适? 表1 X 射线照射次数与残留细菌数 程序1 t=1:15; y=[352 211 197 160 142 106 104 60 56 38 36 32 21 19 15]; p=polyfit(t,y,2)%作二次多项式回归 y1=polyval(p,t);%模型估计与作图 plot(t,y,'-*',t,y1,'-o');%在同一坐标系中做出两个图形 legend('原始数据','二次函数') xlabel('t(照射次数)')%横坐标名 ylabel('y(残留细菌数)')%纵坐标名 t0=16; yc1=polyconf(p,t0)%预测t0=16时残留的细菌数,方法1 yc2=polyval(p,t0)%预测t0=16时残留的细菌数,方法2 即二次回归模型为: 8967.3471394.519897.121+-=t t y

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

统计学原理-回归分析案例0204192330

美国各航空公司业绩的统计数据公布在《华尔街日报1998年鉴》(The Wall Street Journal Almanac 1998)上,有关航班正点到达的比率和每10万名乘客投诉的次数的数据如下: 航空公司名称航班正点率(%)投诉率(次/10万名乘客)西南(Southwest)航空公司81.8 0.21 大陆(Continental) 航空公司76.6 0.58 西北(Northwest)航空公司76.6 0.85 美国(US Airways)航空公司75.7 0.68 联合(United)航空公司73.8 0.74 美洲(American)航空公司72.2 0.93 德尔塔(Delta)航空公司71.2 0.72 70.8 1.22 美国西部(America West)航空公 司 环球(TWA)航空公司68.5 1.25 a. 画出这些数据的散点图 b. 根据再(a)中作出的散点图,表明二变量之间存在什么关系? c. 求出描述投诉率是如何依赖航班按时到达正点率的估计的回归方程 d. 对估计的回归方程的斜率作出解释 e. 如何航班按时到达的正点率是80%,估计每10万名乘客投诉的次数是多少?

1)作散点图: 2)根据散点图可知,航班正点率和投诉率成负直线相关关系。 3)作简单直线回归分析: SUMMARY OUTPUT 回归统计 Multiple R0.882607 R Square0.778996 Adjusted R Square0.747424 标准误差0.160818 观测值9 方差分析  df SS MS F Significance F 回归分析10.6381190.63811924.673610.001624残差70.1810370.025862 总计80.819156  Coefficient s标准误差t Stat P-value Lower 95%Upper 95%下限95.0%上限95.0% Intercept 6.017832 1.05226 5.7189610.000721 3.5296358.506029 3.5296358.506029 X Variable 1-0.070410.014176-4.967250.001624-0.10393-0.03689-0.10393-0.03689 4)y = -0.0704x + 6.0178

SPSS多元线性回归分析实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method 选择Stepwise.

进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue.

3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

常见非线性回归模型

常见非线性回归模型 1.简非线性模型简介 非线性回归模型在经济学研究中有着广泛的应用。有一些非线性回归模型可以通 过直接代换或间接代换转化为线性回归模型,但也有一些非线性回归模型却无 法通过代换转化为线性回归模型。 柯布—道格拉斯生产函数模型 y AKL 其中L和K分别是劳力投入和资金投入, y是产出。由于误差项是可加的, 从而也不能通过代换转化为线性回归模型。 对于联立方程模型,只要其中有一个方程是不能通过代换转化为线性,那么这个联立方程模型就是非线性的。 单方程非线性回归模型的一般形式为 y f(x1,x2, ,xk; 1, 2, , p) 2.可化为线性回归的曲线回归 在实际问题当中,有许多回归模型的被解释变量y与解释变量x之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为

线性关系,利用线性回归求解未知参数,并作回归诊断。如下列模型。 (1)y 0 1e x (2)y 0 1x2x2p x p (3)y ae bx (4)y=alnx+b 对于(1)式,只需令x e x即可化为y对x是线性的形式y01x,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。 对于(2)式,可以令x1=x,x2=x2,?,x p=x p,于是得到y关于x1,x2,?, x p 的线性表达式y 0 1x12x2 pxp 对与(3)式,对等式两边同时去自然数对数,得lnylnabx ,令 y lny, 0 lna, 1 b,于是得到y关于x的一元线性回归模型: y 0 1x。 乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为yt本身是异方差的,而lnyt是等方差的。加性误差项模型认为yt是等 方差的。从统计性质看两者的差异,前者淡化了y t值大的项(近期数据)的作用, 强化了y t值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则 对近期数据拟合得效果较好。 影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。 异方差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用 加权最小二乘。

统计学多元回归分析实例

某农场负责人认为早稻收获量(y:单位为kg/公顷)与春季降雨(x i:单位为mm)和春季温度(X2:单位为C )有一定的联系,通过7组试验获得了相关的数据。利用Excel得到下面的回归结果(a =0.1): 方差分析表 (1)将方差分析表中的所缺数值补齐。 (2 )写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3 )检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? 2 (5)计算判定系数R,并解释它的实际意义。 (6)计算估计标准误差Se,并解释它的实际意义。 (每个空格为0.5分) 2、设总体回归模型为Y= 口+ P 1X^^ 2X2+ & ?x^ ?x2,由EXCEL输出结果可知,?= -0.39 14.92x1估计回归方程为? = ? 218.45x2,回归系数 ?的意义指在温度不变的条件下,当降雨量每增加1mm早稻收获量平均增加 14.92 kg/公顷;回归系数:?的意义指在降雨量不变的条件下, 2 当温度增加1C,早稻收获量平均增加218.45 kg/公顷。---5 分 3、由于p值=0.000075 < a =0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。

4、由于各回归系数的P值均小于a ( 0.05 ),所以各回归系数是显著的。 ---2 分5、2二§臾二1387849567二0.99,表示早稻收获量的总变异中有99%的部分可以由降 R SST 14000000 雨量、温度的联合变动来解释。---4 分 6、S =」SS E =V MST = J30376.08 =174.29(k为自变量个数),是总体回归模型 e n - k -1 中随机扰动项&的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,S e越大,拟合程度越低;S e越小,拟合程度越高? —4 分

统计学案例——相关回归分析

《统计学》案例——相关回归分析 案例一质量控制中的简单线性回归分析 1、问题的提出 某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。 通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。 2、数据的收集

目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。 3.方法的确立 设线性回归模型为εββ++=x y 10,估计回归方程为x b b y 10?+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。因此,建立描述y 与x 之间关系的模型时,首选直线型是

合理的。 从线性回归的计算结果,可以知道回归系数的最小二乘估计值 b 0=21.263和b 1=-0.229,于是最小二乘直线为 x y 229.0263.21?-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。 (3)残差分析 为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。

从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。 (4)回归模型检验 a.显著性检验 在90%的显著水平下,进行t 检验,拒绝域为︱t ︱=︱b 1/ s b1︱>t α/2=1.7011。 由输出数据可以找到b 1和s b1,t=b 1/ s b1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。 b.拟合度检验 判定系数r 2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。 2r r ==-0.89 这样,r 值为y 与x 之间存在中高度的负线性关系提供了进一步的证据。 由于n ≥30,我们近似确定y 的90%置信区间为: s z y )(?2 α±=21.263-0.229x ±1.282×0.388 = 21.263-0.229x ± 0.497

一元线性回归模型习题及答案

一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类__________。A A 函数关系与相关关系 B 线性相关关系和非线性相关关系 C 正相关关系和负相关关系 D 简单相关关系和复杂相关关系 2、相关关系是指__________。D A 变量间的非独立关系 B 变量间的因果关系 C 变量间的函数关系 D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。A A 都是随机变量 B 都不是随机变量 C 一个是随机变量,一个不是随机变量 D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。C A 01???t t Y X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+ 5、参数β的估计量?β 具备有效性是指__________。B A ?var ()=0β B ?var ()β为最小 C ?()0β β-= D ?()ββ-为最小 6、对于01??i i i Y X e ββ=++,以σ?表示估计标准误差,Y ?表示回归值,则__________。B A i i ??0Y Y 0σ∑ =时,(-)= B 2 i i ??0Y Y σ∑=时,(-)=0 C i i ??0Y Y σ∑=时,(-)为最小 D 2 i i ??0Y Y σ∑=时,(-)为最小 7、设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是__________。D A ()()()i i 1 2 i X X Y -Y ?X X β--∑∑= B ()i i i i 1 2 2 i i n X Y -X Y ?n X -X β∑∑∑∑∑= C i i 1 2 2 i X Y -nXY ?X -nX β∑∑ = D i i i i 1 2 x n X Y -X Y ?βσ ∑∑∑= 8、对于i 01i i ??Y =X +e ββ+,以 ?σ表示估计标准误差,r 表示相关系数,则有__________。D A ?0r=1σ =时, B ?0r=-1σ =时, C ?0r=0σ =时, D ?0r=1r=-1σ =时,或 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为?Y 356 1.5X -=,这说明__________。D

统计学多元回归分析实例

某农场负责人认为早稻收获量(y :单位为kg/公顷)与春季降雨(x 1:单位为mm )和春季温度(x 2:单位为℃)有一定的联系,通过7组试验获得了相关的数据。利用Excel 得到下面的回归结果(α=0.1): 方差分析表 (2)写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3)检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? (5)计算判定系数2 R ,并解释它的实际意义。 (6)计算估计标准误差Se ,并解释它的实际意义。 (每个空格为0.5分) -----3分 2、设总体回归模型为Y =1 2 1 2 x x αεββ+ ++ 估计回归方程为y ?=1 2 1 2 ???x x αββ++,由EXCEL 输出结果可知,y ?=120.3914.92218.45-++x x ,回归系数1 ?β 的意义指在温度不变的条件下,当降雨量每增加1mm ,早稻收获量平均增加14.92kg/公顷;回归系数 2 ?β 的意义指在降雨量不变的条件下, 当温度增加1℃,早稻收获量平均增加218.45kg/公顷。 ---5分

3、由于p 值=0.000075<α=0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。 ---2分 4、由于各回归系数的P 值均小于α(0.05),所以各回归系数是显著的。 ---2分 5、 2 13878495.67 0.9914000000 = ==SSR SST R ,表示早稻收获量的总变异中有99%的部分可以由降雨量、温度的联合变动来解释。 ---4分 6、 174.29= ===e S (k 为自变量个数) ,是总体回归模型中随机扰动项ε的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,e S 越大, 拟合程度越低;e S 越小,拟合程度越高. ---4分

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

spss多元回归分析案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 总消费(C:亿元) 总GDP(亿元)消费率(%) 1995 1095.97 2109.38 51.96 1997 1438.12 2856.47 50.35 2000 1594.08 3545.39 44.96 2001 1767.38 3880.53 45.54 2002 1951.54 4212.82 46.32 2003 2188.05 4757.45 45.99 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

(注:数据来自《湖北省统计年鉴》) 一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y :消费率(%) X1:总收入 (亿元) X2:人口 增长率 (‰) X3:居民 消费价格指数增长率 X4:少儿抚养系数 X5:老年 抚养系数 X6:居民 消费比重(%) 1995 51.96 1590.75 9.27 17.1 45.3 9.42 68.9 1997 50.35 2033.68 8.12 2.8 41.1 9.44 70.72 2000 44.96 2247.25 3.7 0.4 39 9.57 70.93 2004 2452.62 5633.24 43.54 2005 2785.42 6590.19 42.27 2006 3124.37 7617.47 41.02 2007 3709.69 9333.4 39.75 2008 4225.38 11328.92 37.30 2009 4456.31 12961.1 34.38 2010 5136.78 15806.09 32.50

一元线性回归分析法

一元线性回归分析法 一元线性回归分析法是根据过去若干时期的产量和成本资料,利用最小二乘法“偏差平方和最小”的原理确定回归直线方程,从而推算出a(截距)和b(斜率),再通过y =a+bx 这个数学模型来预测计划产量下的产品总成本及单位成本的方法。 方程y =a+bx 中,参数a 与b 的计算如下: y b x a y bx n -==-∑∑ 222 n xy x y xy x y b n x (x)x x x --==--∑∑∑∑∑∑∑∑∑ 上式中,x 与y 分别是i x 与i y 的算术平均值,即 x =n x ∑ y =n y ∑ 为了保证预测模型的可靠性,必须对所建立的模型进行统计检验,以检查自变量与因变量之间线性关系的强弱程度。检验是通过计算方程的相关系数r 进行的。计算公式为: 22xy-x y r= (x x x)(y y y) --∑∑∑∑∑∑ 当r 的绝对值越接近于1时,表明自变量与因变量之间的线性关系越强,所建立的预测模型越可靠;当r =l 时,说明自变量与因变量成正相关,二者之间存在正比例关系;当r =—1时,说明白变量与因变量成负相关,二者之间存在反比例关系。反之,如果r 的绝对值越接近于0,情况刚好相反。 [例]以表1中的数据为例来具体说明一元线性回归分析法的运用。 表1: 根据表1计算出有关数据,如表2所示: 表2:

将表2中的有关数据代入公式计算可得: 1256750x == (件) 2256 1350y ==(元) 1750 9500613507501705006b 2=-??-?=(元/件) 100675011350a =?-=(元/件) 所建立的预测模型为: y =100+X 相关系数为: 9.011638 10500])1350(3059006[])750(955006[1350 750-1705006r 22==-??-???= 计算表明,相关系数r 接近于l ,说明产量与成本有较显著的线性关系,所建立的回归预测方程较为可靠。如果计划期预计产量为200件,则预计产品总成本为: y =100+1×200=300(元)

第二章一元线性回归模型(Stata)

1. 中国居民人均消费模型 从总体上考察中国居民收入与消费支出的关系。表2.1给出了1990年不变价格测算的中国人均国内生产总值(GDPP )与以居民消费价格指数(1990年为100)所见的人均居民消费支出(CONSP )两组数据。 表2.1 中国居民人均消费支出与人均GDP (单位:元/人) 年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 2000 1690.800 3789.700 1989 779.7000 1565.900 1) 建立模型,并分析结果。 2)输出结果为: 对应的模型表达式为: 201.1070.3862CONSP GDPP =+ (13.51) (53.47) 2 0.9927,2859.23,0.55R F DW === 从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。

回归模型案例

案例一:城镇居民收入与支出关系 一、研究的目的 研究影响各地居民消费水平变动的原因。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是某年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X 。 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图, 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立的计量经济模型为如下线性模型: 12i i i Y X u ββ=++ 三、估计参数 1、建立工作文件 首先,双击EViews 图标,进入EViews 主页。在菜单一次点击File\New\Workfile ,出现对话框“Workfile Range ”。在“Workfile frequency ”中选择数据频率: Annual (年度) Weekly ( 周数据 ) Quartrly (季度) Daily (5 day week ) ( 每周5天日数据 ) Semi Annual (半年) Daily (7 day week ) ( 每周7天日数据 ) Monthly (月度) Undated or irreqular (未注明日期或不规则的) 在本例中是截面数据,选择“Undated or irreqular ”。并在“Start date ”中输入开始时间

(整理)SPSS多元回归分析实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1

第八章 统计回归模型

第八章 统计回归模型 回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数. 回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等. 回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归. 一、多项式回归 (1) 一元多项式回归 一元多项式回归模型的一般形式为εβββ++++=m m x x y ...10. 如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归. 1. 用函数polyfit 估计模型参数,其具体调用格式如下: p=polyfit(x,y,m) p 返回多项式系数的估计值;m 设定多项式的最高次数;x ,y 为对应数据点值. [p,S]=polyfit(x,y,m) S 是一个矩阵,用来估计预测误差. 2. 输出预估值与残差的计算用函数polyval 实现,其具体调用格式如下: Y=polyval(p,X) 求polyfit 所得的回归多项式在X 处的预测值Y . [Y ,DELTA]=polyval(p,X,S) p ,S 为polyfit 的输出,DELTA 为误差估计.在线性回归模型中,Y ±DELTA 以50%的概率包含函数在X 处的真值. 3. 模型预测的置信区间用polyconf 实现,其具体调用格式如下: [Y ,DELTA]=polyconf(p,X,S,alpha) 求polyfit 所得的回归多项式在X 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y±DELTA ,alpha 缺省时为0.05. 4. 交互式画图工具polytool ,其具体调用格式如下: polytool(x,y,m); polytool(x,y,m,alpha); 用m 次多项式拟合x ,y 的值,默认值为1,alpha 为显著性水平,默认值为0.05. 例1 观测物体降落的距离s 与时间t 的关系,得到数据如下表,求s . 解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下: %%%输入数据

数学建模方法之统计回归总结

统计回归总结 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以我们通过对数据的统计分析,找出与数据拟合最好的模型。 我们通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进: 回归分析步骤如下: ●收集一组因变量和自变量的数据 ●选定因变量和自变量之间的模型,利用数据最小二乘准则计算模 型中的系数 ●利用统计分析方法对不同的模型进行比较找出与数据拟合得最好 的模型 ●判断这组模型是否适合于这组数据诊断有无不适合回归模型的异 常数据 ●利用模型对因变量做出预测与解释 实例分析 一、牙膏的销售量 题目: 收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,请根据对数据的处理建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙

膏销售量。 分析与假设 根据对题目中数据进行处理,作散点图分析(MATLAB )应用格式 Plot(x,y,’’) Plotfit(x,y,1),其中x 表示y 模型建立与求解 假设y ~公司牙膏销售量,x 1~其它厂家与本公司价格差 (1)x 2~公司广告费用 (2)将(1)、(2)式子联立可以得到 εββ++=110x y εβββ+++=2 22210x x y ε ββββ++++=22322110x x x y

(3) y~被解释变量(因变量) x1,x2~解释变量(回归变量,自变量) β0,β1,β2,β3~回归系数 ε~随机误差(均值为零的正态分布随机变量) 利用MATLAB工具求解可以得到。 格式如下 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入: y~n维数据向量 x=[1 x1 x2 x22 ]~n×4数据矩阵,第一列为全1向量 alpha(置信水平,0.05) 输出: b~β的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~检验统计回归模型;检验统计量:R2,F,p 注:其中R2越接近1越好,F远超过F检验的临界值,p远小于α=0.05 则可行

相关文档
最新文档