北航15级数理统计大作业回归分析报告
研究生数理统计实验报告(方差分析+回归分析)

《数理统计》实验报告学院:班级:学号:姓名:日期:实验成绩:评阅人:实验一:单因素方差分析一.实验内容在1990 年秋对“亚运会期间收看电视的时间”调查结果如下表所示。
问:收看电视的时间比平日减少了(第一组)、与平日无增减(第二组)、比平日增加了(第三组)的三组居民在“对亚运会的总态度得分”上有没有显著的差异?二.实验步骤1.打开excel(2010版),输入数据2.点击“数据”→数据分析→单因素分析3.输出结果三.实验结果从上述软件结果可知,p-value为0.0001<0.01,所以在1%的显著性水平下,拒绝原假设,即三组居民在“对亚运会的总态度得分”上有显著的差异。
实验二:双因素方差分析(无交互作用)一.实验内容从由五名操作者操作的三台机器每小时产量中分别各抽取1 个不同时段的产量,观测到的产量如表6-31所示。
试进行产量是否依赖于机器类型和操作者的方差分析。
二.实验步骤1.打开excel(2010版),输入数据2.点击“数据”→数据分析→无重复双因素分析3.输出结果三.实验结果因操作者因素的P-value值为0.0122,在5%显著性水平下,差异显著;机器因素的P-value值为0.0004,在1%显著性水平下,差异显著,说明产量依赖于机器类型和操作者。
可以通过培训操作者提高其工作效率,或者选择高效率的机器来提高总产量。
实验三:双因素方差分析(有交互作用)一.实验内容为了从3种不同原料和3种不同温度中选择使酒精产量最高的水平组合,设计了两因素实验,每一水平组合重复4次,结果如下表,试进行方差分析。
二.实验步骤1.打开excel(2010版),输入数据2.点击“数据”→数据分析→有重复双因素分析3.输出结果三.实验结果因原料因素的P-value值为0.0000,所以在1%显著性水平下,原料对产量影响显著;温度因素的P-value值为0.0001,所以在1%显著性水平下,温度对产量影响显著;原料*温度因素的P-value值为0.0861,所以在10%显著性水平下,原料和温度的交互作用对产量影响显著。
数学建模-统计与回归

统计与回归求:(1)y关于x的线性回归方程,检验回归效果是否显著;(2)并预测x=42℃时产量的估计值;(3)预测x=42℃时产量置信度为95%的预测区间(请参考本课件中多项式回归polyfit与polyconf ,或非线性拟合命令nlinfit或nlpredci实现区间预测).Matlab程序:x=[20 25 30 35 40 45 50 55 60 65];X=[ones(10,1) x'];y=[13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3];[b,bint,r,rint,stats]=regress(y',X);b,statsrstool(x',y','linear')[p,S]=polyfit(x,y,1);[Y,DELTA]=polyconf(p,x,S);plot(x,y,'k+',x,Y,'r')[Y,DELTA]=polyconf(p,42,S)b =9.12120.2230stats =0.9821 439.8311 0.0000 0.2333Y =18.4885DELTA =1.1681>>(1)y关于x的线性回归方程为y=9.1212+0.223x,2r=0.9821,p=0.0000<0.05,所以回归方程成立,回归效果显著。
(2)预测x=42℃时产量为18.4885(kg).(3)预测x=42℃时产量置信度为95%的预测区间为(17.3204,19.6566)2. 某人记录了21天每天使用空调器的时间和使用烘干器的次数,并监视电表以计算出每天的耗电量,数据见下表,试研究耗电量(KWH,记作y)与空调器使用的小时数(AC,记作x1)和烘干器使用次数(DRYER,记作x2)之间的关系:(1)建立y与x1、x2之间的线性回归模型,并分析模型效果的显著性;(2)如有必要,考虑引入非线性项(平方项x12,x22以及交叉项x1*x2),建立新的回归模型;(3)分析模型中新引入的非线性项是否都是必要的,若不是,请去掉多余项,建立新的模型,(1x1=[1.5 4.5 5.0 2.0 8.5 6.0 13.5 8.0 12.5 7.5 6.5 8.0 7.5 8.0 7.5 12.0 6.0 2.5 5.0 7.5 6.0];x2=[1 2 2 0 3 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1 0];y=[35 63 66 17 94 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 33]';x=[ones(21,1) x1' x2'];[b,bint,r,rint,stats]=regress(y,x);rcoplot(r,rint)x(21,:)=[];y(21,:)=[];[b,bint,r,rint,stats]=regress(y,x);rcoplot(r,rint)[b,bint,r,rint,stats]=regress(y,x);b,bint,statsb =9.79665.4160 12.5843 bint =4.9528 14.6404 4.89125.9409 10.8997 14.2690 stats =0.9759 343.8765 0.0000 12.0793 >>y 与x1、x2之间的线性回归模型为129.7966 5.41612.5843y x x =++,20.9759r =,p=0.0000<0.05,回归方程成立,回归模型显著。
回归分析结果报告格式

回归分析结果报告格式
回归分析的结果报告格式
⼯作满意感的影响因素分析
为了确定⼯作满意感的影响因素,我们分别以⼯作满意感和离职意向作为被预测变量,以关系依恋的得分(⽤RQ测得),团体依恋的得分(⽤ECR测得),以及被试的⼀些其他
信息,如年龄、⼯作年限、教育状况、⽬前岗位等作为预测变量,采⽤强制进⼊法,进⾏了
回归分析,结果见下表。
被预测变量进⼊回归⽅程的变量βt值P R R2adj . R2⼯作满意感年龄.154 1.668 0.097 0.569 0.324 0.302 ⼯作年限 .140 1.658 0.099
⽬前岗位-.135 -2.057 0.041
关系依恋(RQ).020 .307 .759
团体依恋回避.383 6.055 .000
团体依恋焦虑-.425 -6.826 .000
离职意向年龄.054 .711 .478 0.737 0.542 0.527 ⼯作年限 .161 2.317 .022
⽬前岗位-.076 -1.404 .162
关系依恋(RQ).274 5.061 .000
团体依恋回避.624 12.01 .000
团体依恋焦虑.005 .104 .917
从上表中可以看出,对⼯作满意感有预测⼒的因素有被试⽬前的岗位状态、以及团体依恋的两个维度:团体依恋回避和团体依恋焦虑。
⽽年龄、⼯作年限、关系依恋对⼯作满意感
并没有预测能⼒。
对离职意向有预测⼒的因素有被试的⼯作年限、关系依恋、团体依恋回避这三个指标。
⽽年龄、⽬前的⼯作岗位、团体依恋焦虑则对离职意向并没有预测能⼒。
回归分析报告

回归分析报告回归分析报告回归分析是一种用于研究变量之间关系的统计方法。
本报告将介绍一项回归分析研究的结果。
本次研究的目的是分析销售额与广告投入之间的关系。
我们收集了一家公司过去12个月的销售额和对应的广告投入数据,通过对这些数据进行回归分析,我们希望了解广告投入对销售额的影响程度。
在进行回归分析之前,我们首先进行了数据的可视化分析。
通过绘制散点图,我们可以直观地观察到销售额和广告投入之间的关系。
图1展示了销售额与广告投入之间的散点图,从图中可以看出两者呈现较强的正向线性关系。
接下来,我们进行了回归分析。
通过拟合线性回归模型,我们得到了相关的统计参数。
模型的拟合结果如下:销售额 = 0.8 * 广告投入 + 100通过对模型的参数进行解释,我们可以得出以下结论:1. 广告投入对销售额有显著的正向影响。
模型中的参数0.8表示,每增加1单位的广告投入,预计销售额将增加0.8单位。
2. 模型中的截距项100表示,在没有广告投入的情况下,销售额预计为100单位。
这可以解释为公司的一些其他因素(如品牌知名度、市场份额等)对销售额的影响。
为了验证模型的有效性,我们进行了残差分析。
残差是指实际销售额与预测值之间的差异。
我们绘制了残差图,如图2所示。
从残差图中可以看出,残差的分布较为平均,没有明显的系统性偏差,说明我们的回归模型对数据的拟合效果较好。
最后,我们还对模型进行了显著性检验。
通过计算模型的F统计量和P值,我们可以判断模型是否显著。
在本次研究中,F统计量为20,P值为0.001,显著性水平设置为0.05。
由于P值小于显著性水平,我们可以认为模型是显著的,即广告投入对销售额的影响是显著的。
综上所述,通过回归分析,我们发现了销售额与广告投入之间的关系,并建立了一个显著的线性回归模型。
我们的研究结果表明,广告投入对销售额有正向的影响,每增加1单位的广告投入,销售额预计增加0.8单位。
这对于公司在制定广告策略和预测销售额方面具有重要的借鉴意义。
北航宇航学院航天工程培养方案

宇航学院航天工程领域(085233)全日制工程硕士研究生培养方案一、适用领域航天工程领域(085233)二、培养目标航天工程领域全日制工程硕士是与航天工程领域任职资格相联系的专业性学位,主要为国民经济和国防建设等领域培养应用型、复合型高层次工程技术和工程管理人才。
要求掌握航天器总体设计、航天控制技术、航天推进技术的基本概念与理论,能以航天器/空间系统为研究对象,在设计与实现过程运用航天科学的理论与技术,进行系统总体设计、控制系统设计与分析、有效载荷设计与实现、推进系统设计、地球和探测新技术、实验与测试的高层次综合性研究。
三、培养模式及学习年限航天工程领域全日制工程硕士主要采用校企联合培养,实行校企双方联合导师制,以校内导师指导为主,企业导师参与实践过程、项目研究、课程与论文等多个环节的指导工作。
本领域全日制工程硕士研究生遵循《北京航空航天大学研究生学籍管理规定》,学制一般为2.5年,实行弹性学习年限,一般在1年内完成课程学习,在企业工作时间累积不少于6个月。
全日制专业学位硕士研究生实行学分制,在攻读学位期间,要求在申请硕士学位论文答辩前,依据培养方案,获得知识和能力结构中所规定的各部分学分及总学分;要求全日制专业学位硕士研究生文献综述与开题报告至申请学位论文答辩的时间一般不少于6个月。
四、知识和能力结构航天工程领域全日制工程硕士研究生培养方案的知识和能力结构由学位理论课程和综合实践环节两部分构成。
学位课程的学习是研究生培养环节中的重要内容,学位课程的设置是以全面提高研究生在航天工程领域内的理论及专业知识水平、科学及人文素质、工程能力素质为目标。
要秋取得航天工程领域全日制工程硕士学位的研究生必须按培养方案获得表中所规定的各部分学分及总学分,如下表所示。
五、课程设置及学分要求1.学位必修课程(环节)学位必修课程指获得工程硕士学位所必须修学的课程,包括:(1)公共必修课:包括思想政治理论、第一外国语和专题课。
《应用数理统计》吴翊李永乐第四章-回归分析课后作业参考答案

第四章 回归分析课后作业参考答案4.1 炼铝厂测得铝的硬度x 与抗张强度y 的数据如下:i x68 53 70 84 60 72 51 83 70 64 i y288 298 349 343 290 354 283 324 340 286(1)求y 对x 的回归方程(2)检验回归方程的显著性(05.0=α) (3)求y 在x =65处的预测区间(置信度为0.95) 解:(1) 1、计算结果一元线性回归模型εββ++=x y 10只有一个解释变量其中:x 为解释变量,y 为被解释变量,10,ββ为待估参数,ε位随机干扰项。
()()()()685.222,959.4116,541.35555.76725.19745.109610,5.3151,5.671221212112121211=-==-====-=-==-=--==-=-======∑∑∑∑∑∑∑∑========n Q U L Q L L U y n yyy L y x n y x y y x x L x n xxx L n y n y x n x ee yy e xxxyni ini i yy ni i i n i i i xy ni ini i xx ni i n i i σ使用普通最小二乘法估计参数10,ββ上述参数估计可写为95.193ˆˆ,80.1ˆ101=-===x y L L xxxy βββ 所求得的回归方程为:x y80.195.193ˆ+= 实际意义为:当铝的硬度每增加一个单位,抗张强度增加1.80个单位。
2、软件运行结果 根据所给数据画散点图过检验由线性回归分析系数表得回归方程为:x y801.1951.193ˆ+=,说明x 每增加一个单位,y 相应提高1.801。
(2) 1、计算结果①回归方程的显著性检验(F 检验):0H 线性回归效果不显著 :1H 线性回归效果显著()91.62/=-=n Q UF e在给定显著性水平05.0=α时,()()F F n F <==--32.58,12,195.01α,所以拒绝0H ,认为方程的线性回归效果显著 ②回归系数的显著性检验(t 检验)0:10=βH 0:11≠βH()628.22/ˆ1=-=n Q L t e xx β在给定显著性水平05.0=α时,()()t t n t<==--306.282975.021α,所以拒绝0H ,认为回归系数显著,说明铝的硬度对抗张强度有显著的影响。
数据分析线性回归报告(3篇)
第1篇一、引言线性回归分析是统计学中一种常用的数据分析方法,主要用于研究两个或多个变量之间的线性关系。
本文以某城市房价数据为例,通过线性回归模型对房价的影响因素进行分析,以期为房地产市场的决策提供数据支持。
二、数据来源与处理1. 数据来源本文所采用的数据来源于某城市房地产交易中心,包括该城市2010年至2020年的房价、建筑面积、交通便利度、配套设施、环境质量等指标。
2. 数据处理(1)数据清洗:对原始数据进行清洗,去除缺失值、异常值等。
(2)数据转换:对部分指标进行转换,如交通便利度、配套设施、环境质量等指标采用五分制评分。
(3)变量选择:根据研究目的,选取建筑面积、交通便利度、配套设施、环境质量等指标作为自变量,房价作为因变量。
三、线性回归模型构建1. 模型假设(1)因变量与自变量之间存在线性关系;(2)自变量之间不存在多重共线性;(3)误差项服从正态分布。
2. 模型建立(1)选择合适的线性回归模型:根据研究目的和数据特点,采用多元线性回归模型。
(2)计算回归系数:使用最小二乘法计算回归系数。
(3)检验模型:对模型进行显著性检验、方差分析等。
四、结果分析1. 模型检验(1)显著性检验:F检验结果为0.000,P值小于0.05,说明模型整体显著。
(2)回归系数检验:t检验结果显示,所有自变量的回归系数均显著,符合模型假设。
2. 模型结果(1)回归系数:建筑面积、交通便利度、配套设施、环境质量的回归系数分别为0.345、0.456、0.678、0.523,说明这些因素对房价有显著的正向影响。
(2)R²:模型的R²为0.876,说明模型可以解释约87.6%的房价变异。
3. 影响因素分析(1)建筑面积:建筑面积对房价的影响最大,说明在房价构成中,建筑面积所占的比重较大。
(2)交通便利度:交通便利度对房价的影响较大,说明在购房时,消费者对交通便利性的需求较高。
(3)配套设施:配套设施对房价的影响较大,说明在购房时,消费者对生活配套设施的需求较高。
回归分析实验报告
回归分析实验报告目录一、内容概括 (2)1.1 实验目的 (2)1.2 背景知识介绍 (3)二、数据收集与处理 (4)2.1 数据来源 (4)2.2 数据预处理 (5)2.3 数据描述与分析 (7)三、回归分析模型建立 (8)3.1 模型选择依据 (9)3.2 模型参数估计 (9)3.3 模型检验与修正 (10)四、实验结果分析 (11)4.1 实验结果概述 (13)4.2 参数分析 (14)4.3 模型拟合度分析 (15)4.4 预测结果分析 (16)五、实验讨论与结论 (17)5.1 实验结果讨论 (18)5.2 实验结论 (19)5.3 研究的局限性与未来研究方向 (20)六、代码实现与数据展示 (20)6.1 使用的编程语言和工具介绍 (22)6.2 代码展示与说明 (23)6.3 数据展示与解释 (24)一、内容概括本实验报告主要围绕回归分析展开,通过对数据进行深入分析和探讨,旨在探究自变量与因变量之间的关系,并建立合适的数学模型以预测未来趋势。
实验过程中,我们采用了多种统计方法和软件工具,以确保结果的准确性和可靠性。
我们首先对数据进行描述性统计分析,包括计算均值、方差、标准差等指标,以便了解数据的分布特征和离散程度。
我们进行了相关性分析,通过计算皮尔逊相关系数等方法,探究了自变量与因变量之间的相关关系强度。
我们运用回归分析中的多元线性回归模型,对数据进行了拟合优度检验、回归方程显著性检验以及残差分析。
这些分析帮助我们评估模型的拟合效果,以及自变量对因变量的解释能力。
我们得出了回归分析的结果,并据此提出了相应的结论和建议。
1.1 实验目的本回归分析实验旨在通过对给定数据集进行回归分析,探讨自变量与因变量之间的关系。
我们将学习如何使用统计软件(如Python的StatsModels库或R语言)进行回归分析,以及如何解读回归结果。
我们还将了解回归分析在实际问题中的应用,例如预测房价、股票价格等。
回归分析 实验报告
回归分析实验报告回归分析实验报告引言:回归分析是一种常用的统计方法,用于探究变量之间的关系。
本实验旨在通过回归分析来研究某一自变量对因变量的影响,并进一步预测未来的趋势。
通过实验数据的收集和分析,我们可以得出一些有关变量之间关系的结论,并为决策提供依据。
数据收集:在本次实验中,我们收集了一组数据,包括自变量X和因变量Y的取值。
为了保证数据的可靠性和准确性,我们采用了随机抽样的方法,并对数据进行了严格的统计处理。
数据分析:首先,我们进行了数据的可视化分析,绘制了散点图以观察变量之间的分布情况。
通过观察散点图,我们可以初步判断变量之间是否存在线性关系。
接下来,我们使用回归分析方法对数据进行了拟合,并得到了回归方程。
回归方程:通过回归分析,我们得到了如下的回归方程:Y = a + bX其中,a表示截距,b表示斜率。
回归方程可以用来预测因变量Y在给定自变量X的取值时的期望值。
回归系数的解释:在回归方程中,截距a表示当自变量X为0时,因变量Y的取值。
斜率b表示自变量X每变动一个单位时,因变量Y的平均变动量。
通过对回归系数的解释,我们可以更好地理解变量之间的关系。
回归方程的显著性检验:为了验证回归方程的有效性,我们进行了显著性检验。
通过计算回归方程的F值和P值,我们可以判断回归方程是否具有统计学意义。
如果P值小于显著性水平(通常为0.05),则我们可以拒绝零假设,即回归方程是显著的。
回归方程的拟合优度:为了评估回归方程的拟合程度,我们计算了拟合优度(R²)。
拟合优度表示因变量的变异程度可以被自变量解释的比例。
拟合优度的取值范围为0~1,值越接近1表示回归方程对数据的拟合程度越好。
回归方程的预测:通过回归方程,我们可以进行因变量Y的预测。
当给定自变量X的取值时,我们可以利用回归方程计算出因变量Y的期望值。
预测结果可以为决策提供参考,并帮助我们了解自变量对因变量的影响程度。
结论:通过本次实验,我们成功地应用了回归分析方法,研究了自变量X对因变量Y的影响,并得到了回归方程。
应用回归分析(第三版)何晓群_刘文卿_课后习题答案_完整版
第二章 一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n误差εi (i=1,2, …,n)仍满足基本假定。
求β1的最小二乘估计 解:21112)ˆ()ˆ(ini i ni i i e X Y Y Y Q β∑∑==-=-=得:2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
证明:∑∑+-=-=nii i ni X Y Y Y Q 121021))ˆˆ(()ˆ(ββ其中:即: ∑e i =0 ,∑e i X i =02.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。
答:由于εi ~N(0, σ2 ) i=1,2, …,n所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数:)()(ˆ1211∑∑===ni ini ii XY X β01ˆˆˆˆi ii i iY X e Y Y ββ=+=-0100ˆˆQQββ∂∂==∂∂使得Ln (L )最大的0ˆβ,1ˆβ就是β0,β1的最大似然估计值。
同时发现使得Ln (L )最大就是使得下式最小,∑∑+-=-=nii i ni X Y Y Y Q 121021))ˆˆ(()ˆ(ββ上式恰好就是最小二乘估计的目标函数相同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数理统计大作业(一)公共财政收入的逐步回归模型指导教师院系名称材料科学与工程院学号SY1501201学生2015 年 12 月21 日目录1 引言 (1)1.1 研究背景 (1)1.2 回归分析 (1)1.2.1 回归分析 (1)1.2.2 回归分析方法 (2)1.2.3 基本假设的检验 (3)1.3 研究容和研究目的 (3)2.逐步回归分析 (4)2.1 数据采集 (4)2.2数据分析 (4)2.2.1 自变量的引入 (5)2.2.2 模型可决系数及剔除的变量 (5)2.2.3 模型显著性检验 (6)2.2.4 模型回归系数显著性检验及回归系数确定 (7)2.2.5 共线性诊断 (8)2.2.6 回归方程残差分析 (9)结论: (10)参考文献 (11)1 引言1.1 研究背景财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。
财政收入表现为政府部门在一定时期(一般为一个财政收入)所取得的货币收入。
财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的围和数量,在很大程度上决定于财政收入的充裕状况。
依据不同的标准,可以对财政收入进行不同的分类。
国际上对财政收入的分类,通常按政府取得财政收入的形式进行分类。
这种分类方法下,将财政收入分为税收收入、国有资产收益、国债收入和收费收入以及其他收入等。
本文选取的相关影响因素包括国民生产总值、固定资产总投资、货物进出口总额、城镇人均可支配收入、教育经费总投入、人口数。
1.2 回归分析1.2.1 回归分析回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.多元线性回归模型是指含有多个自变量的线性回归模型,用于解释因变量与其他多个自变量之间的线性关系。
其中,因变量的变化可由两个部分解释:一是自变量变化引起的;二是由其他随机因素引起的。
建立模型时,有多种引入变量的方法。
1.2.2 回归分析方法向前选择法与被解释变量有最大相关的变量首先进入方程,如果该解释变量没有通过F 检验,则变量筛选过程结束,方程中没有引入任何变量;如果通过F检验,则在剩余的变量中寻找具有最大偏相关系数的变量,将其引入方程,并再次进行F检验,如果通过检验,则保留该变量在模型中,并继续寻找下一个候选变量,否则变量筛选过程结束,方程中仅有一个解释变量;以此类推,直至所有满足判据的变量都被引入模型位置为止。
向后选择法与向前选择法的顺序相反,向后选择法首先将所有变量都引入模型,然后剔除最不显著的变量。
如果剩余变量都通过显著性检验,则变量筛选过程结束;否则按同样的标准继续剔除不显著的变量,直至剩余的解释变量都满足显著性检验为止。
逐步回归法逐步回归法的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,以确保每次引入新的变量之前回归方程中只包含显著性变量。
这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。
1.2.3 基本假设的检验异方差检验在回归模型的基本假设中,固定随机误差具有相同的方差,但在建立实际经济问题的回归模型时,经常存在与此相违背的情况。
如果仍用最小二乘法将会引起严重的后果。
常用的检验方法有残差图分析法,等级相关系数法,残差的独立性检验残差的独立性检验称为序列相关检验。
如果随机误差不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。
残差独立性检验师通过Durbin-watson检验完成的。
多重共线性检验多元回归模型基本假设要求设计矩阵X中列向量之间不存在密切线性关系。
当自变量存在多重共线性时,利用最小二乘法得到的参数估计不稳定,回归系数的方差随着共线性强度的增加而加速增长,会造成回归方程高度显著的情况下,所有回归系数都通不过显著性检验,甚至会造成回归系数正负号无法得到合理解释。
但是有时候这样建立的模型对历史数据拟合的很好,从预测角度看不失为较好的模型。
常用检验方法有方差扩大因子法(VIF)。
1.3 研究容和研究目的本文选取的相关影响因素包括国民生产总值(X1)、固定资产总投资(X2)、货物进出口总额(X3)、城镇人均可支配收入(X4)、教育经费总投入(X5)、人口数(X6)。
通过逐步回归的方法,建立公共财政财政收入与各因素之间的最优多元线性回归模型。
通过建立的回归模型,分析影响公共财政收入的因素,并以此模型对公共财政未来财政收入做出分析和预计。
2.逐步回归分析2.1 数据采集本文数据来自国家统计局统计年鉴2014 。
其中教育经费总投入2013年数据缺失。
数据是自1997年至2013年。
因为我国自1997年开始的财税体制改革,导致97年前后的财政收入方式有较大差异,因此并未选择之前的数据。
2.2数据分析在进行多元线性回归分析时,将变量引入模型的方法有向前选择法、向后选择法以及逐步选择法。
本文用逐步选择法引入变量,对变量进行逐步回归分析。
2.2.1 自变量的引入在SPSS软件中,选择线性回归分析,将财政收入加入因变量,其余因素加入自变量,方法选择逐步,步进方法标准是使用F的概率,F≤0.05时引入,F≥0.1时剔除,得到结果如表2.1所示。
从表2.1中可以看出,通过逐步选择法引入模型的自变量有教育经费总投入、国民生产总值、城镇人均可支配收入。
2.2.2 模型可决系数及剔除的变量通过逐步回归分析得到了三个模型,分别是一元、二元和三元模型。
由表2.2可以看出,这三个模型的修正复相关系数均≥0.999,其中第三个模型达到了1,可见此模型的拟合效果极佳。
其中第三个模型的Durbin-Watson检验值为1.792接近2,说明残差与自变量相互独立。
经过t检验,剔除不显著变量,每个模型中剔除的变量如表2.3所示表2.3已排除的变量a模型Beta In t Sig. 偏相关共线性统计量容差VIF 最小容差1 国民生产总值亿元.345b 2.724 .017 .603 .004 240.478 .004 固定资产总投资亿元.113b.876 .397 .236 .006 168.196 .006 货物进出口总额亿元.013b.360 .725 .099 .076 13.072 .076 城镇人均可支配收入元-.029b-.220 .830 -.061 .006 164.514 .006 人口数万人-.039b-1.706 .112 -.428 .161 6.205 .1612 固定资产总投资亿元.139c 1.347 .203 .362 .006 169.464 .002 货物进出口总额亿元-.066c-1.865 .087 -.474 .045 22.357 .002 城镇人均可支配收入元-.468c-6.150 .000 -.871 .003 332.352 .002 人口数万人-.063c-4.908 .000 -.817 .145 6.896 .0043 固定资产总投资亿元-.023d-.358 .727 -.107 .005 217.345 .002 货物进出口总额亿元.004d.174 .865 .052 .030 33.020 .002 人口数万人-.019d-.873 .401 -.255 .036 27.565 .001a. 因变量: 公共财政收入亿元b. 模型中的预测变量: (常量), 教育经费总投入亿元。
c. 模型中的预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元。
d. 模型中的预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元, 城镇人均可支配收入元。
2.2.3 模型显著性检验表2.4给出了三个模型的F检验的结果,可以看出,方程拟合度很好,回归方程是显著的。
表2.4 Anova a模型平方和df 均方 F Sig.1 回归.731 1 .731 10257.633 .000b 残差24800385.298 14 1771456.093总计.029 152 回归.858 2 9089978441.429 7483.717 .000c 残差15790244.171 13 1214634.167总计.029 153 回归.027 3 6063981333.676 19133.675 .000d 残差3803126.002 12 316927.167总计.029 15a. 因变量: 公共财政收入亿元b. 预测变量: (常量), 教育经费总投入亿元。
c. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元。
d. 预测变量: (常量), 教育经费总投入亿元, 国民生产总值亿元, 城镇人均可支配收入元。
2.2.4 模型回归系数显著性检验及回归系数确定通过软件分析,得到三个模型的回归系数及其显著性检验如表2.5所示,三个模型回归系数都是显著的。
表2.5系数a模型非标准化系数标准系数t Sig. 共线性统计量B 标准误差试用版容差VIF1 (常量)-4200.257 569.911 -7.370 .00教育经费总投入亿元4.443 .044 .999 101.280 .001.000 1.0002 (常量)-6658.124 1018.377 -6.538 .00教育经费总投入亿元2.912 .563 .655 5.169 .00.004 240.478 国民生产总值亿元.083 .030 .345 2.724 .017.004 240.4783 (常量)-206.790 1170.891 -.177 .863教育经费总投入亿元3.202 .292 .720 10.982 .00.004 246.952模型一回归方程是:Y=-4200.257+4.443X5模型二回归方程是:Y=-6658.124+0.083X1+2.912X5模型三回归方程是:Y=-206.790+0.179X1-2.631X4+3.202X5由上分析:模型二和模型三的VIF都大于10,共线性显著。
但其系数都通过了显著性检验。
其中模型三种人均可支配收入的系数为负。
含义是城镇人均可支配收入和公共财政收入是负相关的,这与经济实际不符。
其常量未通过显著性检验。
造成这么情况的原因是共线性问题。
2.2.5 共线性诊断表2.6为各个模型的共线性诊断。
表2.6共线性诊断a模型维数特征值条件索引方差比例(常量) 教育经费总投入亿元国民生产总值亿元城镇人均可支配收入元11 1.812 1.000 .09 .092 .188 3.103 .91 .912 1 2.774 1.000 .01 .00 .002 .226 3.507 .22 .00 .003 .001 65.983 .77 1.00 1.003 1 3.770 1.000 .00 .00 .00 .002 .228 4.064 .05 .00 .00 .003 .001 67.034 .58 .90 .09 .214 .000 105.570 .38 .10 .91 .79a. 因变量: 公共财政收入亿元由表2.6可以看出,第二个模型中第三个维度解释了100%的教育经费总投入和100%国民生产总值。