【清华】2.0_实验12-回归分析
定量分析实验室项目课程介绍

定量分析实验室项目课程介绍
1、回归分析(Linear Regression Analysis):
教师:Yu Xie(谢宇),美国密歇根大学社会学系教授。
时间:2007年7月16日至8月10日
课时:48学时。
课程内容:简介线性代数,以矩阵形式温习线性回归模型。
主要讲授线性回归在社会科学研究中的应用,并介绍通径分析、纵贯数据分析、对二分类因变量的logit 分析。
本课程将结合STATA统计软件的应用。
该课程为本实验室开设系列方法课程的必修课之一。
2、分层线性模型(Hierarchical Linear Model):
教师:Stephen Raudenbush,美国芝加哥大学社会学系教授
时间:2007年8月13日至8月31日
课时:48学时。
课程内容:介绍分层数据结构与分层模型的基本原理,通过大量纵贯数据和分层数据的分析实例来示范分层模型在社会科学研究中的应用。
课程从两层分析模型入手,然后扩展到三层模型(包括个体重复测量分析),并介绍对潜在变量和交互分组数据的分层分析。
本课程将结合HLM统计软件的应用。
回归分析实验案例数据

回归分析实验案例数据引言:回归分析是一种常用的统计方法,用于探索一个或多个自变量对一个因变量的影响程度。
在实际应用中,回归分析有很多种,例如简单线性回归、多元线性回归、逻辑回归等。
本文将介绍一个回归分析实验案例,并分析其中的数据。
案例背景:一家汽车制造公司对汽车的油耗进行研究。
他们收集了一些汽车的相关数据,并希望通过回归分析来探究这些数据之间的关系。
数据收集:为了进行回归分析,他们收集了以下数据:1. 汽车型号:不同汽车型号的标识符。
2. 汽车价格:每辆汽车的价格,单位为美元。
3. 汽车速度:以每小时英里的速度来衡量。
4. 引擎大小:汽车引擎的容量大小,以升为单位。
5. 油耗:每加仑汽油行驶的英里数。
数据分析:通过对收集的数据进行回归分析,可以得出以下结论:1. 汽车价格与汽车引擎大小之间存在正相关关系。
即引擎越大,汽车价格越高。
2. 汽车速度与油耗之间呈现负相关。
即速度越高,油耗越大。
3. 汽车引擎大小与油耗之间存在正相关关系。
即引擎越大,油耗越大。
结论:基于以上分析结果,可以得出以下结论:1. 汽车价格受到引擎大小的影响,即引擎越大,汽车价格越高。
这一结论可以帮助汽车制造公司在制定价格策略时做出合理的决策。
2. 汽车速度与油耗之间呈现负相关。
这一结论可以帮助消费者在购买汽车时考虑速度对油耗的影响,从而选择更经济的汽车。
3. 汽车引擎大小与油耗之间存在正相关关系。
这一结论可以帮助汽车制造公司在设计引擎时考虑油耗因素,从而提高汽车的燃油效率。
总结:回归分析是一种有效的统计方法,可以用于探索数据间的关系。
通过对汽车制造公司收集的数据进行回归分析,我们发现了汽车价格、速度和引擎大小与油耗之间的关系。
这些分析结果对汽车制造公司制定价格策略、消费者购车以及提高燃油效率都具有重要的指导意义。
回归分析

数据预处理1.计算每年每一个变量的基本统计量:均值,标准差,中位数;并用折线图给出原始数据和均值、中位数的变化趋势。
由所给的《中国企业商品价格指数数据99年至今》数据,利用MATLAB,很容易计算出结果,并画出折线图。
折线图如下:2.给出各变量按季节变化趋势;每年各变量频数直方图的变化趋势,可做动态图。
利用MATLAB作图如下:(此频数直方图是动态图)3. 按原始数据,指出被解释变量和每解释变量之间的关系,画图;利用MATLAB分别作图如下:从图中可以看出,随着农产品价格指数的增长,总指数有线性增长的趋势,所以总指数与农产品价格指数有线性关系。
从图中可以看出,随着矿产品价格指数的增长,总指数有线性增长的趋势,所以总指数与矿产品价格指数有线性关系。
从图中可以看出,随着煤油电价格指数的增长,总指数有线性增长的趋势,所以总指数与煤油电价格指数有线性关系。
4.按年平均数、中位数预处理数据,指出被解释变量和每个解释变量之间的关系,画图;利用MATLAB,分别作图如下:从图中可以看出,对于每个解释变量(各个价格指数中均值),随着其增长,被解释变量(总指数均值)都有线性增长的趋势,所以被解释变量与每个解释变量分别有线性关系。
从图中可以看出,对于每个解释变量(各个价格指数均中位数),随着其增长,被解释变量(总指数中位数)都有线性增长的趋势,所以被解释变量与每个解释变量分别有线性关系。
(本节MATLAB代码见附录一)一元回归分析 基本模型下面先从简单入手,由上节数据预处理第三问求解得出,总指数y 与农产品价格指数x 之间存在线性关系,所以,可以建立以下一元线性回归模型:y i = β0+β1x i +εi, i=1,2……,191各εi 独立同分布,其分布为N (0,σ2)由数据(xi ,yi )(i=1,2……,191)可获得β0、β1的估计ˆβ1ˆβ 称 01ˆˆˆx yββ=+ 为y 关于x 的回归方程,ˆβ,1ˆβ为回归系数,εi 是随机误差。
数学建模 相关分析与回归分析 清华大学

计算出的相关系数是否真的能判断出两个变量之间存在相关关 可进行线性相关性和显著性检验。方法如下: 系,可进行线性相关性和显著性检验。方法如下: n- 1(其中 --样本容量 其中n 样本容量; --自变量个数 自变量个数) 1)计算自由度f = n-k-1(其中n--样本容量;k--自变量个数) 计算自由度f 2)选取显著性水平α 通常取α=0.05或 2)选取显著性水平α,通常取α=0.05或0.01 选取显著性水平 3)查表。根据α和f,查相关系数临界值表 查表。根据α 4)判断。当 判断。
4)根据相关关系 的方向来分
(1)正相关:指两个变量之间 正相关: 的变化方向一致,都是增长趋势 的变化方向一致, 或下降趋势。 或下降趋势。 (2)负相关:两个变量的变化 负相关: 趋势相反。 趋势相反。
=± r =±1表示 X,Y之间 存在线性关 系: Y=aX+b
* * *
r = +1
*
*
PLOT OF OXYGEN*RUNTIME
PLOT OF RSTPULSE*WEIGHT
(四)相关系数
), L (x , y 为变量X ) 个观测值, 若 (x , y ), (x , y为变量X,Y的n个观测值,则相关系数计算 公式为: 公式为:
1 1 2 2 n n
L
xy
r XY =
∑ X i − X ∑ Y i −Y
Analyze—Regression—Linear Salary—Dependent Salbegin,Prevexp,jobtime,jobcat,educ--Independent
总体的线性回归模型是通过已知的x 总体的线性回归模型是通过已知的x、y的一组样本观测值 (x1,y1),(x2,y2),…(xn,yn)即样本回归模型来估计的, (xn,yn)即样本回归模型来估计的 (x1,y1),(x2,y2), (xn,yn)即样本回归模型来估计的,由此可得样 本回归模型: 本回归模型: 条件限制: 条件限制:1。正态性 y = a + bx i + e i 2。独立性
回归分析实验报告

回归分析实验报告实验报告:回归分析摘要:回归分析是一种用于探究变量之间关系的数学模型。
本实验以地气温和电力消耗量数据为例,运用回归分析方法,建立了气温和电力消耗量之间的线性回归模型,并对模型进行了评估和预测。
实验结果表明,气温对电力消耗量具有显著的影响,模型能够很好地解释二者之间的关系。
1.引言回归分析是一种用于探究变量之间关系的统计方法,它通常用于预测或解释一个变量因另一个或多个变量而变化的程度。
回归分析陶冶于20世纪初,经过不断的发展和完善,成为了数量宏大且复杂的数据分析的重要工具。
本实验旨在通过回归分析方法,探究气温与电力消耗量之间的关系,并基于建立的线性回归模型进行预测。
2.实验设计与数据收集本实验选择地的气温和电力消耗量作为研究对象,数据选取了一段时间内每天的气温和对应的电力消耗量。
数据的收集方法包括了实地观测和数据记录,并在数据整理过程中进行了数据的筛选与清洗。
3.数据分析与模型建立为了探究气温与电力消耗量之间的关系,需要建立一个合适的数学模型。
根据回归分析的基本原理,我们初步假设气温与电力消耗量之间的关系是线性的。
因此,我们选用了简单线性回归模型进行分析,并通过最小二乘法对模型进行了估计。
运用统计软件对数据进行处理,并进行了以下分析:1)描述性统计分析:计算了气温和电力消耗量的平均值、标准差和相关系数等。
2)直线拟合与评估:运用最小二乘法拟合出了气温对电力消耗量的线性回归模型,并进行了模型的评估,包括了相关系数、残差分析等。
3)预测分析:基于建立的模型,进行了其中一未来日期的电力消耗量的预测,并给出了预测结果的置信区间。
4.结果与讨论根据实验数据的分析结果,我们得到了以下结论:1)在地的气温与电力消耗量之间存在着显著的线性关系,相关系数为0.75,表明二者之间的关系较为紧密。
2)构建的线性回归模型:电力消耗量=2.5+0.3*气温,模型参数的显著性检验结果为t=3.2,p<0.05,表明回归系数是显著的。
回归分析的基本思想及其初步应用(第1课时)教案及说明

1.1回归分析的基本思想及其初步应用(第1课时)教案教材:人民教育出版社A版必修3授课教师:中卫市第一中学俞清华【教学目标】在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容.在人教A版选修1-2第一章第一节“回归分析的基本思想及其初步应用”这一节中进一步介绍回归分析的基本思想及其初步应用.这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果;第二课时:从相关系数、相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.1、知识与技能目标认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.【教学重点】随机误差e的认识【教学难点】随机误差的来源和对预报变量的影响【教学方法】启发式教学法【教学手段】多媒体辅助教学【教学流程】【教学过程设计】.几点注明:1、复习引入时教师做示范——提供5组身高与体重的数据,用Excel展示如何画散点图、用最小二乘法求线性回归方程.随机抽样并列表如下:2、计算机做散点图的步骤如下:(1)进入Excel软件操作界面,在A1,B1分别输入“身高”和“体重”,在A,B 列输入相应的数据.(2)点击“图表向导”图标,进入“图表类型”对话框,选择“标准类型”中的“XY散点图”,单击“下一步”.(3)在“图表向导”中的“图表数据源”对话框中,选择“系列”选项,单击“添加”按钮添加系列1,在“X值”栏中输入身高所在数据区域,在“Y值”栏中输入体重所在数据区域,单击“下一步”.(4)进入“图表向导”中的图表选项对话框,对图表的一些属性进行设置. (5)单击“完成”按钮.注:也可以直接使用我们提供的文件来给学生演示,相对节约课堂时间.3、学生使用函数计算器求回归方程的过程如下:MODE SHIFT CLR =1 13 , DT 165 49 ,DT17565, DT 165 58 , DT 157 51 , DT 170 53 SHIFT CLRSHIFTCLR2==1 (进入回归计算模式)(清除统计存储器)(输入五组数据)所以回归方程为 yˆ0.673x-56.79 (计算参数a) (计算参数b)(学生还会使用更先进的计算器)4、课堂使用的数据如下高二女生前15组数据列表:高二女生中间15组数据列表:高二女生后15组数据列表:课本P2例题1 女大学生8组数据列表:例1.1.1回归分析的基本思想及其初步应用(第1课时)教案说明教材:人民教育出版社A版必修3授课教师:中卫市第一中学俞清华1、设计理念《数学课程标准》明确指出:有效的数学学习活动不能单纯地模仿与记忆,动手实践、自主探索与合作交流,可以促进学生自主、全面、可持续的发展,是学生学习数学的重要方式.为使教学真正做到以学生为本,我对教材P2—P3的知识进行了适当地重组和加工,力求给学生提供研究、探讨的时间与空间,让学生充分经历“做数学”的过程,促使学生在自主中求知,在合作中获取,在探究中发展.2、授课内容的数学本质与教学目标定位回归分析,是一种从事物因果关系出发进行预测的方法.操作中,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式),预测今后事物发展的趋势.然而,所建立的回归方程与样本点的分布之间还存在有差异,这一差异就是我们本节课学习的主要内容:随机变量.3、学习本课内容的基础以及应用本课内容安排在《数学3(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,会利用最小二乘法求回归直线方程等内容.以此为基础,进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,从而让学生了解线性回归模型与函数模型之间的区别与联系,体会统计思维与确定性思维的区别与联系.通过本节课的学习,为后继课程了解偏差平方和分解思想和相关指数的含义、了解相关指数R2和模型拟合的效果之间的关系、了解残差图的作用,体会什么是回归分析、回归分的必要性,都起到铺垫作用.在本节课的教学中,学生使用了函数计算器,教师则利用电脑Excel表格完成对数据的整理,需要学生有一定的动手能力.4、学习本课内容时容易了解与容易误解的地方由于学生对必修3中的线性回归知识已经熟悉,会抽取样本、会画散点图、会利用最小二乘法求出线性回归方程,所以本节课学生容易了解:(1)从散点图看出,样本点呈条状分布,体重与身高具有线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.(2)可以发现样本点并不完全落在回归方程上,有随机误差存在.(3)容易理解由一条回归方程预测到的身高172cm的女生体重不是都一样,它只是一个平均值.在学习过程中,相对不易理解的地方有:(1)对于随机误差的来源,学生是能够从样本的个体差异上来理解的,但是对于由用线性回归模型近似真实模型所引起的误差,学生理解还是有一定困难的.(2)随机误差对预报变量的影响,学生从感性上很好理解,当然是随机误差越小越好.但是从理性上认识,怎样从数据上刻画出随机误差是否变小了呢?学生还有困难.5、本节课的教法特点以及预期效果分析5.1 改造创新教师通过分析教材和学生认知规律,创造性地使用教材,做到既重视教材,更重视学生.具体说来有以下改造:(1)创设生活情景.利用学生的“体检经验”设置问题,既没有脱离课本例题1的相关内容,又能激发学生对数学的亲切感,引发学生看个究竟的冲动,兴趣盎然地投入学习.(2)充分体现随机观念.课本上仅仅希望利用8组数据就要学生体会到统计的思想和后继课程中回归分析的必要性,实在是为难学生了.在本课教学设计学生操作时强调“增多数据,加强比较”. 帮助学生体会“不同事件(如课本例1女大学生和高二女生)”,则统计结果不同、“同一事件(如都是高二女生),采样不同结果也不同”的基本事实.(3)教师的作用. 在这节课里,教师在学生操作结束后,利用更多数据的操作,形成一个与学生结果的对比,这一操作与展示为学生创造了新的思维增长点,引领学生进入更深层领悟.5.2 问题性本课教学以问题引导学习活动,通过恰时恰点地提出问题,提好问题,给学生提问的示范,使他们领悟发现和提出问题的艺术,引导他们更加主动和有兴趣地学,逐步培养学生的问题意识,孕育创新精神.例如,在“结果的分析”中的问题4、“预测出的体重值都不同,那么它还有参考价值吗?”目的是让学生充分认识随机误差e的来源和对预报变量的影响,而这一问题的提出,立刻吸引学生细细体会随机观念,同时激发出学生的好奇心,提升深入探求的欲望.5.3 合作、探究的学习方式本节课的合作学习体现在两个方面:除了体现在每个小组内部成员之间,还体现在整堂课的教学结构上.小组成员内部提倡“不同的人作不同的事”,面对不同分组,学生可以自主选择的不同工作,动手带动动脑,遇到小的问题,通过探讨和帮助,能做到“学生的问题由学生自己解决”,促进对某一问题更清晰的认识,还能感受到团结合作的好处与必要.同时,每个小组的劳动成果共同构成课堂教学需要的多条回归方程,组与组之间的合作推动整节课的比较与区分得以实现.5.4教学手段本课积极将数学课程与信息技术进行整合,采用多种技术手段,特点主要体现如下:(1)以PPT 为操作平台,界面活泼,操作简单,能有效支持多种其它技术;(2)教师用Excel图表展示,直观形象,节约时间,帮助学生顺利完成学习内容;(3)学生使用函数计算器动手操作,求出回归方程.本课预期:(1)学生可以很好地复习使用函数计算器求回归方程,虽然在要求学生自己操作前教师有一个示例,但是还是会有一少部分人不会使用,所以在教学前要有一定的思想准备,和必要措施.(2)在分析各个组的预测结果为什么有差异时,由于个体经验不同,对问题的挖掘深度产生不同,这时教师的启发引导可能会十分必要,不能完全由学生漫无目的的“讨论”,使学生活动流于形式.(3)“结果分析”前,由学生展示操作成果,这些结果已经够用来说明问题,教师不要急于参与.在“结果分析”的第4个问题中引入教师利用电脑求出的由45 组数据得到的回归方程,让学生再一次通过比较得到新的思考点——怎样知道自己模拟的回归方程身高变化对体重变化影响有多大呢?这样会使学生自然而然渴望进一步了解相关回归分析的知识,为后继课程做好伏笔.对于体现本节课承上启下的作用,可能更好一些.6 教学反思通过本节课的教学实践,我再次体会到什么是由“关注知识”转向“关注学生”,在教学过程中,注意到了由“给出知识”转向“引起活动”,由“完成教学任务”转向“促进学生发展”,课堂上的真正主人应该是学生.一堂好课,师生一定会有共同的、积极的情感体验.本节课的教学中,知识点均是学生通过探索“发现”的,学生充分经历了探索与发现的过程.教学中没有以练习为主,而是定位在知识形成过程的探索,注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理。
应用回归分析第四版课后习题答案-全-何晓群-刘文卿精选全文完整版

可编辑修改精选全文完整版实用回归分析第四版第一章回归分析概述1.3回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章一元线性回归分析思考与练习参考答案2.1一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=σ2i=1,2, …,nCov(εi,εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(X i, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, σ2) i=1,2, …,n2.3 证明(2.27式),∑e i =0 ,∑e i X i=0 。
证明:∑∑+-=-=niiiniXYYYQ12121))ˆˆ(()ˆ(ββ其中:即: ∑e i =0 ,∑e i X i =02.5 证明0ˆβ是β0的无偏估计。
证明:)1[)ˆ()ˆ(1110∑∑==--=-=ni i xxi ni i Y L X X X Y n E X Y E E ββ)] )(1([])1([1011i i xx i n i i xx i ni X L X X X n E Y L X X X n E εββ++--=--=∑∑==01010)()1(])1([βεβεβ=--+=--+=∑∑==i xxi ni i xx i ni E L X X X n L X X X n E 2.6 证明 证明:)] ()1([])1([)ˆ(102110i i xxi ni i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑==222212]1[])(2)1[(σσxx xx i xx i ni L X n L X X X nL X X X n +=-+--=∑=2.7 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证: (1)21)2(r r n t --=;(2)2221ˆˆ)2/(1/t L n SSE SSR F xx ==-=σβ 证明:(1)01ˆˆˆˆi i i i iY X e Y Y ββ=+=-())1()1()ˆ(222122xx ni iL X n X XX nVar +=-+=∑=σσβ()()∑∑==-+-=-=n i ii i n i i Y Y Y Y Y Y SST 1212]ˆ()ˆ[()()()∑∑∑===-+--+-=ni ii ni i i i ni iY Y Y Y Y Y Y Y 12112)ˆˆ)(ˆ2ˆ()()SSE SSR )Y ˆY Y Y ˆn1i 2i i n1i 2i+=-+-=∑∑==0100ˆˆQQββ∂∂==∂∂ˆt======(2)2222201111 1111ˆˆˆˆˆˆ()()(())(()) n n n ni i i i xxi i i iSSR y y x y y x x y x x Lβββββ=====-=+-=+--=-=∑∑∑∑2212ˆ/1ˆ/(2)xxLSSRF tSSE nβσ∴===-2.9 验证(2.63)式:2211σ)L)xx(n()e(Varxxii---=证明:0112222222ˆˆˆvar()var()var()var()2cov(,)ˆˆˆvar()var()2cov(,())()()11[]2[]()1[1]i i i i i i ii i i ii ixx xxixxe y y y y y yy x y y x xx x x xn L n Lx xn Lβββσσσσ=-=+-=++-+---=++-+-=--其中:222221111))(1()(1))(,()()1,())(ˆ,(),())(ˆ,(σσσββxxixxiniixxiiiniiiiiiiiLxxnLxxnyLxxyCovxxynyCovxxyCovyyCovxxyyCov-+=-+=--+=-+=-+∑∑==2.10 用第9题证明是σ2的无偏估计量证明:2221122112211ˆˆ()()()22()111var()[1]221(2)2n ni ii in niii i xxE E y y E en nx xen n n Lnnσσσσ=====-=---==----=-=-∑∑∑∑第三章1.一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能2ˆ22-=∑neiσ判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。
Exp12

0 β2
x
待定系数 β1 (最终反应速度)
β2 (半速度点)
2
例4 酶促反应
为研究酶促反应中嘌呤霉素对反应速度与底物浓度 之间关系的影响, 设计了两个实验 :使用的酶经过嘌 呤霉素处理; 使用的酶未经嘌呤霉素处理。
实验数据
底物浓度(ppm) 0.02
0.06
0.11
0.22
0.56
1.10
反应 处理 76 47 97 107 123 139 159 152 191 201 207 200 速度 未处理 67 51 84 86 98 115 131 124 144 158 160 /
140 120
由数据确定系数 β0 , β1
100
10
20
30
40
50
60
70
的估计值 βˆ0 , βˆ1
• 曲线拟合(求超定线性方程组的最小二乘解);
• 从统计推断角度讨论β0 ,β1 的置信区间和假设检验; • 对任意的年龄 x 给出血压 y 的预测区间。
例2 血压与年龄、体重指数、吸烟习惯
又调查了例1中30个成年人的体重指数、吸烟习惯:
对于身高72英寸的父亲,
O
儿子身高多数不到73英寸;
对于身高64英寸的父亲, 儿子身高多数超过65英寸;
回归直线 y=0.516 x+33.73 Pearson: 1078个父亲和儿子身高的散点图
回归分析是数学建模的有力工具
• 由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系;
资历~ 从事专业工作的年数;管理~ 1=管理人员,0=
非管理人员;教育~ 1=中学,2=大学,3=研究生
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验12回归分析
化工系分7陈龙2007011832
『实验目的』
1.了解回归分析的基本原理,掌握MATLAB 实现的方法;
2.练习用回归分析解决实际问题。
『实验内容』
一、题目1:
用切削机床加工时,为实时地调整机床需测定刀具的磨损速度,每隔一小时测量刀具的厚度得到以下数据,建立刀具厚度对于切削时间的回归模型,对模型和回归系数进行检验,并预测7.5h 和15h 后的刀具厚度,用(30)和(31)式两种办法计算预测区间,解释计算结果。
时间/h 012345678910刀具厚度/cm 30.6
29.1
28.4
28.1
28.0
27.7
27.5
27.2
27.0
26.8
26.5
【模型建立】
设时间为i x ,对应的刀具厚度为i y ,作出y-x 散点图观察:x=0:10;
y=[30.629.128.428.128.027.727.527.227.026.826.5]';plot(x,y,'+')
可以观察出,y-x 是可以建立线性回归模型的。
设x y 10ββ+=,下面用MATLAB 计算回归系数。
【模型求解】X=[ones(11,1),x'];
[b,bint,r,rint,s]=regress(y,X,0.05);b,bint,s
rcoplot(r,rint)得到的结果为:b =29.5455
-0.3291
bint =28.976930.1140
-0.4252-0.2330s =0.869660.00180.0000
0.1985
观察到第一个数据的残差的置信区间不包含零点,是异常数据,应舍去。
x(1)=[];y(1)=[];
X=[ones(10,1),x'];
[b,bint,r,rint,s]=regress(y,X,0.05);b,bint,s
rcoplot(r,rint)得到的结果为:
b=29.0533
-0.2588
bint=28.833429.2732
-0.2942-0.2233
s=0.9726283.55990.00000.0195
可见剩下的第一个数据的残差的置信区间仍不包含零点,还是不满足要求,应再剔除。
x(1)=[];
y(1)=[];
X=[ones(9,1),x'];
[b,bint,r,rint,s]=regress(y,X,0.05);
b,bint,s
rcoplot(r,rint)
得到的结果为:
b=28.8667
-0.2333
bint=28.779628.9537
-0.2467-0.2200
s=0.995917150.00000.0019
可见去掉了前两个数据后,余下的9个数据没有异常情况,并且回归系数的置信区间小了,F 值大了,剩余方差小了,都对回归分析有利。
取第三次计算得到的b ,可以得到回归模型为x y 2333.08667.28-=。
下面作图检验该线性回归方程:
【模型应用】
用以上建立的模型,可以得到预测值:
1)当时间为7.5h 时,y(7.5)=28.8667-0.2333*7.5=27.1167;a1=tinv(1-0.05/2,7);x(1:2)=[];sxx=var(x)*8;
c1=a1*sqrt(s(4))*sqrt((7.5-mean(x))^2/sxx+1/9+1)
得到c1=0.1104,所以用(30)式算得的预测区间为[27.0063,27.2271];a2=norminv(0.975,0,1);c2=a2*s(4)
得到c2=0.0855,所以用(31)式算得的预测区间为[27.0311,27.2022]。
2)当时间为15h 时,y(15)=28.8667-0.2333*15=25.3667。
c3=a1*sqrt(s(4))*sqrt((15-mean(x))^2/sxx+1/9+1);
得到c3=0.1569,所以用(30)式算得的预测区间为[25.2098,25.5236];c4=c2=0.0855,所以用(31)式算得的预测区间为[25.2811,25.4522]。
【结果解释】
用(30)式与(31)式算的预测区间不大一样,后者是当n 较大且x0接近x 的平均值时的极限结果,因此不确定的范围会小一些,而前者则是在n 有限的情况下得到的,为了使结果准确,预测区间的范围就应该大一点。
----------------------------------------------------------------------------------------------------------------------
二、题目2:
电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据,建立回归模型并进行检验,诊断异常点的存在并进行处理。
每周收入9690959295959494电视广告费用 1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5报纸广告费用
5.0
2.0
4.0
2.5
3.0
3.5
2.5
3.0
【模型假设】
设电视广告费用为x1,报纸广告费用为x2,每周收入为y ,x1=[1.52.01.52.53.32.34.22.5]’x2=[5.02.04.02.53.03.52.53.0]’x=[x1,x2];
y=[9690959295959494]’;rstool(x,y,'linear',0.05)
在命令窗口中分别调整model ,依次对linear,purequadratic,interaction,quadratic 四种形式进行计算,比较剩余标准差,结果如下:
linear 0.6998,purequadratic 0.2497,interaction 0.4527,quadratic 0.1415。
因此对于全体数据,采用quadratic 模式,即包含线性项和完全二次项的形式是最佳的。
但是出于方便,先考虑剩余标准差最大的线性回归形式:22110x x y βββ++=。
之后再讨论
【模型求解】
X=[ones(8,1)x];
[b,bint,r,rint,s]=regress(y,X);
b,bint,s
rcoplot(r,rint)
结果如下:
b=83.2116
1.2985
2.3372
bint=78.805887.6174
0.4007 2.1962
1.4860 3.1883
s=0.908924.94080.00250.4897
很遗憾,第一组数据的残差区间未包含零点,舍弃该数据再做尝试。
x(1,:)=[];
y(1)=[];
X=[ones(7,1)x];
[b,bint,r,rint,s]=regress(y,X);
b,bint,s
rcoplot(r,rint)
b =81.4881
1.2877
2.9766
bint =78.787884.1883
0.7964 1.77902.3281 3.6250s =0.976884.38420.0005
0.1257
这样得到的残差区间均符合要求,因此可以采用线性模型
219766.22877.14181.81x x y ++=。
在去掉了第一组数据后,再用rstool 命令运算一遍,会发现linear,purequadratic,interaction,quadratic 四种形式依次输出的剩余标准差为0.3545,0.2648,0.1495,0.1600,于是最佳形式为interaction :21217369.05753.17137.03290.85x x x x y ++-=。