数学实验第10次作业-回归分析

合集下载

2019-2020学年高中数学(人教B版 选修1-2)教师用书:第1章 1.2 回归分析

2019-2020学年高中数学(人教B版 选修1-2)教师用书:第1章 1.2 回归分析

1.2 回归分析1.会用散点图分析两个变量是否存在相关关系.(重点)2.会求回归方程、掌握建立回归模型的步骤,会选择回归模型.(重点、难点)[基础·初探]教材整理1 线性回归模型 阅读教材P 10~P 12,完成下列问题. 1.回归直线方程其中b ^的计算公式还可以写成b ^=∑xiyi -n x - y -∑x 2i -n x -2.2.线性回归模型y =bx +a +εi ,其中εi 称为随机误差项,a 和b 是模型的未知参数,自变量x 称为解释变量,因变量y 称为预报变量.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y^=0.85x -85.71,则下列结论中正确的是________(填序号).(1)y 与x 具有正的线性相关关系;(2)回归直线过样本点的中心(x -,y -);(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; (4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg.【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,(1)正确; 由回归方程系数的意义可知回归直线过样本点的中心(x -,y -),(2)正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,(3)正确; 用回归方程对总体进行估计不能得到肯定结论,故(4)不正确. 【答案】 (1)(2)(3) 教材整理2 相关性检验阅读教材P 13~P 15例3以上部分,完成下列问题. 1.相关系数(1)作统计假设:x 与Y 不具有线性相关关系;(2)根据小概率0.05与n -2在附表中查出r 的一个临界值r 0.05; (3)根据样本相关系数计算公式算出r 的值;(4)作统计推断.如果|r |>r 0.05,表明有95%把握认为x 与y 之间具有线性相关关系.如果|r |≤r 0.05,没有理由拒绝原来的假设.1.判断(正确的打“√”,错误的打“×”) (1)求回归直线方程前必须进行相关性检验.( )(2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若相关系数r =0,则两变量x ,y 之间没有关系.( )【解析】 (1)正确.相关性检验是了解成对数据的变化规律的,所以求回归方程前必须进行相关性检验.(2)错误.相关系数|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱. (3)错误.若r =0是指x ,y 之间的相关关系弱,但并不能说没有关系.【答案】 (1)√ (2)× (3)× 2.下列结论正确的是( ) ①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④【解析】 函数关系和相关关系的区别为前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析一种方法,故③错误,④正确.【答案】 C[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1: 解惑: 疑问2: 解惑: 疑问3: 解惑:[小组合作型](1)①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y^=b^x +a ^,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是( )A.1B.2C.3D.4(2)如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+ε(单位:亿元),其中b ^=0.8,a^=2,|ε|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.【自主解答】 (1)①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以发现两变量的关系.(2)由题意可得:y ^=0.8x +2+ε,当x =10时,y ^=0.8×10+2+ε=10+ε,又|ε|≤0.5,∴9.5≤y ^≤10.5.故今年支出预计不会超过10.5亿. 【答案】 (1)C (2)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源.(1)线性回归模型与真实情况引起的误差; (2)省略了一些因素的影响产生的误差; (3)观测与计算产生的误差.[再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).【导学号:37820002】①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x ,y 之间的关系; ④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程. 【答案】 ④为研究拉力x (N)对弹簧长度y (cm)的影响,对不同拉力的6根弹簧进行测量,测得如下表中的数据:(1)(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程. 【精彩点拨】 作散点图→得到x ,y 有较好线性关系 →代入公式求得线性回归方程 【自主解答】 (1)散点图如图所示.(2)将已知表中的数据列成下表:∴回归直线方程为y ^=0.18x +6.34.1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.2.求回归直线方程时,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.[再练一题]2.本题条件不变,若x 增加2个单位,y ^增加多少? 【解】 若x 增加2个单位,则 y ^=0.18(x +2)+6.34 =0.18x +6.34+0.36, 故y ^增加0.36个单位.[探究共研型]探究1 【提示】 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:探究2 已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?①y =3×2x -1; 2③y =4x;④y =x 2.【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x -1附近.①作为回归模型最好.某地区不同身高的未成年男性的体重平均值如下表:(1)(2)如果一名在校男生身高为168 cm ,预测他的体重约为多少?【精彩点拨】 先由散点图确定相应的函数模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.【自主解答】 (1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y =的周围,于是令z =ln y ,列表如下:由表中数据可求得z 与x 之间的回归直线方程为z ^=0.693+0.020x ,则有y ^=e 0.693+0.020x . (2)由(1)知,当x =168时,y ^=e 0.693+0.020×168≈57.57,所以在校男生身高为168 cm ,预测他的体重约为57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围.[再练一题]3.有一个测量水流量的实验装置,测得试验数据如下表:【解】 由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q =m ·h n (m ,n 是正的常数).两边取常用对数,则lg Q =lg m +n ·lg h ,令y =lg Q ,x =lg h ,那么y =nx +lg m ,即为线性函数模型y =bx +a 的形式(其中b =n ,a =lg m ).由下面的数据表,用最小二乘法可求得b ^≈2.509 7,a ^=-0.707 7,所以n ≈2.51,m ≈0.196.[构建·体系]1.下表是x 和y 之间的一组数据,则y 关于x 的线性回归方程必过点( )A.(2,3) C.(2.5,4)D.(2.5,5)【解析】 线性回归方程必过样本点的中心(x -,y -), 即(2.5,4),故选C. 【答案】 C2.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型.它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25【解析】 相关指数R 2越接近于1,则该模型的拟合效果就越好,精度越高. 【答案】 A3.如图1-2-1所示,有5组(x ,y )数据,去掉________这组数据后,剩下的4组数据的线性相关系数最大.图1-2-1【答案】D(3,10)4.为了考查两个变量Y与x的线性相关性,测是x,Y的13对数据,若Y与x具有线性相关关系,则相关系数r绝对值的取值范围是________.【导学号:37820003】【解析】相关系数临界值r0.05=0.553,所以Y与x若具有线性相关关系,则相关系数r 绝对值的范围是(0.553,1].【答案】(0.553,1]5.某种产品的广告费支出x与销售额Y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)对两个变量进行相关性检测;(3)求回归直线方程.【解】(1)散点图如图所示(2)计算各数据如下:r = 1 380-5×5×50(145-5×52)(13 500-5×502)≈0.92,查得r 0.05=0.878,r >r 0.05,故有95%的把握认为该产品的广告费支出与销售额之间具有线性相关关系.(3) ,,于是所求的回归直线方程是y ^=6.5x +17.5.我还有这些不足:(1)(2) 我的课下提升方案:(1)(2)。

数学实验案例浅谈如何利用计算机实现数据回归分析

数学实验案例浅谈如何利用计算机实现数据回归分析

科技资讯科技资讯S I N &T NOLOGY I NFO RM TI ON 2008NO .28SC I EN CE &TECH NO LOG Y I N FOR M A TI O N 科技教育我们的经济、生活等方方面面存在大量的数据,我们经常需要对大量的数据做相应的分析,以期从中获得有用的信息,解决或者预测生产、生活等存在的问题;而回归分析正是其中一种方法。

回归分析主要针对成对成组数据的拟合,涉及到线性描述,趋势预测和残差分析等等。

很多专业软件,如数学中常见的M A TL AB 等等都可以用来分析。

但其实使用E xcel 就完全够用了;本实验主要用E xcel 自带的数据库做数据回归分析。

1实验的知识预备:回归分析的理论知识,E xcel 操作知识(注:本实验需要使用E xcel 扩展功能,如果E xcel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘支持下加载“分析数据库”。

加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。

)2实验主要内容2.1问题提出:“研究我国GDP 与石油消耗量之间的关系”最近国际油价高攀,给我们的国民经济发展带来负面的影响。

探讨石油与经济增长的关系,具有一定的现实意义。

请根据我国过去十年G DP 和石油消费量I 的相关数据,对数据进行回归分析,通过回归分析来粗略的探讨一下问题。

①G DP 与石油消耗量I 的关系,主要指线性函数关系、对数函数关系或幂函数关系;建立标准曲线。

②对该函数关系做一个分析检验,对此曲线进行评价,给出残差等分析数据。

③利用该函数关系对将来做出一个结论或者预测。

2.2操作过程学生分组合作实验。

材料收集:从i nt er net 收集中国近十几年的GDP 数值,以及相应年份的石油消耗量,整理成表格。

图 2.3讨论问题2.3.1GD P 与石油消耗量I 的关系GDP 与石油消耗量一定存在相应的关系,但是这个关系是否是我们常见的线性关系?对数关系?还是幂函数关系?这是一个线性拟合问题,手工计算可采用最小二乘法求出拟合直线的待定参数,同时可以得出相关系数R 值的大小,在Exc e l 中,可以对数据做趋势图,进行初步拟合,看看是否符合其中某一种。

数据回归分析作业

数据回归分析作业

数据回归分析作业数据回归分析是一种统计方法,用于确定自变量和因变量之间的关系,并预测因变量的值。

在这个作业中,我们将探索回归分析的基本概念和方法,并应用这些方法解决实际问题。

1. 简介回归分析是一种监督学习算法,它用于预测连续变量的值。

在回归分析中,我们使用自变量的值来预测因变量的值。

自变量可以是一个或多个,而因变量通常是一个连续变量。

回归分析的目标是找到一条最佳拟合线(对于简单线性回归)或超平面(对于多元回归),以最小化预测误差的平方和。

这条拟合线或超平面被称为回归方程,它用于预测新的自变量对应的因变量值。

2. 简单线性回归简单线性回归是回归分析中最简单的形式,其中只有一个自变量和一个因变量。

简单线性回归的回归方程可以表示为:y = β0 + β1x其中,y是因变量,x是自变量,β0和β1是回归系数。

我们可以使用最小二乘法来估计回归系数。

最小二乘法的目标是最小化预测误差的平方和,即最小化:RSS = Σ(y - (β0 + β1x))²通过求解RSS对β0和β1的偏导数为0的方程组,我们可以得到回归系数的估计值。

3. 多元回归分析多元回归分析是回归分析的扩展,其中有多个自变量和一个因变量。

多元回归的回归方程可以表示为:y = β0 + β1x1 + β2x2 + ... + βnxn其中,y是因变量,x1,x2,…,xn是自变量,β0,β1,β2,…,βn是回归系数。

与简单线性回归类似,我们可以使用最小二乘法来估计回归系数。

最小二乘法的目标是最小化预测误差的平方和。

4. 数据预处理在进行回归分析之前,通常需要对数据进行预处理。

数据预处理的目标是确保数据符合回归分析的假设,以及减小噪声和异常值的影响。

常见的数据预处理步骤包括:•数据清洗:去除缺失值和重复值。

•特征选择:选择与因变量相关性高的自变量。

•数据转换:对数据进行标准化或归一化,以满足回归分析的假设。

5. 模型评估为了评估回归模型的拟合效果,我们可以使用各种指标,如均方误差(MSE)、平均绝对误差(MAE)、决定系数(R²)等。

第五章-假设检验与回归分析

第五章-假设检验与回归分析
2
件,得到拒绝域;
步骤 4:明确或计算样本均值 x ,得到U 变量的观测值 u x 0 n 0
若观测值 u 落入拒绝域,则拒绝零假设 H 0 ,即接受备择假设 H1 ,
否则不能拒绝零假设 H 0 。
第五章 假设检验与回归分析 例1、 已知某面粉自动装袋机包装面粉,每袋面粉重量 Xkg
服从正态分布 N(25,0.02) ,长期实践表明方差 2 比较稳定,从
第五章 假设检验与回归分析
U 检验的步骤:
步骤 1:提出零假设 H 0 : 0 与备择假设 H1 ;
步骤 2:明确所给正态总体标准差 0 值、样本容量 n 的
值,当零假设 H 0 成立时,构造变量
U X 0 n ~ N(0,1) 0
第五章 假设检验与回归分析
步骤 3:由所给检验水平 的值查标准正态分布表求出对应 的双侧分位数 u 的值或上侧分位数 u 的值,构造小概率事
u
2
0.05, u 1.96 ,
2
第五章 假设检验与回归分析
x 0 n
12.5 12 1 100
5 u
2
1.96
故拒绝 H0 ,即认为产品平均质量有显著变化。
小结与提问:
理解假设检验的基本原理、概念;掌握假设检验的步骤。
课外作业:
P249 习题五 5.01, 5.02,5.03。
0.10,再在表中第一列找到自由度 m n 1 7 1 6 ,
其纵横交叉处的数值即为对应的 t 分布双侧分位数 t 1.943
2
,使得概率等式
PT 1.943 0.10
成立。这说明事件 T 1.943是一个小概率事件,于是得到
拒绝域
t 1.943
第五章 假设检验与回归分析

数学课后训练:回归分析的基本思想及其初步应用

数学课后训练:回归分析的基本思想及其初步应用

课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是( )①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:若x,y y=0.95x+a,则a=( )A.0.325 B.2。

6C.2。

2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,( )A .y =2x -2B .12xy ⎛⎫= ⎪⎝⎭C .y =log 2xD .y =12(x 2-1)5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0。

5.如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿6.某产品的广告费用x 与销售额y 的统计数据如下表:y bx a =+b 费用为6万元时销售额为( )A .63.6万元B .65。

5万元C .67.7万元D .72.0万元 二、填空题7.在研究身高和体重的关系时,求得R 2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:已知x与y 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0。

方差分析与回归分析

方差分析与回归分析
有因素A是显著的,即浓度不同对产量有显著性影响,而温度
以及浓度和温度的交互作用对产量无显著性影响,也就是说为
了提高产量必须控制好浓度。
2 、双因素无重复试验的方差分析 在双因素试验中,对每一对水平组合只做一次试验,即不 重复实验,得到
上一页 下一页 返回
上一页 下一页 返回
总平方和 误差平方和
例9.3 某化工企业为了提高产量,选了三种不同浓度、四种不同 温度做试验。在同一浓度与温度组合下各做两次试验,其数据如
下表所示,在显著性水平α=0.05下不同浓度和不同温度以及它们
间的交叉作用对产量有无显著性影响?
B A
A1 A2 A3
B1
14,10 9,7 5,11
B2
11,11 10,8 13,14
检验温度对该化工产品的得率是否有显著影响。
解: 计算各个水平下的样本均值,得
上一页 下一页 返回
计算 ST=106.4, SA=68.4, SE =38.0
单因素试验的方差分析表:
方差来源 平方和 自由度 F值 临界值
显著性
因素A 误差
总计
68.4 4 38.0 10
106.4 14
4.5 F0.05(4,10)=3.48 ※ 4.5 F0.01(4,10)=5.99
变量Y服从正态分布
,即Y的概率密度为
其中
,而 是不依赖于x的常数。
上一页 下一页 返回
在n次独立试验中得到观测值(x1,y1),(x2,y2),… (xn,yn),利用极大似然估计法估计未知参数a1, a2,… ak,时,
有似然函数
似然函数L取得极大值,上式指数中的平方和
取最小值。
即为了使观测值(xi , yi)(i=1,2,…,n)出现的可能性最大,应当选 择参数a1,a2,…,ak,使得观测值yi与相应的函数值

数学建模——线性回归分析82页PPT

数学建模——线性回归分析82页PPT

2019/11/15
zhaoswallow
2
表1 各机组出力方案 (单位:兆瓦,记作MW)
方案\机组 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1
2
3
4
5
6
7
8
120
73
180
80
125
125
81.1
90
133.02 73
180
80
125
125
81.1
90
3 -144.25 -145.14 -144.92 -146.91 -145.92 -143.84 -144.07 -143.16 -143.49 -152.26 -147.08 -149.33 -145.82 -144.18 -144.03 -144.32
4 119.09 118.63 118.7 117.72 118.13 118.43 118.82 117.24 117.96 129.58 122.85 125.75 121.16 119.12 119.31 118.84
5 135.44 135.37 135.33 135.41 135.41 136.72 136.02 139.66 137.98 132.04 134.21 133.28 134.75 135.57 135.97 135.06
6 157.69 160.76 159.98 166.81 163.64 157.22 157.5 156.59 156.96 153.6 156.23 155.09 156.77 157.2 156.31 158.26
ˆ0

ˆ1 xi )2

min
0 ,1

数学实验报告分析总结

数学实验报告分析总结

数学实验报告分析总结实验目的:本次实验旨在通过分析数学实验报告的数据和结果,总结出实验中观察到的现象和得出的结论。

实验方法:本次实验采用了数学实验中常见的数据采集方法,通过实际操作和测量,收集了一系列实验数据。

然后利用数学统计分析方法对数据进行处理和分析。

实验结果:根据所收集的实验数据,我们得到了以下的实验结果:1. 实验数据显示,X变量与Y变量之间存在着强烈的正相关关系。

通过绘制X和Y的散点图,可以看到数据点呈现出明显的上升趋势,并且符合一次函数的形式。

2. 通过对数据的线性回归分析,得到了最佳拟合直线的方程为Y = aX + b。

通过计算得到的回归系数a和截距b分别为a =0.8,b = 2.5。

3. 根据回归方程的系数,可以得出结论,X变量每增加1单位,Y变量将增加0.8个单位。

而当X变量为0时,Y变量的取值为2.5。

4. 通过讨论实验数据的变异程度,我们计算出了两个变量之间的相关系数。

结果显示,相关系数为0.85,表明X和Y之间的变异程度是较为密切的。

实验分析:通过对实验数据的分析,我们得出了以上的实验结论。

根据回归分析的结果,我们发现X和Y之间存在着明显的线性关系,这为进一步的研究和预测提供了依据。

然而需要注意的是,本次实验的样本容量较小,所得结论具有一定的局限性。

为了进一步验证我们的结论,需要增加样本容量,并进行更多次的实验。

同时,在进行实验时,我们还可以采用其他的数据分析方法,如方差分析、因子分析等。

这些方法可以帮助我们深入分析数据,发现更多的规律和关系。

实验总结:通过本次数学实验,我们学习并运用了数学统计方法,对实验数据进行了分析和总结。

我们得出了X变量和Y变量之间的线性关系,并通过回归分析得到了最佳拟合直线的方程。

这次实验的结果对于进一步的研究和应用有一定的指导意义。

在实际应用中,我们可以根据回归方程预测Y变量的值,或者利用回归系数来评估X与Y之间的关系强度。

然而需要明确的是,实验结论的可靠性需要通过更多的实验数据来验证。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析
一实验目的
1 了解回归分析的基本原理,掌握MATLAB实现的方法;
2 练习用回归分析解决实际问题。

二实验内容
1电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据(见下表),建立回归模型并进行检验,诊断异常点的存在并进行处理。

每周收入
报纸广告费用
初步解决:
首先对于题目作初步分析,题目中电视广告费用和报纸广告费用都会对与每周收入产生影响,但是两者对于每周收入的影响都是独立的。

首先画出散点图如下:
观察散点图之后,假设自变量与因变量满足多元线性关系。

设电视广告费用为,报纸
广告费用为,每周收入为,那么每周收入与电视广告费用以及报纸广告费用的关系模型表示如下:

下面在MATLAB中输入以下命令:
输出结果如下所示:
结果列表如下:
回归系数回归系数估计值回归系数置信区间



,,,
于是由它得到的预测模型为。

做出残差和置信区间的图像如下:
由图像可以看出,只有第一组数据的置信区间不包括零,改组数据可能有误,去掉之后再进行计算。

在命令栏中输入以下命令:
输出结果如下所示:
将结果列表如下:
回归系数 回归系数估计值
回归系数置信区间



, , ,
由它得到的回归模型为。

对于实验结果的分析:
回归模型: 。

对比剔除异常点后的分析结果可知,
第一次分析的过程中,第一组数据的置信区间不包括零点,所以该点为异常点,需要剔除再进行一次计算。

剔除之后,发现所有点的置信区间都包括了零点。

剔除数据之后计算结果与剔除之前的比较
,,,
原始数据
剔除后,,,纵向比较可以看出,剔除了异常数据之后,置信区间明显的有了缩小,所以说,剔除异常数据可以有利于更加精确地建立模型。

2汽车销售商认为汽车销售量与汽油价格、贷款利率有关,两种类型汽车(普通型和豪华型)个月的调查资料见下表,其中是普通型汽车售量(千辆),是豪华型汽车售辆(千辆),是汽油价格(元/),是贷款利率()。

序号
(1)对普通型和豪华型汽车分别建立如下模型:

给出的估计值和置信区间,决定系数,值及剩余方差等;
(2)用,表示汽车类型,建立统一模型:,给出估计
值和置信区间,决定系数,值及剩余方差等。

以,代入统一模型,将结果与
(1)的两个模型比较,解释二者的区别;
(3)对统一模型就每种类型汽车分别作和与残差的散点图,有什么现象,说明模型有何
缺陷?
(4)对统一模型增加二次项和交互项,考察结果有什么改进。

初步解决:
(1)首先研究,在命令栏中输入以下命令:
输出结果如下:
结果列表如下:
回归系数回归系数估计值回归系数置信区间



,,,
由它得到的回归模型为:。

、的置信区间不包含
零点,且,且计算可得,,所以该模型有效。

下面研究,在命令栏中输入以下内容:
输出结果如下:
结果列表如下:
回归系数回归系数估计值回归系数置信区间



,,,
由它得到的回归模型为:。

的置信区间包含了零点,所以该模型无效。

(2)对于统一模型,用来表示车的类型,表示普通型,表示豪华型。

在命令栏中输入以下内容:
输出结果如下所示:
结果列表如下:
回归系数回归系数估计值回归系数置信区间




,,,
由它得到的统一回归模型为:。

的置信区间包含了零点,所以该模型无效。

下面对这个统一模型进行研究:
首先将代入统一模型,得到回归模型为,然后将代入统一模型,得到回归模型为。

与第一问的结果相比相差较大,说明该模型并不合适。

(3)对于第二问中求出的的统一模型,分别画出、与残差的散点图。

首先是与残差的散点图:
然后是与残差的散点图:
对于两幅图,纵轴均为残差,横轴分别为和。

两种类型的汽车残差分布不同,这说明(即汽车类型)与、有交互作用,模型中应添加交互项。

(4)在MATLAB中尝试使用逐步回归来建立包括二次项和交互项的模型。

在命令栏中输入以下命令:
然后经过不断的调试,找到使最小的情况,如下图所示:
于是,由它得到的模型为
另外:
,,,。

相关文档
最新文档