【高考调研】高中数学(人教A版)选修2-3课后巩固:3-1 回归分析的基本思想及其初步应用

合集下载

高中数学人教A版选修2-3作业3-1回归分析的基本思想及其初步应用3

高中数学人教A版选修2-3作业3-1回归分析的基本思想及其初步应用3

3.1 回归分析的基本思想及其初步应用1. 关于回归分析,下列说法错误的是()A.回归分析是研究两个具有相关关系的变量的方法B.散点图中,解释变量在x轴,预报变量在y轴C.回归模型中一定存在随机误差D.散点图能明确反映变量间的关系解析:用散点图反映两个变量间的关系时,存在误差.答案:D2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关系数r分别如下表:A.甲B.乙C.丙D.丁解析:相关系数r越大,表示回归模型的效果越好.答案:A3. 某学校以模拟考试的数学成绩预报高考数学成绩的回归方程为y=0.5x+62.5,用这个方程预报一位模拟考试数学成绩为100分的同学的高考数学成绩,下列叙述正确的是()A.该同学的高考数学成绩一定是112.5分B.该同学的高考数学成绩在112.5分以上C.该同学的高考数学成绩在112.5分以下D.该同学的高考数学成绩在112.5分左右解析:根据回归直线方程的特征,回归直线不一定经过样本点,但一定经过样本点的中心,当x =100时,y =62.5+0.5×100=112.5,所以该同学的高考数学成绩在112.5分左右,故选D.答案:D4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:4 ℃时,用电量的度数约为________.解析:x -=10,y -=40,回归方程过点(x -,y -),∴40=-2×10+a .∴a =60.∴y =-2x +60.令x =-4,∴y =(-2)×(-4)+60=68.答案:685. 五个学生的数学与物理成绩如下表,求其相关系数.解:由表中给出数据可以得出:x =70;y =66;∑i =15x 2i =24750;∑i =15y 2i =21820;∑i =15x i y i =23190. ∴r =∑i =15x i y i -5x y(∑i =15x 2i -5x 2)(∑i =15y 2i -5y 2)=23190-5×70×66(24750-5×702)(21820-5×662)=0.9.。

人教新课标A版高二数学《选修2-3》3.1 回归分析的基本思想及其初步应用

人教新课标A版高二数学《选修2-3》3.1 回归分析的基本思想及其初步应用
n ∧ 残差 2 越小 ,模型拟合效 ( y - y ) i i 残差平方和为 ,残差平方和________ 平方 i=1 和 果越好
(yi-yi)2
相关 2 解释 变量对_____ 预报 变量变化的贡 R =1- ,R2 表示_____ 指数 n 2 2 ( y - y ) i R
i =1 i =1
习成绩,因此学生的学习时间与学习成绩之间具有相关关系;
对于(2),也是相关关系;
对于(3),身高与视力之间没有关系;
对于(4),球的体积与半径之间是函数关系.
【知识归纳】 一、线性回归模型
1.回归直线方程:________________ ,其中: y=bx+a
∧ ∧ ∧
xi- x yi- y
∧ ∧
i=1
yi- yi2
5
5

解:∵R甲=1-
2
i=1
yi- y 2

155 =1-1 000=0.845,
i=1
yi- yi2
5
5
R乙=1-
2
i=1
yi- y 2
180 =1-1 000=0.82,
∵84.5%>82%,∴甲模型分析 例1.某班5名学生的数学和物理成绩如下表:
∧ ∧ ∧
(3)引起预报值y 与真实值 y 之间的误差的原因: 一是随机误差 e,它引起预报值y 与真实值 y 之间的误差; 另一方面,由于a和b为截距和斜率的估计值,它们与真实值 a 和 b 之间也存在着误差,它们引起了预报值y 和真实值 y 之间的 差异.
∧ ∧ ∧ ∧

二、刻画回归效果的方式
xiyi=88×78+76×65+73×71+66×64+63×61=25 054.

人教版A版高中数学选修2-3:3.1 回归分析的基本思想及其初步应用

人教版A版高中数学选修2-3:3.1 回归分析的基本思想及其初步应用
50 0 0 3 6 9 12 15 18 21 24 27 30 33 36 39
假设线性回归方程为 :yˆ bˆx aˆ
由计算器得:线性回归方程为
yˆ 19.87x 463.73
线性模型
7
Q(aˆ,bˆ) ( yi yˆi ) 2 19818.9
残差
i1
yˆ 19.87x 463.73 100
就转换为z=bx+a
21
23
25
27
29
32
35
z=lgy
0.85 1.04 1.32 1.38 1.82 2.06 2.51
产卵数y/个
7
11
21
24
66
115 325
7
7
x 27.42 z 1.569 xi zi 318.58
xi2 5414
i 1
i 1
由计算器得:
zˆ关于x的线性回归方程为 zˆ 0.118x 1.665 ,
线性回归分析
其回归直线方程 y bx a 的截距和斜
率的最小二乘法估计公式:
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.残差eˆ
残差平方和越
对于样本点(xi,yi)的随机误差 小精确度越高
学习目标
1、了解回归模型的选择,进一步理解非线性 模型通过变换转化为线性回归模型的方法;
2、会用残差及相关系数分析回归模型, 体会不同模型拟合数据的效果;

人教新课标版数学高二-A版选修2-3课后巩固 3-1回归分析的基本思想

人教新课标版数学高二-A版选修2-3课后巩固 3-1回归分析的基本思想

1.下列变量是相关关系的是()A.人的身高与视力B.圆心角的大小与其所对的圆弧长C.直线上某点的横坐标与纵坐标D.人的年龄与身高答案 D解析A不是相关关系;B、C是函数关系;D人的年龄与身高存在相关关系,因为身高不仅受年龄的影响,还受遗传、饮食、环境等因素的影响.2.对于线性相关系数r,叙述正确的是()A.|r|∈(0,+∞),|r|越大,相关程度越大,反之,相关程度越小B.r∈(-∞,+∞),r越大,相关程度越大,反之,相关程度越小C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不对答案 C3.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到的线性回归方程为y∧=b∧x+a∧,那么下面说法不正确的是()A.直线y∧=b∧x+a∧必经过点(x,y)B .直线y ∧=b ∧x +a ∧至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ∧=b ∧x +a ∧的斜率为∑i =1n x i y i -n x y∑i =1n x 2i -n x 2 D .直线y ∧=b ∧x +a ∧和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的残差平方和∑i =1n (y i -y ∧i )2是该坐标平面上所有直线与这些点残差平方和中最小的答案 B4.已知x 与y 之间的一组数据如下,则y 与x 的线性回归方程为y ∧=b ∧x +a ∧必过点________.答案 (32,4)解析 回归方程必过样本点的中心(x ,y ),又x =1+2+34=32,y =1+3+5+74=4,即过点(32,4).5.甲、乙、丙、丁四位同学各自对A 、B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n (y i -y ∧i )2如下表:甲 乙 丙 丁散点图残差平方和 115 106 124 103 高?A .甲B .乙C .丙D .丁答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2表达式中 i =1n (y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故选D.。

高中数学人教A版选修2-3练习:3.1 回归分析的基本思想及其初步应用 pdf版含解析

高中数学人教A版选修2-3练习:3.1 回归分析的基本思想及其初步应用 pdf版含解析

32 4
40
行判断,甲回归方程的数据准确率为40=5,而乙回归方程的数据准确率为60=
2 3.显然甲的准确率高些,因此甲回归方程好些.
【答案】 甲
8.如果某地的财政收入 x 与支出 y 满足线性回归方程 y=bx+a+e(单位:
亿元),其中 b=0.8,a=2,|e|≤0.5,如果今年该地区财政收入为 10 亿元,则
C.y=c+bx D.y=b+cx 【解析】 由 y=aebx 得 ln y=ln(aebx),∴ln y=ln a+ ln ebx,
∴ln y=ln a+bx,∴U=c+bx.故选 A. 【答案】 A
5.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子的身高数据如
表所示:
父亲身高 x(cm) 174 176 176 176 178
(2)由散点图看出样本点分布在一条指数函数 y=c1ec2x 的周围,于是令 z=ln y,则
x1
2
3
4
5
6
z 1.79 2.48 3.22 3.89 4.55 5.25
^z
^y
由计算器算得, =0.69x+1.112,则有 =e0.69x+1.112.
[能力提升]
1.(2016·青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如
-x -y 【解析】 回归直线一定过样本点的中心( , ),故 C 正确. 【答案】 C 2.甲、乙、丙、丁四位同学在建立变量 x,y 的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数 R2 分别如下表:
甲乙丙丁 R2 0.98 0.78 0.50 0.85 哪位同学建立的回归模型拟合效果最好?( ) A.甲 B.乙 C.丙 D.丁 【解析】 相关指数 R2 越大,表示回归模型的拟合效果越好. 【答案】 A 3.对变量 x,y 进行回归分析时,依据得到的 4 个不同的回归模型画出残 差图,则下列模型拟合精度最高的是( )

数学人教A版选修2-3教材梳理:3.1回归分析的基本思想及其初步应用含解析

数学人教A版选修2-3教材梳理:3.1回归分析的基本思想及其初步应用含解析

庖丁巧解牛知识·巧学一、回归直线方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程的截距和斜率的最小二乘估计公式分别为:aˆ=x b y ˆ=, =∑∑==---ni i i ni ix x y y x x121)()()(。

回归直线方程中的x =),(,1,111y x y n y x n ni i n i i ∑∑===称为样本点的中心。

回归直线过样本点的中心.二、相关系数及相关检验给定(x i ,y i )(i=1,2,…,n ),只要x 1,x 2,…,x n 不全相等,就能求出一条回归直线,因此它有无意义就是个大问题。

由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法。

当x i 不全相等,y i 也不全相等时,r=21121)()())((∑∑∑===----ni ni iini i iy yx xy y x x。

叫做变量y与x之间的样本相关系数(简称相关数),|r|≤1. 当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关。

r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近0时,表明两个变量之间几乎不存在线性相关关系. 通常,当r的绝对值大于0.75时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当|r|与1接近到什么程度才表明Y 与x之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下:(1)作统计假设:x与Y 不具有线性相关关系;(2)根据小概率0.05与n-2在附表中查出r的一个临界值r 0.05; (3)根据样本相关系数计算公式算出r的值;(4)作统计推断,如果|r|>r 0.05,表明有95%的把握认为x与y 之间具有线性相关关系。

如果|r|≤r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的. 三、回归分析 1.随机误差在线性回归模型y=bx+a+e 中,a 和b 为模型的未知参数,e 是y 与yˆ=bx+a 之间的误差,通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D (e)=σ2>0.线性回归模型的完整表达形式为⎩⎨⎧==++=.)(,0)(,2σe D e E e a bx y 在此模型中,随机误差r的方差σ2越小,通过回归直线=bx+a 预报真实值y的精度越高。

高中数学人教A版选修2-3第三章:3.1回归分析的基本思想及其初步应用 课件

高中数学人教A版选修2-3第三章:3.1回归分析的基本思想及其初步应用 课件

从散点图可以看到,样本点散布在某一条直线的 附近,而不是一条直线上,所以不能用一次函数 y=bx+a来描述它们之间的关系。
这时我们用下面的线性回归模型来描述身高和体
重的关系:y=bx+a+e
其中a和b为模型的未知参数,
e是y与 yˆ 之间的误差,通常e称为随机误差。
产生随机误差e的原因是什么?
(1)所用确定性函数模拟不恰当; (2)忽略了某些因素的影响; (3)观测误差,如使用的测量工具不同等。
4.线性回归模型y=bx+a+e中, 把自变量x称为解释变量, 把因变量y称为预报变量。
^
^
5.残差: ei yi yi
n
^
6.残差平方和:
( yi yi )2
i 1
n
7.总偏差平方和: ( yi y)2
i 1
n
^
( yi y)2
8.相关指数:R2
1
i 1 n
( yi y)2
新课讲解
例 从某大学中随机选出8名女大学生,其 身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
三、回归直线方程:最小二乘法
1、所求回归直线方程为 yˆ = bˆ x + aˆ ,其中:
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1

高中人教A数学选修2-3学案:3.1 回归分析的基本思想及其初步应用 含答案

高中人教A数学选修2-3学案:3.1 回归分析的基本思想及其初步应用 含答案

第三章统计案例,你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.3.1回归分析的基本思想及其初步应用自主预习·探新知情景引入2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震余震频繁而且震级还高,你知道地震的震级与地震次数之间有什么关系吗?新知导学一、回归直线方程1.回归分析是处理两个变量之间__相关关系__的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为__线性回归分析__.2.回归直线方程为y^=b^x+a^,其中b^=__∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2__a^=__y-b^x,__(x,y)__称为样本点的中心.3.线性相关关系强与弱的判断:用__相关系数r__来描述线性相关关系的强弱.对于变量x、y随机抽取到的n对数据(x1,y1)、(x2,y2)、…、(x n,y n),其相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2=∑i=1nx i y i-n x y(∑i=1nx2i-n x2)(∑i=1ny2i-n y2).当r>0时,表明两个变量__正相关__;当r<0时,表明两个变量__负相关__.r的绝对值越接近1,表明两个变量的线性相关性越__强__;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于__0.75__时,认为两个变量有很强的线性相关关系.二、线性回归分析1.随机误差(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型__y=bx+a+e__来表示,这里__x__称为解释变量,__y__称为预报变量,__e__称为随机误差,E(e)=__0__,D(e)=__σ2__.(2)随机误差及其产生的原因从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx +a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e 中.②忽略了某些因素的影响.影响变量y 的因素不只变量x ,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e 中.③观测误差.由于测量工具等原因,导致y 的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e 中.2.残差对于样本点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n ),其回归方程为y ^=b ^x +a ^,用y ^作为回归模型⎩⎪⎨⎪⎧y =bx +a +e E (e )=0,D (e )=σ2中bx +a 的估计值,随机误差e i =y i -bx i -a 的估计值e ^i =__y i -b ^x i -a ^__(i =1,2,…,n ),称为相应于点(x i ,y i )的残差.3.残差图以__残差__为纵坐标,__样本编号__(或身高数据,或体重的估计值等)为横坐标作出的图形,称为残差图.4.在线性回归模型中,R 2表示解释变量对预报变量变化的__贡献率__.R 2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R 2越小,说明随机误差对预报变量的效应越大.相关指数R 2的计算公式是R 2=1-∑ni =1 (y i -y ^i )2∑ni =1 (y i -y)2.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果(即回归效果)越__好__. 在含有一个解释变量的线性模型中,R 2恰好等于__相关系数r __的平方.预习自测1.在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①[解析] 对两个变量进行回归分析时,首先收集数据(x i ,y i ),i =1,2,…,n ;根据所搜集的数据绘制散点图. 观察散点图的形状,判断线性相关关系的强弱, 求相关系数,写出线性回归方程, 最后依据所求出的回归直线方程作出解释; 故正确顺序是②⑤④③①, 故选D .2.(2020·南充模拟)已知变量x 与变量y 之间具有相关关系,并测得如下一组数据:则变量x 与y A .y ^=0.7x -2.3 B .y ^=-0.7x +10.3 C .y ^=-10.3x +0.7 D .y ^=10.3x -0.7[解析] 根据表中数据,得; x =14(6+5+10+12)=334,y =14(6+5+3+2)=4,且变量y 随变量x 的增大而减小,是负相关,所以,验证x =334时,y ^=-0.7×334+10.3≈4,即回归直线y ^=-0.7x +10.3过样本中心点(x ,y ). 故选B .3.(2020·武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:通过计算得到回归方程为y ^=0.577x -0.448,利用这个方程,我们得到年龄37岁时体内脂肪含量为20.90%,那么数据20.90%的意义是( D )A .某人年龄37岁,他体内脂肪含量为20.90%B .某人年龄37岁,他体内脂肪含量为20.90%的概率最大C .某人年龄37岁,他体内脂肪含量的期望值为20.90%D .20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计 [解析] 利用回归方程y ^=0.577x -0.448, 可得x =37时,y ^=20.901,即到年龄37岁时体内脂肪含量约为20.90%,故20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计, 故选D .4.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( A )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合[解析] 由题意知(s ,t )是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A .5.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( D )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x[解析] 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是y =a +b ln x .故选D .互动探究·攻重难互动探究解疑 命题方向❶变量间的相关性检测典例1 关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325试判断y 与x 是否线性相关.[解析] x -=17(21+23+25+27+29+32+35)≈27.4,y -=17(7+11+21+24+66+115+325)≈81.3,∑i =17x 2i =212+232+252+272+292+322+352=5 414, ∑i =17x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542.∑i =17y 2i =72+112+212+242+662+1152+3252=124 393, ∴r =∑i =17x i y i -7x -y-(∑i =17x 2i -7x 2)(∑i =17y 2i -7y 2)=18 542-7×27.4×81.3(5 414-7×27.42)×(124 393-7×81.32)≈2 948.663 520.92=0.863 9.由于r =0.863 9>0.75,∴x 与y 具有线性相关关系.『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.┃┃跟踪练习1__■现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试数学成绩(y ),数据如下表:学生号1 2 3 4 5 6 7 8 9 10 x 120 108 117 104 103 110 104 105 99 108 y 84648468696869465771请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系? [解析] x -=110(120+108+…+99+108)=107.8,y -=110(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+108×71=73 796,所以,相关系数为 r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.750 6,由0.750 6>0.75知,两次数学考试成绩有显著的线性相关关系. 命题方向❷求线性回归方程典例2 某班5名学生的数学和物理成绩如表:学生学科成绩 A B C D E 数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,预测他的物理成绩. [解析] (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174, 所以=∑i =15x i y i -5x ·y∑i =15x 2i -5x2≈0.625,=y -x ≈67.8-0.625×73.2=22.05, 所以y 对x 的回归直线方程是=0.625x +22.05.(3)当x =96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.┃┃跟踪练习2__■(2020·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:时间 星期一 星期二 星期三 星期四 星期五 星期六 星期日 车流量x /万辆 1 2 3 4 5 6 7 PM2.5的浓度y (微克/立方米)28303541495662(1)由散点图知y 与x 具有线性相关关系,求y 关于x 的线性回归方程; (2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)参考公式:回归直线的方程是y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . [解析] (1)由数据可得x =17(1+2+3+4+5+6+7)=4,y =17(28+30+35+41+49+56+62)=43,∑i =17x i y i =1372,∑i =17x 2i =140,b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=1372-1204140-112=6,a ^=y -b ^x =43-6×4=19,故y 关于x 的线性回归方程为y =6x +19.(2)①当车流量为8万辆,即x =8时,y ^=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.②根据题意得6x +19≤100,即x ≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.命题方向❸线性回归分析典例3 某运动员训练次数与训练成绩之间的数据关系如下:次数(x ) 30 33 35 37 39 44 46 50 成绩(y )3034373942464851(1)(2)求出回归方程; (3)作出残差图;(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.[解析] (1)作出该运动员训练次数x 与成绩y 的散点图,如图所示.由散点图可知,它们之间具有相关关系.(2)x =39.25,y=40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,所以b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2≈1.041 5,a ^=y -b ^x =-0.003 875,∴回归直线方程为y ^=1.041 5x -0.003 875.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.x y e ^=y -y ^30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 5051-1.071 1作残差图如图所示.由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.『规律总结』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.“R 2、残差图”在回归分析中的作用:(1)R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.┃┃跟踪练习3__■为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程; (2)求出R 2; (3)进行残差分析.[解析] (1)散点图如图所示.因为x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1 076.2 计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.24-1.37-0.540.411.412.31所以∑i=16(y i-y^i)2≈0.013 18,∑i=16(y i-y-)2=14.678 4.所以,R2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.命题方向❹非线性回归问题典例4有一测量水流的实验装置——量水堰,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5流量Q(升/分)0.0820.25 1.811.237.866.5134 根据表中数据,建立Q与h之间的回归方程.[思路分析]作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.[解析]根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lg Q=βlg h+lgα②,令lg Q=y,lg h=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.80.9085 1.574 00.825 4 1.430 0610.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5 7 13.5 1341.130 32.127 11.277 62.404 3∑∑i =17x i =4.022∑i =17y i =5.140 1∑i =17x 2i =3.780 7 ∑i =17x i y i =6.642先作出上面数据表,由表得到β ≈2.509 7,lg α≈-0.707 7,则α≈0.196 0.于是所得的回归方程为Q =0.193h 2.509 7.『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.例如:①反比例函数y =a +b x 可作变换t =1x,得y =a +bt .②幂函数型y =ax b (a >0)可作变换Y =ln y ,m =ln a ,t =ln x ,则有 Y =m +bt .③指数型函数y =ka bx (a >0且a ≠1,k >0)可作变换Y =ln y ,m =ln k ,则有:Y =m +(b ln a )x ┃┃跟踪练习4__■为了研究某种细菌随时间x 的变化繁殖个数y 的变化,收集数据如下:时间x /天 1 2 3 4 5 6 繁殖个数y612254995190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2.[解析] (1)由表中数据作散点图如下图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的图象的周围,其中c 1和c 2是待定系数.于是令z=ln y,则z=bx+a (a=ln c1,b=c2),因此变换后的样本点应该分布在直线z =bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25由表中数据得到线性回归方程z=0.69x+1.115.因此细菌繁殖个数关于时间的回归方程为y^=e0.69x+1.115.(3)列出残差表:编号i 12345 6y^i6.0812.1224.1748.1896.06191.52y i612254995190e^i-0.08-0.120.830.82-1.06-1.52∑i=16e^2i=∑i=16(y i-y^i)2=4.8161,∑i=16(y i-y-)2=24630.1,R2=1-4.816124630.1≈0.9998.故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.学科核心素养利用线性回归方程进行预报变量的估计(规律方法)利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.典例5(2020·福州模拟)对具有线性相关关系的变量x,y,测得一组数据如下表:x 24568y 2040607980根据上表,利用最小二乘法得它们的回归直线方程为y=10.5x+a^,据此模型来预测当x =20时,y的估计值为(C)A.210B.210.5C.211.5D.212.5[解析] 由已知得x =5,y =54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5.因此y ^=10.5x +1.5,当x =20时,y ^=10.5×20+1.5=211.5.故选C .『规律总结』 已知变量的某个值去预测相应预报变量的某个值时,先求出其所满足的回归直线方程y ^=b ^x +a ^,把已知x 取某一个值代入回归方程y ^=b ^x +a ^中,从而可求出y 的估计值.┃┃跟踪练习5__■某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试预测加工10个零件需要的时间.参考公式:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2a ^=y -b ^x[解析] (1)散点图如图所示:(2)由题中表格数据得x=3.5,y =3.5,∑i =14 (x i -x )(y i -y )=3.5,∑i =14(x i -x )2=5.由公式计算得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=0.7,a ^=y -b ^x ,所以所求线性回归方程为y ^=b ^x +a ^=0.7x +1.05. (3)当x =10时,y ^=b ^x +a ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时.易混易错警示 求回归方程典例6 在一化学反应过程中,某化学物质的反应速度y (g/min)与一种催化剂的量x (g)有关,现收集了如表所示的8组数据,则y 与x 的回归方程是__y ^=e 0.1812x -0.8485__.催化剂是x (g) 15 18 21 24 27 30 33 36 化学物质反应速度y (g/min) 6830277020565350[错解] 由表中数据可得x =25.5,y=95.125,∑i =18x 2i =5580,∑i =18x i y i =24297,所以b ^=∑i =18x i y i -8x y∑i =18x 2i -8x2≈12.94,a ^=y -b ^x =-234.845.所以回归方程式为y ^=-234.845+12.94x .[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.[正解] 根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y =c 1e c 2x =(c 1,c 2为待定的参数),令z =ln y ,则z =c 2x +ln c 1,即变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,由y 与x 的数据表得z 与x 的数据表如下:x 15 18 21 24 27 30 33 36 z1.7922.0793.4013.2964.2485.3234.1745.858作出z 与x 的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.由表中数据可得b ^≈0.181 2,a ^≈-0.848 5,故z ^=0.181 2x -0.848 5,所以y ^=e 0.181 2x -0.848 5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为y ^=e 0.181 2x -0.848 5.课堂达标·固基础1.关于回归分析,下列说法错误的是( D ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系[解析] 用散点图反映两个变量间的关系时,存在误差.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:A .甲B .乙C .丙D .丁[解析] 相关指数R 2越大,表示回归模型的效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( D )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg[解析] A ,B ,C 均正确,是回归方程的性质,D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学生某女生身高为170 cm ,则估计其体重大约为58.79 kg ”.4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=bx +a 中b =-2,预测当气温为-4 ℃时,用电量的度数约为__68__.[解析] x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a . ∴a =60.∴y ^=-2x +60.令x =-4,∴y ^=(-2)×(-4)+60=68.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3-1 回归分析的基本思想及其初步应用
1.下列变量是相关关系的是()
A.人的身高与视力
B.圆心角的大小与其所对的圆弧长
C.直线上某点的横坐标与纵坐标
D.人的年龄与身高
答案 D
解析A不是相关关系;B、C是函数关系;D人的年龄与身高存在相关关系,因为身高不仅受年龄的影响,还受遗传、饮食、环境等因素的影响.2.对于线性相关系数r,叙述正确的是()
A.|r|∈(0,+∞),|r|越大,相关程度越大,反之,相关程度越小
B.r∈(-∞,+∞),r越大,相关程度越大,反之,相关程度越小
C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不对
答案 C
3.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到的线性回归方程为y∧=b∧x+a∧,那么下面说法不正确的是()
A.直线y∧=b∧x+a∧必经过点(x,y)
B.直线y∧=b∧x+a∧至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点
C.直线y∧=b∧x+a∧的斜率为∑
i=1
n
x i y i-n x y

i=1
n
x2i-n x2
D .直线y ∧=b ∧x +a ∧
和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的残差平方和∑i =1
n
(y i
-y ∧
i )2是该坐标平面上所有直线与这些点残差平方和中最小的
答案 B
4.已知x 与y 之间的一组数据如下,则y 与x 的线性回归方程为y ∧
=b ∧
x +a ∧
必过点________.
x 0 1 2 3 y
1
3
5
7
答案 (3
2,4)
解析 回归方程必过样本点的中心(x ,y ),
又x =1+2+34=32,y =1+3+5+74
=4,即过点(32,4). 5.甲、乙、丙、丁四位同学各自对A 、B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n
(y i -y ∧
i )2如下表:




散点图
残差 平方和
115
106
124
103
哪位同学的试验结果体现拟合A 、B 两变量关系的模型拟合精度高?
A .甲
B .乙
C .丙
D .丁
答案 D
解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2
表达式中 i =1
n
(y i -y )2为确定的数,
则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故选D.。

相关文档
最新文档