高考数学总复习专题讲解60---成对数据的统计分析

合集下载

高考数学一轮复习考点知识专题讲解64---成对数据的统计分析

高考数学一轮复习考点知识专题讲解64---成对数据的统计分析
n

i∑=1(yi-
y
2

其中 R2 越接近于 1,表示回归的效果越好.
[解] (1)由折线图中的数据得,
7
7
t =4,i∑=1(ti- t )2=28,i∑=1(yi- y )2=18,
21
所以 r=
≈0.935.
28×18
因为 y 与 t 的相关系数近似为 0.935,说明 y 与 t 的线性相关程度相当大,所以可
所以预测 2021 年该企业污水净化量约为 58.5 吨. (3)因为 R2=1-i∑=i∑7=711((yyi-i-^yyi))22=1-94×118=1-18=78=0.875,所以“污水净化量的
差异”有 87.5%是由年份引起的,这说明回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即 可(注意回归直线过样本点的中心( x , y )),利用回归方程进行预测,常把线性回归方
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系, 我们将它称为正相关. (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为 负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具 有线性相关关系,这条直线叫做回归直线. 2.回归方程
- 9 - / 24
程看作一次函数,求函数值.
[教师备选例题]
某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储
蓄存款(年底余额),如下表 1:
年份 x
2013
2014
2015
2016

2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析

2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析
CD
2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )




0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.

2024届高考数学一轮总复习第八章统计与统计分析第三讲成对数据的统计分析课件

2024届高考数学一轮总复习第八章统计与统计分析第三讲成对数据的统计分析课件
参考公式: 最小二乘法求线性回归方程系数公式:
b^=x1yx1+21+xx2y22+2+……++xx2n-nynn--xn2x y ,a^=-y -b^-x . 参考数据:15×16+20×20+35×40+50×48=4 440, 152+202+352+502=4 350.
解:(1)散点图如图 D64:
(4)判断经验回归方程的拟合效果,可以利用样本相关系数判 断,|r|越趋近于 1,两变量的线性相关性越强.
【变式训练】
(2022 年金台区期中)某消费品企业销售部对去年各销售地的
居民年收入(即此地所有居民在一年内的收入的总和)及其产品销 售额进行抽样分析,收集数据整理如下:
销售地
A
B
C
D
年收入 x(亿元)
a^=-y -b^-x =31-0.96×30=2.2. ∴y 关于 x 的线性回归方程为^y=0.96x+2.2. (3)由题意,B 地今年居民收入为 20+20×20%=24, 把 x=24 代入^y=0.96x+2.2, 得^y=0.96×24+2.2=25.24(万元). ∴预测 B 地今年的销售额 y 将达到 25.24 万元.
答案:ABC
(2)某研究机构为调查人的最大可视距离 y(单位:米)和年龄 x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集 数据得到下表:
x
20
25
30
35
40
y
167
160
150
143
130
(1)根据上表提供的数据,求出 y 关于 x 的线性回归方程^y= b^x+a^;
(2)根据(1)中求出的线性回归方程,估计年龄为 50 岁的人的 最大可视距离.
第三讲 成对数据的统计分析

统计成对数据的统计分析知识点易错点总结-高考三轮复习冲刺

统计成对数据的统计分析知识点易错点总结-高考三轮复习冲刺

统计、成对数据的统计分析一、随机抽样1.简单随机抽样(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样。

(2)简单随机样本:通过简单随机抽样获得的样本称为简单随机样本。

(3)简单随机抽样的常用方法。

实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法。

注意:除非特殊声明,本章简单随机抽样指不放回简单随机抽样。

2.总体平均数与样本平均数注意在简单随机抽样中我们常用样本平均数去估计总体平均数;②总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);③一般情况下,样本量越大,估计越准确。

3.分层随机抽样(1)定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。

在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。

(2)分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样。

(3)分层随机抽样的平均数计算在比例分配的分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,样本平均数分别为x̅,y̅,总体的样本平均数为w̅,则w̅=MM+N x̅+NM+Ny̅=mm+nx̅+nm+ny̅。

注意:①随机抽样时,总体中的每个个体入样的概率相同。

②比例分配的分层随机抽样,每一层入样的个体数为该层的个体数乘以抽样比。

【重点难点易错点】1.简单随机抽样的要点:.简单随机抽样需满足:①被抽取的样本和总体的个体数有限;②逐个抽取;③等可能抽取。

2.在使用随机数法时,如遇到三位数(或四位数),可从选择的随机数表中的某行某列的数字计起,每三个(或四个)作为一个单位,按某种顺序依次选取,有超过总体号码或出现重复号码的数字舍去。

高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

高中数学选修二第8章:成对数据的统计分析-知识点

高中数学选修二第8章:成对数据的统计分析-知识点

1高中数学选修二第8章:成对数据的统计分析-知识点1、来自 同一 对象的 两 组数据称为成对数据,研究成对数据 相关性 的方法称为相关分析。

可以用散点图 观察两个变量之间的相关性,当所有点都在一条直线的附近波动时,这两个变量之间具有一种 线性相关 关系。

2、相关关系和函数关系的区别:函数关系是两个变量之间有 完全确定 的关系;而相关关系并 没有 严格的确定关系,当一个变量变化时,另一变量的取值有一定的 随机性 。

3、两组数据x i 和y i 的线性相关系数r 是度量两个变量x 和y 之间 线性相关程度 的统计量。

r== 。

其中x 和y 是这两组数据的 算术平均数。

4、相关系数r 的性质:①r >0时, 正 相关;r <0时, 负 相关;r=0时, 无 相关性。

②r 的取值范围是 [-1,1] ,当r 越接近 1 时,相关程度越 高 ,当r 越接近 0 时,相关程度越 低。

当r 越> 0.75时,就可以认为两个变量有很高 的线性相关关系。

③相关系数的计算结果,与哪个变量作为横轴或纵轴 无关 ,与变量的单位 也无关 ;④相关系数会受到数据量 多少 的影响,也会受到少数异常值 较大的影响。

5、把 拟合误差 取得 最小 值时得到的线性方程y=a ˆx+bˆ称为变量y 随x 波动的 回归方程 或 回归模型 ,自变量x 称为 解释 变量,因变量y 称为 反应 变量,回归方程所定义的直线称为 回归直线,系数aˆ和b ˆ称为 回归系数 ,其中,a ˆ= ,bˆ= y -a ˆx 。

由成对数据求回归方程的方法称为 一元线性回归分析 。

回归方程经过样本点的中心(x ,y )。

6、最小二乘法(也叫 最小平方 法)是一种数学 优化 技术,通过最 小 化 误差的平方和 寻找数据的 最佳 函数匹配,是使得样本数据的点到回归曲线的距离 的平方和 最小 的方法。

由最小二乘法确定的回归方程所定义的直线是给定数据点的最佳拟合直线 。

成对数据的统计分析 2025年高考数学基础专项复习

成对数据的统计分析 2025年高考数学基础专项复习
后,变量与变量的线性相关程度变强, 更进一步接近1,所以变小,故A错误,B
正确,D错误.故选ACD.
3.[人A选必三P101例1变式]某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,
通常把它的使用价值逐年减少的“量”换算成费用,称为失效费.该种机械设备的使用年限(单位:年)与失效费
较弱)

附: =
∑ − −
=1

∑ − 2
=1

∑ − 2
=1
, 2 ≈ 1.41.
1
【解析】 解法一 由题表知, = 5 × 2 + 4 + 5 + 6 + 8 = 5,
1
5
= × 3 + 4 + 5 + 6 + 7 = 5,
5
∑ − − = 2 − 5 × 3 − 5) + (4 − 5 × 4 − 5 + (5 − 5) × 5 − 5 + 6 − 5 × 6 − 5 + 8 − 5 × (7
3.[链接人A选必三P116知识]近年来,我国云计算市场规模持续增长.某科技公司云计算市场规模与年份代码
的关系可以用模型 = 10 拟合,设 = lg ,2018年至2022年的数据统计如表所示:
年份
年份代码
2018年
2019年
2020年
2021年
2022年
1
2
3
4
5
云计算市场规模
4.[苏教选必二P164例4变式]某公司为了预测下个月产品的销售情况,找出了近7个月的产品的销售量(单位:
万件)的统计表如下.
月份代码
销售量/万件

成对数据的统计分析-高考数学复习

成对数据的统计分析-高考数学复习

价值.
(3)| r |=1的充要条件是成对数据构成的点都在回归线上.
知识点三 一元线性回归模型
1. 一元线性回归模型
=++,
x 与 Y 的关系可以表示为൝
()=0,()= 2 .
我们称上式为 Y 关于 x 的一元线性回归模型.
Y
称为因变量或响应变量,
模型的未知参数, a 称为
bx + a 之间的
当 x =10时, ො =10.5×10+1.5=106.5.
关键能力 重点探究
考点一
例1
成对数据的相关性
两个变量的相关关系有①正相关,②负相关,③不相关,则
下列散点图从左到右分别反映的变量间的相关关系是(
A. ①②③
B. ②③①
C. ②①③
D. ①③②
D )
第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则
数为1.
考点二
经验回归方程的概念
(2024·河南郑州模拟)设( x 1, y 1),( x 2, y 2),···,( xn , yn )( n ≥2,
例3
x 1, x 2,···, xn 不全相同)是变量 x 和 y 的 n 个样本点,直线 l 是由这些
样本点通过最小二乘估计得到的经验回归直线(如图),以下结论正确的
且 r 2=-0.995 3.
(1)用相关系数说明哪种模型建立 y 与 x 的回归方程更合适.
[解]
(1)由题意知 r 2=-0.995 3,
观测数据,得到如下的散点图:
现根据散点图利用 y = a + b
程,令 s =

或 y = c + 建立 y 关于 x 的经验回归方

1
, t = 得到如下数据:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高考数学总复习专题讲解60 成对数据的统计分析[考点要求] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b^=∑ni =1(x i -x )(y i -y )∑n i =1(x i-x )2=∑ni =1x i y i -n x -y-∑ni =1x 2i -nx 2a^=y -b ^x . 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心.(3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论]1.回归直线必过样本点的中心(x ,y ).2.当两个变量的相关系数|r |=1时,两个变量呈函数关系.一、思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) [答案] (1)√ (2)√ (3)× (4)√ 二、教材改编1.在两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 A [R 2越接近于1,其拟合效果越好.] 2.下面是2×2列联表:A .94,72B .52,50C .52,74D .74,52 C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.5% [K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y (杯)与当天最高气温x (℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x +60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出热饮的杯数y ^=2×34+60=128杯.]考点1 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,则这组样本数据的样本相关系数为( )A .-3B .0C .-1D .1C [在一组样本数据的散点图中,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,所以b =-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.故选C.]4.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关指数为r 2,则|r 1|>|r 2|;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则|r 1|>|r 2|,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.考点2 回归分析线性回归分析求线性回归直线方程的步骤(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系; (2)利用公式b ^=∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i -n x y∑n i =1x 2i -nx 2, a ^=y -b ^x 求得回归系数; (3)写出回归直线方程.如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2021年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74,∑7i =1(y i -y ^i )2=94.参考公式:相关系数r =∑n i =1(t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好. [解] (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51. 将2021年对应的t =10代入得y ^=34×10+51=58.5, 所以预测2021年该企业污水净化量约为58.5吨.(3)因为R 2=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.[备选例题]某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x 2013 2014 2015 2016 2017 储蓄存款y (千亿元)56 7810表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^, 其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -nx2,a ^=y -b ^x )[解] (1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^=1.2t -1.4. (2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.故选C.]2.某产品的广告费用x 万元与销售额y 万元的统计数据如表:广告费用x (万元) 2 3 4 5 销售额y (万元)26m4954根据上表可得回归方程y ^=9x +10.5,则m 的值为( ) A .36 B .37 C .38 D .39D [由回归方程的性质,线性回归方程过样本点的中心,则26+m +49+544=2+3+4+54×9+10.5,解得m =39.故选D.]非线性回归方程 非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x yw∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i -y )∑8i =1(w i -w )·(y i -y )46.6563 6.8289.81.61 469108.8表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[备选例题]某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =c 1·2c 2x ,其中c 1,c 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑5i =1(k i -k )2∑5i =1(y i -y )∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )·(k i -k )2.31.23.14.621一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):年份 2013 2014 2015 2016 2017 年份代码x12345新能源汽车的年销量y /万辆1.55.917.732.955.6(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)c ^=∑i =1n(w i -w )(y i -y )∑i =1n(w i -w )2,d ^=y -c ^w .附:令w i =x 2i .y ∑5i =1(x i -x )2∑5i =1(w i -w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y )22.7210 374 135.2 851.2[解] (1)根据散点图得,y =c x 2+d 更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=∑i =15(w i -w -)⎝ ⎛⎭⎪⎫y i -y -∑i =15(w i -w -)2=851.2374≈2.28,则d ^=y --c ^w -=22.72-2.28×11=-2.36, ∴y ^=2.28x 2-2.36.令x =8,则y ^=2.28×64-2.36=143.56≈143.6, 故预测2020年我国新能源汽车的年销量为143.6万辆. 考点3 独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较观测值k 与临界值的大小关系,作统计推断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m第一种生产方式 第二种生产方式附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解](1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[备选例题](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg 旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )A BC DD[根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828[解](1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.。

相关文档
最新文档