2021版高考数学一轮复习第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版

合集下载

高三数学(文)一轮复习课件:变量间的相关关系、统计案例

高三数学(文)一轮复习课件:变量间的相关关系、统计案例
2/18/2020
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;

高考数学一轮复习 第十一章 统计与统计案例 第3讲 变量间的相关关系、统计案例教学案 理

高考数学一轮复习 第十一章 统计与统计案例 第3讲 变量间的相关关系、统计案例教学案 理

A.月收入的中位数是 15,x 与 y 有正线性相关关系
B.月收入的中位数是 17,x 与 y 有负线性相关关系
C.月收入的中位数是 16,x 与 y 有正线性相关关系
D.月收入的中位数是 16,x 与 y 有负线性相关关系
解析:选 C.月收入的中位数是15+2 17=16,收入增加,
支出增加,故 x 与 y 有正线性相关关系.
A.r2<r1<0
B.0<r2<r1
C.r2<0<r1
D.r2=r1
解析:选 C.对于变量 Y 与 X 而言,Y 随 X 的增大而增大,
故 Y 与 X 正相关,即 r1>0;对于变量 V 与 U 而言,V 随 U 的 增大而减小,故 V 与 U 负相关,即 r2<0,故选 C.
判断相关关系的 2 种方法
附:线性回归直线的斜率和截距的最小二乘估计公式分
n

(xi--x )(yi--y )
i=1
别为 b=
n

(xi--x )2
,a=-y -b-x
i=1
【解】 (1)依题意得,m,n 的所有情况有{23,25},
{23,30},{23,26},{23,16},{25,30},{25,26},{25,
16},{30,26},{30,16},{26,16},共 10 个.
A.94,72
B.52,50
C.52,74
D.74,52
解析:选 C.因为 a+21=73,所以 a=52.又 a+22=b,
所以 b=74.
3.某研究机构对高三学生的记忆力 x 和判断力 y 进行
统计分析,所得数据如表:
x 6 8 10 12 y23 5 6

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1

2021届高考数学一轮复习第十一章统计与统计案例算法课时跟踪训练58变量间的相关关系统计案例文202

2021届高考数学一轮复习第十一章统计与统计案例算法课时跟踪训练58变量间的相关关系统计案例文202

2021届高考数学一轮复习第十一章统计与统计案例算法课时跟踪训练58变量间的相关关系统计案例文20210724352[基础巩固]一、选择题1.如图是一容量为100的样本质量的频率分布直方图,样本质量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本质量落在[15,20]内的频数为( )A.10 B.20C.30 D.40[解析]由题意得组距为5,故样本质量在[5,10),[10,15)内的频率分别为0.3和0.5,因此样本质量在[15,20]内的频率为1-0.3-0.5=0.2,频数为100×0.2=20,故选B.[答案] B2.(2020·重庆卷)重庆市2020年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是( )A.19 B.20 C.21.5 D.23[解析] 由茎叶图知,该组数据的中位数为20+202=20,故选B.[答案] B3.(2021·全国卷Ⅲ)某旅行都市为向游客介绍本地的气温情形,绘制了一年中各月平均最高气温顺平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15℃,B 点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )A .各月的平均最低气温都在0℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温差不多相同D .平均最高气温高于20℃的月份有5个[解析] 由图可知平均最高气温高于20℃的月份为六月、七月和八月,有3个,因此选项D 不正确.故选D.[答案] D4.(2020·安徽卷)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32[解析] 令y i =2x i -1(i =1,2,3,…,10),则σ(y )=2σ(x )=16. [答案] C5.(2021·温州八校联考)如图所示是一容量为100的样本的频率分布直方图,则由图形中的数据,可知其中位数为( )A .12.5B .13C .13.5D .14[解析] 中位数是把频率分布直方图分成两个面积相等部分的平行于纵轴的直线横坐标,第一个矩形的面积是0.2,第二个矩形的面积是0.5,第三个矩形的面积是0.3,故将第二个矩形分成3∶2即可,∴中位数是13.[答案] B6.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则7个剩余分数的方差为( ) A.1169 B.367 C .36 D.677[解析] 由题意知87+94+90+91+90+90+x +917=91,解得x =4.因此s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=17(16+9+1+0+1+9+0)=367.[答案] B 二、填空题7.依照某市环境爱护局公布2010~2020这六年每年的空气质量优良的天数,绘制折线图如图.依照图中信息可知,这六年每年的空气质量优良天数的中位数是________.[解析] 由折线图可知空气质量优良天数从小到大排列为290,300,310,320,320,340,故其中位数为310+3202=315.[答案] 3158.2021年端午节期间,为确保交通安全,某市交警大队调取市区某路口监控设备记录的18:00~20:00该路口220辆汽车通过的速度,其频率分布直方图如图所示,其中a ,c 的等差中项为b ,且a ,b 的等差中项为0.010.已知该路口限速90 km/h ,则这些车辆中超速行驶的约有__________辆.[解析] 由题意得,⎩⎪⎨⎪⎧a +c =2b ,a +b =2×0.010,a +2b +c =0.1-0.010+0.030,解得⎩⎪⎨⎪⎧a =0.005,b =0.015,c =0.025.因此汽车行驶速度超过90 km/h 的频率为10a =0.05,故汽车行驶速度超过90 km/h 的大约有220×0.05=11(辆).[答案] 119.已知总体的各个个体的值由小到大依次为3,7,a ,b,17,20,且总体的中位数为12,若要使该总体的标准差最小,则a =________.[解析] 总体的中位数为a +b2=12,即a +b =24,数据是从小到大排列的,7≤a ≤b ≤17,又总体的标准差最小,∴a =b =12.[答案] 12 三、解答题10.(2020·广东卷)某都市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?[解] (1)由(0.002+0.0095+0.011+0.0125+x +0.005+0.0025)×20=1得x =0.0075,∴直方图中x 的值为0.0075.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.0095+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.0095+0.011)×20+0.0125×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.0125×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300]的用户分别为15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×15=5(户).[能力提升]11.甲、乙两人在一次射击竞赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差[解析] 由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.因此甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错误;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错. [答案] C12.某参赛队预备在甲、乙两名球员中选一人参加竞赛.如图所示的茎叶图记录了一段时刻内甲、乙两人训练过程中的成绩,若甲、乙两名球员的平均成绩分别是x 1、x 2,则下列结论正确的是( )A.x 1>x 2,选甲参加更合适 B .x 1>x 2,选乙参加更合适 C .x 1=x 2,选甲参加更合适 D .x 1=x 2,选乙参加更合适[解析] 依照茎叶图可得甲、乙两人的平均成绩分别为x 1≈31.67,x 2≈24.17,从茎叶图来看,甲的成绩比较集中,而乙的成绩比较分散,因此甲发挥得更稳固,选甲参加竞赛更合适,故选A.[答案] A13.(2021·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w 立方米的部分按10元/立方米收费,从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)假如w为整数,那么依照此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估量该市居民该月的人均水费.[解](1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15,因此该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).14.2017年8月22日金乡县首届“诚信文艺奖”评选暨2021“百姓大舞台”第一季大型才艺大赛决赛在红星美凯龙举行.在竞赛现场,12名专业人士和12名观众代表分别组成评判小组A,B,给参赛选手打分,如图是两个评判组对同一选手打分的茎叶图:(1)求A 组数据的众数和极差,B 组数据的中位数;(2)对每一组运算用于衡量相似性的数值,回答:小组A 与小组B 哪一个更像是由专业人士组成的?并说明理由.[解] (1)由茎叶图可得:A 组数据的众数为47,极差为55-42=13;B 组数据的中位数为55+582=56.5. (2)小组A 更像是由专业人士组成的.理由如下: 小组A ,B 数据的平均数分别为x A =112×(42+42+44+45+46+47+47+47+49+50+50+55)=56412=47, x B =112×(36+42+46+47+49+55+58+62+66+68+70+73)=67212=56, 因此小组A ,B 数据的方差分别为s 2A =112×[(42-47)2+(42-47)2+…+(55-47)2]=112×(25+25+9+4+1+4+9+9+64)=12.5,s 2B =112×[(36-56)2+(42-56)2+…+(73-56)2]=112×(400+196+100+81+49+1+4+36+100+144+196+289)=133.因为s 2A <s 2B ,因此小组A 的成员的相似程度高.由于专业裁判给分更符合专业规则,相似程度应该更高,因此小组A 更像是由专业人士组成的.。

【创新方案】2021届高考数学一轮复习 10.3变量间的相关关系与统计案例讲解与练习 理 新人教A版

【创新方案】2021届高考数学一轮复习 10.3变量间的相关关系与统计案例讲解与练习 理 新人教A版

第三节变量间的相关关系与统计案例[备考方向要明了]考什么怎么考1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用. 高考对本节内容的考查主要是线性回归分析和独立性检验的统计分析方法,三种题型都有可能出现,难度中档,如2012年湖南T4,辽宁T19等.[归纳·知识整合]1.两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.[探究] 相关关系和函数关系有何异同点?提示:(1)相同点:两者均是指两个变量的关系.(2)不同点:①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n x i -x -y i -y-∑i =1n x i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y-2, R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +dK 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.[自测·牛刀小试]1.下列结论正确的是( ) ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④D .①②③④解析:选C 由回归分析的方法及概念判断.2.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y =0.95x +a ,则a =( )A.3.25 C .2.2D .0解析:选B x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.3.工人月工资y (元)关于劳动生产率x (千元)的回归方程为y =650+80x ,下列说法中正确的个数是( )①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元; ④当月工资为810元时,劳动生产率约为2 000元. A .1 B .2 C .3D .4解析:选C 将数据代入方程计算可判断①②④正确.4.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为y ^=7.19x +73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下解析:选C 用回归模型y ^=7.19x +73.93,只能作预测,其结果不一定是一个确定值.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确解析:选C 根据独立性检验的思想知.相关关系的判断[例1] 在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)143156159172165体重(kg)4149617968身高(cm)171177161164160体重(kg)6974696854根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.[自主解答] 以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示.由散点图可知,两者之间具有相关关系,且为正相关.———————————————————利用散点图判断相关关系的技巧(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量间的关系,即变量之间具有函数关系.(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.线性回归方程及其应用[例2] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. ———————————————————求回归直线方程时的注意点求回归方程,关键在于正确求出系数a ,b ,由于计算量较大,所以计算时要仔细谨慎,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的回归方程才有意义.2.某种产品的广告费支出x 与销售额(单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070如果y 与x 之间具有线性相关关系. (1)作出这些数据的散点图; (2)求这些数据的线性回归方程;(3)预测当广告费支出为9百万元时的销售额. 解:(1)(2)x =5,y =50,∑i =15x i y i =1 390,∑i =15x 2i =145,b ^=∑i =15x i y i -5x·y∑i =15x 2i -5x -2=7, a ^=y --b ^x -=15,∴线性回归方程为y ^=7x +15. (3)当x =9时,y ^=78.即当广告费支出为9百万元时,销售额为78百万元.独立性检验的基本思想及其应用[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 合计 甲班 10乙班 30合计110(1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”; 参考公式与临界值表:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828[自主解答] (1)列联表如下:优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K 2=110×10×30-20×50260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”. ———————————————————独立性检验的步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值.(3)比较K 2与临界值的大小关系作统计推断.3.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视,某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图(1)和图(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩(注:统计方法中,同一组数据常用该组区间的中点值作为代表);(2)完成下面2×2列联表,并回答是否有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”?成绩小于60分人数成绩不小于60分人数合计 七年级 八年级 合计附:K 2=n ad -bc 2a +bc +d a +c b +d.临界值表: P (K 2≥k )0.10 0.05 0.010 k2.7063.8416.635解:(1)七年级学生竞赛平均成绩为(45×30+55×40+65×20+75×10)÷100=56, 八年级学生竞赛平均成绩为(45×15+55×35+65×35+75×15)÷100=60. (2)2×2列联表如下:成绩小于60分人数成绩不小于60分人数合计 七年级 70 30 100 八年级 50 50 100 合计12080200∴K 2=200×50×70-50×302100×100×120×80≈8.333>6.635.∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.1种求法——相关关系的判定和线性回归方程的求法(1)函数关系一种理想的关系模型,而相关关系是一种更为一般的情况.(2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也是不可信的.(3)回归直线方程只适用于我们所研究的样本的总体.样本的取值范围一般不超过回归直线方程的适用范围,否则就没有实用价值.1个难点——独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X和Y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没关系,也就是它们是相互独立的,利用概率的乘法公式可推知,(ad-bc)接近于零,也就是随机变量K2=n ad-bc2应该很小,如果计算出的K2的观测值k不是很小,通a+b c+d a+c b+d过查表P(K2≥k0)的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与Y之间有关系.答题模板——概率与统计的综合问题[典例] (2012辽宁高考改编·满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k )0.050.01 k3.8416.635[快速规范审题]第(1)问1.审条件,挖解题信息观察条件:100名观众收看节目时间的频率分布直方图及日均收看时间不低于40分钟的观众称为体育迷,女体育迷10名―――――――→借助直方图可确定非体育迷及体育迷人数 2.审结论,明确解题方向观察所求结论:完成2×2列联表并判断“体育迷”与性别的相关性――――→需要确定a ,b ,c ,d 及K 2的值3.建联系,找解题突破口由直方图及条件确定体育迷与非体育迷人数―→完成列联表―→计算K 2可判断结论 第(2)问1.审条件,挖解题信息观察条件:―→确定“超级体育迷”标准且有2名女性“超级体育迷”―――――――→由频率分布直方图 确定“超级体育迷”的人数 2.审结论,明确解题方向观察结论:―→从“超级体育迷”中任取2人求至少有1名女性观众的概率―――――→分类分析1名女性观众或两名女性观众3.建联系,找解题突破口由频率分布直方图确定“超级体育迷”的人数―――――――→列举法列举出 所有基本事件并计数为n 和至少有1名女性的基本事件,计数为m mP n=−−−−→代入求概率 [准确规范答题](1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100 ⇨(3分)将2×2列联表中的数据代入公式计算,得K2=100×30×10-45×152 75×25×45×55=10033≈3.030.因为3.030<3.841,所以我们没有95%的把握认为“体育迷”与性别有关.⇨(6分)(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中a i表示男性,i=1,2,3,b j表示女性,j=1,2.⇨(9分)由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A为(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),⇨(11分)由7个基本事件组成,因而P(A)=710.⇨(12分)[答题模板速成] 解决概率与统计的综合问题的一般步骤:第一步⇒第二步⇒第三步⇒第四步⇒第五步⇒第六步忽视直方图纵轴表示为−−−→频率组距导致每组人数计算失误.K2的计算不准确、导致结果判断出错.1.“超级体育迷”人数计算错误导致失误.2.由5人中任取2人列举出所有可能结果时重复或遗漏某一情况导致失误.理清题意,理解问题中的条件和结论.尤其是直方图中给定的信息,找关键量 由直方图确定所需的数据,列出2×2列联表利用独立性检验的步骤进行判断确定基本事件总数及所求事件所含基本事件的个数利用概率公式求事件的概率反思回顾、检查关键点易错点及答题规范一、选择题(本大题共6小题,每小题5分,共30分) 1.下列关系中,是相关关系的为( ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①② B .①③ C .②③D .②④解析:选A ①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.2.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程为( )A.y ^=1.23x +4 B.y ^=1.23x +5 C.y ^=1.23x +0.08D.y ^=0.08x +1.23解析:选C 因回归直线方程必过样本点的中心(x ,y ),将点(4,5)代入A 、B 、C 检验可知.4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+12xD .y =176 解析:选C 设y 对x 的线性回归方程为y =bx +a ,因为b =-2×-1+0×-1+0×0+0×1+2×1-22+22=12, a =176-12×176=88,所以y 对x 的线性回归方程为y =12x +88.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58 总计8880168A .99%B .97.5%C .95%D .90%解析:选A 可计算K 2≈11.377>6.635.6.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线203050总计60 50 110由K 2=n ad -bc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:选A ∵K 2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.二、填空题(本大题共3小题,每小题5分,共15分)7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3, i =15(x i -x )(y i -y )=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,∑i =15(x i-x )2=(-2)2+(-1)2+02+12+22=10,于是b ^=0.01,a ^=y -b ^x =0.47,故y ^=0.01x+0.47,令x =6,得y ^=0.53.答案:0.5 0.539.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%三、解答题(本大题共3小题,每小题12分,共36分) 10.已知x ,y 的一组数据如下表:x 1 3 6 7 8 y12345(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925.(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭⎪⎫43-12+(2-2)2+(3-3)2+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2+⎝ ⎛⎭⎪⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理949110896104101106(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ^=b ^x +a ^,b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a ^=y --b ^x -)解:(1)∵x -=100+-12-17+17-8+8+127=100,y -=100+-6-9+8-4+4+1+67=100,∴s 2数学=9947=142.∴s 2物理=2507,∵s 2数学>s 2物理,∴该生的物理成绩更稳定. (2)由于x 与y 之间具有线性相关关系,∴b ^=i =17x i y i -7x - y-i =17x 2i -7x -2=497994=0.5, a ^=y --b ^x -=100-0.5×100=50.∴线性回归方程为y ^=0.5x +50.当y =115时,x =130. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.优秀 非优秀 总计 甲班 10乙班 30合计105已知从全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.附:K 2=n ad -bc 2a +bc +d a +cb +d,P (K 2≥k )0.05 0.01 k3.8416.635解:(1)优秀 非优秀 总计 甲班 10 45 55 乙班 20 30 50 合计3075105(2)根据列联表中的数据,得到 K 2=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.1.观察下列各图形:其中两个变量x、y具有相关关系的图是( )A.①②B.①④C.③④D.②③解析:选C 相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①②是不相关的,而③④是相关的.2.考察黄烟经过培养液处理是否跟发生青花病有关系.调查了457株黄烟,得到下表中数据:培养液处理未处理合计青花病25210235无青花病80142222合计105352457根据表中数据可知K2=( )A.40.682 B.31.64C.45.331 D.41.61解析:选D 代入K2公式得K2≈41.61.3.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号1234 5工作年限x/年35679推销金额y/万元2334 5(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.解:(1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y ^=b ^x +a ^.则b ^=∑i =15x i -xy i -y-∑i =15x i -x2=1020=0.5,a ^=y -b ^x -=0.4, ∴年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(3)由(2)可知,当x =11时, y ^=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.4.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:杂质高 杂质低 旧设备 37 121 新设备22202根据以上数据试判断含杂质的高低与设备改造有无关系? 解:由已知数据得到如下2×2列联表:杂质高 杂质低 合计 旧设备 37 121 158 新设备 22 202 224 合计59323382由公式K 2=382×37×202-121×222158×224×59×323≈13.11,由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备改造是有关的.附:什么样的考试心态最好大部分学生都不敢掉以轻心,因此会出现很多过度焦虑。

2021届高三数学文一轮总复习课件:第11章 第3节 变量间的相关关系、统计案例

2021届高三数学文一轮总复习课件:第11章 第3节 变量间的相关关系、统计案例

(3)相关系数 当 r>0 时,表明两个变量 12 _正__相__关____; 当 r<0 时,表明两个变量 13 _负__相__关____. r 的绝对值越接近于 1,表明两个变量的线性相关性 14 __越__强_____. r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于 15 __0_._7_5____时,认为两个变量有很强的线性相关性.
yn),其回归方程为 8 ____^y= ___b^_x+__a_^__,则
,
a^= y -b^ x .其中,b^是回归方程的 9 __斜__率_____,a^是在 y 轴上的截距. 回归直线一定过样本点的中心( x , y ).
3.回归分析 (1)定义:对具有 10 ___相__关__关__系____的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn, yn),其中 11 __(_x_,___y_)_____称为样本点的中心.
(3)如果散点图中点的分布从整体上看大致在 6 _一__条__直__线__附近,则称两个变量具有线 性相关关系.
2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的 7 ___距__离__的__平__方__和____最小的方法叫 做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
空题中也会出现.
1
课 前 ·基 础 巩 固
‖知识梳理‖ 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性 的常用统计图是: 1 _散__点__图____;统计量有相关系数与相关指数. (1)在散点图中,点散布在从 2 __左__下__角___到 3 _右__上__角____的区域,对于两个变量的这 种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从 4 _左__上__角____到 5 _右__下__角____的区域,两个变量的这种相 关关系称为负相关.

人教版高三数学一轮复习精品课件3:11.3 变量间的相关关系、统计案例

人教版高三数学一轮复习精品课件3:11.3 变量间的相关关系、统计案例

【规范解答】(1)因为P(K2≥3.841)=0.05,4.844>3.841, 所以判断出错的可能性不超过5%. 答案:不超过5% (2)①将2×2列联表中的数据代入计算公式, 得K2= 100(6010-2010)2 100 4.762,
70 3080 20 21
由于4.762>3.841,所以在犯错误的概率不超过5%的前提下认为“南方 学生和北方学生在选用甜品的饮食习惯方面有差异”.
【规范解答】(1)选A.因为 b =2>0,所以变量x,y呈线性正相关关系.
(2)选D.在验证两个变量之间的线性相关关系时,相关系数的绝对值越 接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方 和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果 体现了A,B两变量有更强的线性相关性,故选D.
考点2 独立性检验 【典例2】(1)某高校“统计初步”课程的教师随机调查了选该课程的 一些学生的情况,具体数据如表:
性别
专业
男 女
非统计专业
13 7
统计专业
10 20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
50 (13 20 10 7)2
K2= 23 27 20 30 ≈4.844. 因为K2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出
②K2统计量:
K2=
a
n ad bc2 bc da c(b
d)
(其中n=a+b+c+d为样本容量).
2. (1)从散点图看相关性: 正相关:样本点分布在从_左__下__角__到__右__上__角__的区域内; 负相关:样本点分布在从_左__上__角__到__右__下__角__的区域内.

人教版高三数学一轮复习精品课件2:11.3 变量间的相关关系、统计案例

人教版高三数学一轮复习精品课件2:11.3 变量间的相关关系、统计案例

x1 x2 总计
y1 a C a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
构造一个随机变量 K2=a+ban+adc-bb+cd2 c+d,其中 n =a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为 独立性检验. (4)独立性检验的步骤 ①计算随机变量K2的观测值k,查表确定临界值k0:
②回归方程:方程 y=bx+a 是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 a,b 是待定数.
n
n
i=1 xi- x yi- y i=1xiyi-n x y
b= n
=n

i=1 xi- x 2
i=1x2i -n x 2
a= y -b x .
③相关系数
a.r=
n
xi- x yi- y
i=1
n
n

xi- x 2 yi- y 2
i=1
i=1
b.当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r
的绝对值越接近于 0,表明两个变量之间相关性越弱.通常|r|
大于 0.75 时,认为两个变量有很强的线性相关性.
[典例透析]
考向一 相关关系的判断 例1 下面是水稻产量与施化肥量的一组观测数据: 施化肥量:15 20 25 30 35 40 45 水稻产量:320 330 360 410 460 470 480 (1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么关系 吗?水稻产量会一直随施化肥量的增加而增长吗?
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3讲变量间的相关关系、统计案例一、知识梳理1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线来拟合.(2)非线性相关若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条曲线来拟合.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘法(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2,使得上式达到最小值的直线y=a+bx即为所求直线,这种方法称为最小二乘法.(2)线性回归方程线性回归方程为y=bx+a,其中b=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2=∑ni=1x i y i-n x-·y-∑ni=1x2i-n x-2,a=y--b x-.3.相关系数r(1)r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x-2∑i =1ny 2i -n y -2.(2)当r >0时,称两个变量正相关. 当r <0时,称两个变量负相关. 当r =0时,称两个变量线性不相关.r 的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r 的绝对值越接近0,表明两个变量之间的线性相关程度越低.4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1,通过观察得到下表所示数据:则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),用它的大小来检验变量之间是否独立.①当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A ,B 有关联; ③当χ2>3.841时,有95%的把握判定变量A ,B 有关联; ④当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 常用结论1.求解线性回归方程的关键是确定回归系数a ,b ,应充分利用线性回归直线过样本中心点(x -,y -).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据线性回归方程计算的y 值,仅是一个预报值,不是真实发生的值. 二、教材衍化1.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率解析:选C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.下面是2×2列联表:y 1 y 2合计 x 1 a21 73 x 22225 47 合计b46120则表中a ,b 的值分别为A .94,72 B .52,50 C .52,74D .74,52解析:选C.因为a +21=73,所以a =52.又a +22=b ,所以b =74.3.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如表:x 6 8 10 12 y2356则y 对x A .y =2.3x -0.7 B .y =2.3x +0.7 C .y =0.7x -2.3D .y =0.7x +2.3解析:选C.因为 i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y=2+3+5+64=4.所以b =158-4×9×436+64+100+144-4×81=0.7,a =4-0.7×9=-2.3.故线性回归直线方程为y =0.7x -2.3.故选C.一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.( )(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.( )答案:(1)×(2)√(3)√(4)√(5)√二、易错纠偏常见误区|K(1)混淆相关关系与函数关系;(2)对独立性检验χ2值的意义不清楚;(3)不知道线性回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③B.②③①C.②①③D.①③②解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”解析:选C.由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.故选C.3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.零件数x/个1020304050加工时间y/min62○758189解析:设表中那个模糊看不清的数据为m .由表中数据得x =30,y =m +3075,所以样本点的中心为⎝⎛⎭⎪⎫30,m +3075,因为样本点的中心在线性回归直线上,所以m +3075=0.67×30+54.9,解得m =68.答案:68相关关系的判断(自主练透)1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.某公司在2019年上半年的月收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:月份 1月份 2月份 3月份 4月份 5月份 6月份 收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出y5.635.755.825.896.116.18A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1解析:选C.对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强.回归分析(多维探究)角度一线性回归方程及其应用(2020·福建福州模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:日期2日7日15日22日30日温度x/℃101113128产卵数y/个2325302616(1)从这m,n均不小于25”的概率;(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(i)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;(ii)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(i)中所得的线性回归方程是否可靠?附:线性回归直线的斜率和截距的最小二乘估计公式分别为b=∑ni=1(x i-x-)(y i -y-)∑ni=1(x i-x-)2,a=y--b x-【解】(1)依题意得,m,n的所有情况有{23,25},{23,30},{23,26},{23,16},{25,30},{25,26},{25,16},{30,26},{30,16},{26,16},共10个.设“m,n均不小于25”为事件A,则事件A包含的基本事件有{25,30},{25,26},{30,26},共3个.所以P(A)=310,即事件A的概率为310.(2)(i)由数据得x=12,y=27,∑i=13(x i-x)(y i-y)=5,∑i=13(x i-x)2=2,a=y--b x-=27-52×12=-3,所以y关于x的线性回归方程为y=52x-3.(ii)由(i)知,y关于x的线性回归方程为y=52x-3,当x=10时,y=52×10-3=22,且|22-23|<2,当x=8时,y=52×8-3=17,且|17-16|<2.所以所得到的线性回归方程y^=52x-3是可靠的.角度二相关系数及其应用某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系.(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x)(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y)2,参考数据:0.3≈0.55,0.9≈0.95.【解】 (1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x)2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y)2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x)(y i -y )∑i =15(x i -x)2∑i =15(y i -y)2=625×2=910≈0.95.因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b ,a ;②待定系数法:利用线性回归直线过样本点的中心求系数.(2)利用线性回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2020·江西南昌模拟)统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据:(1)①求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数); ②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y关于x的线性回归方程y=bx+a(a,b保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式: y≈115,b a=y-bx.解:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得b≈1.16,a=y-b x=104.56,所以线性回归方程为y=1.16x+104.56.当x=18时,y=125.4,故该地区2018年6月的消费者信心指数约为125.4.独立性检验(师生共研)(2020·河南名校联盟高三“尖子生”调研(二))为了调查一款电视机的使用寿命(单位:年),研究人员对该款电视机进行了相应的调查,得到的数据如下图所示.并对不同年龄层的市民对这款电视机的购买意愿作出调查,得到的数据如下表所示.愿意购买该款电视机不愿意购买该款电视机合计40岁及以上800 1 00040岁以下600合计 1 200(1)(2)根据表中数据判断,是否有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关;(3)若按照电视机的使用寿命进行分层抽样,从使用寿命在[0,4)和[4,20]内的电视机中抽取5台,再从这5台中随机抽取2台进行配件检测,求被抽取的2台电视机的使用寿命都在[4,20]内的概率.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .P (χ2≥k )0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k1.3232.0722.7063.8415.0246.6357.87910.828【解】 (1)依题意,平均使用寿命为2×0.2+6×0.36+10×0.28+14×0.12+18×0.04=7.76(年).(2)依题意,完善表格如下表所示,愿意购买该款电视机 不愿意购买该款电视机 合计 40岁及以上 800 200 1 000 40岁以下 400 600 1 000 合计1 2008002 000故χ2=2 000×(800×600-200×400)21 000×1 000×1 200×800≈333.333>10.828.故有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关. (3)依题意知,抽取的5台电视机中使用寿命在[0,4)内的有1台,使用寿命在[4,20]内的有4台,则从5台电视机中随机抽取2台,所有的情况有C 25=10(种),其中满足条件的有C 24=6(种),故所求概率P =610=35.(1)独立性检验的一般步骤 ①根据样本数据制成2×2列联表;②根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较χ2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(χ2≥k)0.0500.0100.001k 3.841 6.63510.828解:(1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5第二种生产方式515(3)由于χ2=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.化非线性回归分析为线性回归分析某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中u i=1x i,u=18i=18u i.(1)根据散点图判断:y=a+bx与y=c+dx哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其线性回归直线υ=α+βω的斜率和截距的最小二乘估计分别为β,α=υ-βω.【解】 (1)由散点图判断,y =c +d x更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的线性回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d所以c =y -d ·u =3.63-8.96×0.269≈1.22, 所以y 关于u 的线性回归方程为y =1.22+8.96u , 所以y 关于x 的线性回归方程为y =1.22+8.96x.(3)假设印刷x 千册,依题意得10x -(1.22+8.96x)x ≥78.840,所以x ≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.某市一中学课外活动小组为了研究经济走势,对该市1996~2018年的GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.其中z i =ln y i ,w i =ln x i .e6.42≈614.003,e6.63≈757.482,e6.84≈934.489,ln 24≈3.18,ln 25≈3.22,ln 26≈3.26.(1)根据散点图判断,y =a +bx ,y =ec +dx与y =m +n ln x 哪一个适合作为该市GDP 值y关于年份代码x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的线性回归方程; (3)试预测该市2020年的GDP 值.解:(1)由散点图可以判断,y =e c +dx适宜作为该市GDP 值y 关于年份代码x 的回归方程类型.(2)令z =ln y ,则z =c +dx ,由参考数据得,所以z 关于x 的线性回归方程为z =1.38+0.21x , 所以y 关于x 的线性回归方程为y =e 1.38+0.21x.(3)由(2)可知,当x =25时,y =e1.38+0.21×25=e 6.63≈757.482.所以预测2020年该市GDP 值约为757.482亿元.[基础题组练]1.根据如下样本数据:x 3 4 5 6 7 8 y4.02.50.50.50.40.1A.a >0,b >0 B .a >0,b <0 C.a <0,b >0D .a <0,b <0解析:选B.根据给出的数据可发现:整体上y 与x 呈现负相关,所以b <0,由样本点(3,4.0)及(4,2.5)可知a >0,故选B.2.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.3.(2020·山东德州模拟)已知某产品连续4个月的广告费x i (千元)与销售额y i (万元)(i=1,2,3,4)满足∑i =14x i =15, ∑i =14y i =12.若广告费用x 和销售额y 之间具有线性相关关系,且回归直线方程为y =bx +a ,b =0.6,当广告费用为5千元时,可预测销售额为( ),A.3万元B.3.15万元C.3.5万元D.3.75万元,解析:选D.由已知∑4i =1x i =15,∑4i =1y i =12,得x =154=3.75,y =124=3,所以3=3.75×0.6+a ,解得a =0.75.所以回归直线方程为y =0.6x +0.75.则当x =5时,y =3.75万元.故选D.4.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )A .111B .117C .118D .123解析:选B.因为x =53,y =103.5,所以a =y -b ^x =103.5-1.35×53=31.95,所以回归直线方程为y =1.35x +31.95.当x =63时,代入解得y =117,故选B.5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由χ2=(a +b )(c +d )(a +c )(b +d ),得χ2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C.因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y =0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为________.解析:因为y 与x 具有线性相关关系,满足回归方程y =0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.答案:84%7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为________.解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:18.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.解析:令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 答案:579.(2020·云南昆明诊断)某公司准备派出选手代表公司参加某职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间t (单位:秒)及挑战失败(用“×”表示)的情况如表1:序号x 123456789 10 11 12 13 14 15t 甲 × 96 93 × 92 × 90 86 × × 83 80 78 77 75 t 乙× 95 × 93 × 92 × 88 83 × 82 80 80 74 73均值(单位:秒)方差线性回归方程甲8550.2t甲=-1.59x+99.31乙8454t乙=-1.73x+100.26(1)(2)若该公司只有一个参赛名额,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.解:(1)当x=16时,t甲=-1.59×16+99.31=73.87(秒),t乙=-1.73×16+100.26=72.58(秒).(2)甲、乙两位选手完成关键技能挑战成功的次数都为10次,失败次数都为5次,所以,只需要比较他们完成关键技能挑战成功的情况即可,根据所给信息,结合(1)中预测结果,综合分析,选手乙代表公司参加技能挑战赛更合适,理由如下:因为在相同次数的挑战练习中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,x甲>x乙,乙选手用时更短;由于S2甲<S2乙,虽然甲选手的发挥更稳定,但稳定在较大的平均数上,随着训练次数增加,甲、乙用时都在逐步减少,乙的方差大,说明乙进步更大;从(1)的计算结果t乙<t甲,进一步说明选手乙代表公司参加技能挑战赛更合适.10.(2020·辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品,图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表:图1:设备改造前的样本的频率分布直方图表1:设备改造后的样本的频数分布表量指标值与设备改造有关.(2)根据图1较.附χ2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)根据题意填写2×2列联表χ2=364×36×200×200≈12.210>6.635,所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关. (2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为172200=4350,设备改造后产品为合格品的概率为192200=2425>4350,显然设备改造后产品合格率更高,因此设备改造后性能更优.[综合题组练]1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:。

相关文档
最新文档