变量的相关关系与统计案例
第十章第二节变量的相关性与统计案例

第二节变量的相关性与统计案例[考纲要求]1会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3•了解回归分析的思想、方法及其简单应用.4•了解独立性检验的思想、方法及其初步应用.突破点一回归分析抓牢双基•自学回扣[基本知识]1. 变量间的相关关系(1) 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2) 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相垒点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. __________[基本能力]、判断题(对的打,错的打“X” )(1) 相关关系与函数关系都是一种确定性的关系,也是一种因果关系. ()(2) “名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ()(3) 只有两个变量有相关关系,所得到的回归模型才有预测价值. ()答案:⑴X (2)V (3) V二、填空题1•已知x, y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y = 0.95x + a,则 a = _______ .答案:2.62•两个变量y与x的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r的值如下表,其中拟合效果最好的模型是 ____________ .答案:模型1A A 103•已知变量x, y之间具有线性相关关系,其回归方程为y =- 3 + bx,若无X i= 17 ,i = 110 AZ yi= 4,则b的值为_________ .i= 1答案:2研透高考廉化提能[全析考法]考法一相关关系的判断•[例1](1)(20佃福建泉州月考)在下列各图中,两个变量具有相关关系的图是()°* * • » »\ I**:心* X②③A .①②B .①③C .②③D .②④(2)(2019昆明一中一模)若对于变量x的取值为3,4,5,6,7 时,变量y对应的值依次分别为4.0,2.5,—0.5,- 1,- 2;若对于变量u的取值为1,2,3,4时,变量v对应的值依次分别为2,3,4,6,则变量x和y,变量u和v的相关关系是()x 和y 是负相关,变量[解析]⑴①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性.(2)变量x 增加,变量y 减少,所以变量 x 和y 是负相关;变量 u 增加,变量v 增加, 所以变量u 和v 是正相关,故选 D.[答案]⑴C (2)D [方法技巧]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关 系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.⑵相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.考法二 线性回归分析 •[例2] (2018全国卷n )下图是某地区2000年至2016年环境基础设施投资额 y(单位: 亿元)的折线图.为了预测该地区 2018年的环境基础设施投资额,建立了 y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y=-30.4 + 13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模 型②:y = 99+ 17.5t.(1) 分别利用这两个模型,求该地区 2018年的环境基础设施投资额的预测值; (2) 你认为用哪个模型得到的预测值更可靠?并说明理由.[解](1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y =- 30.4A.变量 B .变量 x 和y 是正相关,变量 x 和y 是正相关,变量 u 和v 是正相关 u 和v 是负相关 C .变量 x 和y 是负相关,变量 u 和v 是负相关u 和v 是正相关 D .变量+ 13.5X 19= 226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y= 99 + 17.5X 9 = 256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+ 13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010 年相对2009 年的环境基础设施投资额有明显增加,2010 年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y y= 99+ 17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii )从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)[方法技巧]1. 回归直线方程中系数的2种求法(1) 公式法:利用公式,求出回归系数y b,a y.(2) 待定系数法:利用回归直线过样本点中心(-x,-y )求系数.2. 回归分析的2 种策略(1) 利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(2) 利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数y b.[集训冲关]1. [考法一]四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且?= 2.347x- 6.423;②y与x负相关且?=— 3.476x + 5.648;③y与x正相关且?= 5.437X+ 8.493;④y 与x 正相关且y y=- 4.326x- 4.578.其中一定不正确的结论的序号是( )A. ①②B. ②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是 y 随x 的增大而减小, 故不正确的为①④. 2.[考法二]二手车经销商小王对其所经营的 A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据使用年数x 2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z = In y3.002.482.081.861.481.10z 关于x 的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆 A 型号二手车当使用年数为 9年时售价约为多少.(b ,a 小数点后保留两位有效数字)参考公式:n _ iXi — x 如一y ' xy j — nx yi = 1“- i = 1A —— A ——------------ ,a = y — bx , n -2 — 2 xx i — nxi =1n— 1解:(1)由题意,知 x =-X (2 + 3 + 4+ 5+ 6 + 7) = 4.5,6z = * (3 + 2.48 + 2.08 + 1.86 + 1.48 + 1.10) = 2, 647.64 — 6 X 4.5 X 2…r =4.18X 1.53••• z 与x 的相关系数大约为—0.99,说明z 与x 的线性相关程度很高. A 47.64 — 6X 4.5 X 2 (2)b= 139— 6X 4.52•- a = z — b x = 2+ 0.36 X 4.5= 3.62, • z 与x 的线性回归方程是 z=— 0.36x + 3.62, 又z = lny ,「. y 关于x 的回归方程是,=e— 0.36x +3.620.36X 9+ 3.620.38令 x = 9,得 y = e = e ,•/ In 1.46〜0.38,「. y = 1.46, 即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.突破点二 独立性检验抓牢双基•自学回扣[基本知识]1. 分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2. 列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{X 1, X 2}和{y 1, y 2},其样本频数列联表(称为2X 2列联表)为y 1y 2 总计 X 1 a b a + b X 2 c d c + d 总计a + cb + da +b +c + dK 2=恒+—a +Cj [b + d (其中n = a + b +c +d 为样本容量),可利用独立性检验判6.366337 一0.99,型一 0.36,17.54.18,断表来判断“ X与Y的关系”.[基本能力]一、判断题(对的打“/ ,错的打“X” )(1) 事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.()(2) 由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案:⑴“(2)X二、填空题1.下面是2 X 2列联表:则表中a, b的值分别为解析:•/ a+ 21 = 73,「.a= 52,又a + 22= b,「. b= 74.答案:52,742. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2 X 2列联表:已知P(K2> 3.841)宀 0.05,2根据表中数据,得到K2的观测值k= 13X 20一10X 7〜4.844.则认为选修文科与23 X 27 X 20 X 30性别有关系出错的可能性为__________ .答案:5%3. (2019阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过 .答案:0.05研透高考廉化提能[典例](2018全国卷川)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式•为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人•第一组工人用第一种生产方式,第二组工人用第二种生产方式•根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:第一种生产方式第—种生产方式865 5 6 8 99 7 6 2701223456689877654332814 4 52 110 090(1) 根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2) 求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:?2附: K2=nad二坐-(a+ b ]c+ d ]a+ c ]b+ d )P( K3^^)0. 0500, 0100. 001k3,8416,63516 828[解](1)第二种生产方式的效率更高.理由如下:(i )由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min ,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ii )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min ,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(iv )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最7多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 上的最多,关于茎 7大致呈对称分布•又用两种生产方式的工人完成生产任务所需时间分 布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方 式完成生产任务所需的时间更少•因此第二种生产方式的效率更高.(以上给出了 4种理由,答出其中任意一种或其他合理理由均可得分 )列联表如下:⑶因为宀 節薦。
变量间的相关关系与统计案例

第二节 变量间的相关关系与统计案例1.变量间的相关关系:例1.下面现象间的关系属于线性相关关系的是( ) A .圆的周长和它的半径之间的关系B .价格不变条件下,商品销售额与销售量之间的关系C .家庭收入愈多,其消费支出也有增长的趋势D .正方形面积和它的边长之间的关系 演变1.下列关系中是函数关系的是( )A .球的半径长度和体积的关系B .农作物收获和施肥量的关系C .商品销售额和利润的关系D .产品产量与单位成品成本的关系例2.对变量x ,y 有观测数据(i x ,i y )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(i u ,i v )(i =1,2,…,10),得散点图2,由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关演变1.在一组样本数据1122(,),(,),,(,)n n x y x y x y ⋅⋅⋅(122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点(,)(1,2,,)i i x y i n =⋅⋅⋅都在直线112y x =+上,则这组样本数据的样本相关系数为( )A. -1B.0C.12D.1 例3.实验测得四组),(y x 的值为)5,4(),4,3(),3,2(),2,1(,则y 与x 之间的回归方程为( )A .1ˆ+=x yB .2ˆ+=x yC .12ˆ+=x yD .1ˆ+=x y 演变1.在回归直线方程中,b 表示( )A .当x 增加一个单位时,y 增加a 的数量B .当y 增加一个单位时,x 增加b 的数量C .当x 增加一个单位时,y 的平均增加量D .当y 增加一个单位时,x 的平均增加量演变2.工人月工资(x 元)与劳动生产率(x 千元)变化的回归直线方程为ˆ5080yx =+,下列判断不正确的是( )A .劳动生产率为1000元时,工资为130元B .劳动生产率提高1000元时,则工资提高80元C .劳动生产率提高1000元时,则工资提高130元D.当月工资为210元时,劳动生产率为2000元2.独立性检验:例1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?例2.为考察数学成绩与物理成绩的关系,在高二年级随机抽取了300名学生,得到如下列联表:请你由表中的数据考察数学成绩与物理成绩之间是否有关系?并说明理由。
【精品课件】新教材一轮复习北师大版第10章第3讲变量间的相关关系、统计案例课件

求得回归方程^y=0.67x+54.9.
零件数 x(个) 10 20 30 40 50
加工时间 y(min) 62
75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为__6_8__.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
[解析] 由-x =30,得-y =0.67×30+54.9=75. 设表中的“模糊数字”为 a, 则 62+a+75+81+89=75×5,∴a=68.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
返回导航
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了 50 名 男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评 价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客 30 20
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
考点一
相关关系的判断——自主练透
(1)(2021·四 川 资 阳 模
拟)在一次对人体脂肪含量和年龄关
系的研究中,研究人员获得了一组样
本数据,并制作成如图所示的人体脂
肪含量与年龄关系的散点图.根据该
图,下列结论中正确的是 ( )
返回导航
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作
为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中 xi 和 yi 分别表 示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计
20
20
20
算得xi=60,yi=1 200,
第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
变量间的相关关系与统计案例

第3课时 变量间的相关关系与统计案例一、基础知识总结复习1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,(,)n n x y ,其回归方程为y bx a =+,其中,112222211()()()nniii ii i nniii i x x y y x y nx yxy x y b x xx x xnx====----===---∑∑∑∑,a y bx =-b 是斜率,a 是y 轴上的截距.0b 正相关,0b 负相关.③样本中心:(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:()()niix x y y xy x y r --==∑,用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.(5)相关指数2R :① 22121()1()niii niii y y R y y ==-=--∑∑(线性回归模型中21R 0≤≤,且2R 越大拟合效果越好).②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2R 越大.(6)总偏差平方和、残差平方和、回归平方和总偏差平方和:21()ni i y y =-∑;残差平方和21()ni i i y y =-∑;回归平方和21()ni i y y =-∑.残差的平方和越小,观测值更接近预报值,拟合效果越好,相关性也越强,预报更准确.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:随机变量22()()()()()n ad bc K a b a c b d c d -=++++ (其中n a b c d =+++为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”. 2K 越大,X 与Y 的无关性越小,相关性越强.二、基础知识过关判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√) (3)通过回归方程y bx a =+可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√) (8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+,则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习20()P K k ≥ 0k 0.001 10.828 0.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( ) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关 解:由图1可知,各点整体呈递减趋势,x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1 D .r 2<r 4<0<r 1<r 3解:因为正相关0r ,负相关0r ,132400 00r r r r ,,,∴又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r |24310r r r r ∴;故选A.练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用21c xy c e =拟合时的相关指数为21R ,用拟合时的相关指数为22R , 则2212R R ;③x 、y 之间不能建立回归直线方程. 解:①显然正确;由散点图知,用21c xy c e =拟合的效果比用y bx a =+拟合的效果要好,2212R R ∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确.故填:①②2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,0.55= 2.646≈.参考公式:相关系数1()()niii t t y y r =--=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-解:(1) 由折线图中数据得4t=,721()28i i t t =-=∑∴,0.55=0.55 1.1 2.646 2.9106=⨯=⨯=又7711()()7i i i i i i t t y y t y t y ==--=-∑∑∵,719.32i i y ==∑,7117i i y y ==∑∴777111()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-⨯=∑∑∑∴, 2.890.9932.9106r =≈因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2) 719.32i i y ==∑∵,7119.321.3377i i y y ===≈∑∴,又721()28i i t t =-=∑∵, 71()() 2.89i ii t t y y =--=∑∴, 2.890.1028b =≈∴,1.330.1040.93a y bt =-=-⨯=∴所以,y 关于t 的回归方程为0.930.1y t =+.根据年份代码,2016年对应t =9,0.930.109 1.83y =+⨯= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.表中i i x ω=8118i i ωω==∑, (1)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据(2)的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率 和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-解:(1)由散点图可以判断,y c x =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程. 根据题目所给出的统计量有:81821()()108.8681.6()iii ii y y d ωωωω==--===-∑∑ 6.8,563y ω==∵,56368 6.8100.6c y d ω=-=-⨯=∴,100.668y ω=+∴,因此y 关于x 的回归方程为100.668y x =+(3)①由(2)知, 100.668y x =+所以当x =49时,年销售量y 的预报值100.66849576.6y =+=,0.2z y x =-∵∴年利润z 的预报值0.2576.64966.32z =⨯-=.②根据(2)的结果知,年利润z 的预报值:0.2(100.620.12z x x =+-=-+∵所以当13.66.82==时,即46.24x =时,z 取得最大值.[例3] 为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人 数的表格:将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45名女性,所以非歌迷的男性有30名,从而完成2×2列联表如下:2100(30104515)100 3.0303.8417525554533K ⨯-⨯==≈⨯⨯⨯所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A ,因为从5名歌迷中任选2人的不同选法有2510C =种,其中有一名是女性的选法有11326C C =种,有两名女性的选法有221C =种, 16()0.710P A +==∴. [注] :1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值.(3)查表比较K 2与临界值的大小关系,作统计判断 2.两个分类变量x 和y 是否有关系的判断方法(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:K 2=解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:。
22 变量间的相关关系与统计案例-艺考生文化课百日冲刺

(二十二) 变量间的相关关系与统计案例1.下列两个变量之间的关系是相关关系的是A .正方体的棱长与体积B .单位面积产量为常数时,土地面积与产量C .日照时间与水稻的亩产量D .电压一定时,电流与电阻2.一位母亲记录了儿子3~9岁的身高,数据略,由此建立的身高与年龄的回归模型为,93.7319.7ˆ+=x y用这个模型预测这个孩子10岁时的身高,则正确的叙述是 .A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是423.1ˆ+=⋅x yA 523.1ˆ+=⋅x yB 08.023.1ˆ+=⋅x yC 23.108.0ˆ+=⋅x y D4.对分类变量X 与Y 的随机变量2K 的观测值k ,说法正确的是A .k 越大,“X 与y 有关系”的可信程度越小B .后越小,“X 与y 有关系”的可信程度越小C .尼越接近于O ,“X 与y 无关”的可信程度越小D .后越大,“X 与y 无关”的可信程度越大5.已知算与y 之间的几组数据如下表:则y 与x 的线性回归方程a bx y+=ˆ必过 A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4)为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,844.430202723)7102013(5022≈⨯⨯⨯⨯-⨯⨯=K 因为≥2K ,841.3所以判定主修统计专业与性别有关系,那么 这种判断出错的可能性为7.某学生对其亲属30人的饮食习惯进行了一次调查,并用如图22 -1所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯;(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析,附: ))()()(()(22d b c a d c b a bc ad n K ++++-=。
第九章 第三节 变量间的相关关系、统计案例

A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解回归分析的基本思想、方法及简单应用.4.了解独立性检验的基本思想、方法及其初步应用.[知识排查·微点淘金]知识点1 变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内 ,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.知识点2 两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .(3)通过求总体偏差Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.[微提醒]回归直线y ^=b ^x +a ^必过样本点的中心x ,y 这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.知识点3 独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验 利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个分类变量是否有关系”的方法称为独立性检验.[微提醒]根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.[小试牛刀·自我诊断]1.思考辨析(在括号内打“ √”或“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.(√)(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.(×) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.(√)2.(链接教材选修2-3 P 86例2)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25解析:在两个变量y 与x 的回归模型中,它们的相关指数R 2越接近于1,这个模型的拟合效果越好,观察选项可知0.98是相关指数最大的值.故选A .答案:A3.(链接教材必修3 P 94A 组T 2)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^=0.6x +48,则∑i =15y i =( )A .60B .120C .150D .300解析:选D 由题意,x =20,回归直线方程y ^=0.6x +48,所以y ^=0.6×20+48=60.则∑i =15y i =60×5=300.4.(链接教材选修2-3 P 97T 2)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值 k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案:5%5.(忽视回归直线过样本点中心)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A .6.4 B .6.25 C .6.55D .6.45解析:选C 由题中图表可知,x =5,y =4,因为回归方程经过样本的中心(x ,y ),则4=5b ^-0.25,得b ^=0.85,则回归方程为y ^=0.85x -0.25,再将x =8代入方程,得y ^=6.55.一、基础探究点——线性相关关系的判断(题组练透)1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.(2021·辽宁大连模拟)已知相关变量x和y的散点图如图所示,若用y=b1ln(k1x)与y =k2x+b2拟合时的相关系数分别为r1,r2,则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定解析:选C由散点图可知,y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为此关系为负相关,∴-r1>-r2,r1<r2,故选C.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.二、应用探究点——线性回归分析(思维拓展)[典例剖析][例1] (2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1200,∑i =120(x i -x)2=80,∑i =120(y i -y)2=9000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[学会用活]1.发展清洁能源,是改善能源结构、保障能源安全、推进生态文明建设的重要任务.十三五以来,我国加快调整能源结构,减少煤炭消费、稳定油气供应、大幅增加清洁能源比重,风电、光伏发电等可再生能源发电效率不断提高.据资料整理统计我国从2015年到2019年的年光伏发电量如表:(1)请用相关系数r 说明是否可用线性回归模型拟合年光伏发电量y 与x 的关系; (2)建立年光伏发电量y 关于x 的线性回归方程,并预测2021年年光伏发电量(结果保留整数).参考公式:相关系数r =∑i =1nx i y i -n x y∑i =1n(x i -x)2∑i =1n(y i -y )2,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x .解:(1)因为x =15(1+2+3+4+5)=3,∑i =15x i y i =23 574,∑i =15(x i -x)2∑i =15(y i -y )2≈4837.5,y =1251.2.所以相关系数r =∑i =1nx i y i -n x y∑i =1n (x i -x )2∑i =1n(y i -y )2=23 574-5×3×1251.24837.5≈0.993,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合. (2)因为∑i =15x 2i =12+22+32+42+52=55,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=23 574-5×3×1251.255-5×32=480.6,a ^=y -b ^x =1251.2-480.6×3=-190.6, 所以回归方程为y ^=480.6x -190.6,因为2021年所对应的年份编号为7,所以当x =7时,y ^=480.6×7-190.6≈3174. 故预计2021年年光伏发电量为3174亿千瓦时.三、应用探究点——独立性检验(思维拓展)[典例剖析][例2] (2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)甲机床生产的产品中一级品的频率为150200=34;乙机床生产的产品中一级品的频率为120200=35.(2)由题意知, K 2=400×(150×80-120×50)2200×200×270×130≈10.256.由10.256>6.635知,有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表; (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断. 2.解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题; (2)两个准确:①准确画出2×2列联表;②准确理解K 2.[学会用活]2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:SO 2PM2.5[0,50] (50,150] (150,475][0,35] 32 18 4 (35,75] 6 8 12 (75,115]3710(1)2”的概率; (2)根据所给数据,完成下面的2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] (75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475] [0,75] 64 16 (75,115]1010(3)根据(2)的列联表得K 2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.限时规范训练 基础夯实练1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x解析:选D 由散点图可以看出,点大致分布在对数型函数的图象附近. 2.(2021·安徽合肥一中模拟)下列有关回归分析的论断不正确的是( ) A .若相关系数r 满足|r |越接近1,则这两个变量相关性越强 B .若相关指数R 2越大,则模型的拟合效果越好 C .若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1D .残差图的带状区域的宽度越窄,模型拟合的精度越高,回归方程的预报精度越高 解析:选C 若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1或-1,所以C 选项错误,故选C .3.(2021·河南洛阳月考)某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价x (元)和销售额y (元)的数据,整理得到下面的散点图:已知销售额y =单价x ×销量z ,根据散点图,下面四个回归方程类型中最适宜作为服装销量z 与单价x 的回归方程类型的是( )A .z =a +bxB .z =a +bxC .z =a +bx 2D .z =a +be x解析:选B 由散点图可知,y 与x 成线性相关,设回归方程为y =m +kx ,由题意z =yx ,所以z =mx+k ,对应B 最适合.故选B .4.(2021·安徽合肥二模)2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民的生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y 与温度x 的关系可以用模型y =c 1e c 2x 拟合,设z =ln y ,其变换后得到一组数据:x 20 23 25 27 30 z22.4334.6由上表可得线性回归方程z =0.2x +a ,则c 1=( )A .-2B .e -2 C .3D .e 3解析:选B 由表格数据知:x =15(20+23+25+27+30)=25,z =15(2+2.4+3+3+4.6)=3,代入z ^=0.2x +a ^得a ^=3-0.2×25=-2,∴z =0.2x -2,即ln y =0.2x -2,∴y =e 0.2x-2=e -2·e 0.2x ,∴c 1=e -2,故选B .5.(2021·黑龙江大庆模拟)下列描述中正确命题的个数为( ) ①最小二乘法的原理是使得∑i =1n[y i -(a +bx i )]2最小②样本相关系数r 越大,相关程度越大③设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 减少5个单位 A .0 B .1 C .2D .3解析:选B 对于①,最小二乘法是使得样本数据点到回归直线的距离的评分和最小的方法,即使得∑i =1n[y i -(a +bx i )]2最小,故①正确;对于②,相关系数r 为负数时,样本相关系数r 越大,相关程度越小,故②错误;对于③,变量x 增加一个单位时,y 平均减少5个单位,故③错误;所以正确命题的个数为1个.故选B .6.(2021·山西太原三模)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:由表中数据可得y 关于x 的回归方程为y =55x 2+m ,则据此回归模型相应于点(2,173)的残差为( )A .-5B .-6C .3D .2解析:选B 令t =x 2,则y =55t +m ,t =1+4+9+16+255=11,y =15+173+457+842+13335=564,所以564=55×11+m ,m =-41,所以y =55x 2-41,当x =2时,y =55×22-41=179,所以残差为173-179=-6.故选B .7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据.(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为 .解析:由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,解得a =68. 答案:688.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100有 以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%9.(2021·安徽合肥模拟)树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x (2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树林中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .解:(1)由x =16×(0.1+0.2+0.3+0.4+0.5+0.6)=0.35,y =16×(1.1+1.3+1.6+1.5+2.0+2.1)=1.6,∑i =16x i y i =0.1×1.1+0.2×1.3+0.3×1.6+0.4×1.5+0.5×2.0+0.6×2.1=3.71,∑i =16x 2i =0.12+0.22+0.32+0.42+0.52+0.62=0.91,有b ^=∑i =16x i y i -6x y∑i =16x 2i -6x2=3.71-6×0.35×1.60.91-6×0.352=2,a ^=y -b ^x =1.6-2×0.35=0.9,故y 关于x 的回归方程为y ^=2x +0.9.(2)当x =0.1时,y ^=2×0.1+0.9=1.1,残差为1.1-1.1=0, 当x =0.2时,y ^=2×0.2+0.9=1.3,残差为1.3-1.3=0, 当x =0.3时,y ^=2×0.3+0.9=1.5,残差为1.6-1.5=0.1, 当x =0.4时,y ^=2×0.4+0.9=1.7,残差为1.5-1.7=-0.2,当x =0.5时,y ^=2×0.5+0.9=1.9,残差为2.0-1.9=0.1, 当x =0.6时,y ^=2×0.6+0.9=2.1,残差为2.1-2.1=0, 由这6棵A 树木中残差为零的有3棵,占比为36=12,∴这棵树木“长势标准”的概率为12.综合提升练10.(2021·广东肇庆模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y ^=b 1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y ^=b 2x +a ^2,相关系数为r 2.则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0解析:选D 根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r 2<r 1<0.故选D .11.(2021·南昌一模)某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D 因为y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.12.为了丰富教职工业余文化生活,某校计划在假期组织70名教师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男教师选择方案一,有75%的女教师选择方案二,且选择方案一的教师中女教师占40%,则参照附表,得到的正确结论是( )附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”解析:选C 设该校男教师的人数为x ,女教师的人数为y ,则可得如下表格:方案一 方案二男老师 0.5x 0.5x x 女老师 0.25y 0.75y y0.5x +0.25y0.5x +0.75yx +y由题意0.25y 0.5x +0.25y =0.4,可得y x =43,可得x =30,y =40,则K 2=70×(15×30-15×10)225×45×30×40≈4.667>3.841,但4.667<5.024,所以无97.5%以上但有95%以上的把握认为“选择方案与性别有关”.故选C .13.(2020·安徽蚌埠市第三次质检)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则 (填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.附K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k 0)0.0500.0100.0050.001k 0 3.841 6.635 7.879 10.828解析:由题意可得列联表如下:不乐观 乐观 合计 国内代表 40 60 100 国外代表 60 40 100 合计100100200则K 2=200×(40×40-60×60)2100×100×100×100=8>6.635,所以有99%以上的把握认为是否持乐观态度与国内外差异有关.答案:能14.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为 .解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:1创新应用练15.(2021·江苏南通三模)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:月份 1 2 3 4 5 违章驾驶人次1251051009080(1)y 关于x 的回归方程y ^=b ^x +a ^,并预测该路口7月份不“礼让行人”违规驾驶人次;(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:不礼让行人礼让行人 驾龄不超过2年 24 16 驾龄2年以上2624结论判断的体会.附:b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 k 02.0722.7063.8415.0246.635解:(1)由表中数据知,x =1+2+3+4+55=3,y =125+105+100+90+805=100,所以∑i =15(x i -x )(y i -y )=-50-5+0-10-40=-105,∑i =1n(x i -x )2=4+1+0+1+4=10,所以b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=-10510=-10.5,a^=100-(-10.5)×3=131.5.所以y^=-10.5x+131.5,所以令x=7,则y^=-10.5×7+131.5=58人,故预测该路口7月份不“礼让行人”违规驾驶人次为58人次.(2)根据表中的列联表补全得下表:故K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=90×(24×24-16×26)250×40×40×50≈0.58<2.706,所以没有90%的把握认为“礼让行人行为”与驾龄有关.礼让行人是一种良好的驾驶习惯,无论驾龄多少,都需遵守规章,礼让行人.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量的相关关系与统计案例[时间:45分钟分值:100分]基础热身1.对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫()A.函数关系B.线性关系C.相关关系D.回归关系2.分类变量X和A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强3.[2011·陕西卷] 设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图K56-1),以下结论中正确的是()图K56-1A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同4.[2011·长沙模拟] 2010年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月由表中数据算出线性回归方程y=bx+a中的b≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量约为________件.5.工人月工资y(元)关于劳动生产率x(千元)的回归方程为y=650+80x,下列说法中正确的个数是()①劳动生产率为1000元时,工资为730元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高730元;④当月工资为810元时,劳动生产率约为2000元.A.1 B.2 C.3 D.46.[2011·山东卷] 某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元7.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 8.[2011·江西卷] 变量X 与Y 相对应的一组数据为(10,1),(11.3,2)(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 19.已知x 、y如果y 与x 呈线性相关,且线性回归方程为y =bx +132,则b =( )A.13 B .-12 C.12D .1 10.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:若由资料可知y 对x 呈线性相关关系,且线性回归方程为y =a +bx ,其中已知b =1.23,请估计使用年限为20年时,维修费用约为________.11.[2011·南昌一模] 对一些城市进行职工人均工资水平x (千元)与居民人均消费水平y (元)统计调查后知,y 与x 具有相关关系,满足回归方程y =0.66x +1.562.若某被调查城市居民人均消费水平为7.675(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为________%(保留两个有效数字).12.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后进行统计假设是________________________________________________________________________.13.[2011·广东卷] 为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.14.(10分)[2011·山西大学附中模拟] 某中学采取分层抽样的方法从应届高三学生中按照性别抽出20.(1)3人中既有男生也有女生的概率;(2)用假设检验的方法分析有多大的把握认为该中学的高三学生选报文理科与性别有关?参考公式和数据:K2=n(ad-bc)2.15.(13分)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.难点突破16.(12分)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.(参考数据: 1.04≈1.02;由检验水平0.01及n-2=3,查表得r0.01=0.959)参考答案【基础热身】1.C[解析] 由相关关系的概念可知,C正确.故选C.2.C [解析] 因为K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),当(ad -bc )2越大时,K 2越大,说明X 与Y 关系越强.故选C.3.A [解析] 由题设给出的图象知两变量负相关,则相关系数为负值,则C 错,相关系数r 是研究相关性大小的,b 为直线的斜率,则B 错,回归分析得到的直线为与所有点距离和最小的,与点在直线两边的个数无关,D 错,故答案为A.4.46 [解析] 由给定的样本数据可知,该样本点的中心(x ,y )为(10,38),因为线性回归方程过样本点的中心,故38=-20+a ,所以a =58,∴y ^=-2x +58,故当x =6时,y ^=46.【能力提升】5.C [解析] 将数据代入方程计算可判断①②④正确.故选C.6.B [解析] x =4+2+3+54=3.5,y =49+26+39+544=42,由于回归方程过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1,故回归方程为y ^=9.4x +9.1,所以当x =6时,y =6×9.4+9.1=65.5.7.C [解析] 根据独立性检验的思想知,选项C 正确. 8.C [解析] 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0.∴r 2<0<r 1. 故选C.9.B [解析] 因为x =3,y =5,又回归直线过点(x ,y ),所以5=3b +132,所以b =-12.10.22.68万元 [解析] 易得x =4,y =3,而b =1.23,代入回归方程得a =-1.92,所以,回归方程为y ^=1.23x -1.92,若使用年限为20年时,估计维修费用约为y ^=1.23×20-1.92=22.68.11.83 [解析] 将y =7.675代入回归方程得x =9.262,所以估计该城市人均消费额占人均工资收入的百分比约为7.6759.262≈0.83.12.小白鼠的死亡与电离辐射的剂量无关 [解析] 根据独立性检验的基本思想,可知类似反证法,即要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.对本题进行统计分析时的统计假设应是“小白鼠的死亡与剂量无关”.13.0.5 0.53 [解析] y =0.4+0.5+0.6+0.6+0.45=2.55=0.5;x =1+2+3+4+55=3.b ^=(x 1-x )(y 1-y )+…+(x 5-x )(y 5-y )(x 1-x )2+…+(x 5-x )2=0.01,a ^=y -b ^x =0.5-0.01×3=0.47,所以回归方程为:y =0.47+0.01x ,所以当x =6时,y =0.47+0.01×6=0.53.14.[解答] (1)设样本中两名男生分别为a ,b,5名女生分别为c ,d ,e ,f ,g ,则基本事件空间为:(abc ),(abd ),(abe ),(abf ),(abg ),(acd ),(ace ),(acf ),(acg ),(ade ),(adf ),(adg ),(aef ),(aeg ),(afg ),(bcd ),(bce ),(bcf ),(bcg ),(bde ),(bdf ),(bdg ),(bef ),(beg ),(bfg ),(cde ),(cdf ),(cdg ),(cef ),(ceg ),(cfg ),(def ),(deg ),(dfg ),(efg )共35种,其中既有男又有女的事件为前25种.故“抽出的3人既有男生又有女生”的概率为P =2535=57.(2)K 2=20×(50-6)27×13×12×8≈4.43>3.84,对照参考表格,结合考虑样本是抽取分层抽样抽取的,可知有95%以上的把握认为学生选报文理科与性别有关.15.[解答] (1)(2)x =15∑i =15x i =109,∑i =15 (x i -x )2=1570,y =23.2,∑i =15(x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^, 则b ^=3081570≈0.1962,a ^=y -b ^x =23.2-109×3081570≈1.8166.故所求回归直线方程为y ^=0.1962x +1.8166.(3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.1962×150+1.8166=31.2466(万元). 【难点突破】16.[解答] (1)由∑i =15(x i -x )(y i -y )=10,∑i =15(x i -x)2=20,∑i =15(y i -y )2=5.2,可得r =∑i =15(x i -x )(y i -y )∑i =15(x i -x)2∑i =15(y i -y )2=10104≈0.98. 即年推销金额y 与工作年限x 之间的相关系数约为0.98. (2)由(1)知,r =0.98>0.959=r 0.01,所以可以认为年推销金额y 与工作年限x 之间具有较强的线性相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(3)由(2)可知,当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9万元. 所以可以估计第6名推销员的年推销金额为5.9万元.。