艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例

合集下载

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.

的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从

的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.


高考数学总复习 基础知识名师讲义 第九章 第五节变量间的相关关系、统计案例 文

高考数学总复习 基础知识名师讲义 第九章 第五节变量间的相关关系、统计案例 文

第五节变量间的相关关系、统计案例1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列两种常用的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)回归分析:了解回归分析的基本思想、方法及其简单应用.知识梳理1.散点图.(1)将变量所对应的点描出来,就组成了变量之间的一个图,这种图为变量之间的________.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势可用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.2.相关关系.(1)从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为________;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为________.(2)线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做________.(3)若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是__________的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.3.回归直线.(1)最小二乘法:如果有n个点:(x1,y1),(x2,y2),…,(x n,y n)可以用下面的表达式来刻画这些点与回归直线的接近程度: [y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2,使得上式达到最小值的y^=b^x+a^就是我们要求的直线,这种方法称为最小二乘法.(2)在回归直线方程y ^=b ^x +a ^中,b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x 2,a ^=________,其中x =x 1+x 2+…+x nn,y =y 1+y 2+…+y n n.b ^叫做回归直线方程的斜率,a ^是直线在y 轴上的截距.4.相关系数.,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性________;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.当|r |∈[0.3,0.75)时,相关性一般.当|r |∈[0,0.25]时,相关性较弱.5.残差分析.(1)线性回归模型:y =bx +a +e 中,a ,b 称为模型的未知参数;e 称为随机误差.(2)残差平方和:对于样本点(x i ,y i )(i =1,2,…,n ),Q =∑i =1n(y i -y)称为残差平方和,Q 值越小,说明线性回归模型的拟合效果越好.(3)相关指数:用相关指数R2来刻画回归的效果,公式是R2=1-∑i=1ny i-y i 2∑i=1ny i-y 2.R2的值越大,说明残差平方和越小,也就是说模型拟合效果________.6.独立性检验.(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出两个分类变量的频数表,称为列联表.(3)利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的________.2×2列联表y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d独立性检验公式K2=__________________.1.散点图2.1正相关负相关2回归直线3非线性相关3.2\o(y,\s\up6(-))-b\o(x,\s\up6(-)),4.1正相关2负相关3越强5.3越好6.3独立性检验\f(n ad-bc2,a+b a+c b+d c+d),基础自测1.下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.其中正确的命题为( )A.①③④B.②④⑤C .③④⑤D .②③⑤ 答案:C2.(2013·武昌调研)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110由算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”解析:因为K 2=110×40×30-20×20260×50×60×50≈7.8>6.635,所以有99%以上的把握认为“选择过马路的方式与性别有关”.答案:A 3.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:所有点均在直线上,则样本相关系数最大即为1. 答案:14.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析: 由题意得y ^2-y ^1=[0.254(x +1)+0.321]-[0.254x +0.321]=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2541.(2013·湖北卷)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2 347x -6 423;②y 与x 负相关且y ^=-3 476x +5 648; ③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④解析:①回归方程中x 的系数为正,不是负相关;④方程中的x 的系数为负,不是正相关,所以①④一定不正确.答案:D2.某电视台在一次对收看文艺节目和新闻节目观众的抽样调(1)关?(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众年龄为20至40岁的概率.解析:(1)有关.收看新闻节目多为年龄大的.(2)应抽取的人数为:5×2745=3(人).(3)由(2)知,抽取的5名观众中,有2名观众年龄处于20至40岁,3名观众的年龄大于40岁.记大于40岁的人为a 1,a 2,a 3,20至40岁的人为b 1,b 2,则从5人中抽取2人的基本事件有(a 1,a 2),(a 1,a 3),(a 2,a 3),(b 1,b 2),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共10个,其中恰有1人为20至40岁的基本事件有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共6个,因此所求的概率P =610=35.1.(2013·梅州一模)在2014年1月15日当天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x其线性回归直线方程是:y ^=-3.2x +40,且m +n =20,则其中的n =____________.解析:x -=15(9+9.5+m +10.5+11)=15(40+m ),y -=15(11+n +8+6+5)=15(30+n ) 因为其线性回归直线方程是:y ^=-3.2x +40,所以15(30+n )=-3.2×15(40+m )+40,即30+n =-3.2(40+m )+200,又m +n =20, 解得m =n =10. 答案:102.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( )A .3B .3.15C .3.5D .4.5解析:由y ^=0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t4=3.5⇒t =3,故选A.答案:A。

高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1

高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1

第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。

高考知识点变量间的相关关系与统计案例

高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1

艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例

艺术生高考数学专题讲义:考点51 变量间的相关关系与统计案例

考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图. 3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. 4.回归直线方程 (1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合. (2)线性相关在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (3)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (4)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑n i =1(x i-x )(y i-y )∑n i =1(x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i-n x 2,a =y -b x .说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一相关关系判断例1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2<r1<0 ②0<r2<r1③r2<0<r1④r2=r1答案③解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.变式训练 四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱. 题型二 回归分析例2 已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =________. 答案 1.45 解析 ∵x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,又y ^=0.95x +a 过(x ,y ),∴5.25=0.95×4+a ,得a =1.45. 变式训练 已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为________. 答案 0.5解析 x =0+1+2+34=32,y =m +3+5.5+74=15.5+m4,把(x ,y )代入线性回归方程,15.5+m 4=2.1×32+0.85,m =0.5.解题要点 回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析 (1)由题意,作散点图如图.(2)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x 2i =32+42+52+62=86, x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 所以回归方程为y ^=0.7x +0.35.(3)当x =100时,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.5452504846444240表中w i =x i ,w =18∑i =18w i .(I)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y 关于x 的回归方程;(III)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(II)的结果回答下列问题: (i )当年宣传费90x =时,年销售量及年利润的预报值时多少? (ii )当年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解析 (I)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (III)(i )由(II)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.(ii )根据(II)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^ 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x -,y -,i =1∑n,i =1)x 2i ,i =1∑n,i =1)x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y =b ^x -+a ^,可确定a ^. 题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.① 列联表中c 的值为30,b 的值为35 ② 列联表中c 的值为15,b 的值为50 ③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系” ④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到χ2=2105(10302045)55503075⨯⨯-⨯⨯⨯⨯≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲. (1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率. 解析 (1)2×2列联表如下:(2)0χ2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (χ2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.当堂练习1.(2015湖北文)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是________.①x 与y 正相关,x 与z 负相关 ②x 与y 正相关,x 与z 正相关 ③x 与y 负相关,x 与z 负相关 ④x 与y 负相关,x 与z 正相关 答案 ③解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =ay +b (a >0),所以z =-0.1ax +a +b ,-0.1a <0,所以x 与z 负相关. 2.(2014·湖北卷) 根据如下样本数据得到的回归方程为y =bx +a ,则________.①a >0,b <0 ②a >0,b >0 ③a <0,b <0 ④a <0,b >0 答案 ①解析 作出散点图如下:由图象不难得出,回归直线y ^=bx +a 的斜率b <0,截距a >0,所以a >0,b <0. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.① 有99%以上的把握认为“爱好该项运动与性别有关” ② 有99%以上的把握认为“爱好该项运动与性别无关”③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” ④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 ①解析 因为7.8>6.635,所以选项①正确.4.下列有关样本相关系数的说法不正确的是________. ①相关系数用来衡量变量x 与y 之间的线性相关程度 ②|r |≤1,且|r |越接近于1,相关程度越大 ③|r |≤1,且|r |越接近0,相关程度越小④|r |≥1,且|r |越接近1,相关程度越小 答案 ④5.两个相关变量满足如下关系:答案 y ∧=0.56x +997.4解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A 符合题意.课后作业一、 填空题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_____. 答案 1解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是______. ①y 与x 具有正的线性相关关系 ②回归直线过样本点的中心(x ,y )③若该大学某女生身高增加1cm ,则其体重约增加0.85kg ④若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案 ④解析 由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以④不正确. 3.(2015新课标II 文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确...的是________.①逐年比较,2008年减少二氧化硫排放量的效果最显著②2007年我国治理二氧化硫排放显现成效③2006年以来我国二氧化硫年排放量呈减少趋势④2006年以来我国二氧化硫年排放量与年份正相关答案④解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;2007年二氧化硫排放量较2006年降低了很多,②选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.4.下面是一个2×2列联表y1y2总计x1 a 2173x2222547合计 b 46120其中a,b处填的值分别为答案5274解析由a+21=73,得a=52,a+22=b,得b=74.5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828答案99%解析因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.6.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:x 345 6根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 由y =0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t4=3.5⇒t =3.7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.表1 表2表3 表4答案 阅读量解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.8.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为________. 答案 6.5 h解析 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 答案 5%解析 由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 10.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm. 答案 56.19解析 根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.答案 y ^=1.23x +0.08解析 设回归直线方程为y ^=1.23x +a ,由题意得:5=1.23×4+a ,得a =0.08,故回归方程为y ^=1.23x +0.08. 二、解答题12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a =y -b x ,其中x -,y -为样本平均值,线性回归方程也可写为y ∧=b ∧x +a ∧.解析 (1)由题意知n =10,x =1n ∑i =110x i =8010=8,y =1n ∑i =110y i =2010=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b =∑i =110x i y i -n x y∑i =110x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y ∧=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7千元. 13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.(1)(2)为了研究心肺疾病是否与性别有关,请计算出统计量K 2,并回答有多大把握认为心肺疾病与性别有关?参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析(1)在患心肺疾病人群中抽6人,则抽取比例为630=15,∴男性应该抽取20×15=4人.(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.。

变量间的相关关系统计案例

变量间的相关关系统计案例
返回
其中两个变量x、y具有相关关系的图是
A.①②
B.①④
C.③④
D.②③
解析:由散点图知③④具有相关关系.
答案: C
()
返回
2.如图所示,有5组(x,y)数据,去 掉________组数据后,剩下的4组 数据具有较强的线性相关关系. 解析:由散点图知呈带状区域时有较强的线性相关关系, 故去掉D. 答案: D
男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110
返回
由χ2=a+bcn+add-ab+cc2b+d算得,
χ2=110×60×405×0×306-0×205×0202≈7.8.
附表:
P(χ2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
多考查基本思想的应用及基本运算.
返回
返回
一、变量间的相关坐标,另一个变量的相应
取值为纵坐标,在直角坐标系中描点,这样的图形叫 做散点图. 三、回归直线方程与回归分析 (1)直线方程=a+bx,叫做Y对x的 回归直线方程 ,b 叫
做 回归系数 .要确定回归直线方程,只要确定a与回 归系数b.
n
n
xi- x 2 yi- y 2
i=1
i=1
r=
n xiyi-n-x -y
i=1
n
xi2-n-x 2n yi2-n-y 2
i=1
i=1

.
返回
(4)样本相关系数r具有以下性质:|r|≤1,并且|r|越接近1,
线性相关程度 越强 ;|r|越接近0,线性相关程度越弱.
返回
四、独立性检验 (1)2×2列联表:
A.^y=-2x+100

2021年3月新高考数学复习资料§11.5变量间的相关关系统计案例(讲解部分

2021年3月新高考数学复习资料§11.5变量间的相关关系统计案例(讲解部分

量,因变量y称为预报变量.
考点二 独立性检验
1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变
量称为分类变量.
2.列联表:列出两个分类变量的⑥ 频数表 ,称为列联表.假设有两个分类
变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为
2×2列联表)为:
方法总结 求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
n
n
(2)利用公式bˆ =
(xi -x)(yi - y)
i1 n
(xi -x)2
xi yi -nx y
i1
n
xi2
-n
2
x
,aˆ = y
-bˆ
x 求得回归系数;
i1
i1
(3)写出回归直线方程.
考法二 独立性检验的应用
(ii)回归方程:方程 yˆ= bˆx+ aˆ是两个具有线性相关关系的变量的一组数据(x1,
y1),(x2,y2),…,(xn,yn)的回归方程,其中 aˆ, bˆ是待定参数.
n
n

y-bˆx,bˆ
(xi -x)(yi - y)
i1 n
(xi -x)2
xi yi -nx y
i1
n
xi2 -nx2
,
i1
i1
其中x
1 n
n
i1
xi
,
y
1 n
n
i1
yi
,(x,
y)称为样本点的中心.
(3)相关系数r
(i)r
n
(xi -x)(yi - y)
i1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图. 3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. 4.回归直线方程 (1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合. (2)线性相关在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (3)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (4)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a =y -b x .说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一相关关系判断例1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2<r1<0 ②0<r2<r1③r2<0<r1④r2=r1答案③解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.变式训练 四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱. 题型二 回归分析例2 已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =________. 答案 1.45解析 ∵x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,又y ^=0.95x +a 过(x ,y ),∴5.25=0.95×4+a ,得a =1.45. 变式训练 已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为________. 答案 0.5解析 x =0+1+2+34=32,y =m +3+5.5+74=15.5+m4,把(x ,y )代入线性回归方程,15.5+m 4=2.1×32+0.85,m =0.5. 解题要点 回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析 (1)由题意,作散点图如图.(2)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x 2i =32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 所以回归方程为y ^=0.7x +0.35.(3)当x =100时,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.5452504846444240表中w i =x i ,w =18∑i =18w i .(I)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y 关于x 的回归方程;(III)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(II)的结果回答下列问题: (i )当年宣传费90x =时,年销售量及年利润的预报值时多少? (ii )当年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解析 (I)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(III)(i )由(II)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.(ii )根据(II)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x -,y -,i =1∑n,i =1)x 2i ,i =1∑n,i =1)x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y =b ^x -+a ^,可确定a ^. 题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.① 列联表中c 的值为30,b 的值为35 ② 列联表中c 的值为15,b 的值为50 ③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到χ2=2105(10302045)55503075⨯⨯-⨯⨯⨯⨯≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲. (1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率. 解析 (1)2×2列联表如下:(2)0χ2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (χ2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.当堂练习1.(2015湖北文)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是________.①x 与y 正相关,x 与z 负相关 ②x 与y 正相关,x 与z 正相关 ③x 与y 负相关,x 与z 负相关 ④x 与y 负相关,x 与z 正相关 答案 ③解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =ay +b (a >0),所以z =-0.1ax +a +b ,-0.1a <0,所以x 与z 负相关. 2.(2014·湖北卷) 根据如下样本数据得到的回归方程为y =bx +a ,则________.①a >0,b <0 ②a >0,b >0 ③a <0,b <0 ④a <0,b >0 答案 ①解析 作出散点图如下:由图象不难得出,回归直线y ^=bx +a 的斜率b <0,截距a >0,所以a >0,b <0. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.① 有99%以上的把握认为“爱好该项运动与性别有关” ② 有99%以上的把握认为“爱好该项运动与性别无关”③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” ④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 ①解析 因为7.8>6.635,所以选项①正确.4.下列有关样本相关系数的说法不正确的是________.①相关系数用来衡量变量x 与y 之间的线性相关程度 ②|r |≤1,且|r |越接近于1,相关程度越大 ③|r |≤1,且|r |越接近0,相关程度越小 ④|r |≥1,且|r |越接近1,相关程度越小 答案 ④5.两个相关变量满足如下关系:答案 y ∧=0.56x +997.4解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A 符合题意.课后作业一、 填空题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_____. 答案 1解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是______. ①y 与x 具有正的线性相关关系 ②回归直线过样本点的中心(x ,y )③若该大学某女生身高增加1cm ,则其体重约增加0.85kg ④若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案 ④解析 由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以④不正确.3.(2015新课标II文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确...的是________.①逐年比较,2008年减少二氧化硫排放量的效果最显著②2007年我国治理二氧化硫排放显现成效③2006年以来我国二氧化硫年排放量呈减少趋势④2006年以来我国二氧化硫年排放量与年份正相关答案④解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;2007年二氧化硫排放量较2006年降低了很多,②选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.4.下面是一个2×2列联表其中a,b处填的值分别为答案5274解析由a+21=73,得a=52,a+22=b,得b=74.5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.答案99%解析因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.6.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 由y =0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t 4=3.5⇒t =3.7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.表1 表2表3 表4答案 阅读量解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.8.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为________. 答案 6.5 h解析 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 答案 5%解析 由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 10.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm. 答案 56.19解析 根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.答案 y ^=1.23x +0.08解析 设回归直线方程为y ^=1.23x +a ,由题意得:5=1.23×4+a ,得a =0.08,故回归方程为y ^=1.23x +0.08. 二、解答题12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a =y -b x ,其中x -,y -为样本平均值,线性回归方程也可写为y ∧=b ∧x +a ∧.解析 (1)由题意知n =10,x =1n ∑i =110x i =8010=8,y =1n ∑i =110y i =2010=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b =∑i =110x i y i -n x y∑i =110x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y ∧=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7千元. 13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.(1)(2)为了研究心肺疾病是否与性别有关,请计算出统计量K2,并回答有多大把握认为心肺疾病与性别有关?参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)在患心肺疾病人群中抽6人,则抽取比例为630=15,∴男性应该抽取20×15=4人.(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.。

相关文档
最新文档