2015年全国高考数学试题分类汇编§11.4变量间的相关关系与统计案例

合集下载

2015届高考数学总复习 基础知识名师讲义 第九章 第五节 变量间的相关关系、统计案例 理

2015届高考数学总复习 基础知识名师讲义 第九章 第五节 变量间的相关关系、统计案例 理

第五节 变量间的相关关系、统计案例知识梳理 1.散点图.(1)将变量所对应的点描出来,就组成了变量之间的一个图, 这种图为变量之间的________.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势可用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.答案:1.(1)散点图2.相关关系.(1)从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为____________;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为____________.(2)线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做____________.(3)若两个变量x 和y 的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是______________的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.答案:2.(1)正相关 (2)回归直线 (3)非线性相关3.回归直线.(1)最小二乘法:如果有n 个点:(x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与回归直线的接近程度: [y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a+bx n )]2,使得上式达到最小值的y ^=b ^x +a ^就是我们要求的直线,这种方法称为最小二乘法.(2)在回归直线方程y ^=b ^x +a ^中,b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x·y∑i =1nx 2i -n x2,a^1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列两种常用的统计方法,并能应用这些方法解决一些实际问题. (1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;(2)回归分析:了解回归分析的基本思想、方法及其简单应用.=________,其中x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y n n.b ^叫做回归直线方程的斜率,a^是直线在y 轴上的截距.答案:3.y -b ^x4.相关系数.r=∑i =1nx i -xy i -y∑i =1nx i -x2y i -y2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性______;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.当|r |∈[0.3,0.75)时,相关性一般.当|r |∈[0,0.25]时,相关性较弱.答案:4.(1)正相关 (2)负相关 (3)越强5.残差分析.(1)线性回归模型:y =bx +a +e 中,a ,b 称为模型的未知参数;e 称为随机误差.(2)残差平方和:对于样本点(x i ,y i )(i =1,2,…,n ),Q =∑i =1n(y i -y )称为残差平方和,Q 值越小,说明线性回归模型的拟合效果越好.(3)相关指数:用相关指数R 2来刻画回归的效果,公式是R2= . R 2的值越大,说明残差平方和越小,也就是说模型拟合效果______.答案:5.越好6.独立性检验.(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的________.2×2列联表独立性检验公式K 2=__________________.答案:6.(3)独立性检验n (ad -bc )2(a +b )(c +d )(a +c )(b +d )基础自测1.下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.其中正确的命题为( )A .①③④B .②④⑤C .③④⑤D .②③⑤答案:C2.(2013·武昌调研)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (a +b )(c +d )(a +c )(b +d ),算得K 2=260×50×60×50≈7.8.附表:A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”解析:因为K 2=110×(40×30-20×20)260×50×60×50≈7.8>6.635,所以有99%以上的把握认为“选择过马路的方式与性别有关”.答案:A3.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为__________________.解析:所有点均在直线上,则样本相关系数最大即为1. 答案:14.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析: 由题意得y ^2-y ^1=[0.254(x +1)+0.321]-[0.254x +0.321]=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2541.(2012·湖南卷)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:根据回归方程的概念和性质知选项A ,B ,C 三项均正确,选项D 错误,线性回归方程只能预测学生的体重. 选项D 应改为“若该大学某女生身高为170 cm ,则估计其体重大约为58.79 kg”.答案:D2.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众年龄为20至40岁的概率.解析:(1)有关.收看新闻节目多为年龄大的.(2)应抽取的人数为:5×2745=3(人).(3)由(2)知,抽取的5名观众中,有2名观众年龄处于20至40岁,3名观众的年龄大于40岁.记大于40岁的人为a 1,a 2,a 3,20至40岁的人为b 1,b 2,则从5人中抽取2人的基本事件有(a 1,a 2),(a 1,a 3),(a 2,a 3),(b 1,b 2),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共10个,其中恰有1人为20至40岁的基本事件有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共6个,因此所求的概率P =610=35.1.(2013·梅州一模)在2014年1月15日当天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =15(9+9.5+m +10.5+11)=15(40+m ),y =15(11+n +8+6+5)=15(30+n ).因为其线性回归直线方程是:y ^=-3.2x +40,所以15(30+n )=-3.2×15(40+m )+40,即30+n =-3.2(40+m )+200,又m +n =20, 解得m =n =10. 答案:102.某大学高等数学老师上学期分别采用了A ,B 两种不同的教学方式对甲、乙两个大一新生班进行教改试验(两个班人数均为60人,入学数学平均分数和优秀率都相同;勤奋程度和自觉性都一样).现随机抽取甲、乙两班各20名同学的上学期数学期末考试成绩,得到茎叶图如下:(1)依茎叶图判断哪个班的平均分高?(2)从乙班这20名同学中随机抽取2名高等数学成绩不得低于85分的同学,求成绩为90分的同学被抽中的概率.(3)学校规定:成绩不低于85分的为优秀,请填写下面的2×2列联表,并判断“能否在犯错误的概率不超过K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d(4)从乙班高等数学成绩不低于85分的同学中抽取2人,成绩不低于90分的同学得奖金100元,否则得奖金50元,记ξ为这2人所得的总奖金,求ξ的分布列和数学期望.解析:(1)甲班高等数学成绩集中于60~90分之间,而乙班数学成绩集中于80~100分之间,所以乙班的平均分高.(2)P =C 11C 19C 210=15.(3)K 2=40×(13×27×20×20≈5.584>5.024,因此在犯错误的概率不超过0.025的前提下可以认为成绩优秀与教学方式有关.(4)由题可知ξ的可能取值为100,150,200.P ()ξ=100=C 25C 210=29,P ()ξ=150=C 15C 15C 210=59,P ()ξ=200=C 25C 210=29,所以ξ的分布列为:∴E (ξ)=100×29+150×9+200×9=150.。

2015年全国高考数学试题分类汇编考点42随机抽样用样本估计总体变量间的相关关系统计案例

2015年全国高考数学试题分类汇编考点42随机抽样用样本估计总体变量间的相关关系统计案例

考点42 随机抽样、用样本估计总体、变量间的相关关系、统计案例一、选择题1. (2015年四川高考文科·T3)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是 ( ) A.抽签法B.系统抽样法C.分层抽样法D.随机数法【试题解析】选C.因为题干中总体是由差异明显的三个部分组成的,所以选择分层抽样法.2.(2015·安徽高考理科·T6)若样本数据1x ,2x ,⋅⋅⋅,10x 的标准差为8,则数据121x -,221x -,⋅⋅⋅,1021x -的标准差为( )A.8B.15C.16D.32【解题指南】应用标准差、方差公式和性质计算标准差。

【试题解析】选C 。

样本数据1x ,2x ,⋅⋅⋅,10x 8,则DX =64,而样本数据121x -,221x -,⋅⋅⋅,1021x -的方差D (2X-1)=222264DX =⨯16=。

3. (2015年北京高考文科·T4)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取样本中,青年教师有320人,则该样本的老年教师人数为 ( ) A.90B.100C.180D.300【解题指南】分层抽样总体与样本中各层的比相同. 【试题解析】选C.设样本中老年教师人数为n 人,3201600900n=,解得n =180. 4.(2015年山东高考文科·T6)为比较甲、乙两地14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论: ①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为 ( ) A.①③B.①④C.②③D.②④【解题指南】由1255x x x x +++=和s =.【试题解析】选B. 2628293131295x ++++==甲,2829303132305x ++++==乙,s ==甲,s ==乙5.(2015年新课标全国卷Ⅱ理科·T3)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图,以下结论不正确的是 ( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【试题解析】选D.由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关.6.(2015年新课标全国卷Ⅱ文科·T3)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图,以下结论不正确的是 ( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【试题解析】选D.由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关. 7.(2015年湖北高考理科·T2)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( ) A.134石 B.169石 C.338石D.1 365石【解题指南】简单随机抽样,样本估计总体.【试题解析】选B.设这批米内夹谷x 石,则由题意知, 28,2541534=x即281534169.254=⨯≈x 8.(2015年湖北高考文科·T2)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( ) A.134石 B.169石 C.338石D.1 365石【试题解析】选B.设这批米内夹谷x 石,则由题意知,28,2541534=x 即281534169.254=⨯≈x 9. (2015·重庆高考理科·T3)重庆市2013年各月的平均气温(C ︒)数据的茎叶图如下: 0 8 9 1 5 82 0 03 3 83 1 2则这组数据的中位数是( ) A.19B.20C.21.5D.23【解题指南】直接利用中位数的概念进行计算即可.【试题解析】选B.由中位数的概念可知,该组数据的从小到大顺序排列的第6和第7个数据的平均数即所要求的中位数,为20.10. (2015·重庆高考文科·T4)同(2015·重庆高考文科·T3)重庆市2013年各月的平均气温(C ︒)数据的茎叶图如下: 0 8 9 1 5 82 0 03 3 8 3 1 2则这组数据的中位数是( ) A.19B.20C.21.5D.23【解题指南】直接利用中位数的概念进行计算即可.【试题解析】选B.由中位数的概念可知,该组数据的从小到大顺序排列的第6和第7个数据的平均数即所要求的中位数,为20.11.(2015年福建高考理科·T4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程=x +,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为 ( ) A.11.4万元B.11.8万元C.12.0万元D.12.2万元【解题指南】样本点的中心(,)一定在回归直线上.【试题解析】选B.由题意得1059.113.110.106.82.8_=++++=x ,858.95.80.85.72.6_=++++=y ,所以=8-0.76×10=0.4,所以=0.76x +0.4,把x =15代入得到=11.8.12. (2015年陕西高考理科·T2)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A.167B.137C.123D.93【解题指南】根据扇形统计图可得初中部女教师所占比例为70%,高中部女教师所占比例为40%,再用各自的总人数乘以所占的比例即可求得答案.【试题解析】选B.初中部女教师人数为110×70%=77,高中部女教师人数为150×40%=60,则该校女教师的人数为77+60=137,故B正确.13.(2015年陕西高考文科·T2)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A.93B.123C.137D.167【解题指南】根据扇形统计图可得初中部女教师所占比例为70%,高中部女教师所占比例为40%,再用各自的总人数乘以所占的比例即可求得答案.【试题解析】选C.初中部女教师人数为110×70%=77,高中部女教师人数为150×40%=60,则该校女教师的人数为77+60=137.14. (2015年湖北高考文科·T4)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关【试题解析】选C.因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y 与z 正相关,不妨设z =ky +b(k >0),则将y =-0.1x +1代入即可得到:z =k(-0.1x +1)+b =-0.1kx +(k +b),所以-0.1k <0,所以x 与z 负相关.二、填空题15.(2015年湖北高考文科·T14)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示. (1)直方图中的a = .(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .【解题指南】利用频率和为1,求得a,由消费金额在区间[0.5,0.9]内的频率,求得消费金额在区间[0.5,0.9]内的购物者的人数.【试题解析】由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a ×0.1=1,解得a =3,消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000. 答案:(1)3 (2)600016.(2015年福建高考文科·T13)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为 . 【解题指南】首先计算出男生人数,再计算出男女比例,从而确定抽取男生人数.【试题解析】由题意知,男生人数=900-400=500,所以抽取比例为男生︰女生=500∶400=5∶4,样本容量为45,所以抽取的男生人数为45×=25.答案:2517. (2015年江苏高考·T2)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为 . 【解题指南】利用平均数的概念计算即可. 【试题解析】12nx x x x n+++=,所以这组数据的平均数为46587666+++++=.答案:618. (2015年广东高考文科·T12)已知样本数据x 1,x 2,…,x n 的均值=5,则样本数据2x 1+1,2x 2+1,…,2x n +1的均值为 .【试题解析】因为样本数据x 1,x 2,…,x n 的均值=5,则样本数据2x 1+1,2x 2+1,…,2x n +1的均值为2+1=2×5+1=11. 答案:11三、解答题19. (2015年广东高考文科·T17)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x 的值.(2)求月平均用电量的众数和中位数.(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?【试题解析】(1)由(0.002+0.0095+0.011+0.0125+x +0.005+0.0025)×20=1得: x =0.0075,所以直方图中x 的值是0.0075. (2)月平均用电量的众数是2202402302+= 因为()0.0020.00950.011200.450.5++⨯=<,所以月平均用电量的中位数在[)220,240内,设中位数为a ,由()()0.0020.00950.011200.01252200.5a ++⨯+⨯-=得:224a =,所以月平均用电量的中位数是224(2)月平均用电量为[)220,240的用户有0.01252010025⨯⨯=户, 月平均用电量为[)240,260的用户有0.00752010015⨯⨯=户, 月平均用电量为[)260,280的用户有0.0052010010⨯⨯=户,月平均用电量为[]280,300的用户有0.0025201005⨯⨯=户, 抽取比例11125151055==+++,所以月平均用电量在[)220,240的用户中应抽取12555⨯=户。

【步步高】2015届高考数学总复习 第十一章 11.3变量间的相关关系、统计案例强化训练 理 北师大

【步步高】2015届高考数学总复习 第十一章 11.3变量间的相关关系、统计案例强化训练 理 北师大

§11.3 变量间的相关关系、统计案例1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.回归方程(1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑ni =1(x i-x )(y i-y )∑n i =1(x i-x )2=∑ni =1x i y i-n x y ∑n i =1x 2i-n x 2a =y -b x.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数①r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d n=a+b+c+d构造一个随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.1.判断下面结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.(×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.(√)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)2.下面哪些变量是相关关系( )A .出租车车费与行驶的里程B .房屋面积与房屋价格C .身高与体重D .铁块的大小与质量 答案 C3.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( ) A .有99%的人认为该电视栏目优秀B .有99%的人认为该电视栏目是否优秀与改革有关系C .有99%的把握认为该电视栏目是否优秀与改革有关系D .没有理由认为该电视栏目是否优秀与改革有关系 答案 D解析 只有χ2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使χ2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D 正确.4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”). 答案 有关5.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 用水量y4.5432.5由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^= -0.7x +a ,则a 等于( ) A .10.5 B .5.15 C .5.2 D .5.25 答案 D解析x =2.5,y =3.5,∵回归直线过定点(x ,y ), ∴3.5=-0.7×2.5+a .∴a =5.25,故选D.题型一 相关关系的判断例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.思维启迪将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.思维升华判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-i =1n (y i -y i ^)2i =1n (y i -y )2=1.题型二 线性回归分析例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y =bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?思维启迪 求线性回归方程的系数b ^时,为防止出错,应分别求出公式中的几个量,再代入公式.解 (1)散点图如图.(2)由表中数据得:∑i =14x i y i =52.5,x =3.5,y =3.5, i =14x 2i =54,∴b =0.7,∴a =1.05,∴y =0.7x +1.05,回归直线如图所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05, 故预测加工10个零件约需要8.05小时.思维升华 (1)线性回归方程y =bx +a 必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b =0.01,a =0.47,故线性回归方程为y =0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别男女是否需要志愿者需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪 直接计算χ2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.思维升华 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某中学对“学生性别和是否喜欢看NBA 比赛”作了一次调查,其中男生人数是女生人数的2倍,男生喜欢看NBA 的人数占男生人数的56,女生喜欢看NBA 的人数占女生人数的13.(1)若被调查的男生人数为n ,根据题意建立一个2×2列联表;(2)若有95%的把握认为是否喜欢看NBA 和性别有关,求男生至少有多少人? 解 (1)由已知得:喜欢看NBA不喜欢看NBA总计 男生 5n 6 n 6 n 女生 n 6 n 3 n 2 总计nn 23n 2(2)χ2=3n 2(5n 6·n 3-n 6·n 6)2n ·n 2·n 2·n =38n .若有95%的把握认为是否喜欢看NBA 和性别有关, 则χ2>3.841,即38n >3.841,n >10.24.∵n 2,n6为整数,∴n 最小值为12. 即:男生至少12人.统计中的数形结合思想典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示: 年收入x (万元) 24466677810年饮食支出y (万元)0.91.41.62.02.11.91.82.12.22.3(1)根据表中数据,确定家庭的年收入和年饮食支出的相关关系; (2)如果某家庭年收入为9万元,预测其年饮食支出.思维启迪 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性. 规X 解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a =y -b x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y =0.172x +0.798.[8分] (2)y =0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用. (3)本题易错点为散点图画的不准确,导致判断错误.方法与技巧1.求回归方程,关键在于正确求出系数a ,b ,由于a ,b 的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ,常数项为a ,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.3.根据χ2的值可以判断两个分类变量有关的可信程度.失误与防X1.相关关系与函数关系的区别:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.A组专项基础训练(时间:40分钟)一、选择题1.某地区调查了2~9岁的儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y =8.25x+60.13,下列叙述正确的是()A.该地区一个10岁儿童的身高为142.63 cmB.该地区2~9岁的儿童每年身高约增加8.25 cmC.该地区9岁儿童的平均身高是134.38 cmD.利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 B2.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3.(2012·某某)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于线性回归方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:χ2=110×(40×30-20×20)60×50×60×50≈7.8.下面结论正确的是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”答案 A解析根据独立性检验的定义,由χ2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.5.某产品的广告费用x与销售额y的统计数据如下表:6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案 B解析∵x=4+2+3+54=72,y=49+26+39+544=42,又y=bx+a必过(x,y),∴42=72×9.4+a,∴a=9.1.∴线性回归方程为y=9.4x+9.1.∴当x=6时,y=9.4×6+9.1=65.5(万元).二、填空题6.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y=0.2x+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;④对分类变量X与Y,它们的随机变量χ2来说,χ2越小,“X与Y有关系”的把握程度越大.答案②③解析①是系统抽样;对于④,随机变量χ2越小,说明两个相关变量有关系的把握程度越小.7.已知回归方程y=4.4x+838.19,则可估计x与y的增长速度之比约为________.答案5∶22解析x每增长1个单位,y增长4.4个单位,故增长的速度之比约为1∶4.4=5∶22.事实上所求的比值为回归直线方程斜率的倒数.8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案185解析儿子和父亲的身高可列表如下:父亲身高173170176儿子身高170176182设线性回归方程为y=a+bx,由表中的三组数据可求得b=1,故a=y-b x=176-173=3,故线性回归方程为y=3+x,将x=182代入得孙子的身高为185 cm.三、解答题9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90) [29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90) [29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂合计优质品非优质品合计附χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解 (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500=72%; 乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500=64%.(2)完成的2×2列联表如下:由表中数据计算得χ2=1 000×(360×180-320×140)2500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.10.(2013·某某)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b=l xyl xx =2480=0.3,a=y-b x=2-0.3×8=-0.4,故所求线性回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).B组专项能力提升(时间:30分钟)1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y=3-5x,变量x增加一个单位时,y平均增加5个单位;③回归方程y=bx+a必过(x,y);④有一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是()A.0 B.1 C.2 D.3答案 B解析一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x的系数具备直线斜率的功能,对于回归方程y=3-5x,当x增加一个单位时,y平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y=bx+a必过点(x,y),③正确;因为χ2=13.079>6.635,故有99%的把握确认这两个变量有关系,④正确.故选B.2.(2013·某某)已知x与y之间的几组数据如下表:(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b>b′,a>a′B.b>b′,a<a′C.b<b′,a>a′D.b<b′,a<a′答案 C解析b′=2,a′=-2,由公式b =i =16(x i -x )(y i -y )i =16(x i -x )2求得.b =57,a =y -b x =136-57×72=-13, ∴b <b ′,a >a ′.选C.3.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10 b 乙班 c 30 合计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75, 所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105×(10×30-20×45)255×50×30×75≈6.6>3.841,因此有95%的把握认为“成绩与班级有关系”.4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y =0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189答案 68解析 由已知可计算求出x =30,而必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则a+62+75+81+895=75,计算得a=68.5.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球总计男生20525女生101525总计302050则有________的把握认为喜爱打篮球与性别有关(请用百分数表示).答案0.5%解析χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=50×(20×15-5×10)225×25×30×20≈8.333>6.635,所以有99%的把握认为喜爱打篮球与性别有关.6.(2013·某某)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(χ2≥k)0.1000.0500.010k 2.706 3.841 6.635解(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706.所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.。

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1

变量间的相关关系与统计案例

变量间的相关关系与统计案例

变量间的相关关系与统计案例一、基础知识1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中(3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(1)(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n (y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:根据以上数据,绘制了散点图.参考数据:其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v ∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v ∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法][题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25,所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y ∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解:(1)“理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多. 理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05. 理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5. (2)2×2列联表如下:由上表数据可得K 2=40×(10×4-10×16)20×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。

2015高考数学一轮课件:11.3 变量间的相关关系、统计案例

2015高考数学一轮课件:11.3 变量间的相关关系、统计案例

与角度、体积有关的几何概型
【例 3】 如图所示,在△ABC 中, 思维启迪
解析
探究提高
∠B=60°,∠C=45°,高 AD= 根据“在∠BAC 内作射线 AM”可
3,在∠BAC 内作射线 AM 交 知,本题的测度是角度.
BC 于点 M,求 BM<1 的概率.
基础知识
题型分类
思想方法
练出高分 第二十四页,编辑于星期五:十三点 十一分。
件所占区域和整个 区域 Ω 的几何度量, 然后代入公式即可 求解.
基础知识
题型分类
思想方法
练出高分 第三页,编辑于星期五:三点 十一分。
基础知识·自主学习
要点梳理
3.要切实理解并掌握几何概型试 验的两个基本特点 (1)无限性:在一次试验中,可能 出现的结果有 无限多个 ; (2)等可能性:每个结果的发生具 有 等可能性 .
基础知识
题型分类
思想方法
练出高分 第十二页,编辑于星期五:十三点 十一分。
题型分类·深度剖析
题型一
与长度有关的几何概型
【例 1】 在集合 A={m|关于 x 的 思维启迪 解析 答案 探究提高 方程 x2+mx+34m+1=0 无实 由 Δ=m2-443m+1<0 得-1<m<4. 根}中随机地取一元素 m,恰使 即 A={m|-1<m<4}.
变式训练 1 在半径为 1 的圆内一条直径上任取一点,过这个点作垂直 1
于直径的弦,则弦长超过圆内接等边三角形边长的概率是____2____.
解析 记事件 A 为“弦长超过圆内接等边三角形的边 长”,如图,不妨在过等边三角形 BCD 的顶点 B 的直径 BE 上任取一点 F 作垂直于直径的弦,当弦为 CD 时,就 是等边三角形的边长(此时 F 为 OE 中点),弦长大于 CD 的充要条件 是圆心 O 到弦的距离小于 OF,由几何概型公式得:P(A)=12×2 2=12.

2015届高考数学(人教A版·文科)总复习配套课件:9-4 变量间的相关关系、统计案例

• 共同点:二者都是指两个变量间的关系.
• 不同点:函数关系是一种确定性关系,体 现的是因果关系;而相关关系是一种非确 定性关系,体现的不一定是因果关系,可 能是伴随关系.
• 1.下面哪些变量是相关关系( ) • A.出租车车费与行驶的里程 • B.房屋面积与房屋价格 • C.身高与体重 • D.铁块的大小与质量 • 解析:A,B,D都是函数关系,其中A一
• (1)根据以上数据完成下列2×2列联表:
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分 析.
• 解析:(1)2×2列联表如下:
——统计与概率的综合问题
• 从近两年高考看,以考查独立性检验,回 归分析为主,多为选择题、填空题,也可 能以解答题形式考查,主要以实际问题为 背景,考查阅读理解、分析问题、解决问 题的能力,在解决一些简单实际问题的过 程中考查基本的统计思想.
• (1)画出散点图; • (2)求回归直线方程.
独立性检验
• 【例3】 (2014年石家庄高三模拟)为了调 查某大学学生在周日上网的时间,随机对 100名男生和100名女生进行了不记名的问 卷调查,得到了如下的统计结果:
• 表1:男生上网时间与频数分布表
• (1)若该大学共有女生750人,试估计其中 上网时间不少于60分钟的人数;
第四节 变量间的相关关系、统计案 例
[最新考纲展示] 1.会作两个相关变量的数据的散点图,会
利用散点图认识变量间的相关关系. 2. 了解最小二乘法的思想,能根据给出的线 性回归方程系数公式建立线性回归方程.
变量间的相关关系
• 1.常见的两变量之间的关系有两类:一
相类关是关系函数关系,另一类相是关关系
• (2)完成下面的2×2列联表,并回答能否有 90%的把握认为“大学生周日上网时间与 性别有关”?

高考文科数学变量间相关关系与统计案例考点讲解


高考复习讲义 考点全通关 11
返回目录
变量间的相关关系与统计案例
通关秘籍
1.通常认为k≤2.706时,样本数据就没有充分的证据显示“X与Y有关 2.独立性检验得出的结论是带有概率性质的,只能说结论成立的概率 能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注 2小.速,因率为是对平瞬某均时个速速问率度题是的下路大确程小定与,性但时结平间论均的,速否比率则值不就,它是可与平能平均对均速统速度计度的计的大算的结果作出错误的 大小没有对应关系.
所有理想化模型均忽略对所研究问 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
高考复习讲义 考点全通关 4 3.两个变量的线性相关
考点一 回归分析
变量间的相关关系与统计案例
如果散点图中点的分布从整体上看大致在一条直线附近,则这两个变量之间具有线性相关关 系,这条直线叫做回归直线.回归直线对应的方程叫做回归直线方程(简称回归方程).
P(K2≥k0) 0.05 0.025 0.010
所有理想化k0模型均忽3.8略41对所5.研02究4 问6.635 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
0.005 0.001 7.879 10.828
高考复习讲义 考点全通关 10 3.独立性检验的一般步骤
所有理想化模型均忽略对所研究问 题无影响的因素,是研究问题的一种 理想方法.在高中学习的理想模型还 有:点电荷、理想气体、弹簧振子、 点光源等.
高考复习讲义 考点全通关 2 1.变量间的相关关系
通关秘籍
考点一 回归分析
变量间的相关关系与统计案例

2015届高三数学一轮课件:10.11 变量间的相关关系与统计案例


10
10
10
10
i∑=1xi=80,i∑=1yi=20,i∑=1xiyi=184,i∑=1xi2=720.
(1)求家庭的月储蓄 y 对月收入 x 的线性回归方程 y=bx+a;
(2)判断变量 x 与 y 之间是正相关还是负相关;
(3)若该居民区某家庭月收入为 7 千元,预测该家庭的月储蓄.
n
附:线性回归方程 y=bx+a 中,b=i∑=i∑=n11xxiyi2-i-nnxx2y,a=y-bx,
过点( )
x0123
y1357
A.(2,2)
B.(1.5,2)
C.(1,2) 答案:D
D.(1.5,4)
解析:由题意知线性回归方程必过点(x, y), 可求得x = 0+1+42+3=1.5,y = 1+3+45+7=4, 所以线性回归方程必过点(1.5,4).
基础梳理 自我检测
第六页,编辑于星期五:八点 三十五分。
题型一 题型二
第十九页,编辑于星期五:八点 三十五分。
第11讲 变量间的相关关系与统计案例 1
考纲考向 考点基础
2
3
4
5
重点难点
20
随堂演练
1.两个变量之间的相关关系是一种( ) A.确定性关系 B.线性关系 C.非线性关系 D.可能是线性关系也可能不是线性关系 答案:D 解析:变量之间的相关关系是一种非确定性的关系,如果所有数据点都在一 条直线附近,那么它们之间就是一种线性相关关系,否则不是线性相关关系.
根据上表可得回归方程^y =^bx+^a 中的^b为 9.4,据此模型预报广告费用为 6万
元时销售额约为

变量间相关关系统计案例

1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。

基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

11.4变量间的相关关系与统计案例
考点一变量间的相关关系
1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案C
8.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(x i-)2(w i-)2(x i-)(y i-)(w i-)(y i-) 46.6563 6.8289.8 1.61469108.8
表中w i=,=w i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
的斜率和截距的最小附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu
二乘估计分别为
=,=-.
解析(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.(6分)
(3)(i)由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.(9分)
(ii)根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.(12分)
9.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份20102011201220132014时间代号t12345
储蓄存款y(千亿元)567810
(1)求y关于t的回归方程=t+;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程=t+中,
==-.
解析(1)列表计算如下:
i t i y i t i y i
11515
226412
337921
4481632
55102550
153655120
这里n=5,=t i==3,=y i==7.2.
又l tt=-n=55-5×32=10,l ty=t i y i-n=120-5×3×7.2=12,
3=3.6,
从而===1.2,=-=7.2-1.2×
故所求回归方程为=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为
=1.2×6+3.6=10.8(千亿元).。

相关文档
最新文档