高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系统计案例教学案文含解析北师大版

合集下载

[推荐学习]全国通用2018高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计

第四节变量间的相关关系与统计案例———————————————————————————————— [考纲传真] 1.会做两个有关联变量的数据的散点图，并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想，能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用．1．回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法；判断相关性的常用统计图是散点图；统计量有相关系数与相关指数．(1)在散点图中，点散布在从左下角到右上角的区域，对于两个变量的这种相关关系，我们将它称为正相关．(2)在散点图中，点散布在从左上角到右下角的区域，两个变量的这种相关关系称为负相关．(3)如果散点图中点的分布从整体上看大致在一条直线附近，称两个变量具有线性相关关系．2．线性回归方程(1)最小二乘法：使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法．(2)回归方程：两个具有线性相关关系的变量的一组数据：(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )，其回归方程为y ^＝b ^x ＋a ^，则b ^＝∑ni ＝1x i －x y i －y ∑ni ＝1 x i －x 2＝∑ni ＝1x i y i －n x y ∑ni ＝1x 2i －n x2，a ^＝y －b ^x .其中，b ^是回归方程的斜率，a ^是在y 轴上的截距．3．残差分析(1)残差：对于样本点(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )，它们的随机误差为e i ＝y i －bx i－a ，i ＝1,2，…，n ，其估计值为e ^i ＝y i －y ^i ＝y i －b ^x i －a ^，i ＝1,2，…，n ，e ^i 称为相应于点(x i ，y i )的残差．(2)相关指数：R 2＝1－∑ni ＝1y i －y ^i 2∑ni ＝1y i －y2.4．独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验． (2)列联表：列出的两个分类变量的频数表，称为列联表．假设有两个分类变量X 和Y ，它们的可能取值分别为{x 1，x 2}和{y 1，y 2}，其样本频数列联表(2×2列联表)为则随机变量K 2＝a ＋ba ＋cb ＋dc ＋d(其中n ＝a ＋b ＋c ＋d 为样本容量)．1．(思考辨析)判断下列结论的正误．(正确的打“√”，错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系．( ) (2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系，得回归方程y ^＝－2.352x ＋147.767，则气温为2℃时，一定可卖出143杯热饮．( )(3)因为由任何一组观测值都可以求得一个线性回归方程，所以没有必要进行相关性检验．( )(4)若事件X ，Y 关系越密切，则由观测数据计算得到的K 2的观测值越小．( ) [答案] (1)√ (2)× (3)× (4)×2．(教材改编)已知变量x 与y 正相关，且由观测数据算得样本平均数x ＝3，y ＝3.5，则由该观测数据算得的线性回归方程可能是( )A.y ^＝0.4x ＋2.3 B.y ^＝2x －2.4 C.y ^＝－2x ＋9.5D.y ^＝－0.3x ＋4.4A [因为变量x 和y 正相关，排除选项C ，D.又样本中心(3,3.5)在回归直线上，排除B ，选项A 满足．]3．(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位：万吨)柱形图，以下结论中不正确的是( )图941A．逐年比较，2008年减少二氧化硫排放量的效果最显著B．2007年我国治理二氧化硫排放显现成效C．2006年以来我国二氧化硫年排放量呈减少趋势D．2006年以来我国二氧化硫年排放量与年份正相关D[对于A选项，由图知从2007年到2008年二氧化硫排放量下降得最多，故A正确．对于B选项，由图知，由2006年到2007年矩形高度明显下降，因此B正确．对于C选项，由图知从2006年以后除2011年稍有上升外，其余年份都是逐年下降的，所以C正确．由图知2006年以来我国二氧化硫年排放量与年份负相关，故选D.]4．为了评价某个电视栏目的改革效果，在改革前后分别从居民点抽取了100位居民进行调查，经过计算K2≈0.99，根据这一数据分析，下列说法正确的是( ) A．有99%的人认为该电视栏目优秀B．有99%的人认为该电视栏目是否优秀与改革有关系C．有99%的把握认为该电视栏目是否优秀与改革有关系D．没有理由认为该电视栏目是否优秀与改革有关系D[只有K2≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”，而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论，与是否有99%的人等无关，故只有D正确．]5．(2017·贵阳检测)若8名学生的身高和体重数据如下表：第3名学生的体重漏填，但线性回归方程是y＝0.849x－85.712，则第3名学生的体重估计为________kg.50 [设第3名学生的体重为a，则1 8(48＋57＋a＋54＋64＋61＋43＋59)＝0.849×18(165＋165＋157＋170＋175＋165＋155＋170)－85.712.解得a≈50.]＋1，变量y与z正相关．下列结论中正确的是( )A ．x 与y 正相关，x 与z 负相关B ．x 与y 正相关，x 与z 正相关C ．x 与y 负相关，x 与z 负相关D ．x 与y 负相关，x 与z 正相关(2)x 和y 的散点图如图942所示，则下列说法中所有正确命题的序号为________．图942①x ，y 是负相关关系；②在该相关关系中，若用y ＝c 1e c 2x 拟合时的相关指数为R 21，用y ^＝b ^x ＋a ^拟合时的相关指数为R 22，则R 21＞R 22；③x ，y 之间不能建立线性回归方程．(1)C (2)①② [(1)因为y ＝－0.1x ＋1的斜率小于0，故x 与y 负相关．因为y 与z 正相关，可设z ＝b ^y ＋a ^，b ^>0，则z ＝b ^y ＋a ^＝－0.1b ^x ＋b ^＋a ^，故x 与z 负相关．(2)在散点图中，点散布在从左上角到右下角的区域，因此x ，y 是负相关关系，故①正确；由散点图知用y ＝c 1e c 2x 拟合比用y ^＝b ^x ＋a ^拟合效果要好，则R 21＞R 22，故②正确；x ，y 之间可以建立线性回归方程，但拟合效果不好，故③错误．][规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法．如果所有的样本点都落在某一函数的曲线附近，变量之间就有相关关系．如果所有的样本点都落在某一直线附近，变量之间就有线性相关关系．若点散布在从左下角到右上角的区域，则正相关，若点散布在左上角到右下角的区域，则负相关．2．利用相关系数判定，当|r |越趋近于1，相关性越强．当残差平方和越小，相关指数R 2越大，相关性越强．[变式训练1] 甲、乙、丙、丁四位同学各自对A ，B 两变量的线性相关性做试验，并用回归分析方法分别求得相关系数r 与残差平方和m 如下表：A ．甲B ．乙C ．丙D ．丁D [在验证两个变量之间的线性相关关系时，相关系数的绝对值越接近于1，相关性越强，在四个选项中只有丁的相关系数最大；残差平方和越小，相关性越强，只有丁的残差平方和最小，综上可知丁的试验结果体现了A ，B 两变量有更强的线性相关性．](单位：亿吨)的折线图．图943注：年份代码1～7分别对应年份2008～2014.(1)由折线图看出，可用线性回归模型拟合y 与t 的关系，请用相关系数加以说明； (2)建立y 关于t 的回归方程(系数精确到0.01)，预测2016年我国生活垃圾无害化处理量．参考数据：∑ 7i ＝1y i ＝9.32，∑7i ＝1t i y i ＝40.17，∑7i ＝1y i －y2＝0.55，7≈2.646.参考公式：相关系数r＝∑ni ＝1t i －ty i －y∑ni＝1t i －t2∑n i ＝1y i －y2，回归方程y ^＝a ^＋b ^t 中斜率和截距的最小二乘估计公式分别为b ^＝∑ni ＝1t i －ty i －y∑ ni ＝1t i －t2，a ^＝y －－b ^t .[解] (1)由折线图中的数据和附注中的参考数据得 t ＝4，∑ 7i ＝1(t i －t )2＝28，∑7i ＝1y i －y2＝0.55，2分∑7i ＝1(t i －t )(y i －y )＝∑ 7i ＝1t i y i －t ∑7i ＝1y i ＝40.17－4×9.32＝2.89，所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99，说明y 与t 的线性相关程度相当大，从而可以用线性回归模型拟合y 与t 的关系.5分(2)由y ＝9.327≈1.331及(1)得b ^＝∑ 7i ＝1t i －ty i －y∑7i ＝1t i －t2＝2.8928≈0.103.8分 a ^＝y －b ^t ≈1.331－0.103×4≈0.92.所以y 关于t 的回归方程为y ^＝0.92＋0.10t .10分将2016年对应的t ＝9代入回归方程得y ^＝0.92＋0.10×9＝1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分[规律方法] 1.在分析实际中两个变量的相关关系时，可根据样本数据作出散点图来确定两个变量之间是否具有相关关系，也可计算相关系数r 进行判断．若具有线性相关关系，则可通过线性回归方程估计和预测变量的值．2．(1)正确运用计算b ^，a ^的公式和准确的计算，是求线性回归方程的关键．(2)回归直线y ^＝b ^x ＋a ^必过样本点的中心(x ，y )．[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位：千元)的数据如下表：(2)利用(1)中的回归方程，分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况，并预测该地区2015年农村居民家庭人均纯收入．附：回归直线的斜率和截距的最小二乘估计公式分别为：b ^＝∑ni ＝1t i －t－y i －y－∑ni ＝1t i －t－2，a ^＝y －－b ^t －.[解] (1)由所给数据计算得t －＝17(1＋2＋3＋4＋5＋6＋7)＝4，y －＝17(2.9＋3.3＋3.6＋4.4＋4.8＋5.2＋5.9)＝4.3，∑7i ＝1 (t i －t －)2＝9＋4＋1＋0＋1＋4＋9＝28，3分∑7i ＝1(t i －t －)(y i －y －)＝(－3)×(－1.4)＋(－2)×(－1)＋(－1)×(－0.7)＋0×0.1＋1×0.5＋2×0.9＋3×1.6＝14，b ^＝∑7i ＝1t i －t－y i －y－∑7i ＝1t i －t－2＝1428＝0,5， a ^＝y －－b ^t －＝4.3－0.5×4＝2.3，所求回归方程为y ^＝0.5t ＋2.3.6分(2)由(1)知，b ^＝0.5>0，故2007年至2013年该地区农村居民家庭人均纯收入逐年增加，平均每年增加0.5千元.9分将2015年的年份代号t ＝9代入(1)中的回归方程，得 y ^＝0.5×9＋2.3＝6.8，故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分10 500人，女生4 500人．为调查该校学生每周平均体育运动时间的情况，采用分层抽样的方法，收集300位学生每周平均体育运动时间的样本数据(单位：小时)．(1)应收集多少位女生的样本数据？(2)根据这300个样本数据，得到学生每周平均体育运动时间的频率分布直方图(如图944所示)，其中样本数据的分组区间为：[0,2]，(2,4]，(4,6]，(6,8]，(8,10]，(10,12]．估计该校学生每周平均体育运动时间超过4小时的概率；【导学号：31222369】图944(3)在样本数据中，有60位女生的每周平均体育运动时间超过4小时，请完成每周平均体育运动时间与性别列联表，并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附：K 2＝a ＋bc ＋d a ＋cb ＋d.[解] (1)利用分层抽样，300×4 50015 000＝90，所以应收集90位女生的样本数据.4分(2)由频率分布直方图得1－2×(0.025＋0.100)＝0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.8分(3)由(2)知，300位学生中有300×0.75＝225人的每周平均体育运动时间超过4小时，75人的每周平均体育运动时间不超过4小时.10分又因为样本数据中有210份是关于男生的，90份是关于女生的，所以每周平均体育运动时间与性别列联表如下：每周平均体育运动时间与性别列联表k ＝－275×225×210×90＝10021≈4.762＞3.841. 所以，有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分 [规律方法] 1.在2×2列联表中，如果两个变量没有关系，则应满足ad －bc ≈0.|ad －bc |越小，说明两个变量之间关系越弱；|ad －bc |越大，说明两个变量之间关系越强．2．解决独立性检验的应用问题，一定要按照独立性检验的步骤得出结论．独立性检验的一般步骤：(1)根据样本数据制成2×2列联表； (2)根据公式K 2＝n ad －bc 2a ＋ba ＋cb ＋dc ＋d计算K 2的观测值k ；(3)比较k 与临界值的大小关系，作统计推断．[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营，为此召开了一个价格听证会，拟定价格后又进行了一次调查，随机抽查了50人，他们的收入与态度如下；与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数)；(2)由以上统计数据填下面2×2列联表，分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附：K 2＝a ＋bc ＋d a ＋c a ＋d.[解] x 1＝20×1＋30×2＋40×3＋50×5＋60×3＋70×41＋2＋3＋5＋3＋4≈50.56.“认为价格偏高者”的月平均收入为x 2＝20×4＋30×8＋40×12＋50×5＋60×2＋70×14＋8＋12＋5＋2＋1＝38.75，∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1－x 2＝50.56－38.75＝11.81(百元).5分(2)根据条件可得2×2列联表如下：K2＝≈6.27＜6.635，10×40×18×32∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.12分[思想与方法]1．回归分析是处理变量相关关系的一种数学方法．主要解决：(1)确定特定量之间是否有相关关系，如果有就找出它们之间贴近的数学表达式；(2)根据一组观察值，预测变量的取值及判断变量取值的变化趋势；(3)求出线性回归方程．2．根据K2的值可以判断两个分类变量有关的可信程度．[易错与防范]1．回归分析是对具有相关关系的两个变量进行统计分析的方法，只有在散点图大致呈线性时，求出的线性回归方程才有实际意义，否则，求出的线性回归方程毫无意义．根据回归方程进行预报，仅是一个预报值，而不是真实发生的值．2．独立性检验中统计量K2的观测值k的计算公式很复杂，在解题中易混淆一些数据的意义，代入公式时出错，而导致整个计算结果出错．课时分层训练(五十七)变量间的相关关系与统计案例A组基础达标(建议用时：30分钟)一、选择题1．四名同学根据各自的样本数据研究变量x ，y 之间的相关关系，并求得回归直线方程，分别得到以下四个结论：①y 与x 负相关且y ^＝2.347x －6.423；②y 与x 负相关且y ^＝－3.476x ＋5.648；③y 与x 正相关且y ^＝5.437x ＋8.493；④y 与x 正相关且y ^＝－4.326x －4.578.其中一定不正确．．．的结论的序号是 ( ) A ．①② B ．②③ C ．③④D ．①④D [由正负相关性的定义知①④一定不正确．]2．两个变量y 与x 的回归模型中，分别选择了4个不同模型，它们的相关指数R 2如下，其中拟合效果最好的模型是 ( )A ．模型1的相关指数R 2为0.98 B ．模型2的相关指数R 2为0.80 C ．模型3的相关指数R 2为0.50 D ．模型4的相关指数R 2为0.25A [相关指数R 2越大，拟合效果越好，因此模型1拟合效果最好．]3．第31届夏季奥林匹克运动会，中国获26金，18银，26铜共70枚奖牌居奖牌榜第二，并打破3次世界记录．由此许多人认为中国进入了世界体育强国之列，也有许多人持反对意见．有网友为此进行了调查，在参加调查的2 548名男性公民中有1 560名持反对意见，2 452名女性公民中有1 200人持反对意见，在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时，用什么方法最有说服力( )A ．平均数与方差B ．回归直线方程C ．独立性检验D ．概率C [由于参加讨论的公民按性别被分成了两组，而且每一组又被分成了两种情况：认为有关与无关，故该资料取自完全随机统计，符合2×2列联表的要求．故用独立性检验最有说服力．]4．(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系，随机调查了该社区5户家庭，得到如下统计数据表：根据上表可得回归直线方程y ＝b x ＋a ，其中b ＝0.76，a ＝y －b x .据此估计，该社区一户年收入为15万元家庭的年支出为( )A ．11.4万元B ．11.8万元C ．12.0万元D ．12.2万元B [由题意知，x ＝8.2＋8.6＋10.0＋11.3＋11.95＝10，y ＝6.2＋7.5＋8.0＋8.5＋9.85＝8，∴a ^＝8－0.76×10＝0.4，∴当x ＝15时，y ^＝0.76×15＋0.4＝11.8(万元)．]5．通过随机询问110名性别不同的大学生是否爱好某项运动，得到如下的列联表：由K 2＝n a ＋bc ＋d a ＋cb ＋d，算得K 2＝－260×50×60×50≈7.8.附表：A ．在犯错误的概率不超过0.1%的前提下，认为“爱好该项运动与性别有关”B ．在犯错误的概率不超过0.1%的前提下，认为“爱好该项运动与性别无关”C ．有99%以上的把握认为“爱好该项运动与性别有关”D ．有99%以上的把握认为“爱好该项运动与性别无关”C [根据独立性检验的定义，由K 2≈7.8＞6.635，可知我们在犯错误的概率不超过0.01的前提下，即有99%以上的把握认为“爱好该项运动与性别有关”．]二、填空题6．(2017·西安质检)某车间为了规定工时定额，需要确定加工零件所花费的时间，为此进行了5次试验．根据收集到的数据(如下表)，由最小二乘法求得回归方程y ^＝0.67x ＋54.9.【导学号：31222370】68 [由x ＝30，得y ＝0.67×30＋54.9＝75. 设表中的“模糊数字”为a ，则62＋a ＋75＋81＋89＝75×5，即a ＝68.]7．为了判断高中三年级学生是否选修文科与性别的关系，现随机抽取50名学生，得到如下2×2列联表：已知P (K 2根据表中数据，得到K 2＝－223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________．5% [∵K 2≈4.844，根据假设检验的基本原理，应该断定“是否选修文科与性别之间有关系”成立，并且这种判断出错的可能性约为5%.]8．(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系，随机统计了某4天的用电量与当天气温，并制作了对照表：由表中数据得回归直线方程y ＝b x ＋a 中的b ＝－2，预测当气温为－4 ℃时，用电量为________℃.【导学号：31222371】68 [根据题意知x ＝18＋13＋10＋－4＝10，y ＝24＋34＋38＋644＝40，因为回归直线过样本点的中心，所以a ^＝40－(－2)×10＝60，所以当x ＝－4时，y ＝(－2)×(－4)＋60＝68，所以用电量为68度．]三、解答题9．(2017·石家庄质检)微信是现代生活进行信息交流的重要工具，据统计，某公司200名员工中90%的人使用微信，其中每天使用微信时间在一小时以内的有60人，其余的员工每天使用微信的时间在一小时以上，若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段，那么使用微信的人中75%是青年人．若规定：每天使用微信时间在一小时以上为经常使用微信，那么经常使用微信的员工中23是青年人．(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系，列出2×2列联表：(2)关”？附：K 2＝n ad －bc 2a ＋bc ＋d a ＋cb ＋d.[解] (1)180(人)，经常使用微信的有180－60＝120(人)，其中青年人有120×23＝80(人)，使用微信的人中青年人有180×75%＝135(人)，所以2×2列联表：5分(2)将列联表中数据代入公式可得：K 2＝－2120×60×135×45≈13.333，由于13.333＞10.828，所以有99.9%的把握认为“经常使用微信与年龄有关” .12分 10．为了研究某种细菌在特定环境下随时间变化的繁殖情况，得如下试验数据：(1)求y (2)利用(1)中的回归方程，预测t ＝8时的细菌繁殖个数．附：回归直线的斜率和截距的最小二乘法估计公式分别为：b ^＝∑ni ＝1t i －ty i －y∑ni ＝1t i －t2，a ^＝y －b ^t .[解] (1)由表中数据计算得，t ＝5，y ＝4，∑ni ＝1(t i －t )(y i －y )＝8.5，∑ni ＝1(t i －t )2＝10，2分b ^＝∑ni ＝1t i －ty i －y∑ni ＝1t i －t2＝0.85，a ^＝y －b ^t ＝4－0.85×5＝－0.25.所以回归方程为y ^＝0.85t －0.25.5分 (2)将t ＝8代入(1)的回归方程中得 y ^＝0.85×8－0.25＝6.55.10分故预测t ＝8时，细菌繁殖个数为6.55千个.12分B 组能力提升 (建议用时：15分钟)1．根据如下样本数据：得到的回归方程为y ＝bx ＋a ，则( ) A ．a ＞0，b ＞0 B ．a ＞0，b ＜0 C ．a ＜0，b ＞0 D ．a ＜0，b ＜0B [作出散点图如下：观察图象可知，回归直线y ^＝bx ＋a 的斜率b ＜0，当x ＝0时，y ^＝a ＞0.故a ＞0，b ＜0.] 2．(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关，某数学兴趣小组为了验证这个结论，从所在学校中按分层抽样的方法抽取50名同学(男30女20)，给所有同学几何题和代数题各一题，让各位同学自由选择一道题进行解答．选题情况如下表：(单位：人)根据上述数据，过________．附表：k ＝－230×20×20×30≈5.556＞5.024，∴推断犯错误的概率不超过0.025.]3．(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费，需了解年宣传费x (单位：千元)对年销售量y (单位：t)和年利润z (单位：千元)的影响．对近8年的年宣传费x i 和年销售量y i (i ＝1,2，…，8)数据作了初步处理，得到下面的散点图及一些统计量的值．图945表中w i ＝x i ，w ]＝8∑ i ＝1w i .(1)根据散点图判断，y ＝a ＋bx 与y ＝c ＋d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型？(给出判断即可，不必说明理由)(2)根据(1)的判断结果及表中数据，建立y 关于x 的回归方程；(3)已知这种产品的年利润z 与x ，y 的关系为z ＝0.2y －x .根据(2)的结果回答下列问题：①年宣传费x ＝49时，年销售量及年利润的预报值是多少？ ②年宣传费x 为何值时，年利润的预报值最大？附：对于一组数据(u 1，v 1)，(u 2，v 2)，…，(u n ，v n )，其回归直线v ＝α＋βu 的斜率和截距的最小二乘估计分别为β^＝∑ni ＝1u i －u v i －v ∑ni ＝1u i －u2，α^＝v －β^u .[解] (1)由散点图可以判断，y ＝c ＋d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.4分(2)令w ＝x ，先建立y 关于w 的线性回归方程．由于d ^＝∑i ＝18w i －wy i －y∑i ＝18w i －w2＝108.81.6＝68， c ^＝y －d ^w ＝563－68×6.8＝100.6，所以y 关于w 的线性回归方程为y ^＝100.6＋68w ，因此y 关于x 的回归方程为y ^＝100.6＋68x .8分 (3)①由(2)知，当x ＝49时，年销售量y 的预报值y ^＝100.6＋6849＝576.6，年利润z 的预报值z ^＝576.6×0.2－49＝66.32. ②根据(2)的结果知，年利润z 的预报值 z ^＝0.2(100.6＋68x )－x ＝－x ＋13.6x ＋20.12.10分所以当x ＝13.62＝6.8，即x ＝46.24时，z ^取得最大值．故年宣传费为46.24千元时，年利润的预报值最大.12分。

2019年高考数学人教版理科一轮复习课件：第9章算法初步、统计、统计案例 4 变量间的相关关系与统计案例

解析：由公式可得 K2≈8.333>7.879，故填 0.005。答案：0.005
[知识重温] 一、必记 4●个知识点 1．两个变量的线性相关 (1)正相关在散点图中，点散布在从左下角到右上角的区域，对于两个变量的这种相关关系，我们将它称为正相关。 (2)负相关在散点图中，点散布在从左上角到右下角的区域，两个变量的这种相关关系称为负相关。 (3)线性相关关系、回归直线一条直线附近，就如果散点图中点的分布从整体上看大致在①__________ 称这两个变量之间具有线性相关关系，这条直线叫做回归直线。
4．若 8 名学生的身高和体重数据如下表： 1 2 3 4 5 6 7 8 编号身高/cm 165 165 157 170 175 165 155 170 54 64 61 43 59 体重/kg 48 57 第 3 名学生的体重漏填，但线性回归方程是^ y＝0.849x－85.712，则第 3 名学生的体重估计为________。解析：设第 3 名学生的体重为 a，根据样本点的中心一定在回归直线上，可得 48＋57＋a＋54＋64＋61＋43＋59 ＝0.849× 8 165＋165＋157＋170＋175＋165＋155＋170 －85.712， 8 解得 a≈50。答案：50 kg
解析：由样本的中心( x ， y )落在回归直线上可知 A 正确；x 和 y 的相关系数表示为 x 与 y 之间的线性相关程度，不表示直线 l 的斜率，故 B 错；x 和 y 的相关系数应在－1 到 1 之间，故 C 错；分布在回归直线两侧的样本点的个数并不绝对平均，即无论样本点个数是奇数还是偶数，故 D 错。
[小题热身] 1．思考辨析(正确的打“√”，错误的打“×”) (1)相关关系的两个变量是非确定关系。( √ ) (2)散点图中的点越集中，两个变量的线性相关性越强。( × ) (3)对于分类变量 X 与 Y，它们的随机变量 K2 的观测值越小。“X 与 Y 有关联”的把握程度越大。( × )

高考数学一轮复习 9-4 变量间的相关关系及统计案例课件理新人教A版

(3)线性回归方程 y＝a^＋b^x 必定过点( x ， y )．( )
答案：(1)√ (2)× (3)√
4．已知线性回归方程为y＝0.50x－0.81，则当x＝25时，y的估计值为________．
解析：把x＝25代入方程，得y＝11.69. 答案：11.69
三、独立性检验 5．判断下列结论的正误．(正确的打“√”，错误的打“×”) (1)事件X，Y关系越密切，则由观测数据计算得到的K2的观测值越大．( ) (2)由独立性检验可知，有99%的把握认为物理成绩优秀与数学成绩有关，某人数学成绩优秀，则他有99%的可能物理优秀．( ) 答案：(1)√ (2)×
6．下面是2×2列联表：
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a，b的值分别为( )
A．94,72
B．52,50
C．52,74
D．74,52
解析：∵a＋21＝73，∴a＝52，又a＋22＝b，∴b＝74.
答案：C
相关关系的判断(自主探究)
例1 (1)对变量x，y有观测数据(xi，yi)(i＝1,2，…，10)，得散点图 (1) ；对变量 u 、 v 有观测数据 (ui ， vi)(i ＝ 1,2 ， … ， 10) ，得散点图 (2)．由这两个散点图可以判断( )
2.K2 统计量 K2＝a＋bcn＋add－ab＋cc2b＋d(其中 n＝a＋b＋c＋d 为样本容量)．
1．易混淆相关关系与函数关系，两者的区别是函数关系是一种确定的关系，而相关关系是一种非确定的关系，函数关系是一种因果关系，而相关关系不一定是因果关系，也可能是伴随关系．

高考新坐标(教师用书)届高考数学总复习第九章算法初步、统计与统计案例【含答案】

第九章算法初步、统计与统计案例第一节算法与程序框图[考纲传真]1．了解算法的含义，了解算法的思想． 2.理解程序框图的三种基本逻辑结构：顺序、条件、循环． 3.理解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句的含义．1．算法(1)算法通常是指按照一定规则解决某一类问题的明确和有限的步骤．(2)应用：算法通常可以编成计算机程序，让计算机执行并解决问题．2．程序框图定义：程序框图又称流程图，是一种用程序框、流程线及文字说明来表示算法的图形．3．三种基本逻辑结构及相应语句1．(夯基释疑)判断下列结论的正误．(正确的打“√”，错误的打“×”) (1)程序框图中的图形符号可以由个人来确定．( )(2)一个程序框图一定包含顺序结构，但不一定包含条件结构和循环结构．( ) (3)5＝x 是赋值语句．( )(4)输入语句可以同时给多个变量赋值．( )[解析] 图形符号不能个人确定，(1)不正确；赋值语句只能给变量赋值，(3)不正确． [答案] (1)× (2)√ (3)× (4)√2．(教材改编)根据给出的程序框图，计算f(－1)＋f(2)＝( )图911A ．0B ．1C ．2D ．4[解析] 输入－1，满足x≤0，所以f(－1)＝4×(－1)＝－4；输入2，不满足x≤0，所以f(2)＝22＝4，即f(－1)＋f(2)＝0.[答案]A3．运行如图所示的程序，可得A的输出值为( )A＝20A＝A*2－30PRINT AENDA．30 B．20 C．10 D．－10[解析]A＝20×2－30＝10.[答案]C4．(2014·天津高考)阅读下边的框图，运行相应的程序，输出S的值为________．图912[解析]S＝0，n＝3，S＝0＋(－2)3＝－8，n＝3－1＝2≤1不成立；故S＝－8＋(－2)2＝－4，n＝2－1＝1≤1成立．故输出S的值为－4.[答案]－45．(2014·福建高考改编)阅读如图913所示的程序框图，运行相应的程序，输出的n的值为________．图913[解析]当n＝1时，21>12；当n＝2时，22>22不成立，结束循环．因此输出n＝2.[答案] 2考向1程序框图的基本结构与应用【典例1】(1)执行下面的程序框图，如果输入的t∈[－1，3]，则输出的s属于( ) A．[－3，4] B．[－5，2]C．[－4，3] D．[－2，5]图914图915(2)(2014·浙江高考)若某程序框图如图915所示，当输入50时，则该程序运行后输出的结果是________．[解析] (1)由程序框图知s ＝⎩⎪⎨⎪⎧3t ，（t<1），4t －t 2，（t≥1），①当－1≤t<1时，－3≤s<3；②当1≤t≤3时，s ＝－(t －2)2＋4.∴3≤s≤4. 由①②知，s 的取值范围属于[－3，4]． (2)第一次循环，S ＝1，i ＝2；第二次循环，S ＝4，i ＝3；第三次循环，S ＝2×4＋3＝11，i ＝4；第四次循环，S ＝2×11＋4＝26，i ＝5；第五次循环，S ＝2×26＋5＝57，i ＝6，此时S>50，退出循环．所以输出的结果i ＝6. [答案] (1)A (2)6 【规律方法】1．对条件结构，无论判断框中的条件是否成立，都只能执行两个分支中的一个，不能同时执行两个分支．2．利用循环结构表示算法，第一要确定是利用当型还是直到型循环结构；第二准确表示累计变量；第三要注意从哪一步开始循环．弄清进入或终止的循环条件、循环次数是做题的关键．【变式训练1】 (1)如图916所示的程序框图，运行相应的程序．若输入x 的值为1，则输出S 的值为________．图916(2)(2014·陕西高考)根据下边框图，对大于2的整数N，输出的数列的通项公式是( )图917A．a n＝2n B．a n＝2(n－1) C．a n＝2n D．a n＝2n－1[解析](1)第1次运行：x＝1，S＝0＋13＝1<50；第2次运行：x＝2，S＝1＋23＝9<50；第3次运行：x＝4，S＝9＋43＝73>50，满足S≥50，跳出循环．输出S＝73.(2)由程序框图可知第一次运行：i＝1，a1＝2，S＝2；第二次运行：i＝2，a2＝4，S＝4；第三次运行：i＝3.a3＝8，S＝8；第四次运行：i＝4，a4＝16，S＝16.故选C.[答案](1)73 (2)C考向2程序框图的识别与完善(高频考点)命题视角程序框图的识别与完善是高考命题的热点，主要以客观题的形式呈现．主要命题角度：(1)根据程序框图确定输出结果；(2)补充程序框图中判断框或执行框；(3)依据程序框图及运行结果求输入变量的初始值等．【典例2】 (1)如图918所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图，则图中空白框内应填入________．图918 图919(2)(2014·重庆高考)执行如图919所示的程序框图，若输出k 的值为6，则判断框内可填入的条件是( )A ．s>12B ．s>35C ．s>710D ．s>45[思路点拨] (1)根据程序框图的功能，应确定及格率q 与及格人数M 之间的关系；(2)依次执行程序框图，根据输出结果确定判断框内的控制条件．[解析] (1)由判断框输出可知，M 表示及格人数，N 表示不及格人数， ∴及格率q ＝M M ＋N ，因此执行框为“q＝M M ＋N”．(2)第一次循环：s ＝1×910＝910，k ＝8，s ＝910应满足条件；第二次循环：s ＝910×89＝810，k ＝7，s ＝810应满足条件，排除选项D ；第三次循环：s ＝810×78＝710，k ＝6，故这时程序不再满足条件，结束循环，因此判断框中的条件为s>710.[答案] (1)q ＝MM ＋N(2)C 【通关锦囊】1．(1)第1题的关键在于理解程序框图的功能；(2)第2题要明确何时进入或退出循环体，以及累乘变量的变化．2．解答此类题目：(1)要明确程序框图的顺序结构，条件结构和循环结构；(2)理解程序框图的功能；(3)要按框图中的条件运行程序，按照题目的要求完成解答．【变式训练2】 (2015·潍坊质检)执行如图9110所示的程序框图，若输出的S 是2 047，则判断框内应填写()图9110A ．n ≤9？B ．n ≤10?C ．n ≥10?D ．n ≥11?[解析] 由程序框图的功能知，题目的实质是数列{2n}(n∈N )求和． ∵{2n }的首项为20＝1，公比为2.∴当n ＝9时，S ＝1＋2＋22＋…＋29＝1－2101－2＝1 023.当n ＝10时，S ＝1＋2＋22＋…＋210＝1－2111－2＝2 047.此时输出S ＝2 047，跳出循环，所以判断框的条件为n ≤9. [答案] A考向3 基本算法语句【典例3】根据下列算法语句，当输入x 为60时，输出y 的值为( )A ．25B ．30C ．31D ．61[解析] 由题意，得y ＝⎩⎪⎨⎪⎧0.5x ，x ≤50，25＋0.6（x －50），x>50.当x ＝60时，y ＝25＋0.6×(60－50)＝31. ∴输出y 的值为31. [答案] C ,【规律方法】1．本题主要考查条件语句，输入与输出语句，要注意赋值语句一般格式中的“＝”不同于等式中的“＝”，其实质是计算“＝”右边表达式的值，并将该值赋给“＝”左边的变量．2．解决此类问题关键要理解各语句的含义，以及基本算法语句与算法结构的对应关系．【变式训练3】运行下面的程序时，WHILE 循环语句的执行次数是( )A ．3B ．4C ．18D ．19[解析] 0<20，1<20，2×2<20，5×5>20，程序结束，故WHILE 循环语句共执行了3次． [答案] A掌握1条规律每个算法结构都含有顺序结构，循环结构中必定包含一个条件结构，用于确定何时终止循环体．循环结构和条件结构都含有顺序结构．注意1个区别当型循环与直到型循环的区别：直到型循环是“先循环，后判断，条件满足时终止循环”；当型循环是“先判断，后循环，条件满足时执行循环”；两者的判断框内的条件表述在解决同一问题时是不同的，它们恰好相反．勿忘2点注意 1.赋值号左边只能是变量(不是表达式)，在一个赋值语句中只能给一个变量赋值． 2.利用循环结构表示算法，要明确是利用当型循环结构，还是直到型循环结构．要注意：(1)选择好累计变量；(2)弄清在哪一步开始循环，满足什么条件不再执行循环体．易错辨析之10程序框图中“变量”的含义理解不清致误(2014·课标全国卷Ⅰ)执行下面的程序框图，若输入的a ，b ，k 分别为1，2，3，则输出的M ＝( )图9111A .203 B .72 C .165 D .158[错解] n ＝1，M ＝1＋12＝32，a ＝2，b ＝32；n ＝2，M ＝2＋23＝83，a ＝32，b ＝83；n ＝3，M ＝32＋38＝158，a ＝83，b ＝158；n ＝4，M ＝83＋815＝4815＝165，a ＝158，b ＝165，此时不满足条件，跳出循环，输出M ＝165.[答案] C 【智慧心语】错因分析：(1)循环变量n 与累加变量M 计算不对立，或混淆当型循环，误认为直到型循环结构，导致错解．(2)对循环体中各执行框的含义不清，错误赋值，错选A 或B .防范措施：(1)要分清是当型循环结构还是直到型循环结构；要理解循环结构中各变量的具体含义以及变化规律．具体求解时，把每次循环中各个变量的值对应起来，并要清楚的写下来，再根据条件判断是否结束循环．(2)在处理含有循环结构的算法问题时，关键是确定循环的次数，循环中有哪些变量，且每一次循环之后的变量S 、k 值都要被新的S 、k 值所替换．[正解] 第一次执行循环后：M ＝1＋12＝32，a ＝2，b ＝32，n ＝2；第二次执行循环后：M ＝2＋23＝83，a ＝32，b ＝83，n ＝3.第三次执行循环后：M ＝32＋38＝158，a ＝83，b ＝158，n ＝4.这时n ＝4，跳出循环．输出M 的值158.[答案] D【类题通关】 (2014·北京高考)当m ＝7，n ＝3时，执行如图9112所示的程序框图，输出的S 值为( )图9112A．7 B．42 C．210 D．840[解析]程序框图的执行过程如下：m＝7，n＝3时，m－n＋1＝5，k＝m＝7，S＝1，S＝1×7＝7；k＝k－1＝6＞5，S＝6×7＝42；k＝k－1＝5＝5，S＝5×42＝210；k＝k－1＝4＜5，输出S＝210.故选C.[答案]C课后限时自测[A级基础达标练]一、选择题1．(2014·课标全国卷Ⅱ)执行如图9113所示的程序框图，如果输入的x，t均为2，则输出的S＝( )图9113A ．4B ．5C ．6D ．7[解析] x ＝2，t ＝2，M ＝1，S ＝3，k ＝1. k ≤t ，M ＝11×2＝2，S ＝2＋3＝5，k ＝2；k ≤t ，M ＝22×2＝2，S ＝2＋5＝7，k ＝3；3>2，不满足条件，输出S ＝7. [答案] D2．(2014·湖南高考)执行如图9114所示的程序框图，如果输入的t∈[－2，2]，则输出的S 属于( )图9114A ．[－6，－2]B ．[－5，－1]C ．[－4，5]D ．[－3，6][解析] 由程序框图知，当0≤t≤2时，输出S ＝t －3，此时S∈[－3，－1]；当－2≤t<0时，执行t ＝2t 2＋1后1<t≤9，执行1<t≤9时，输出S ＝t －3，此时S∈(－2，6]．因此输出S 的值属于[－3，6]．[答案] D3．某程序框图如图9115所示，若输出的结果S＝57，则判断框内应填入的条件是( )图9115A．k＞4? B．k＞5? C．k＞6? D．k＞7?[解析]由程序框图可知，k＝1时，S＝1；k＝2时，S＝2×1＋2＝4；k＝3时，S＝2×4＋3＝11；k＝4时，S＝2×11＋4＝26；k＝5时，S＝2×26＋5＝57.[答案]A4．阅读如图9116所示的程序框图，运行相应的程序，则输出S的值为( )图9116A．8 B．18 C．26 D．80[解析]执行一次循环S＝2，n＝2；执行第二次循环：S＝2＋32－31＝8，n＝3；执行第3次循环：S＝8＋33－32＝26，n＝4；满足n≥4，故输出S＝26.[答案]C5．(2014·安徽高考)如图9117所示，程序框图(算法流程图)的输出结果是( )图9117A．34 B．55 C．78 D．89[解析]当输入x＝1，y＝1，执行z＝x＋y及z≤50，x＝y，y＝z后，x，y，z的值依次对应如下：x＝1，y＝1，z＝2；x＝1，y＝2，z＝3；x＝2，y＝3，z＝5；x＝3，y＝5，z＝8；x＝5，y＝8，z＝13；x＝8，y＝13，z＝21；x＝13，y＝21，z＝34；x＝21，y＝34，z＝55.由于55≤50不成立，故输出55.故选B.[答案]B二、填空题6．运行下列的程序，当输入a，b分别为2，3时，最后输出的m的值为________．[解析]∵a＝2，b＝3，满足a＜b，∴应把b值赋给m，∴m的值为3.[答案] 37．(2014·山东高考)执行如图9118所示的程序框图，若输入的x的值为1，则输出的n的值为________．图9118[解析]按照程序框图逐一执行．由x2－4x＋3≤0，解得1≤x≤3.当x＝1时，满足1≤x≤3，所以x＝1＋1＝2，n＝0＋1＝1；当x＝2时，满足1≤x≤3，所以x＝2＋1＝3，n＝1＋1＝2；当x＝3时，满足1≤x≤3, 所以x＝3＋1＝4，n＝2＋1＝3；当x＝4时，不满足1≤x≤3，所以输出n＝3.[答案] 38．(2015·临沂模拟)图9119(1)是某高三学生进入高中三年来的数学考试成绩茎叶图，第1次到第14次的考试成绩依次记为A1，A2，…，A14.图(2)是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图．那么算法流程图输出的结果是________．(1) (2)图9119[解析]从算法流程图可知，该图表示统计成绩大于或等于90分的考试次数．由茎叶图可知输出的结果为10.[答案]10三、解答题9．某篮球队6名主力队员在最近三场比赛中投进的三分球个数如表格所示：图9120统计该6名队员在最近三场比赛中投进的三分球总数的程序框图如图9120所示．(1)试在判断框内填上条件；(2)求输出的s的值．[解](1)依题意，程序框图是统计6名队员投进的三分球的总数．∴判断框内应填条件“i≤6？”．(2)6名队员投进的三分球数分别为a1，a2，a3，a4，a5，a6.故输出的s＝a1＋a2＋…＋a6.10．三月植树节，林业管理部门在植树前，为了保证树苗的质量，都会对树苗进行检测．现从甲，乙两种树苗中各抽测了10株树苗，量出它们的高度如下：(单位：厘米) 甲：37，21，31，20，29，19，32，23，25，33；乙：10，30，47，27，46，14，26，10，44，46.(1)画出两组数据的茎叶图，并根据茎叶图对甲，乙两种树苗的高度作比较，写出两个统计结论．(2)设抽测的10株甲种树苗高度平均值为x －，将这10株树苗的高度依次输入，按程序框图(如图9121)进行运算，问输出的S 大小为多少？并说明S 的统计学意义．图9121[解] (1)茎叶图如下：统计结论：①甲种树苗的平均高度小于乙种树苗的平均高度； ②甲种树苗比乙种树苗长得整齐；③甲种树苗的中位数为27，乙种树苗的中位数为28.5；④甲种树苗的高度基本上是对称的，而且大多数集中在均值附近．(任写两条即可) (2)x －＝27，S ＝35；S 表示10株甲种树苗高度的方差，是描述树苗高度离散程度的量．S 值越小，表示长得越整齐，S 值越大，表示长得越参差不齐．[B 级能力提升练]1．(2015·济南质检)已知函数f(x)＝ax 3＋12x 2在x ＝－1处取得极大值，记g(x)＝1f ′（x ）.程序框图如图9122所示，若输出的结果S>2 0142 015，则判断框中可以填入的关于n 的判断条件是( )图9122A ．n ≤ 2 014?B ．n ≤2 015?C ．n>2 014?D ．n>2 015?[解析] 由题意得f′(x)＝3ax 2＋x ，由f′(－1)＝0得a ＝13，∴f ′(x)＝x 2＋x ，即g(x)＝1x 2＋x ＝1x （x ＋1）＝1x －1x ＋1. 由程序框图可知S ＝0＋g(1)＋g(2)＋…＋g(n)＝1－1n ＋1，由1－1n ＋1>2 0142 015，得n>2 014. 因此条件应为n≤2 015? [答案] B2．执行如图9123所示的程序框图，若输入n 的值为4，则输出s 的值为________．图9123[解析] 第一步运算结果：s ＝1，i ＝2(i≤4成立)；第二步运算结果：s ＝2，i ＝3(i≤4成立)；第三步运算结果：s ＝4，i ＝4(i≤4成立)；第四步运算结果：s ＝7，i ＝5(i≤4不成立)，程序结束，故输出s 的值为7.[答案] 73．已知数列{a n }的各项均为正数，观察程序框图如图9124所示，若k ＝5，k ＝10时，分别有S ＝511和S ＝1021，试求数列{a n }的通项公式．图9124[解] 由程序框图可知，数列{a n }是等差数列，首项为a 1，公差为d. S i ＝1a 1a 2＋1a 2a 3＋…＋1a i a i ＋1＝1d (1a 1－1a 2＋1a 2－1a 3＋…＋1a i －1a i ＋1) ＝1d ⎝ ⎛⎭⎪⎫1a 1－1a i ＋1. 当k ＝5时，S ＝⎝ ⎛⎭⎪⎫1a 1－1a 61d ＝5a 1a 6＝511.∴a 1a 6＝11，即a 1(a 1＋5d)＝11；①当k ＝10时，S ＝⎝ ⎛⎭⎪⎫1a 1－1a 111d ＝10a 1a 11＝1021，∴a 1a 11＝21，即a 1(a 1＋10d)＝21，② 由①②联立，得a 1＝1，d ＝2，因此a n ＝a 1＋(n －1)d ＝2n －1.第二节随机抽样[考纲传真]1．理解随机抽样的必要性和重要性． 2.会用简单随机抽样方法从总体中抽取样本． 3.了解分层抽样和系统抽样方法．1．简单随机抽样(1)设一个总体含有N 个个体，从中逐个不放回地抽取n 个个体作为样本(n≤N)，如果每次抽取时总体内的各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样．(2)常用简单随机抽样的方法：抽签法和随机数表法． 2．系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本． (1)先将总体的N 个个体编号．(2)确定分段间隔k ，对编号进行分段，当N n 是整数时，取k ＝N n ，当Nn 不是整数时，随机从总体中剔除余数．(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k)． (4)按照一定的规则抽取样本， 3．分层抽样(1)定义：在抽样时，将总体分成互不交叉的层，然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本，这种抽样方法是分层抽样．(2)应用范围：总体是由差异明显的几个部分组成时．1．(夯基释疑)判断下列结论的正误．(正确的打“√”，错误的打“×”) (1)简单随机抽样是从总体中逐个不放回的抽取抽样．( ) (2)简单随机抽样每个个体被抽到的机会不一样，与先后有关．( ) (3)系统抽样在起始部分抽样时采用简单随机抽样．( )(4)分层抽样中，每个个体被抽到的可能性与层数及分层有关．( )[解析] 由简单随机抽样，系统抽样，分层抽样的意义，知(1)与(3)正确，(2)与(4)不正确．[答案] (1)√ (2)× (3)√ (4)×2．(2014·广东高考)为了解1 000名学生的学习情况，采用系统抽样的方法，从中抽取容量为40的样本，则分段的间隔为( )A ．50B ．40C ．25D ．20[解析] 根据系统抽样的特点可知分段间隔为1 00040＝25，故选C .[答案] C3．(2015·青岛调研)为了解某地区的中小学生的视力情况，拟从该地区的中小学生中抽取部分学生进行调查，事先已了解到该地区小学，初中，高中三个学段学生的视力情况有较大差异，而男女视力情况差异不大．在下面的抽样方法中，最合理的抽样方法是( )A ．简单随机抽样B ．按性别分层抽样C ．按学段分层抽样D ．系统抽样[解析] 由于三个学段学生的视力情况差别较大，故需按学段分层抽样． [答案] C4．(2014·湖南高考)对一个容量为N 的总体抽取容量为n 的样本，当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时，总体中每个个体被抽中的概率分别为p 1，p 2，p 3，则( )A ．p 1＝p 2<p 3B ．p 2＝p 3<p 1C ．p 1＝p 3<p 2D ．p 1＝p 2＝p 3[解析] 由于三种抽样过程中，每个个体被抽到的概率都是相等的，因此p 1＝p 2＝p 3. [答案] D5．某学校高一，高二，高三年级的学生人数之比为3∶3∶4，现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本，则应从高二年级抽取________名学生．[解析] 设应从高二年级抽取x 名学生，则x∶50＝3∶10.解得x ＝15. [答案] 15考向1简单随机抽样【典例1】(1)下列抽取样本的方式属于简单随机抽样的个数为( )①盒子里共有80个零件，从中选出5个零件进行质量检验．在抽样操作时，从中任意拿出一个零件进行质量检验后再把它放回盒子里．②从20件玩具中一次性抽取3件进行质量检验．③某班有56名同学，指定个子最高的5名同学参加学校组织的篮球赛．A．0 B．1 C．2 D．3(2)(2013·江西高考)总体由编号为01，02，…，19，20的20个个体组成，利用下面的随机数表选取5个个体，选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字，则选出来的第5个个体的编号为( )A.08 B．07 C．02 D．01[解析](1)①②③中都不是简单随机抽样，这是因为：①是放回抽样，②中是“一次性”抽取，而不是“逐个”抽取，③中“指定个子最高的5名同学”，不存在随机性，不是等可能抽样．(2)由随机数表法的随机抽样的过程可知选出的5个个体是08，02，14，07，01，所以第5个个体的编号是01.[答案](1)A(2)D【规律方法】1．简单随机抽样是从含有N(有限)个个体的总体中，逐个不放回地抽取样本，且每次抽取时总体内的各个个体被抽到的机会都相等．2．(1)一个抽样试验能否用抽签法，关键看两点：一是制签是否方便；二是号签是否易搅匀，一般地，当总体容量和样本容量都较小时可用抽签法．(2)随机数表法适用于总体中个体数较多的情形：随机数表法的操作要点：编号，选起始数，读数，获取样本．【变式训练1】下列抽样试验中，适合用抽签法的有________．①从某厂生产的5 000件产品中抽取600件进行质量检测； ②从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验； ③从甲，乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检测； ④从某厂生产的5 000件产品中抽取10件进行质量检测． [解析] ①，④中总体的个体数较大，不适用抽签法．对于③中，甲，乙两厂的产品质量可能差别较大，不一定能够达到搅拌均匀的条件，不适宜用抽签法．②中为同厂的产品，且样本容量较小，可用抽签法． [答案] ②考向2 系统抽样及其应用【典例2】 (1)(2015·淄博调研)用系统抽样法要从160名学生中抽取容量为20的样本，将160名学生随机地从1～160编号，按编号顺序平均分成20组(1～8号，9～16号，…，153～160号)，若第16组抽出的号码为126，则第1组中用抽签的方法确定的号码是________．(2)(2013·陕西高考)某单位有840名职工，现采用系统抽样方法抽取42人做问卷调查，将840人按1，2，…，840随机编号，则抽取的42人中，编号落入区间[481，720]的人数为( )A ．11B ．12C ．13D ．14[解析] (1)设第1组抽取的号码为b ，由系统抽样则第n 组抽取的号码为8(n －1)＋b ， ∴8×(16－1)＋b ＝126，∴b ＝6，故第1组抽取的号码为6.(2)抽样间隔为84042＝20.设在1，2，…，20中抽取号码x 0(x 0∈[1，20])，在[481，720]之间抽取的号码记为20k ＋x 0，则481≤20k＋x 0≤720，k ∈N *.∴24120≤k ＋x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120，1，∴k ＝24，25，26，…，35， ∴k 值共有35－24＋1＝12(个)，即所求人数为12. [答案] (1)6 (2)B 【规律方法】1．如果总体容量N 能被样本容量n 整除，则抽样间隔为k ＝Nn，否则，可随机地从总体中剔除余数，然后按系统抽样的方法抽样．特别注意，每个个体被抽到的机会均是n N.2．系统抽样中依次抽取的样本对应的号码就是一个等差数列，首项就是第1组所抽取样本的号码，公差为间隔数，根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码．【变式训练2】 (2015·威海质检)采用系统抽样方法从960人中抽取32人做问卷调查，为此将他们随机编号为1，2，…，960，分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中，编号落入区间[1，450]的人做问卷A ，编号落入区间[451，750]的人做问卷B ，其余的人做问卷C .则抽到的人中，做问卷B 的人数为( )A ．7B ．9C ．10D ．15[解析] 由系统抽样知：抽取号码的间隔为96032＝30，∵第一组抽取的号码为9，∴抽取的第n 个号码为a n ，则a n ＝9＋30(n －1)，由451≤a n ≤750，得151115≤n ≤25710，注意到n ∈N *，∴落入区间[451，750]的号码共10个，因此做问卷B 的有10人． [答案] C考向3 分层抽样及应用(高频考点)命题视角分层抽样是抽样方法考查的重点，主要以客观题的形式呈现，命题的主要角度：(1)求各层的个体容量；(2)根据某层的容量求总体容量；(3)分层抽样的简单应用．【典例3】 (1)(2015·日照联考)某工厂甲，乙，丙三个车间生产了同一种产品，数量分别为120件，80件，60件．为了解它们的产品质量是否存在显著差异，用分层抽样方法抽取了一个容量为n 的样本进行调查，其中从丙车间的产品中抽取了3件，则n ＝( )A ．9B ．10C ．12D ．13(2)(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件，采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测．若样本中有50件产品由甲设备生产，则乙设备生产的产品总数为________件．[思路点拨] (1)利用抽样比为定值，列方程求解；(2)利用分层抽样，先求出总体中甲设备生产的产品数量，再计算乙设备生产的产品数量．[解析] (1)依题意得360＝n120＋80＋60，故n ＝13.(2)由题设，抽样比为804 800＝160.设甲设备生产的产品为x 件，则x60＝50，∴x ＝3 000. 故乙设备生产的产品总数为4 800－3 000＝1 800. [答案] (1)D (2)1 800 【通关锦囊】1．分层抽样中分多少层，如何分层要视具体情况而定，总的原则是：层内样本的差异要小，两层之间的样本差异要大，且互不重叠．2．为了保证每个个体被抽到的可能性是相同的，这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比，即n i ∶N i ＝n∶N.分层抽样的有关计算，转化为按比例列方程或算式求解．【变式训练3】 (1)某个年级有男生560人，女生420人，用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本，则此样本中男生人数为________．(2)(2014·重庆高考)某中学有高中生3 500人，初中生1 500人，为了解学生的学习情况，用分层抽样的方法从该校学生中抽取一个容量为n 的样本，已知从高中生中抽取70人，则n 为( )A ．100B ．150C ．200D ．250[解析] (1)抽样比为280560＋420＝280980＝27，所以样本中男生人数为560×27＝160.(2)法一：由题意可得70n －70＝3 5001 500，解得n ＝100.法二：由题意，抽样比为703 500＝150，总体容量为3 500＋1 500＝5 000，故n ＝5 000×150＝100.[答案] (1)160 (2)A掌握2条规律 1.三种抽样方法的共同点都是等概率抽样，即抽样过程中每个个体被抽到的概率相等，体现了这三种抽样方法的客观性和公平性．若样本容量为n ，总体容量为N ，每个个体被抽到的概率是nN. 2.系统抽样抽取的个体编号从小到大成等差数列．熟记3个范围 1.简单随机抽样：总体容量较少，尤其是样本容量较少． 2.系统抽样：适用于元素个数很多且均衡的总体． 3.分层抽样：适用于总体由差异明显的几部分组成的情形．勿忘3点注意 1.简单随机抽样中，易忽视样本是从总体中逐个抽取，是不放回抽样，且每个个体被抽到的概率相等． 2.系统抽样中，易忽视抽取的样本数也就是分段的段数，当Nn 不是整数时，注意剔除，剔除的个体是随机的． 3.分层抽样中，易忽视每层抽取的个体的比例是相同的．易错辨析之11 图表信息求解的误区(2014·广东高考改编)已知某地区中小学生人数和近视情况分别如图921①和图②所示．为了解该地区中小学生的近视形成原因，用分层抽样的方法抽取2%的学生进行调查，则样本容量和抽取的高中生近视人数分别为________．图921[错解] 由图①知，样本容量为(2 000＋3 500＋4 500)×2%＝200，根据图②知，高中学生的近视人数为200×50%＝100. 或根据图②知，高中近视人数为50人．【智慧心语】错因分析：(1)误把样本容量200认为高中学生的样本数量，或将条形图中近视率误为近视人数．(2)不能从图表中提取有效信息，有的考生无从入手，或者未抓住分层抽样的特点：“各层抽取的个体数依各层个体之比来分配”而无法正确完成高中近视人数的计算求值．防范措施：(1)加强识图能力的培养，如本题中纵轴表示的近视率分别为10%，30%，50%.(2)理解分层抽样的概念，首先分层抽样是等概率抽样，因此，各层的抽样比应相等，可以利用这个等比关系计算求值．[正解] 易知，样本容量为(3 500＋4 500＋2 000)×2%＝200.又样本中高中学生共有2 000×2%＝40人．利用图②知，高中学生的近视率为50%.因此所抽样本中高中学生的近视人数为40×50%＝20人．[答案]200 20【类题通关】从某小学随机抽样100名学生，将他们的身高(单位：厘米)数据绘制成频率分布直方图(如图922所示)，由图中数据可知a＝________．若要从身高在[120，130)，[130，140)，[140，150]三组内的学生中，用分层抽样的方法选取18人参加一项活动，则从身高在[140，150]内的学生中选取的人数应为________．图922[解析]∵0.005×10＋0.035×10＋a×10＋0.020×10＋0.010×10＝1，∴a＝0.030.设身高在[120，130)，[130，140)，[140，150]内的三组学生各有x，y，z人，则x100＝0.030×10，y100＝0.020×10，z100＝0.01×10.∴x＝30，y＝20，z＝10.由分层抽样的意义，抽样比为1830＋20＋10＝30%.因此从身高在[140，150]内的学生中选取10×30%＝3(人)．[答案](1)0.030 (2)3课后限时自测[A 级基础达标练]一、选择题1．(2014·四川高考)在“世界读书日”前夕，为了了解某地5 000名居民某天的阅读时间，从中抽取了200名居民的阅读时间进行统计分析．在这个问题中，5 000名居民的阅读时间的全体是( )A ．总体B ．个体C ．样本的容量D ．从总体中抽取的一个样本[解析] 调查的目的是“了解某地5 000名居民某天的阅读时间”，所以“5 000名居民的阅读时间的全体”是调查的总体．[答案] A2．从2 007名学生中选取50名学生参加全国数学联赛，若采用下面的方法选取：先用简单随机抽样从2 007人中剔除7人，剩下的2 000人再按系统抽样的方法抽取，则每人入选的概率( )A ．不全相等B ．均不相等C ．都相等，且为502 007D ．都相等，且为140[解析] 从N 个个体中抽取M 个个体，每个个体被抽到的概率均为MN .[答案] C3．某学校有男，女学生各500名，为了解男，女学生在学习兴趣与业余爱好方面是否存在显著差异，拟从全体学生中抽取100名学生进行调查，则宜采用的抽样方法是( )A ．抽签法B ．随机数法C ．系统抽样法D ．分层抽样法[解析] 由于是调查男，女学生在学习兴趣与业余爱好方面是否存在差异，因此用分层抽样法．[答案] D4．(2015·潍坊一模)高三某班有学生56人，现将所有同学随机编号，用系统抽样的方。

2019届高考数学一轮复习第九章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课件新人教A版

1．相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法；判断相关性的常用统计图是：散点图数与相关指数． (1)在散点图中，点散布在从左下角到右上角的区域，；统计量有相关系
对于两个变量的这种相关关系，我们将它称为正相关．
(2)在散点图中，点散布在从
左上角
第4节变量间的相关关系与统计案例
最新考纲 1．会作两个相关变量的数据的散点图，会利用散点图认识变量间的相关关系； 2．了解最小二乘法的思想，能根据给出的线性回归方程系数公式建立线性回归方程； 3．了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用； 4．了解回归分析的基本思想、方法及其简单应用．
关，且图(1)与图(2)中的样本点集中分布在一条直线附近，则 r2＜r4 ＜0＜r3＜r1.]
2．(导学号 14576897)(2015· 高考湖北卷)已知变量 x 和 y 满足关系 y＝－0.1x＋1，变量 y 与 z 正相关．下列结论中正确的是( A．x 与 y 负相关，x 与 z 负相关 B．x 与 y 正相关，x 与 z 正相关 C．x 与 y 正相关，x 与 z 负相关 D．x 与 y 负相关，x 与 z 正相关 )
2．(导学号 14576894)下面是 2×2 列联表： y1 x1 x2 总计则表中 a，b 的值分别为( A．94,72 C．52,74 a 22 b ) B．52,50 D．74,52 y2 21 25 46 总计 73 47 120
解析：C 故选 C.]
[∵a＋21＝73，∴a＝52，又 a＋22＝b，∴b＝74.
4．独立性检验 (1)利用随机变量 K2 来判断“两个分类变量称为独立性检验． (2)列联表：列出的两个分类变量的频数表，称为列联表．假设有两个分类变量 X 和 Y，它们的可能取值分别为{x1，x2}和{y1，y2}，其样本频数列联表(2×2 列联表)为有关系 ”的方法

高考数学一轮复习第九章算法初步、统计、统计案例第四节变量间的相关关系、统计案例学案文-人教

第四节变量间的相关关系、统计案例1.会作两个相关变量的散点图，会利用散点图认识变量之间的相关关系．2．了解最小二乘法的思想，能根据给出的线性回归系数公式建立线性回归方程．3．了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用．4．了解回归分析的基本思想、方法及其简单应用．知识点一两个变量的相关关系1．相关关系的分类(1)正相关：从散点图上看，点散布在从________到______的区域内；(2)负相关：从散点图上看，点散布在从左上角到________的区域内．2．线性相关关系从散点图上看，如果这些点从整体上看大致分布在一条直线附近，则称这两个变量之间具有线性相关关系，这条直线叫________．答案1．(1)左下角右上角(2)右下角2．回归直线1．根据两个变量x，y之间的观测数据画成散点图如图所示，则这两个变量________线性相关关系．(填“具有”或“不具有”)解析：图中的点分布零散，不在一条直线附近，所以不具有线性相关关系．答案：不具有2．(2017·泉州模拟)下列四个图象中，两个变量具有正相关关系的是()解析：A 中两个变量之间是函数关系，不是相关关系；在两个变量的散点图中，若样本点呈直线形带状分布，则两个变量具有相关关系，对照图形：B ，D 样本点呈直线形带状分布，B 是负相关，D 是正相关，C 样本点不呈直线形带状分布．所以两个变量具有正相关关系的图是D .答案：D知识点二回归分析 1．回归方程(1)最小二乘法：使得样本数据的点到回归直线的______ 最小的方法叫最小二乘法．(2)回归方程：两个具有线性相关关系的变量的一组数据：(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )，其回归方程为y ^＝b ^x ＋a ^，则b ^＝∑i ＝1nx i －xy i －y∑i ＝1nx i －x2＝∑i ＝1nx i y i －n x y∑i ＝1nx 2i －n x 2，a ^＝y －b ^x ，其中，b ^是回归方程的______，a ^是在y 轴上的截距．2．样本相关系数r ＝∑i ＝1nx i －xy i －y∑i ＝1nx i －x2∑i ＝1n y i －y2，用它来衡量两个变量间的线性相关关系的强弱．(1)当r >0时，表明两个变量________； (2)当r <0时，表明两个变量________；(3)r 的绝对值越接近1，表明两个变量的线性相关性__________；r 的绝对值越接近于0，表明两个变量之间几乎不存在线性相关关系．通常当|r |>0.75时，认为两个变量有很强的线性相关关系．答案1．(1)距离的平方和 (2)斜率 2．(1)正相关 (2)负相关 (3)越强3．最小二乘法的原理是( )A ．使得∑i ＝1n[y i －(a ＋bx i )]最小B ．使得∑i ＝1n[y i －(a ＋bx i )2]最小C ．使得∑i ＝1n[y 2i －(a ＋bx i )2]最小D ．使得∑i ＝1n[y i －(a ＋bx i )]2最小解析：根据回归方程表示到各点距离之和最小的直线方程，即总体偏差最小，亦即∑i ＝1n[y i－(a ＋bx i )]2最小．答案：D4．当我们建立多个模型拟合某一数据组时，为了比较各个模型的拟合效果，我们可通过计算下列( )量来确定①残差平方和 ②回归平方和 ③相关指数R 2④相关系数rA ．①B ．①③C ．①②③D ．③④解析：残差平方和越小，相关指数R 2越大，拟合的效果越好．答案：B知识点三独立性检验1．分类变量：变量的不同“值”表示个体所属的________，像这类变量称为分类变量． 2．列联表：列出两个分类变量的________，称为列联表．假设有两个分类变量X 和Y ，它们的可能取值分别为{x 1，x 2}和{y 1，y 2}，其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计x 1 a b a ＋b x 2c d c ＋d 总计a ＋cb ＋d a ＋b ＋c ＋dK 2＝n ad －bc 2a ＋ba ＋cb ＋dc ＋d(其中n ＝a ＋b ＋c ＋d 为样本容量)，则利用独立性检验判断表来判断“X 与Y 的关系”．答案1．不同类型 2.频数表5．在性别与吃零食这两个分类变量的计算中，下列说法正确的是________．①若K 2的观测值为k ＝6.635，我们有99%的把握认为吃零食与性别有关系，那么在100个吃零食的人中必有99人是女性；②从独立性检验可知有99%的把握认为吃零食与性别有关系时，我们说某人吃零食，那么此人是女性的可能性为99%；③若从统计量中求出有99%的把握认为吃零食与性别有关系，是指有1%的可能性使得出的判断出现错误．解析：由独立性检验的基本思想可得，只有③正确．答案：③热点一相关关系的判断【例1】 (1)在一组样本数据(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )(n ≥2，x 1，x 2，…，x n不全相等)的散点图中，若所有样本点(x i ，y i )(i ＝1,2，…，n )都在直线y ＝12x ＋1上，则这组样本数据的样本相关系数为( )A ．－1B ．0 C.12D ．1(2)x 和y 的散点图如图所示，则下列说法中所有正确命题的序号为________．①x ，y 是负相关关系；②在该相关关系中，若用y ＝c 1e c 2x 拟合时的相关系数的平方为r 21，用y ^＝b ^x ＋a ^拟合时的相关系数的平方为r 22，则r 21>r 22；③x 、y 之间不能建立线性回归方程．【解析】 (1)所有点均在直线上，则样本相关系数最大即为1，故选D.(2)①显然正确；由散点图知，用y ＝c 1e c 2x 拟合的效果比用y ^＝b ^x ＋a ^拟合的效果要好，故②正确；x ，y 之间能建立线性回归方程，只不过预报精度不高，故③不正确．【答案】 (1)D (2)①② 【总结反思】判定两个变量正、负相关性的方法(1)画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关．(2)相关系数：r >0时，正相关；r <0时，负相关．(3)线性回归方程中：b ^>0时，正相关；b ^<0时，负相关.(1)四名同学根据各自的样本数据研究变量x ，y 之间的相关关系，并求得线性回归方程，分别得到以下四个结论：①y 与x 负相关且y ^＝2.347x －6.423；②y 与x 负相关且y ^＝－3.476x ＋5.648；③y 与x 正相关且y ^＝5.437x ＋8.493；④y 与x 正相关且y ^＝－4.326x －4.578. 其中一定不正确的结论的序号是( )A ．①②B ．②③C ．③④D ．①④(2)变量X 与Y 相对应的一组数据为(10,1)，(11.3,2)，(11.8,3)，(12.5,4)，(13,5)；变量U 与V 相对应的一组数据为(10,5)，(11.3,4)，(11.8,3)，(12.5,2)，(13,1)．r 1表示变量Y 与X 之间的线性相关系数，r 2表示变量V 与U 之间的线性相关系数，则( )A ．r 2<r 1<0B ．0<r 2<r 1C ．r 2<0<r 1D ．r 2＝r 1解析：(1)由回归方程y ^＝b ^x ＋a ^知当b ^>0时，y 与x 正相关，当b ^<0时，y 与x 负相关，∴①④一定错误．(2)对于变量Y 与X 而言，Y 随X 的增大而增大，故Y 与X 正相关，即r 1>0；对于变量V 与U 而言，V 随U 的增大而减小，故V 与U 负相关，即r 2<0，所以选C.答案：(1)D (2)C 热点二 ,线性回归分析【例2】 (2016·新课标全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位：亿吨)的折线图．(Ⅰ)由折线图看出，可用线性回归模型拟合y 与t 的关系，请用相关系数加以说明； (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01)，预测2016年我国生活垃圾无害化处理量．附注：参考数据：∑i ＝17y i ＝9.32，∑i ＝17t i y i ＝40.17,∑i ＝17y i －y2＝0.55，7≈2.646.参考公式：相关系数r ＝∑i ＝1nt i －ty i －y∑i ＝1nt i －t2∑i ＝1n y i －y2，回归方程y ^＝a ^＋b ^t 中斜率和截距的最小二乘估计公式分别为：b ^＝∑i ＝1nt i －ty i －y∑i ＝1nt i －t2，a ^＝y －b ^t .【解】 (Ⅰ)由折线图中数据和附注中参考数据得t ＝4，∑i ＝17(t i －t )2＝28,∑i ＝17 y i －y2＝0.55，∑i ＝17(t i －t )(y i －y )＝∑i ＝17t i y i －t∑i ＝17y i ＝40.17－4×9.32＝2.89，r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99，说明y 与t 的线性相关程度相当高，从而可以用线性回归模型拟合y 与t 的关系．(Ⅱ)由y ＝9.327≈1.331及(Ⅰ)得b ^＝∑i ＝17t i －ty i －y∑i ＝17t i －t2＝2.8928≈0.103，a ^＝y －b ^t ≈1.331－0.103×4≈0.92.所以，y 关于t 的回归方程为y ^＝0.92＋0.10t .将2016年对应的t ＝9代入回归方程得y ^＝0.92＋0.10×9＝1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.【总结反思】(1)正确理解计算b ^，a ^的公式和准确的计算是求线性回归方程的关键．(2)回归直线方程y ^＝b ^x＋a ^必过样本点中心(x ，y )．(3)在分析两个变量的相关关系时，可根据样本数据作出散点图来确定两个变量之间是否具有相关关系，若具有线性相关关系，则可通过线性回归方程来估计和预测.(1)(2017·江西南昌十所省重点中学一模)某产品的广告费用x (万元)与销售额y (万元)的统计数据如下表所示，根据表中数据可得回归方程y ^＝b ^x ＋a ^中的b ^＝10.6.据此模型预测广告费用为10万元时的销售额为( )广告费用x (万元) 4 2 3 5 销售额y (万元)49263958A ．112.1万元C ．111.9万元D ．113.9万元(2)从某居民区随机抽取10个家庭，获得第i 个家庭的月收入x i (单位：千元)与月储蓄y i (单位：千元)的数据资料，算得∑i ＝110x i ＝80，∑i ＝110y i ＝20，∑i ＝110x i y i ＝184，∑i ＝110x 2i ＝720.①求家庭的月储蓄y 对月收入x 的线性回归方程y ^＝b ^x ＋a ^； ②判断变量x 与y 之间是正相关还是负相关；③若该居民区某家庭月收入为7千元，预测该家庭的月储蓄．附：线性回归方程y ^＝b ^x ＋a ^中，b ^＝∑i ＝1nx i y i －n x y∑i ＝1nx 2i －n x 2，a ^＝y －b ^x ，其中x ，y 为样本平均值．解析：(1)由题表中数据得x ＝3.5，y ＝43.由于回归直线y ^＝b ^x ＋a^过点(x ，y )，且b ^＝10.6，解得a ^＝5.9，所以线性回归方程为y ^＝10.6x ＋5.9，于是当x ＝10时，y ^＝111.9.(2)解：①由题意知n ＝10，x ＝110∑i ＝110x i ＝8010＝8，y ＝110∑i ＝110y i ＝2010＝2，又∑i ＝110x 2i －10x 2＝720－10×82＝80.∑i ＝110x i y i －10x y ＝184－10×8×2＝24.由此得b ^＝∑i ＝110x i y i －10x y∑i ＝110x 2i －10x 2＝2480＝0.3，a ^＝y －b ^x ＝2－0.3×8＝－0.4，故所求回归方程为y ^＝0.3x －0.4.②由于变量y 的值随x 值的增加而增加(b ^＝0.3>0)，故x 与y 之间是正相关．③将x ＝7代入回归方程可以预测该家庭的月储蓄为y ^＝0.3×7－0.4＝1.7(千元)．答案：(1)C热点三独立性检验【例3】某学生对其30位亲属的饮食习惯进行了一次调查，并用茎叶图表示30人的饮食指数．说明：如图中饮食指数低于70的人，饮食以蔬菜为主；饮食指数高于70的人，饮食以肉类为主．(1)根据茎叶图，帮助这位同学说明其亲属30人的饮食习惯；(2)根据以上数据完成如下表所示的2×2列联表：主食蔬菜主食肉类合计 50岁以下 50岁以上合计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关，并写出简要分析．【解】 (1)30位亲属中50岁以上的人多以食蔬菜为主，50岁以下的人多以食肉为主． (2)2×2列联表如下表所示.主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)K 2＝30×8－128212×18×20×10＝30×120×12012×18×20×10＝10>6.635.所以有99%的把握认为其亲属的饮食习惯与年龄有关. 【总结反思】1．独立性检验的步骤：(1)根据样本数据制成2×2列联表． (2)根据公式K 2＝n ad －bc 2a ＋bc ＋d a ＋cb ＋d计算K 2的观测值．(3)比较K 2与临界值的大小关系作统计推断．2．另外，还可利用图形来判断两个变量之间是否有关系，可以画出等高条形图，从图形上只可以粗略地估计两个分类变量的关系，可以结合所求数值来进行比较，作图时应注意单位统一，图形准确.某班主任对全班50名学生进行了作业量多少的调查．数据如下表：认为作业多认为作业不多合计喜欢玩游戏189不喜欢玩游戏8 15 合计(1)请完善上表中所缺的有关数据；(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系？解：(1)认为作业多认为作业不多合计喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 合计262450(2)将表中的数据代入公式K 2＝n ad －bc 2a ＋bc ＋d a ＋cb ＋d得到K 2的观测值k ＝50×18×15－8×9226×24×27×23≈5.059>5.024，查表知P (K 2≥5.024)＝0.025，即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系．。

(全国版)高考数学一轮复习第九章算法初步、统计、统计案例 9.4 变量间的相关关系与统计案例课时

变量间的相关关系与统计案例(25分钟45分)一、选择题(每小题5分,共20分)1.有下列关于回归分析的说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示;③通过回归方程=x+可以估计变量的取值和观测变量的变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的个数是( )A.1B.2C.3D.4【解析】选C.①反映的是最小二乘法的思想,故正确;②反映的是散点图的作用,也正确;③解释的是回归方程=x+的作用,也正确;④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.2.(2015·某某高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关【解析】选C.因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z 正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关.3.(2016·某某模拟)根据如下样本数据得到的回归方程为=x+,则( )x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0A.>0,>0B.>0,<0C.<0,>0D.<0,<0【解析】选B.由表中数据画出散点图,如图,由散点图可知<0,>0.4.(2016·某某模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走斑马线40 20 60走人行天桥20 30 50总计60 50 110由K2=算得K2的观测值k=≈7.8.附表:P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别有关”B.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”【解析】选A.因为K2的观测值k≈7.8≥6.635,所以犯错误的概率不超过0.01.【加固训练】(2016·某某模拟)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩不及格及格总计性别男 6 14 20女10 22 32总计16 36 52表2视力好差总计性别男 4 16 20女12 20 32总计16 36 52表3智商偏高正常总计性别男8 12 20女8 24 32总计16 36 52表4阅读量丰富不丰富总计性别男14 6 20女 2 30 32总计16 36 52 A.成绩 B.视力 C.智商 D.阅读量【解析】选D.因为k1==,k2==,k3==,k4==,则有k4>k2>k3>k1,所以阅读量与性别关联的可能性最大.二、填空题(每小题5分,共15分)5.(2016·某某模拟)某市居民2011～2015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表所示:年份2011 2012 2013 2014 2015收入x 11.5 12.1 13 13.3 15支出y 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有线性相关关系.【解析】由中位数的定义知,总体个数为奇数个时按大小顺序排列后中间一个是中位数,而偶数个时需取中间两数的平均数.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.答案:13 正6.(2016·某某模拟)为了考察是否喜欢运动与性别之间的关系,得到一个2×2列联表,经计算K2的观测值k=6.679,则在犯错误的概率不超过的前提下认为是否喜欢运动与性别有关系.本题可以参考独立性检验临界值表P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 【解析】由于K2=6.679>6.635,所以在犯错误的概率不超过0.01的前提下认为是否喜欢运动与性别有关系. 答案:0.01【加固训练】1.(2016·某某模拟)某中学将100名高一新生分成水平相同的甲,乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲,乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下,记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为“成绩优秀”与教学方式有关.甲班(A方式) 乙班(B方式) 总计成绩优秀成绩不优秀总计【解析】由已知数据得:甲班(A方式) 乙班(B方式) 总计成绩优秀 1 5 6成绩不优秀19 15 34 总计20 20 40根据2×2列联表中数据,K2=≈3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.2. (2016·某某模拟)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.完成下面2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积小于70mm2疱疹面积不小于70mm 2总计注射药物A a= b=30 a+b=注射药物B c=35 d= c+d= 总计a+c= b+d= a+b+c+d=【解题提示】(1)把握2×2列联表的意义,准确填入数据.(2)将数据代入随机变量K2的公式进行计算.(3)与临界值比较并得出结论.【解析】2×2列联表如下:疱疹面积小于70mm2疱疹面积不小于70mm2总计注射药物A a=70 b=30 a+b=100注射药物B c=35 d=65 c+d=100 总计a+c=105 b+d=95a+b+c+d=200K2的观测值k=≈24.56,由于k>6.635,因此能在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B 后的疱疹面积有差异”.7.(2016·某某模拟)车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.零件数x(个) 10 20 30 40 50加工时间y(min) 62 75 81 89现发现表中有一个数据看不清,请你推断出该数据的值为.【解析】由已知可计算求出=30,而回归直线方程必过点(,),则=0.67×30+54.9=75,设模糊数据为a,则=75,计算得a=68.答案:68三、解答题8.（10分）(2015·某某高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y(千亿元) 5 6 7 8 10(1)求y关于t的回归方程=t+.(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=,=-.【解题提示】(1)直接利用回归系数公式求解即可.(2)利用回归方程代入直接进行计算即可.【解析】(1)列表计算如下:i t i y i t i y i1 1 5 1 52 2 6 4 123 3 7 9 214 4 8 16 325 5 10 25 50∑15 36 55 120这里n=5,=t i==3,=y i==7.2.又-n=55-5×32=10,t i y i-n=120-5×3×7.2=12,从而==1.2,=-×3=3.6,故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).【加固训练】某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 8 8.2 8.4 8.6 8.8 9销量y(件) 90 84 83 80 75 68(1)求回归直线方程=x+,其中=-20,=-.(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解析】(1)由于=(x1+x2+x3+x4+x5+x6)=8.5,=(y1+y2+y3+y4+y5+y6)=80.所以=-=80+20×8.5=250.从而回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20+361.25.当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.(20分钟40分)1.(5分)(2016·某某模拟)对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )A. B. C. D.【解析】选B.依题意可知样本中心点为,则=×+,解得=.2.(5分)(2016·某某模拟)有两个分类变量X,Y,其一组的2×2列联表如下所示,Y1Y2X1 a 20-aX215-a 30+a其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( ) A.8 B.9 C.8或9 D.6或8【解题提示】计算K2的观测值k,建立k>3.841的不等式.解不等式并根据a,15-a均为大于5的整数求解. 【解析】选C.根据公式,得k==>3.841,根据a>5且15-a>5,a∈Z,求得a=8或9满足题意.3.(5分)已知x,y之间的一组数据如下表:x 2 3 4 5 6y 3 4 6 8 9对于表中数据,现给出如下拟合直线:①y=x+2;②y=3x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是(填序号).【解析】由题意知=4,=6,所以==,所以=-=-,所以=x-,所以填③.答案:③4.(12分)在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1求y与x之间的回归方程.【解析】画出散点图如图所示,观察可知y与x近似是反比例函数关系.设y=(k≠0),令t=,则y=kt.可得到y关于t的数据如表: t 4 2 1 0.5 0.25y 16 12 5 2 1画出散点图如图所示,观察可知t和y有较强的线性相关性,因此可利用线性回归模型进行拟合,易得:=≈4.1344,=-≈0.7917,所以=4.1344t+0.7917,所以y与x的回归方程是=+0.7917.5.(13分)(2016·某某模拟)设三组试验数据(x1,y1),(x2,y2),(x3,y3)的回归直线方程是:=x+,使代数式[y1-(x1+)]2+[y2-(x2+)]2+[y3-(x3+)]2的值最小时,=-,=(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:x 2 3 4 5 6 7 8wordy 4 6 5 6.2 8 7.1 8.6(1)求上表中前三组数据的回归直线方程.(2)若|y i-(x i+)|≤0.2,即称(x i,y i)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.【解析】(1)前三组数的平均数:=3,=5.根据公式:==.所以=5-×3=.所以回归直线方程为y=x+.×5|=0.2≤0.2,×6|=1.5>0.2,×7|=0.1<0.2,×8|=1.1>0.2,综上,拟合的“好点”有2组,所以后四组数据中拟合“好点”的概率P==.。

高考数学一轮总复习 9.4变量间的相关关系与统计案例课件

3.了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用．
4.了解回归分析的基本思想、方法及其简单应用.
完整版ppt
3
备考知考情
1.以客观题的形式考查求线性回归方程系数或利用线性回归分析的方程进行预测，在给出临界值的情况下判断两个变量是否有关．
2.在解答题中常与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用.
答案 C
完整版ppt
18
知识点二
独立性检验
4.在 2012 伦敦奥运会期间，某网站针对性别是否与看奥运会直播有关进行了一项问卷调查，得出如下表格：
是否看奥运会直播
性别男女
看奥运会直播
6 000 2 000
不看奥运会直播
2 000 2 000
完整版ppt
19
则 K2＝( )
A．700 B．750
C．800 D．850
解析由题意知，
K2＝12
0006 000×2 000－2 000×2 0002 8 000×4 000×8 000×4 000
ห้องสมุดไป่ตู้
＝750.
答案 B
完整版ppt
20
5．某校为了研究学生的性别和对待某一活动的态度(支持和
不支持两种态度)的关系，运用 2×2 列联表进行独立性检验，经
这类变量称为分类变量．
2．列联表：列出两个分类变量的频数表，称为列联表．假设
有两个分类变量 X 和 Y，它们的可能取值分别为{x1，x2}和{y1，y2}，其样本频数列联表(称为 2×2 列联表)为：
完整版ppt
11
y1
y2
x1
a
b
总计 a＋b

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y 第四节变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图，会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想，能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用．1．相关性 (1)线性相关若两个变量x 和y 的散点图中，所有点看上去都在一条直线附近波动，则称变量间是线性相关的．(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动，则称此相关为非线性相关的． (3)不相关如果所有的点在散点图中没有显示任何关系，则称变量间是不相关的． 2．最小二乘估计 (1)最小二乘法如果有n 个点(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )可以用下面的表达式来刻画这些点与直线y ＝a ＋bx 的接近程度：[y 1－(a ＋bx 1)]2＋[y 2－(a ＋bx 2)]2＋…＋[y n －(a ＋bx n )]2.使得上式达到最小值的直线y ＝a ＋bx 就是我们所要求的直线，这种方法称为最小二乘法．(2)线性回归方程方程y ＝bx ＋a 是两个具有线性相关关系的变量的一组数据(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )的线性回归方程，其中a ，b 是待定参数．⎩⎪⎨⎪⎧b＝∑n i ＝1x i－x y i－y∑ni ＝1x i－x 2＝∑ni ＝1x i y i －n x y ∑ni ＝1x 2i －n x2.a ＝y －b x .3．回归分析(1)定义：对具有相关关系的两个变量进行统计分析的一种常用方法． (2)样本点的中心对于一组具有线性相关关系的数据(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )中，(x ，y )称为样本点的中心．(3)相关系数r①r＝∑i＝1nx i y i－n x y∑i＝1nx2i－n x2∑i＝1ny2i－n y2；②当r>0时，称两个变量正相关．当r<0时，称两个变量负相关．当r＝0时，称两个变量线性不相关．4．独立性检验若一个2×2列联表为：χ2＝n ad－bc2a＋b c＋d a＋c b＋d.(1)当χ2≤2.706时，可以认为变量A，B是没有关联的；(2)当χ2>2.706时，有90%的把握判定变量A，B有关联；(3)当χ2>3.841时，有95%的把握判定变量A，B有关联；(4)当χ2>6.635时，有99%的把握判定变量A，B有关联．[常用结论]1．线性回归方程y＝bx＋a一定过样本点的中心(x，y)．2．由回归直线求出的数据是估算值，不是精确值．[基础自测]1．(思考辨析)判断下列结论的正误．(正确的打“√”，错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系．(2)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系，得回归方程y＝－2.352x＋147.767，则气温为2℃时，一定可卖出143杯热饮．(3)因为由任何一组观测值都可以求得一个线性回归方程，所以没有必要进行相关性检验．( )(4)若事件A，B关系越密切，则由观测数据计算得到的χ2的值越小．[答案](1)√(2)×(3)×(4)×2.(教材改编)为调查中学生近视情况，测得某校男生150名中有80名近视，在140名女生中有70名近视．在检验这些学生眼睛近视是否与性别有关时，用下列哪种方法最有说服力( )A．回归分析B．均值与方差C．独立性检验D．概率C[“近视”与“性别”是两类变量，其是否有关，应用独立性检验判断．]3．(教材改编)已知变量x与y正相关，且由观测数据算得样本平均数x＝3，y＝3.5，则由该观测数据算得的线性回归方程可能是( )A．y＝0.4x＋2.3 B．y＝2x－2.4C．y＝－2x＋9.5 D．y＝－0.3x＋4.4A[因为变量x和y正相关，排除选项C，D．又样本中心(3,3.5) 在回归直线上，排除B，选项A满足．]4．下面是2×2列联表：则表中a，b的值分别为( )AC．52,74 D．74,52C[∵a＋21＝73，∴a＝52.又a＋22＝b，∴b＝74.]5．某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系，运用2×2列联表进行独立性检验，经计算χ2＝7.069，则所得到的统计学结论是：有多少的把握认为“学生性别与支持该活动有关系”．附：C[因为7.069与附表中的6.635最接近，所以得到的统计学结论是：有1－0.010＝0.99＝99%的把握认为“学生性别与支持该活动有关系”．]A ．x 与y 正相关，x 与z 负相关B ．x 与y 正相关，x 与z 正相关C ．x 与y 负相关，x 与z 负相关D ．x 与y 负相关，x 与z 正相关C [因为y ＝－0.1x ＋1的斜率小于0，故x 与y 负相关．因为y 与z 正相关，可设z ＝by ＋a ，b ＞0，则z ＝by ＋a ＝－0.1bx ＋b ＋a ，故x 与z负相关．]2．(2019·广州模拟)根据下面给出的2004年至2013年我国二氧化硫排放量(单位：万吨)的条形统计图. 以下结论不正确的是( )A ．逐年比较，2008年减少二氧化硫排放量的效果最显著B ．2007年我国治理二氧化硫排放显现成效C ．2006年以来我国二氧化硫年排放量呈减少趋势D ．2006年以来我国二氧化硫年排放量与年份正相关D [从2006年，将每年的二氧化硫排放量与前一年作差比较，得到2008年二氧化硫排放量与2007年排放量的差最大，A 选项正确；2007年二氧化硫排放量较2006年降低了很多，B 选项正确；虽然2011年二氧化硫排放量较2010年多一些，但自2006年以来，整体呈递减趋势，C 选项正确；自2006年以来我国二氧化硫年排放量与年份负相关，D 选项错误，故选D ．] 3．(2019·日照模拟)变量X 与Y 相对应的一组数据为(10,1)，(11.3,2)，(11.8,3)，(12.5,4)，(13,5)，变量U 与V 相对应的一组数据为(10,5)，(11.3,4)，(11.8,3)，(12.5,2)，(13,1)．r 1表示变量Y 与X 之间的线性相关系数，r 2表示变量V 与U 之间的线性相关系数，则( )参考公式：线性相关系数r＝∑ni ＝1 x i －xy i －y∑ni ＝1x i －x2∑ni ＝1y i －y2A ．r 2＜r 1＜0B ．0＜r 2＜r 1C．r2＜0＜r1D．r1＝r2C[由己知中的数据可知：第一组数据正相关，则相关系数大于零，第二组数据负相关，则相关系数小于零，故选C．]【例1】(2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位：亿元)的折线图．为了预测该地区2018年的环境基础设施投资额，建立了y与时间变量t的两个线性回归模型．根据2000年至2016年的数据(时间变量t的值依次为1,2，…，17)建立模型①：y＝－30.4＋13.5t；根据2010年至2016年的数据(时间变量t的值依次为1,2，…，7)建立模型②：y＝99＋17.5t.(1)分别利用这两个模型，求该地区2018年的环境基础设施投资额的预测值；(2)你认为用哪个模型得到的预测值更可靠？并说明理由．[解](1)利用模型①，可得该地区2018年的环境基础设施投资额的预测值为y＝－30.4＋13.5×19＝226.1(亿元)．利用模型②，可得该地区2018年的环境基础设施投资额的预测值为y＝99＋17.5×9＝256.5(亿元)．(2)利用模型②得到的预测值更可靠．理由如下：(i)从折线图可以看出，2000年至2016年的数据对应的点没有随机散布在直线y＝－30.4＋13.5t上下，这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势，2010年相对2009年的环境基础设施投资额有明显增加，2010年至2016年的数据对应的点位于一条直线的附近，这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势，利用2010年至2016年的数据建立的线性模型y＝99＋17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势，因此利用模型②得到的预测值更可靠．(ⅱ)从计算结果看，相对于2016年的环境基础设施投资额220亿元，由模型①得到的预测值226.1亿元的增幅明显偏低，而利用模型②得到的预测值的增幅比较合理，说明利用模型②得到的预测值更可靠．位：亿吨)的折线图．注：年份代码1～7分别对应年份2008～2014(1)由折线图看出，可用线性回归模型拟合y与t的关系，请用相关系数加以说明；(2)建立y关于t的回归方程(系数精确到0.01)，预测2016年我国生活垃圾无害化处理量．附注：参考数据：∑7i＝1y i＝9.32，∑7i＝1t i y i＝40.17，∑7i＝1y i－y2＝0.55，7≈2.646.参考公式：相关系数r＝∑ni＝1t i－t y i－y∑ni＝1t i－t2∑ni ＝1y i－y2，回归方程y＝a＋bt中斜率和截距的最小二乘估计公式分别为：b＝∑ni＝1t i－t y i－y∑ni＝1t i －t2，a＝y－b t.[解](1)由折线图中数据和附注中参考数据得t＝4，∑7i＝1(t i－t)2＝28，∑7i＝1y i－y2＝0.55，∑7i＝1(t i－t)(y i－y)＝∑7i＝1t i y i－t∑7i＝1y i＝40.17－4×9.32＝2.89，r≈2.892×2.646×0.55≈0.99.因为y与t的相关系数近似为0.99，说明y与t的线性相关程度相当高，从而可以用线性回归模型拟合y与t的关系．(2)由y＝9.327≈1.331及(1)得b＝∑7i＝1t i－t y i－y∑7i＝1t i－t2＝2.8928≈0.103，a＝y－b t≈1.331－0.103×4≈0.92.所以，y关于t的回归方程为y＝0.92＋0.10t.将2016年对应的t＝9代入回归方程得y＝0.92＋0.10×9＝1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨．【例2】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比，收获时各随机抽取了100个网箱，测量各箱水产品的产量(单位：kg)，其频率分布直方图如下：(1)记A表示事件“旧养殖法的箱产量低于50 kg”，估计A的概率；(2)填写下面列联表，并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关；附：.χ2＝a ＋b c＋d a＋c b＋d[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012＋0.014＋0.024＋0.034＋0.040)×5＝0.62.因此，事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表则χ2＝≈15.705.100×100×96×104由于15.705＞6.635，故有99%的把握认为箱产量与养殖方法有关．(3)箱产量的频率分布直方图表明：新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间，旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间，且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高，因此，可以认为新养殖法的箱产量较高且稳定，从而新养殖法优于旧养殖法．＝ad －2a ＋c ＋d a ＋cb ＋，计算与临界值的大小关系，作统计判断．(2019·合肥质检)某校在高一年级学生中，对自然科学类、社会科学类校本选修课程的选课意向进行调查．现从高一年级学生中随机抽取180名学生，其中男生105名；在这180名学生中选择社会科学类的男生、女生均为45名．(1)试问：从高一年级学生中随机抽取1人，抽到男生的概率约为多少？(2)根据抽取的180名学生的调查结果，完成下面的2×2列联表．并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关？附：χ2＝a ＋bc ＋d a ＋cb ＋d，其中n ＝a ＋b ＋c ＋d .[解] (1)从高一年级学生中随机抽取1人，抽到男生的概率约为105180＝712.(2)根据统计数据，可得2×2列联表如下：则χ2＝105×75×90×90＝7≈5.142 9＞5.024，所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率，开展技术创新活动，提出了完成某项生产任务的两种新的生产方式．为比较两种生产方式的效率，选取40名工人，将他们随机分成两组，每组20人，第一组工人用第一种生产方式，第二组工人用第二种生产方式．根据工人完成生产任务的工作时间(单位：min)绘制了如下茎叶图：(1)根据茎叶图判断哪种生产方式的效率更高？并说明理由；(2)求40名工人完成生产任务所需时间的中位数m，并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表：附：χ2＝n ad－bc2a ＋b c＋d a＋c b＋d，理由如下：(ⅰ)由茎叶图可知：用第一种生产方式的工人中，有75%的工人完成生产任务所需时间至少80分钟，用第二种生产方式的工人中，有75%的工人完成生产任务所需时间至多79分钟．因此第二种生产方式的效率更高．(ⅱ)由茎叶图可知：用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟，用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟．因此第二种生产方式的效率更高．(ⅲ)由茎叶图可知：用第一种生产方式的工人完成生产任务平均所需时间高于80分钟；用第二种生产方式的工人完成生产任务平均所需时间低于80分钟．因此第二种生产方式的效率更高．(ⅳ)由茎叶图可知：用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多，关于茎8大致呈对称分布；用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多，关于茎7大致呈对称分布．又用两种生产方式的工人完成生产任务所需时间分布的区间相同，故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少．因此第二种生产方式的效率更高．(以上给出了4种理由，考生答出其中任意一种或其他合理理由均可得分．)(2)由茎叶图知m ＝79＋812＝80. 列联表如下：(3)由于χ2＝20×20×20×20＝10>6.635，所以有99%的把握认为两种生产方式的效率有差异．。