高考数学复习第10章统计统计案例及算法初步第3讲相关性与最玄乘估计统计案例文北师大版6

合集下载

【高优指导】2017高考数学一轮复习 第十章 统计与统计案例 10.3 相关性、最小二乘估计与统计案例课件 理

【高优指导】2017高考数学一轮复习 第十章 统计与统计案例 10.3 相关性、最小二乘估计与统计案例课件 理
A.11.4万元 B.11.8万元 C.12.0万元D.12.2万元
-12-
1 2 3 4 5
4.高三年级267位学生参加期末考试,某班37位学生的语文成绩、 数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙 为该班三位学生.
关闭
(1)由题图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排 名比总成绩排名靠前.故填乙.
,a=������-b������.
-21考点1 考点2 考点3 知识方法 易错易混
解:(1)列表计算如下:
i 1 2 3 4 5 ∑
ti 1 2 3 4 5 15
yi 5 6 7 8 10 36 1 4 9
t2 i
tiyi 5 12 21 32 50 120
16 25 55
这里 n=5,������ =
-18考点1 考点2 考点3 知识方法 易错易混
对点训练1 (1)对四组数据进行统计,获得如图所示的散点图,关 于其相关系数的比较,正确的是( )
关闭
易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中
的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.
2013 4 8
2014 5 10
(1)求y关于t的回归方程y=bt+a; (2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程 y=bt+a 中,b=
∑ ti yi -������t y ������=1
i=1
������

n
2 ������2 ������������ ������
-9-
1 2 3 4 5

高考数学总复习 第十章 统计与统计案例、概率 第3节 相关性、最小二乘估计、统计案例教案 文(含解析

高考数学总复习 第十章 统计与统计案例、概率 第3节 相关性、最小二乘估计、统计案例教案 文(含解析

第3节相关性、最小二乘估计、统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(x i,y i)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:其中x=1n∑i=1nx i,y=1n∑i=1ny i,(x,y)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=1A;变量B:B1,B2=1B. 2×2列联表BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d a+b+c+d构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(2)独立性检验利用随机变量来判断“两个变量有关联”的方法称为独立性检验.(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2>2.706时,有90%的把握判定变量A,B有关联;③当χ2>3.841时,有95%的把握判定变量A,B有关联;④当χ2>6.635时,有99%的把握判定变量A,B有关联.[微点提醒]a ,b ,应充分利用回归直线过样本中心点(x -,y -).据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.y 值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y =bx +a 可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的χ2越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修1-2P21问题提出改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 C.独立性检验解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修1-2P7讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关系数r 如下,其中拟合效果最好的模型是( ) 系数r 系数r 系数r系数r解析 在两个变量y 与x 的回归模型中,它们的相关系数r 越近于1,模拟效果越好,在四个选项中A 的相关系数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·某某模拟)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y346根据上表可得回归直线方程为y =bx -0.25,据此可以预测当x =8时,y =( ) A.6.4 B.6.25 C.6.55解析 由题意知x -=3+4+5+6+75=5,y -=2.5+3+4+4.5+65=4,将点(5,4)代入y =bx -0.25,解得b =0.85, 则yx -0.25,所以当x =8时,y =0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著解析 对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D6.(2019·某某教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算χ2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系”()A.99% 5% C.1% D.5%,因此有99%的把握认为“学生性别与支持该活动有关系”,故选A.答案 A考点一相关关系的判断【例1】 (1)观察下列各图形,其中两个变量x,y具有相关关系的图是( )A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁rm 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲B.乙C.丙解析(1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C (2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数rr>0,则正相关;r<0时,则负相关.回归直线方程中:b>0时,正相关;b<0时,负相关.【训练1】 (1)已知变量x和y满足关系yx+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数为r1,用y=bx+a拟合时的相关系数为r2,则r1> r2;③x,y之间不能建立线性回归方程.解析(1)由yx+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y 的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y =bx +a 拟合效果要好,则r 1> r 2,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①② 考点二 线性回归方程及应用【例2】 (2018·某某调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y =bx +a ,其中b =∑n i =1x i y i -nx -·y-∑ni =1x 2i -nx-2,a =y --bx -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b =错误!=1.2,a =z --bt -=2.2-3×1.2=-1.4,所以zt -1.4.(2)将t =x -2 012,z =y -5,代入zt -1.4, 得y -5=1.2(x -2 012)-1.4,即yx -2 410.8.(3)因为y =1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ,a 的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y =bx +a 必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:yt ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y =-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y =99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线yt 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型yt可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】(2019·某某某某雅礼中学、某某省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染(0,50](50,100](100,150](150,200](200,300](300,+∞)指数空气质量优良轻度污染中度污染重度污染严重污染等级某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A)=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:限行后 38 22 60 总计128112240由表中数据可得,χ2=240×(90×22-90×38)180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的值;(3)比较χ2的值与临界值的大小关系,作统计推断.【训练3】 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720根据表中数据,得到χ2=50×(13×20-10×7)23×27×20×30有__________的把握认为是否选修文科与性别有关系解析 χ2,则有95%的把握认为是否选修文科与性别之间有关系 答案 95%[思维升华]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.K 2的值判断两个分类变量有关的可信程度.[易错防X]1.求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关系数r来刻画回归的效果,r值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A.①②B.②③C.①③D.①②③ 答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 90%的把握认为是否说谎与性别有关解析 由已知得χ2=30×(6×9-7×8)213×17×14×16≈0.002<,所以在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·某某中学调研)已知变量x ,y 之间的线性回归方程为yx +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )x ,y 之间呈负相关关系B.可以预测,当x =20时,yC.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y =-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%的把握认为“爱好该项运动与性别有关”B.有99%的把握认为“爱好该项运动与性别无关”C.有95%的把握认为“爱好该项运动与性别有关”D.有95%的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =bx +a 中的b =-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644a =40-(-2)×10=60,y =-2xx =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.答案 687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050根据上述数据,有__________的把握可推断视觉和空间想象能力与性别有关系解析 由列联表计算χ2=50(22×12-8×8)230×20×20×30≈5.556>.∴有95%的把握可推断视觉和空间想象能力与性别有关系. 答案 95%8.(2019·某某深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y =bx +1,则b =________.解析 由题图知x -=0+1+3+44=2,y -=错误!=2.6,将(2,2.6)代入y =bx +1中,解得b =0.8.三、解答题9.(2018·某某调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由. 解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,χ2=80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>. 故有95%的把握认为“产品用户是否满意与性别有关”.10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b =∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a =y --bx -.解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5,y -=15×(3+3.5+4+6.5+8)=5,b =∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126, a =y --bx -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为y =2126x +2526.(3)当x =10时,y =2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.能力提升题组 (建议用时:20分钟)11.(2019·某某一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )χ278,则有99%的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确.故选C. 答案 C12.(2019·某某期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确; 在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确; 在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是yx +40,且m +n =20,则其中的n =________. 解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x -,y -),即6+n 5⎝⎛⎭⎪⎫8+m5m +n =42. 又因为m +n =20,即错误!解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1014.(2018·某某、某某部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n 年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).y -k -∑5i =1(k i -k -)2∑5i =1(y i -y -)2∑5i =1(x i -x -)(y i -y -)∑5i =1(x i -x -)(k i -k -)21其中k i =log 2y i ,k -=15∑5i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程b =βu +α的斜率和截距的最小二乘估计分别为β=∑n i =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α=v --βu -.②222222解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑5i =1 (x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2y 得k =log 2C 1+C 2x ,word所以C 2=∑5i =1 (x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2C 1=k --C 2x -=1.2-110×15=-0.3, 所以C 1=2=0.8,所以y =0.8×2x 10. 当x =18时,y =0.8×2=0.8×3.5=2.8(万元).即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人, 一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×2-0.8×20.8×2=2-1=0.1=10%, 所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人.很困难的的学生有4 200×(1-20%)+2 800×10%=3 640人,一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).。

北师大版高三数学(理)一轮复习10.3《相关性、最小二乘估计与统计案例》ppt课件

北师大版高三数学(理)一轮复习10.3《相关性、最小二乘估计与统计案例》ppt课件

-12-
12345
4.高三年级267位学生参加期末考试,某班37位学生的语文成绩、 数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙 为该班三位学生.
关闭
(1)由题图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排
名比从总这成次绩考排试名成靠绩前看.故, 填乙. (2)(由1)题在图甲可、知乙,比两丙人的中数,其学语成绩文排成名绩还名靠次后比的其人总比成较绩多;名而次总靠成绩前的的排学名生 是 中比丙排名靠后; 的人数比较少,所以丙的数学成绩的排名更靠前.故填数 关闭 学(1).(乙2)在(2语)数文学和数学两个科目中,丙同学的成绩名次更靠前的科目
得样本数据的点到回归直线的距离的平方和最小.
知识梳理
-5-
r= 5.相关系数:
������
������=∑1������������������������-������������ ������ ������=∑������1���������2��� -������������2 ������=∑������1���������2��� -������������2
10.3 相关性、最小二乘估计 与统计案例
考纲要求
-2-
考纲要求:1.会做两个有关联变量的数据的散点图,会利用散点图认 识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线 性回归方程系数公式建立线性回归方程(线性回归方程系数公式不 要求记忆). 3.了解回归分析的思想、方法及其简单应用. 4.了解 独立性检验的思想、方法及其初步应用.
①y与x负相关,且y=2.347x-6.423;
②y与x负相关,且y=-3.476x+5.648;
③y与x正相关,且y=5.437x+8.493;

高中数学复习第十章 统计、统计案例及算法初步

高中数学复习第十章  统计、统计案例及算法初步

提 升 学 科 素 养
突 破 热 点 题 型
演 练 知 能 检 测
数学(6省专版)
第一节
随机抽样 系统抽样
回 扣 主 干 知 识
[例2]
(2012· 山东高考)采用系统抽样方法从960人中
抽取32人做问卷调查,为此将他们随机编号为1,2,…,
提 升 学 科 素 养
960,分组后在第一组采用简单随机抽样的方法抽到的号码
答案:D
数学(6省专版)
第一节
随机抽样
回 扣 主 干 知 识
2.(2013· 温州模拟)某工厂生产A、B、C三种不同型号的 产品,产品数量之比为3∶4∶7,现在用分层抽样的 方法抽出容量为n的样本,样本中A型号产品有15件,
提 升 学 科 素 养
那么样本容量n为
突 破 热 点 题 型
(
B.60 D.80
提 升 学 科 素 养
突 破 热 点 题 型
200 解析: 总人数为 0.2 =1 000, 该单位青年职员的人数为 1 10 000×25=400.
答案:400
演 练 知 能 检 测
数学(6省专版)
第一节
随机抽样
回 扣 主 干 知 识
5.(2012· 湖北高考)一支田径运动队有男运动员 56 人,女运 动员 42 人.现用分层抽样的方法抽取若干人,若抽取的 男运动员有 8 人,则抽取的女运动员有________人.
突 破 热 点 题 型
(2)在使用随机数表时,如遇到三位数或四位数时,
可从选择的随机数表中的某行某列的数字计起,每三个 或四个作为一个单位,自左向右选取,有超过总体号码 或出现重复号码的数字舍去.
—————————————————————————

2015高考人教版理科数学复习配套 重点内容精选:第十章 统计、统计案例及算法初步

2015高考人教版理科数学复习配套 重点内容精选:第十章 统计、统计案例及算法初步

高频考点全通关——频率分布直方图的应用 闯关一:了解考情,熟悉命题角度
【考情分析】
频率分布直方图是用样本估计总体的一种重要的方法,是高考 命题的一个热点,多以选择题或填空题的形式呈现,试题难度不大, 多为容易题或中档题.
【命题角度】
高考对频率分布直方图的考查主要有以下两个命题角度:
(1)已知频率分布直方图中的部分数据,求其他数据;
【答案】D
高频考点全通关——分 层 抽 样
闯关三:总结问题类型,掌握解题策略
与分层抽样有关问题的常见类型及解题策略
(1)确定抽样比. 可依据各层总数与样本数之比,确定抽样比. (2)求某一层的样本数或总体个数. 可依据题意求出抽样比,再由某层总体个数(或样本数) 确定该层的样本(或总体)数. (3)求各层的样本数. 可依据题意,求出各层的抽样比,再求出各层样本数.
产品,数量分别为 120 件, 80 件,60 件.为了解它们的产品质量是否 存在显著差异,用分层抽样方法抽取了一个容量为 n 的样本进行调查, 其中从丙车间的产品中抽取了 3 件,则 n=( A.9 B.10 C. 12 ) D. 13
【解析】根据抽样比例可得 =
解得 n=13.
3 60
n , 120+80+60
高频考点全通关——分 层 抽 样 闯关四:及时演练,强化提升解题技能
(2014·滨州模拟)某学校三个兴趣小组的学生人数分布如下表 (每名同学只参加一个小组)(单位:人). 篮球组 书画组 乐器组 高一 45 30 a 高二 15 10 20 学校要对这三个小组的活动效果进行抽样调查,按小组分 层抽样的方法,从参加这三个兴趣小组的学生中抽取 30 人,结 果篮球组被抽出 12 人,则 a 的值为________.

高考数学一轮复习第十章算法初步统计统计案例专题提能概率统计中的数学建模与数据分析课件

高考数学一轮复习第十章算法初步统计统计案例专题提能概率统计中的数学建模与数据分析课件

(1)从游客中随机抽取3人,记这3人的总得分为随机变量X,求X的分布列 与数学期望; (2)(ⅰ)若从游客中随机抽取m(m∈N+)人,记这m人的总分恰为m分的概 率为Am,求数列{Am}的前10项和; (ⅱ)在对所有游客进行随机问卷调查的过程中,记已调查过的人的累计 得分恰为n分的概率为Bn,探讨Bn与Bn-1(n≥2)之间的关系,并求数列{Bn} 的通项公式.
破解此题的关键:一是认真审题,判断随机变量的所有可能取值,并 注意相互独立事件的概率与互斥事件的概率的区别,求出随机变量取 各个值时的概率,从而列出随机变量的分布列;二是将概率的参数表 达式与数列的递推式相结合,可得数列的通项公式,此种解法新颖独 特.
(二)函数与期望相交汇应用 [例2] (2021·重庆一中模拟)某蛋糕店制作并销售一款蛋糕,制作一个蛋 糕成本3元,且以8元的价格出售,若当天卖不完,剩下的无偿捐献给饲 料加工厂.根据以往100天的资料统计,得到如下需求量表.该蛋糕店一天 制作了这款蛋糕X(X∈N)个,以x(单位:个,100≤x≤150,x∈N)表示当 天的市场需求量,T(单位:元)表示当天出售这款蛋糕获得的利润.
(一)概率与数列交汇问题 [例 1] (2021·湖北武汉质量监测)武汉又称江城,是湖北省省会,它不仅 有着深厚的历史积淀与丰富的民俗文化,更有着众多名胜古迹与旅游景 点,黄鹤楼与东湖便是其中的两个.为合理配置旅游资源,现对已参观黄 鹤楼景点的游客进行随机问卷调查,若不游玩东湖记 1 分,若继续游玩 东湖记 2 分,每位游客选择是否参观东湖的概率均为12,游客之间选择意 愿相互独立.
[解析] (1)X 的所有可能取值为 3,4,5,6.
P(X=3)=123=18,P(X=4)=C23123=38,P(X=5)=C23123=38,P(X=6)= 123=18. 所以 X 的分布列为

高中数学北师大版一轮复习 第十章 第3节 相关性、最小二乘估计与统计案例

高中数学北师大版一轮复习 第十章 第3节 相关性、最小二乘估计与统计案例

4
知识衍化体验
考点聚集突破
3.独立性检验
(1)设A,B为两个变量,每一个变量都可以取两个值,
变量 A:A1,A2=A-1;
2×2列联表
变量 B:B1,B2=B-1.
B A
A1 A2 总计
5
B1
a c a+c
B2
b d b+d
总计
a+b c+d a+b+c+d
知识衍化体验
考点聚集突破
@《创新设计》
n(ad-bc)2 构造一个随机变量 χ2=__(__a_+__b_)__(__c_+__d_)__(__a_+__c_)__(__b_+__d_)________,其中
A.甲
B.乙
C.丙
D.丁
17
知识衍化体验
考点聚集突破
@《创新设计》
解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线 附近,所以③④中的两个变量具有相关关系. (2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性 越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有 丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相 关性. 答案 (1)C (2)D
14
知识衍化体验
考点聚集突破
@《创新设计》
6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不 支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计 学结论是:有________的把握认为“学生性别与支持该活动有关系”( )
A.95%
22
知识衍化体验
考点聚集突破
@《创新设计》

高考数学一轮复习第10章统计与统计案例3成对数据的统计分析课件新人教版

高考数学一轮复习第10章统计与统计案例3成对数据的统计分析课件新人教版
了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法,会
使用相关的统计软件.
3.针对实际问题,会用一元线性回归模型进行预测.
4.通过实例,理解2×2列联表的统计意义,了解2×2列联表独立性检验及其
应用.
备考指导
本节内容在高考选择题、填空题、解答题中均有体现,难度中等.主要体现
在一元线性回归模型的应用和独立性检验的应用.近几年高考中,尤其加强
是( C )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
由样本相关系数r1=0.785 9>0,知x与y正相关,
(1)样本相关系数的公式

r=

∑ (xi -x)(yi -y)
=1
n
∑ ( -)

i=1
2

∑ ( -)
=1
2
=
∑ -
=1

2 2
2
2
∑ - ∑ -
=1
=1
(2)样本相关系数r的取值范围为[-1,1].
.
问题思考
样本相关系数r是如何反映成对样本数据的线性相关程度的?
对点训练1
(1)已知x,y是两个变量,下列四个散点图中,x与y负相关的是( C )
若两个变量负相关,则当一个变量的值增加时,另一个变量的值呈减少的
趋势,故选C.
(2)对四组数据进行统计,获得的散点图如图所示,关于其样本相关系数的
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3讲 相关性与最小二乘估计、统计案例
1.已知变量x ,y 呈线性相关关系,线性回归方程为y =0.5+2x ,则变量x ,y 是( )
A .线性正相关关系
B .由回归方程无法判断其正负相关
C .线性负相关关系
D .不存在线性相关关系
解析:选A.随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关. 2.(2016·衡水调研)某产品的广告费用x 与销售额y 的统计数据如下表.根据下表可得回归方程y =bx +a 中的b =10.6,据此模型预报广告费用为10万元时销售额为( )
A.112.1C .111.9万元
D .113.9万元
解析:选C.因为(x ,y)在回归直线y =bx +a 上,且x =14(4+2+3+5)=72,
y =14(49+26+39+58)=43,将⎝ ⎛⎭⎪⎫
72,43代入y =10.6x +a 中得a =5.9,所以y =10.6x +5.9,当x =10时,y =106+5.9=111.9.所以广告费用为10万元时销售额为111.9万元.
3.(2016·济南模拟)某餐厅的原料费支出x 与销售额y(单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y =8.5x +7.5,则表中m 的值为
( )
A.50 C .60
D .65
解析:选C.x =15(2+4+5+6+8)=5,y =15(25+35+m +55+75)=38+1
5m.
又回归直线必经过样本中心点,于是有8.5×5+7.5=38+1
5
m ,解得m =60.
4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
由χ2
=(a +b )(c
+d )(a +c )(b +d ),
算得χ2
=110×(40×30-20×20)2
60×50×60×50
≈7.8.
附表:
A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”。

相关文档
最新文档