2019版高考数学一轮复习第九章概率与统计第11讲回归分析与独立性检验配套课件理

合集下载

高考数学总复习(一轮)(人教A)教学课件第九章 统计、成对数据的统计分析第1节 随机抽样、统计图表

高考数学总复习(一轮)(人教A)教学课件第九章 统计、成对数据的统计分析第1节 随机抽样、统计图表
第5行 42372 53183 51546 90385 12120 64042 51320 22983
解析:(2)最先读到的4袋牛奶的编号是614,593,379,242,向右读得
到203,722,104,再下一个数是887,887大于850,故舍去,再下一个
数是088.
考点二
分层随机抽样
角度一
条形图和
直观描述不同类别或分组数据的
直方图
折线图
频数和频率
描述数据随时间的变化趋势
4.频率分布直方图的制作步骤
(1)求极差:极差为一组数据中 最大值
与最小值的差.
(2)决定组距与组数:当样本量不超过100时,常分成 5~12
组,
一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列,即分组、 频数累计、频数、 频率 .
A.0.61
B.0.675
)
C.0.74
D.0.8

解析:(2)由分层抽样可得高三(1)班抽取的人数 n1=

×10=6,
+
高三(2)班抽取的人数 n2=
于是总的样本平均数 =

×10=4,
+
×+×.

=1.2,
所以总的样本方差
2

2

2
s = ×[1+(1-1.2) ]+ ×[0.35+(1.5-1.2) ]=0.8.故选 D.
容量为20的一个样本,则每个个体被抽到的概率为(

A.

B.

C取到的概率是


.故选D.
=

2019届高考大一轮复习备考资料之数学人教A版全国用讲

2019届高考大一轮复习备考资料之数学人教A版全国用讲

§11.3 变量间的相关关系、统计案例1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y ∑n i =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )题组二 教材改编2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =0.67×30+54.9=75.设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题组三 易错自纠5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2统计量研究患肺病是否与吸烟有关.计算得K 2=4.453,经查阅临界值表知P (K 2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A .在100个吸烟的人中约有95个人患肺病B .若某人吸烟,那么他有95%的可能性患肺病C .有95%的把握认为“患肺病与吸烟有关”D .只有5%的把握认为“患肺病与吸烟有关” 答案 C解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.题型一相关关系的判断1.观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21ec xc 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21ec xc 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关. 题型二 线性回归分析典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^ w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.题型三 独立性检验典例 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知,P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表如下:K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35 (kg).思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:(2)将列联表中数据代入公式可得: K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为 6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.根据如下样本数据:得到的线性回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,4.0)及(4,2.5)可知a ^>0,故选B.2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ^ ,解得a ^=18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^ =∑6i =1x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^ =y-b ^x =136-57×72=-13,所以b ^ <b ′,a ^>a ′.6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:若t 与y 之间具有线性相关关系,则其回归直线y ^=b ^t +a ^一定过点( )A .(3,9)B .(9,3)C .(6,14)D .(4,11)答案 A解析 t =17(0+1+2+3+4+5+6)=3,y =17(8+8+8+9+9+10+11)=9,所以回归直线y ^=b ^t +a ^一定过点(3,9).7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t ^=6.5m +17.5,则p =________. 答案 60解析 由于回归直线过样本点的中心,m =5,t =190+p 5,代入t ^=6.5m +17.5,解得p =60.8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的统计量K 2来说,K 2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量K 2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,10),其线性回归方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i =________. 答案 4解析 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过(x ,y ),∴y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·通州一模)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 答案 C解析 R 2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率. 参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)2×2列联表如下:因为K 2=100×(35×5-45×15)250×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休年龄政策”的人中抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.则8人中随机抽2人共有C 28=28种抽法,至少有1人是45岁及45岁以上共有C 16C 12+C 22=13(种)抽法,故所求概率为1328.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95%的把握认为是否喜欢韩剧和性别有关, 则k >3.841,即k =3x 2⎝⎛⎭⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74, ∑7i =1(y i -y ^i)2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑n i =1 (y i -y ^i )2∑ni =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好.解 (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18, 所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^ =34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑7i =1 (y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。

2019人教A版 高中数学知识点梳理 ----第九章 统计与概率

2019人教A版  高中数学知识点梳理 ----第九章 统计与概率

第九章概率统计必修二统计、概率选择性必修三第六章计数原理第七章随机变量及其分布第八章成对数据的统计分析一. 两个计数原理、排列与组合1.分类加法计数原理完成一件事,有n类不同方案,在第1类方案中有m1种不同的方法,在第2类方案中有m2种不同的方法……在第n类方案中有m n种不同的方法.那么完成这件事共有N=________________种不同的方法.2.分步乘法计数原理完成一件事,需要分成n个步骤,做第1步有m1种不同的方法,做第2步有m2种不同的方法……做第n 步有m n种不同的方法.那么完成这件事共有N=____________种不同的方法.3. 排列组合定义(1)排列数的定义:从n个不同元素中取出m(m≤n)个元素的的个数,叫做从n个不同元素中取出m个元素的排列数,用表示.(2)组合数的定义:从n个不同元素中取出m(m≤n)个元素的的个数,叫做从n个不同元素中取出m个元素的组合数,用表示.4. 排列数与组合数的公式与性质公式(1)A m n==n!(n-m)!(2)C m n=A m nA m m=n(n-1)(n-2)…(n-m+1)m!=性质(1)0!=;A n n=(2)C m n=C n-mn;C m n+1=(3) (不定系数转为定系数)kC n k==(0≤k≤n,k∈N)题组1.1. 有5个编了号的抽屉,要放进3本不同的书,不同的方法有种2.5人分到三家医院,每个医院至少一人,有___________种分法.3. 3名女生和4名男生排成一排,在下列情形中各有多少种?列式并写出结果.(1)如果女生全排在一起_________________(2)如果女生都不相邻_________________(3)如果女生不站两端_________________ (4)其中甲必须排在乙前面(可不邻) _________________(5)其中甲不站左端,乙不站右端_________________4.证明结论:kC n k=nC n−1k−10≤k≤n,k∈N二. 二项式定理1.二项式定理2.(1)C0n=,C n n=C m n+1=+ .(2)C m n=.(3)当n为偶数时,二项式系数中_____最大;当n为奇数时,二项式系数中以______和________最大.(4)二项系数和:C0n+C1n+…+C n n=.C1n+C3n+C5n+…=C0n+C2n+C4n+…=________.题组2. 回归课本1.(1+x)2+(1+x)3+⋯+(1+x)9的展开式中2x的系数是()A. 60B. 80C. 84D. 1202.求(9x3√x )n展开式中第3项与第5项的二项式系数相等,则展开式的常数项为;有理项有_______项。

高考数学总复习(一轮)(人教A)教学课件第九章 统计、成对数据的统计分析第2节 用样本估计总体

高考数学总复习(一轮)(人教A)教学课件第九章 统计、成对数据的统计分析第2节 用样本估计总体

6
10
9
8
7
则该校学生开展志愿者活动时长的第40百分位数是
8.5
.
解析:(2)40×40%=16,故第40百分位数是第16个数和第17个数的平
均数, 即
+

=8.5.
考点二
总体集中趋势的估计
[例3] (多选题)某学校共有2 000名男生,为了了解这部分学生的身
体发育情况,学校抽查了100名男生的体重情况.根据所得数据绘制


=0.01.
(2)根据频率分布直方图,估计样本数据的15%和85%分位数.
解 :(2)由 图 可 知 ,[20,40)内 的 比 例 为 10%,[40,60)内 的 比 例 为
20%,[60,80)内的比例为40%,[80,100]内的比例为30%.
因此,15%分位数一定位于[40,60),85%分位数一定位于[80,100],
直方图如图所示:
得分 [20,40) [40,60) [60,80) [80,100]
人数
6
a
24
18
(1)求a,b的值;
解:(1)由频率分布直方图可知,
得分在[20,40)的频率为0.005×20=0.1,
故抽取的学生答卷数为6÷0.1=60,由6+a+24+18=60,得a=12.
所以 b=

[针对训练] (2023·全国乙卷)某厂为比较甲乙两种工艺对橡胶产品伸缩率
的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产
品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡
胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为

高考数学一轮复习 9.5 回归分析与独立性检验精品课件 文 新人教A版

高考数学一轮复习 9.5 回归分析与独立性检验精品课件 文 新人教A版

≈ 0 .999
(518 -1× 6 2 202 0 )0 5 (54.4 5 -17 × 2 72 .6 2 2)
查得r0.05=0.576,
因r>r0.05,说明变量Y与x之间具有线性相关关系.
.
12
返回目录
(2) b=15812-8 19-1 × 6 242× 203 20×07 05 2.6 2 5≈0.304
.
4
返回目录
1.随机误差
由于所有的样本点不共线,而只是散布在某一条直
线的附近,实际上,y=bx+a+e,e是y与 =y ˆbx+a之间
的误差.通常e为随机变量,称为随机误差,它的均值
E(e)=0,方差D(e)=σ2>0.这样线性回归模型的完整表
达式为
{ y=bx+a+e E(e)=0,D(e)=σ2 .
1 32.2 25.0
2 31.1 30.0
3 32.9 34.0
4
5
35.8 37.1
37.0 39.0
第几年 城市居民年收入(亿元) 某商品销售额(万元)
6 38.0 41.0
7 39.0 42.0
8 43.0 44.0
9 10 44.6 46.0 48.0 51.0
.
14
返回目录
(1)画出散点图; (2)如果散点图中的各点大致分布在一条直线附近, 求Y与x之间的回归直线方程.
X 150 160 170 180 190 200 210 220 230 240 250 260 Y 56.9 58.3 61.6 64.6 68.1 71.3 74.1 77.4 80.2 82.6 86.4 89.7
.

2019年高考数学总复习_10-3_相关关系、回归分析与独立性检验课件_新人教B版

2019年高考数学总复习_10-3_相关关系、回归分析与独立性检验课件_新人教B版
如果|r|≤r0.05,我们没有理由拒绝原来的假设.这时 寻找回归直线方程是毫无意义的.
3.独立性检验的步骤: ①据实际问题需要的可信度确定临界值 k0. ②利用公式,由观测数据,求出 χ2 的观测值 k. ③作判断,如果 k≥k0,就以(1-P(χ2≥k0))×100% 的把握认为“X 与 Y 有关系”,否则就说样本数据没有 提供充分证据说明“X 与 Y 有关系”.
i= 1
^a=-y -^b x
其中-x =
1 n
n xi,-y
i=1
=n1i=n1yi,(-x ,
-y )称作样本点

中心. ^a,^b表示由观察值用最小二乘法求得的 a,b 的估计
值,叫回归系数.
(3)利用回归直线方程对总体进行估计 若回归直线方程为^y=^bx+^a,则在 x=x0 处的估计 值:^y 0=^b x0+^a .
A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关
①当 χ2>6.635 时,有 99%的把握认为“X 与 Y 有关 系”.
②当 χ2>3.841 时,有 95%的把握认为“X 与 Y 有关 系”.
③当 χ2≤3.841 时,没有充分理由认为 X 与 Y 是相关 的.
误区警示 1.线性回归方程中的系数^a、^b公式复杂莫记混用错. 2.使用 χ2 统计量作 2×2 列联表的独立性检验时, 要求表中的 4 个数据 n11、n12、n21、n22 都要大于 5,在 选取样本的容量时,要注意这一点.
1.建立回归模型的基本步骤: ①确定研究对象,明确解释变量和预报变量. ②画出散点图,观察它们是否存在相关关系.(如线 性相关关系) ③确定回归方程类型.(如线性回归方程y^=^bx+^a)

2025年高考数学一轮复习课件第九章概率与统计-9.6事件的相互独立性、条件概率与全概率公式


=1
返回至目录
1.判断下列命题是否正确,正确的在括号内画“√”,错误的画“×”.
(1)对于任意两个事件,公式 = 都成立.
( ×)
(2) | 表示在事件发生的条件下,事件发生的概率, 表示事件,同
时发生的概率.
( √ )
返回至目录
(3)若事件,相互独立,且 > 0,则 | = .
(乙丙)=
1
36
≠ (乙)(丙),所以乙与丙不独立,C错误.
(丙丁)= 0 ≠ (丙)(丁),所以丙丁不独立,D错误.故选B.
返回至目录
(2)以人工智能、量子信息等颠覆性技术为引领的前沿趋势,将重塑世界工程的发
展模式,对人类生产力的创新提升意义重大.某公司抓住机遇,成立了甲、乙、丙三
个科研小组针对某技术难题同时进行科研攻关,攻克技术难题的小组会受到奖励.已
( √ )
(4)抛掷2枚质地均匀的硬币,设“第1枚正面朝上”为事件,“第2枚正面朝上”为事
件,则,相互独立.
( √ )
(5)若事件1 与2 是对立事件,且 1 > 0, 2 > 0,则对任意的事件 ⊆ Ω ,
都有 = 1 |1 + 2 |2 .
3
= , = ,且,,相互独立.
① 甲、乙、丙三个小组均受到奖励的概率为
1
2
1Байду номын сангаас
2
2
3
1
6
= = × × = .
1
2
1
2
1
3
1
2
1
2
②只有甲小组受到奖励的概率为 = = × × =

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

新教材高考数学一轮复习第九章9-2一元线性回归模型与独立性检验课件新人教A版


2.散点图
(1)定义:为直观地描述成对样本数据中两个变量间的关系,用横轴表示其
中的一个变量,纵轴表示另一个变量,则成对样本数据都可以用直角坐标系
中的点表示出来,由这些点组成的统计图叫做散点图.
(2)分类
正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也
呈现增加 的趋势,我们就称这两个变量正相关;
Y
X
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
a+c
b+d
a+b+c+d
合计
3.两个分类变量之间是否有关联的定性分析的方法
(1)频率分析
通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率
的稳定性推断两个分类变量之间是否有关联.
(2)图形分析
利用等高堆积条形图来分析两个分类变量之间是否有关联,形象、直观地
归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
^ ^
乘法,求得的, 叫做 b,a 的最小二乘估计.
8.残差分析
对于响应变量Y,通过 观测
得到的数据称为观测值,通过
^
经验回归方程 得到的 y称为预测值,观测值 减去 预测值称为残差.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的


①计算公式 R2=1-=1

^ 2
(y i -y i )
2
∑ ( -)
.
=1


②在 R 表达式中, ∑ (yi-) 与经验回归方程无关,残差平方和 ∑

2019版高考数学(文)一轮总复习(实用课件):第九章 第6讲 回归分析与独立性检验


3.如果 a,b,c 满足 c<b<a,且 ac<0,那么下列选项中不 一定成立的是( A.ab>ac C.cb2<ab2 C ) B.c(b-a)>0 D.ac(a-c)<0
解析:由题意知,c<0,a>0,则 A 一定正确;B 一定正确; D 一定正确;当 b=0 时,C 不正确.
π π (-π,0) 4.若-2<α<β<2,则 α-β 的取值范围是___________.
bc.∴①错误.∵a>0>b>-a,∴a>-b>0.∵c<d<0,∴பைடு நூலகம்c
a b ac+bd >-d>0.∴a(-c)>(-b)(-d).∴ac+bd<0.∴d+c = cd <
0.∴②正确.∵c<d,∴-c>-d.∵a>b,∴a+(-c)>b+(-d), 即 a-c>b-d.∴③正确.∵a>b,d-c>0,∴a(d-c)>b(d-c).
答案:B
(3)(2016 年福建泉州月考)若 x>y,a>b,则在下列五个式子 中:
a b ①a-x>b-y; ②a+x>b+y; ③ax>by; ④x-b>y-a; ⑤y >x .
恒成立的不等式的序号是__________.
解析:令 x=-2,y=-3,a=3,b=2,符合题意 x>y,
a>b.
D )
2.设 0<a<b<1,则下列不等式成立的是(
D )
A.a >b C.ab>1
3
3
1 1 B.a<b D.lg(b-a)<0
解析:因为 0<a<b<1,由不等式的基本性质可知:a3< 1 1 b ,所以 A 不正确;a>b,所以 B 不正确;由指数函数的图象
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运动与性别有关”
D.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项
运动与性别无关”
4.(2012 年新课标)在一组样本数据(x1,y1),(x2,y2),…, (xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样
1 本点(xi,yi)(i=1,2,…,n)都在直线 y=2x+1 上,则这组样本
解析:因为变量 x 和 y 正相关,则回归直线的斜率为正,
故可以排除选项 C 和 D.
因为样本点的中心在回归直线上,把点(3,3.5)分别代入选
项 A 和 B 中的直线方程进行检验,可以排除 B.故选 A.
3.通过随机询问 110 名性别不同的大学生是否爱好某项运 动,得到如下的列联表: 项目 爱好 不爱好 总计 男 40 20 60 女 20 30 50 总计 60 50 110
i 1 n
回归直线的方法,即求回归直线,使得样本数据的点到它的距
离的平方和最小,这一方法叫做最小二乘法,则回归直线方程
^ ^x+a ^ 的系数为: y=b
n ( xi x)( yi y ) i 1 b n 2 ( x x ) i i 1 a y bx
x y nx y
i 1 n i i
n
x
i 1
2 i
nx
2
n n 1 1 - - 样本点的中心 其中- x =n xi , y =n yi , (- x, y )称作______________. i 1 i 1
(4)线性相关强度的检验:
(
①r=
i 1 n i 1
R2=1-
2 ( y y ) i i 2 ( y y ) i i 1 i 1 n n
.
R2 的值越大,说明残差平方和越小,也就是说模型的拟合 效果越好.在线性回归模型中,R2 表示解释变量对于预报变量变 化的贡献率,R2 越接近于 1,表示回归的效果越好.
3.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别, 像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设 有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1, y2},其样本频数列联表(称为 2×2 列联表)为 2×2 列联表 y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
考点分布
考情风向标
2012年新课标第3题考查样本的 由 于 该 部 分 内 容 的 特 殊 相关系数; 性,高考对该部分的考 2014 年新课标Ⅱ第 19 题考查非 查一直非常慎重 . 高考在 线性拟合、线性回归方程求法, 该部分的主要命题点就 利用回归方程进行预报预测; 是 回 归 分 析 和 独 立 性 检 2015 年新课标Ⅰ第 19 题考查非 验 的 基 础 知 识 和 简 单 应 用 . 因此,复习时要掌握 线性拟合、线性回归方程求法, 利用回归方程进行预报预测; 好 回 归 分 析 和 独 立 性 检 2016 年新课标Ⅲ第 18 题考查非 验 的 基 本 思 想 、 方 法 和 基本公式 . 此部分内容也 线性拟合、线性回归方程求法, 利用回归方程进行预报预测; 可 能 结 合 概 率 统 计 的 其 2017 年新课标Ⅰ第 19 题 (1) 考查 他内容命制综合解答题 . 样本的相关系数;新课标Ⅱ第 另 外 , 复 习 时 要 把 独 立 19题考查独立性检验 性检验作为重点
第11讲 回归分析与独立性检验
考纲要求 1. 会作两个有关联变量的数 据的散点图,会利用散点图 认识变量间的相关关系. 2. 了解最小二乘法的思想, 能根据给出的线性回归方程 系数公式建立线性回归方程. 3. 了解下列一些常见的统计 方法,并能应用这些方法解 决一些实际问题. (1) 了解独立性检验 ( 只要求 2×2列联表)的基本思想、方 法及其简单应用. (2)了解回归的基本思想、方 法及其简单应用
3 1×0+2×2-2×2×1 则 b′= =2, 3 12+22-2×22 3 - - a′= y ′-b′ x ′=1-2×2=-2. ^<b′,a ^>a′.故选 C. 综上所述,b
答案:C
^x+a ^,其中b ^= 【规律方法】回归直线方程为^ y=b
x y nx y
有网友为此进行了调查,在参加调查的 2548 名男性公民中有
1560 名持反对意见,2452 名女性公民中有 1200 人持反对意见, 在运用这些数据说明中国的奖牌数是否与中国进入体育强国有 无关系时,用什么方法最有说服力(
)
B.回归直线方程 D.概率
A.平均数与方差
C.独立性检验
解析:由于参加讨论的公民按性别被分成了两组,而且每 一组又被分成了两种情况:认为有关与无关,故该资料取自完
全随机统计,符合 2×2 列联表的要求.故用独立性检验最有说
服力. 答案:C
2.已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x =3 , y =3.5 ,则由该观测数据算得的线性回归方程可能是 ( A )
A.^ y=0.4x+2.3 C.^ y=-2x+9.5 B.^ y=2x-2.4 D.^ y=-0.3x+4.4
i 1 3
18 ^ ^ = y -b ^ x =176-173=3. ∴b=18=1.∴a ^ x+a ^=x+3. ∴回归直线方程为^ y=b ∴可估计孙子的身高为 182+3=185(cm).
答案:185
考点 2 回归分析的综合运用 例 2:(2015 年新课标Ⅰ)某公司为确定下一年度投入某种 产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单 位:t)和年利润 z(单位:千元)的影响,对近 8 年的宣传费 xi 和 年销售量 yi(i=1,2,…,8)数据作了初步处理,得到下面的散点 图(如图 9111)及一些统计量的值.
^>b′,a ^>a′ A.b ^<b′,a ^>a′ C.b
^>b′,a ^<a′ B.b ^<b′,a ^<a′ D.b
21 7 - 13 - 解析:由表格知, x = 6 =2, y = 6 . 7 13 1×0+2×2+3×1+4×3+5×3+6×4-6×2× 6 ^= 则b 72 2 2 2 2 2 2 1 +2 +3 +4 +5 +6 -6×2 5 =7, 13 5 7 1 ^ - ^ - a= y -b x = 6 -7×2=-3. 3 - - 由两组数据(1,0)和(2,2),得 x ′=2, y ′=1.
2 n ad - bc 构造一个随机变量 K2= , a+bc+da+cb+d
a+b+c+d 为样本容量. 其中 n=______________
(3)独立性检验: 利用随机变量 K2 来判断“两个分类变量有关系”的方法称 为独立性检验.
1.第 31 届夏季奥林匹克运动会,中国获 26 金,18 银,26 铜共 70 枚奖牌居奖牌榜第二,并打破 3 次世界纪录.由此许多 人认为中国进入了世界体育强国之列,也有许多人持反对意见.
2.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种 常用方法. (2)线性相关关系: 观察散点图的特征,如果散点图中点的分布从整体上看大
致在一条直线附近,我们就称这两个变量之间具有线性相关关
系,这条直线叫做回归直线. (3)回归直线的求法:
对于一组具有线性相关关系的数据 (x1,y1),(x2,y2),…, ^xi-a ^)2 的最小值而 (xn,yn),通过求偏差的平方和 Q= ( yi-b
2 n ad - bc 由 K2= 算得: a+bc+da+cb+d 2 110 × 40 × 30 - 20 × 20 K2= ≈7.8. 60×50×60×50
附表:
P(K2≥k) k
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是( A ) A.有 99%以上的把握认为“爱好该项运动与性别有关” B.有 99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项
( xi- x )(yi- y )=(173-173)×(170-176)+(170-173)
i 1
3
×(176-176)+(176-173)×(182-176)=18,
2 2 2 2 x - x ) = (173 - 173) + (170 - 173) + (176 - 173) =18. ( i
n
i
x )( yi y )
n
2 2 ( x x ) ( y y ) i i i 1
n

x y nx y
i 1 i i
( x nx )( y n y )
i 1 2 i 2 i 1 2 i 2
n
n
叫做 y 与 x 的相关系数, 简称
相关系数.
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量________. 负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关性. (5)相关指数:
1.变量间的关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另 一类是相关关系.与函数关系不同,相关关系是一种非确定性关 系. (2)将样本中 n 个数据点(xi,yi)(i=1,2,…,n)描在平面直角 坐标系中,表示两个变量关系的一组数据的图形叫做散点图. (3)正相关、负相关. ①在散点图中,点散布在从左下角到右上角的区域,两个 变量的这种相关关系称为正相关. ②在散点图中,点散布在从左上角到右下角的区域,两个 变量的这种相关关系称为负相关.
相关文档
最新文档