高考数学一轮复习: 第9章 算法初步、统计与统计案例 第4节 变量间的相关关系与统计案例
高考数学一轮复习第九章算法初步统计统计案例课时作业63算法初步课件理新人教A版

A.k<n? C.k≥n?
B.k>n? D.k≤n?
解析 执行程序框图,输入的 a=2,s=0×2+2=2,k=1;输入的 a =2,s=2×2+2=6,k=2;输入的 a=5,s=2×6+5=17,k=3,此时 结束循环,又 n=2,所以判断框中可以填“k>n?”。故选 B。
答案 B
9.执行如图所示的程序框图,若输入 m=1,n=3,输出的 x=1.75, 则空白判断框内应填的条件为( )
A.1 C.3
B.2 D.4
解析 依据程序框图可知,程序运行如下:初始化数据:n=0,x=1132π, 第一次循环:a=sinx=sin1132π≠ 23,n=n+1=1,x=x-2n1-2 1π=π;第二 次循环:a=sinx=sinπ≠ 23,n=n+1=2,x=x-2n1-2 1π=π-132π=192π; 第三次循环:a=sinx=sin91π2≠ 23,n=n+1=3,x=x-2n1-2 1π=192π-152π
答案 B
14.执行如图所示的程序框图,若输出的结果为 4,则输入的实数 x 的 取值范围是( )
A.-217,89 C.-2,19
B.-89,217 D.-19,2
解析 第一次循环:n=1,x=3x+1,n=2;第二次循环:x=(3x+1)×3 +1=9x+4,n=3;第三次循环:x=(9x+4)×3+1=27x+13,n=4,x≥12, 循环结束。可得不等式组29x7+x+4<131≥2,12, 解得-217≤x<89,所以若输出的
解析 根据程序框图进行运算:a=0,S=0,i=1,a=1,S=1,i=2; a=4,S=1+4,i=3;a=9,S=1+4+9,i=4;a=16,S=1+4+9+16, i=5……依次写出 S 的表达式,发现规律,满足 C。
2015届高考数学一轮复习 变量间的相关关系、统计案例跟踪检测 理(含解析)新人教A版

课时跟踪检测(七十四) 变量间的相关关系、统计案例第Ⅰ组:全员必做题1.(2014·枣庄模拟)下面是2×2列联表:则表中a ,b 的值分别为( )A .94,72B .52,50C .52,74D .74,52 2.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加1个单位时,y ^平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过样本点的中心(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( ) A .0B .1C .2D .3 本题可以参考独立性检验临界值表3.(2013·广州模拟)工人月工资(元)依劳动产值(千元)变化的回归直线方程为y =60+90x ,下列判断正确的是( )A .劳动产值为1 000元时,工资为50元B .劳动产值提高1 000元时,工资提高150元C .劳动产值提高1 000元时,工资提高90元D .劳动产值为1 000元时,工资为90元4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” 5.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元6.高三某学生高考成绩y (分)与高三期间有效复习时间x (天)正相关,且回归方程是y ^=3x +50,若期望他高考达到500分,那么他的有效复习时间应不低于________天.7.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:.(答案保留到0.1)8.某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:的线性回归方程为________.(参考公式:回归直线方程y ^=b ^x +a ^,其中b ^=∑i=1nx i y i -n x y∑i=1nx 2i -n (x )2,a ^=y -b ^x )9.(2013·深圳调研)一次考试中,5名同学的数学、物理成绩如下表所示:(1) (2)要从4名数学成绩在90分以上的同学中选2名参加一项活动,以X 表示选中的同学的物理成绩高于90分的人数,求随机变量X 的分布列及数学期望E (X ).(回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x )10.(2013·石家庄模拟)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查.得到了如下的统计结果:表1:男生上网时间与频数分布表(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )第Ⅱ组:重点选做题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1 2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答 案第Ⅰ组:全员必做题1.选C ∵a +21=73,∴a =52,又a +22=b ,∴b =74.2.选B 数据的方差与加了什么样的常数无关,①正确;对于回归方程y ^=3-5x ,变量x 增加1个单位时,y ^平均减少5个单位,②错误;由线性回归方程的相关概念易知③正确;因为K 2=13.079>k =10.828,故有99%的把握确认这两个变量间有关系,④正确.3.选C 回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位. 4.选C 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.5.选B 样本中心点是(3.5,42),a ^=y -b ^ x ,则a ^=y -b ^x =42-9.4×3.5=9.1, 所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5. 6.解析:本题主要考查运用线性回归方程来预测变量取值. 当y ^=500时,易得x =500-503=150.答案:1507.解析:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y ^=3.53x +a ^,则74.9=3.53×17.4+a ^,解得a ^≈13.5. 答案:13.58.解析:因为x =12,y =13.2, 所以b ^=10×11+12×13+13×14+14×16+11×12-5×12×13.2102+122+132+142+112-5×122=1.2,于是,a ^=13.2-1.2×12=-1.2,故所求线性回归方程为y ^=1.2x -1.2.答案:y ^=1.2x -1.29.解:(1)散点图如图所示.x =89+91+93+95+975=93,y =87+89+89+92+935=90,∑i =15(x i -x )2=(-4)2+(-2)2+02+22+42=40,∑i =15(x i -x )(y i -y )=(-4)×(-3)+(-2)×(-1)+0×(-1)+2×2+4×3=30,b ^=3040=0.75,b ^x =69.75,a ^=y -b ^x =20.25. 故这些数据的回归方程是:y ^=0.75x +20.25. (2)随机变量X 的可能取值为0,1,2.P (X =0)=C 22C 24=16;P (X =1)=C 12C 12C 24=23;P (X =2)=C 22C 24=16.故X 的分布列为:∴E (X )=0×16+1×23+2×16=1.10.解:(1)由男生上网时间与频数分布表可知100名男生中,上网时间少于60分钟的有60人,不少于60分钟的有40人,故从其中任选3人,恰有1人上网的时间少于60分钟的概率为C 1 60C 2 40C 3100=156539. (2)K 2=200×(1 800-2 800)2100×100×130×70=20091≈2.20,∵K 2≈2.20<2.706.∴没有90%的把握认为“大学生上网时间与性别有关”. 第Ⅱ组:重点选做题1.选D 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式R =1-∑i =1n(y i -y ^i )2∑i =1n(y i -y -)2=1.2.选D 根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.。
高考数学人教版(理科)一轮复习课件:第9章第3讲变量间的相关关系与统计案例课后作业5

∑ yi- y 2
i=1
解析
R2 恰好等于相关系数 r 的平方,显然,R2 取值越大,意味着残差平方和越小, 也就是模型的拟合效果越好,④正确;回归直线方程y^=0.1x+10 中,当解释 变量 x 每增加一个单位时,预报变量y^增加 0.1 个单位,⑤正确.
解析
10.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所
答案
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散 布在直线 y=-30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建 立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010 年 相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据 对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额 的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模 型y^=99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化 趋势,因此利用模型②得到的预测值更可靠.
答案 C
答案
解析 k≈9.616>6.635,∴有 99%以上的把握认为“生育意愿与城市级 别有关”.故选 C.
解析
5.(2018·河南天一大联考)已知变量 x,y 之间满足线性相关关系y^=1.3x
-1,且 x,y 之间的相关数据如下表所示:
x123
4
y 0.1 m 3.1
4
则 m=( )
A.0.8 B.1.8 C.0.6 D.1.6
⑤在回归直线方程y^=0.1x+10 中,当解释变量 x 每增加一个单位时, 预报变量y^增加 0.1 个单位.
专题68 变量间的相关关系与统计案例-高考数学复习资料(解析版)

D.58 件
【答案】A
【解析】由题中数据,得 x =10, y =38,回归直线y^=b^x+a^过点( x , y ),且b^=-2,代入得a^=58, 则回归方程y^=-2x+58,所以当 x=6 时,y=46,故选 A.
附: K 2
n(ad bc)2
.
(a b)(c d)(a c)(b d)
P(K2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
【解析】 (1)由调查数据,男顾客中对该商场服务满意的比率为 40 0.8 ,因此男顾客对该商场服务满 50
意的概率的估计值为0.8.
支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795 万元
B.2.555 万元
C.1.915 万元
D.1.945 万元
【答案】A
【解析】
x
1 = ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),
y
1 = ×(1.25+1.30+1.50+1.70
^
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,
这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010 年
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
--
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为
(09)第9章 一元线性回归(2011年)

变量之间是否存在关系? 如果存在,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体 变量之间的关系?
9-9 *
9.1 变量间的关系 9.1.1 变量间是什么样的关系?
统计学 STATIS TICS
函数关系
(第四版) 1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 x 3. 各观测点落在一条线上
y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素 对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数
9 - 30 *
统 计 学 数据分析 (方法与案例)
作者 贾俊平
统计学 STATIS TICS
(第四版)
统计名言
不要过于教条地对待研究的结果, 尤其当数据的质量受到怀疑时。
——Damodar N.Gujarati
9-2 *
第 9 章 一元线性回归
9.1 9.2 9.3 9.4 变量间关系的度量 一元线性回归的估计和检验 利用回归方程进行预测 用残差检验模型的假定
9-7
*
第 9 章 一元线性回归
9.1 变量间的关系
9.1.1 变量间是什么样的关系? 9.1.2 用散点图描述相关关系 9.1.3 用相关系数度量关系强度
高三数学:变量间的相关关系、统计案例 经典教案

变量间的相关关系、统计案例 经典教案[最新考纲] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=. (3)通过求Q = (y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计x 1 a b a +bx 2 c d c +d总计 a +c b +d a +b +c +dK 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ). [常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域;(2)负相关:样本点分布在从左上角到右下角的区域.2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ).4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( )(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )(3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计x 1 a 21 73x 2 22 25 47合计 b 46 120A.94,72 C .52,74 D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001k 0 2.706 3.841 5.024 6.635 10.828A.0.1% C .99% D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]相关关系的判断1( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表: 甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( )A .甲B .乙C .丙D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:时,正相关;时,负相关.线性回归分析及应用【例1】 如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. [规律方法] 线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数(2018·临沂期末)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:超市A B C D E F G 广告费支出x i 1 2 4 6 11 13 19销售额y i19 32 40 44 52 53 54 (1)(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元. 独立性检验及应用【例2】 收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg ”,估计A 的概率;(2)箱产量<50 kg 箱产量≥50 kg旧养殖法新养殖法(3)附:P (K 2≥k 0) 0.050 0.0100.001 k 0 3.841 6.635 10.828,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ). [解] (1)旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A 的概率估计值为0.62.(2) 箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法 34 66 K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[规律方法] 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=,计算K 2的观测值k 的值;(3)查表比较K 2的观测值k 与临界值的大小关系,作统计判断.( 合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025 选择自然科学类 选择社会科学类 合计男生女生合计附:K 2=n ((a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2 ≥k 0)0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712.(2) 选择自然科学类 选择社会科学类 合计男生60 45 105 女生30 45 75 合计90 90 180 则K 2的观测值为k =105×75×90×90=367≈5.142 9>5.024, 所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ), P (K 2≥k 0) 0.050 0.010 0.001k 0 3.841 6.635 10.828[解] (1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m =79+812=80. 列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式5 15 (3)由于K 2的观测值k =20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.课后限时集训(五十五)(建议用时:60分钟)A 组 基础达标一、选择题1.在下列各图中,两个变量具有相关关系的图是( )(1) (2) (3) (4)A .(1)(2)B .(1)(3)C .(2)(4)D .(2)(3)D [(1)为函数关系;(2)显然成正相关;(3)显然成负相关;(4)没有明显相关性.]2.( 成都模拟)已知x ,y x 0 1 3 4y 2.2 4.3 4.8 6.7由表格分析y 与x 的线性关系,且y =0.95x +a ,则a =( )A .2.2B .2.6C .3.36D .1.95B [由表格数据计算得—x =2,—y =4.5,又由公式a ^=—y -,得a ^=2.6,故选B.]3.(吉林长春联考)下列命题:①在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 变化的贡献率,R 2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是 ( )A .1个B .2个C .3个D .4个C [对于④,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,故④错误.①②③说法均正确,故选C.]4.( 南阳联考)x 2 4 5 6 8y 20 40 60 70 80根据上表,利用最小二乘法得它们的回归直线方程为y =10.5x +a ^,据此模型预测当x =10时,y的估计值为( )A .105.5B .106C .106.5D .107C [因为—x =2+4+5+6+85=5, —y =20+40+60+70+805=54. 故将—x =5,—y =54代入y ^=10.5x +a ^可得a ^=54-52.5=1.5,则y ^=10.5x +1.5,当x =10时,y ^=10.5×10+1.5=106.5.]5.通过随机询问110男 女 合计爱好 40 20 60不爱好 20 30 50合计 60 50 110由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8. 附表:P (K 2≥k 0) 0.050 0.010 0.001k 0 3.841 6.635 10.828A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”A [根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表)^零件数x (个)10 20 30 40 50 加工时间y (min) 62 75 81 8968 [由—x =30,得—y =0.67×30+54.9=75.设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.]7专业 性别非统计专业 统计专业 男13 10 女7 20 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.5% [∵K 2≈4.844>3.841,∴有95%的把握认为主修统计专业与性别有关系,即作出“主修统计专业与性别有关系”的判断出错的可能性不超过5%.]8.( 长沙模拟)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃) 18 13 10 -1用电量(度) 24 34 38 64由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量约为________度.68 [根据题意知—x =18+13+10+(-1)4=10,—y =24+34+38+644=40,所以a ^=40-(-2)×10=60,y ^=-2x +60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.]三、解答题9.( 重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:满意 不满意男用户 3010女用户 20 20 (1)5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)P (K 2≥k 0) 0.100 0.050 0.025 0.010k 0 2.706 3.841 5.024 6.635注:K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d . [解] (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s 则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs .故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>5.024.又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.表1停车距离d (米) (10,20] (20,30] (30,40] (40,50] (50,60]频数26 m n 8 2 表2平均每毫升血液酒精含量x (毫克) 10 30 50 70 90平均停车距离y (米)30 50 60 70 90 已知表1(1)求m ,n 的值,并估计驾驶员无酒状态下停车距离的平均数;(2)根据最小二乘法,由表2的数据计算y 关于x 的回归方程y ^=b ^x +a ^;(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y 大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?(附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为[解] (1)依题意,得610m =50-26,11 解得m =40,又m +n +36=100,解得n =24.故停车距离的平均数为15×26100+25×40100+35×24100+45×8100+55×2100=27.(2)依题意,可知—x =50,—x =60,=10×30+30×50+50×60+70×70+90×90=17 800,=102+302+502+702+902=16 500,所以b ^=17 800-5×50×6016 500-5×502=0.7, a ^=60-0.7×50=25,所以回归直线方程为y ^=0.7x +25.(3)由(1)知当y >81时认定驾驶员是“醉驾”.令y ^>81,得0.7x +25>81,解得x >80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.B 组 能力提升1.( 安阳质检)2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,29],[30,34]的爱看比例分别为10%,18%,20%,30%,t %,现用这5个年龄段的中间值x 代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求得x 关于爱看比例y 的线性回归方程为y ^=(kx -4.68)%,由此可推测t 的值为 ( )A .33B .35C .37D .39B [前4个数据对应的—x =19.5,—y =0.195(把百分数转化为小数),而y ^=(kx -4.68)%=b ^x -0.0468,∴0.195=b ^×19.5-0.046 8,∴b ^=0.012 4,∴y ^=(1.24x -4.68)%,当x =30+342=32时,t =1.24×32-4.68=35.]2.( 贵阳模拟)随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A 市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200 经常使用 偶尔或不用 合计30岁及以下70 30 100 30岁以上60 40 100 合计130 70 200 根据以上数据,的前提下认为A 市使用共享单车情况与年龄有关.附:P (K 2≥k 0) 0.15 0.10 0.05 0.025 0.010k 0 2.072 2.706 3.841 5.024 6.635K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d . 能 [由列联表可知,K 2的观测值k =200×(70×40-30×60)2100×100×130×70≈2.198.因为2.198>2.072, 所以能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关.]。
第九章 第三节 变量间的相关关系、统计案例
A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
高考数学总复习第九章算法初步、统计、统计案例课时作业62理
课时作业62 变量间的相关关系与统计案例1.(2019·辽宁丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K 2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( C )附:C .1%D .0.1%解析:因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.2.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B )A.116 B .18 C.14D .12解析:依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.4.为考察A 、B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法正确的是( C ) A .药物A 、B 对该疾病均没有预防效果 B .药物A 、B 对该疾病均有显著的预防效果 C .药物A 的预防效果优于药物B 的预防效果 D .药物B 的预防效果优于药物A 的预防效果解析:根据两个等高条形图知,药物A 实验显示不服药与服药时患病的差异较药物B 实验显示明显大,∴药物A 的预防效果优于药物B 的预防效果.故选C.5.(2019·河南焦作一模)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y =b x -0.25,据此可以预测当x =8时,y ^=( C ) A .6.4 B .6.25 C .6.55D .6.45解析:由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25, 所以当x =8时,y ^=0.85×8-0.25=6.55,故选C.6.(2019·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由K 2=a +bc +d a +cb +d算得,K 2=258×42×35×65≈9.616,参照附表,得到的正确结论是( C )A .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关” 解析:由题意K 2的观测值≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.77x +52.9.解析:由已知可计算求出x =30,而线性回归方程必过点(x ,y ),则y =0.77×30+52.9=76,设模糊数字为a ,则a +62+75+80+905=76,计算得a =73.8.(2019·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)过 0.025 .附表:解析:由列联表计算K 2的观测值k =30×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有解析:由2×2列联表可知,K 2=-240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.10.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n = 10 .解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n 5,回归直线一定经过样本点中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.11.(2019·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=a +bc +d a +cb +d,n =a +b +c +d .解:(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =-2++++=163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.12.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t -.解:(1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.10, a ^=y -b ^ t -=1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为 y ^=0.93+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.13.(2019·湖南张家界一模)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( C )A.变量x ,B .可以预测,当x =20时,y ^=-3.7 C .m =4D .该回归直线必过点(9,4)解析:由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C.14.(2019·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( C )A.b ^>b ′,a ^>a ′ B .b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D .b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6 x·y∑i =16x 2i -6 x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.15.(2019·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 12 人.则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2019·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量;(3)请用数据说明回归方程预报的效果.参考数据:y -=54,∑i =17(t i -t -)(y i -y -)=21,14≈3.74,∑i =17(y i -y ^i )2=94. 参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,线性回归方程y ^=a ^+b ^t ,b ^=∑i =1nt i -ty i -y∑i =1n t i -t2,a ^=y -b ^t -.反映回归效果的公式为:R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2,其中R 2越接近于1,表示回归的效果越好.解:(1)由折线图中的数据得,t =4,∑i =17(t i -t -)2=28,∑i =17(y i -y -)2=18,所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y -=54,b ^=∑i =17t i -ty i -y∑i =17t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑i =17y i -y ^i2∑i =17y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
2015高考数学(理)一轮复习考点突破课件:11.3变量间的相关关系、统计案例
• •
1.相关关系与函数关系的区别 相关关系与函数关系不同.函数关系中的两个变量间是一种确定 性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关 系.相关关系是一种非确定性关系,即相关关系是非随机变量与 随机变量之间的关系.例如商品的销售额与广告费是相关关 系.两个变量具有相关关系是回归分析的前提.
2.对回归分析的理解 (1)回归分析是处理变量相关关系的一种数学方法, 它主要解决 三个问题: ①确定两个变量之间是否有相关关系, 如果有就找出它们之间 贴近的数学表达式,否则求出的回归方程没有意义; ②根据一组观察值, 预测变量的取值及判断变量取值的变化趋 势; ③求出线性回归方程. ^x+a ^一定过样本点的中心( x , y ). (2)回归直线^ y=b
第3课时
变量间的相关关系、统计案例
• • • • •
(一)考纲点击 1.会作两个有关联变量数据的散点图,会利用散点图认识变量 间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公 式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简 单应用. 4.了解回归的基本思想、方法及其简单应用.
• 2×2列联表
总计 x1 a+ b x2 c+ d a+ b +c 2 c b+nd 总计 a+ ad-bc 2 +d 构造一个随机变量 K =
n=
y1 a c
y2 b d
,其中 a+bc+da+cb+d
a+b+c+d
为样本容量.
• (3)独立性检验 • 利用随机变量 来判断“两个分类变量 独立性检验. K2
其中一定不正确 的结论的序号是 ... ( A.①② C.③④ B.②③ D.①④ )
• (2)对变量x,y有观测数据(xi,yi)(i=1,2,„,10),得散点图(1); 对变量u、v有观测数据(ui,vi)(i=1,2,„,10),得散点图(2).由 这两个散点图可以判断 •( )
2015届高考数学总复习第九章 第五节 变量间的相关关系、统计案例课件 理
身 54 54.3 63 66 69 73 82 83 80.3 高
91 93.2 94 94
低蛋白食物组
年 龄 身 高 0.4 0.7 52 55 1 61 1 63. 4 1.5 66 2 68.5 2 67.9 2. 4 7 2 2. 8 3 1.3 1.8 0.2 69 51 3 77
76 74 65
点图如图所示.由图可以看出某地的年降雨量 (mm)与年平均
气温(℃)不具有相关关系.故选D.
答案:(1)A (2)D
点评:(1)在散点图中,如果所有的样本点都落在某一函 数的曲线上,就用该函数来描述变量之间的关系,即变量之 间具有函数关系.如果所有的样本点都落在某一函数的曲线 附近,变量之间就有相关关系.如果所有的样本点都落在某
通过分析,发现销售量y与商品的价格x具有线性相关关 系,则销售量y关于商品的价格x的线性回归方程为
________.
解析: xiyi=392,- x =10,- y =8, x2 i =502.5,
i=1 i=1
5
5
^ =-3.2,所以, ^ ^ - 代入公式,得 b a =- y -b x =40,故线性 ^=-3.2x+40. 回归方程为y ^=-3.2x+40 答案:y
根据以上数据求线性回归方程.
^ =b ^x+^ 解析:设回归直线方程为y a,
6 6 21 426 2 - x = 6 ,- y = 6 =71, xi =79, xiyi=1 481, i=1 i =1
x - y xiyi-6- ^= 所以代入公式b
i=1
6
, x2 xi2-6-
i=1 6
③某人每日吸烟量和身体健康情况;
④圆的半径与面积; ⑤汽车的重量和每公里耗油量. 其中两个变量成正相关的是( A.①③ B.②④ ) D.④⑤ C.②⑤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵
你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵
第四节 变量间的相关关系与统计案例
[考纲传真] (教师用书独具)1.会做两个有关联变量的数据的散点图,并利用散点图认识变
量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性
回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应
用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
(对应学生用书第165页)
[基础知识填充]
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们
将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性
相关关系,这条直线叫作回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.
(2)回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,
yn)的回归方程,其中a,b
是待定参数.
b
=∑ni=1 (xi-x)(yi-y)∑ni=1 (xi-x)2=
∑ni=1xiyi-
nx-y
-
∑ni=1x2i-nx2a=y-bx.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x-,y-)称
为样本点的中心.
你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵
你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵你是我心中最美的云朵
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r
的绝对值越接近于0,表明
两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性
相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变
量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,
它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)
为
2×2列联表
y1 y2
总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
构造一个随机变量χ2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
[知识拓展] 1.b的几何意义:体现平均增加或平均减少.
2.由回归直线求出的数据是估算值,不是精确值.
[基本能力自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性
检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( )
[答案] (1)√ (2)√ (3)× (4)√
2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则
由该观测数据算得的线性回归方程可能是( )
A.y=0.4x+2.3 B.y=2x-2.4