2018高考数学(文)第九篇 统计与统计案例 第3节 变量的相关性与统计案例
高三数学(文)一轮复习课件:变量间的相关关系、统计案例

某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节

中a,b是待定数. n n xi- x yi- y xiyi-n x y i=1 ∧ i=1 = , b= n n 2 2 2 x - n x x - x i i i=1 i=1 ∧ ∧ a= y -b x .
(3)回归分析
②如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.
质疑探究 2∶k2≥3.841 和 k2≥6.635 分别说明了什么问题?
提示:独立性检验得出的结论带有概率性质,只能说结论 成立的概率有多大,而不能完全肯定一个结论,因此才出现了 临界值,3.841 和 6.635 就是两个常用的临界值,一般认为当 k2≥3.841 时, 则有 95%的把握说事件 A 与 B 有关; 当 k2≥6.635 时,则有 99%的把握说事件 A 与 B 有关.
[ 答案] B
2.下面是 2×2 列联表: y1 x1 x2 总计 a 22 b y2 21 25 46 ) B.52,50 D.74,52 总计 73 47 120
则表中 a,b 的值分别为( A.94,72 C.52,74
[ 解析] 选 C.
[ 答案]
∵a+21=73, ∴a=52, 又 a+22=b, ∴b=74. 故
近,就称这两个变量之间具有线性相关关系,这条直线叫做回 归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线
距离的平方和 最小的方法叫做最小二乘法. 的________________
∧
∧
∧
②回归方程:方程 y =bx+a是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其
高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件

[典题体验] 4.(2020·日照一中检测)两个变量 y 与 x 的回归模型 中,分别选择了 4 个不同模型,它们的相关指数 R2 如下, 其中拟合效果最好的模型是( ) A.模型 1 的相关指数 R2 为 0.98 B.模型 2 的相关指数 R2 为 0.80 C.模型 3 的相关指数 R2 为 0.50 D.模型 4 的相关指数 R2 为 0.25 解析:在两个变量 y 与 x 的回归模型中,它们的相关 指数 R2 越近于 1,模拟效果越好,在四个选项中 A 的相 关指数最大,所以拟合效果最好的是模型 1. 答案:A
如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程 (1)最小二乘法. 求回归直线,使得样本数据的点到它的距离的平方和最小的 方法叫做最小二乘法. (2)回归方程.
方程^y =^b x+^a 是两个具有线性相关关系的变量的一 组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 ^a,^b是待定参数.
注:年份代码 1~7 分别表示对应年份 2012~2018 年.
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系, 请用相关系数 r(|r|>0.75 线性相关较强)加以说明;
(2)建立 y 与 t 的回归方程(系数精确到 0.01),预测 2020 年该地区生活垃圾无害化处理量.
附注:
解析:易求-x =9,-y =4,将样本点中心(9,4)代入
选项中验证,满足^y=0.7x-2.3,故选 C. 答案:C
3.(人 A 选修 2-3·习题改编)为了判断高中三年级学
生是否选修文科与性别的关系,现随机抽取 50 名学生,
第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
2018版高考数学一轮总复习第9章统计统计案例及算法初步9.3变量相关关系与统计案例课件文

板块二 典例探17· 洛阳模拟]为研究语文成绩和英语成绩之间
是否具有线性相关关系, 统计某班学生的两科成绩得到如图 所示的散点图(x 轴、 y 轴的单位长度相同), 用回归直线方程 ^ y =bx+a 近似地刻画其相关关系,根据图形,以下结论最 有可能成立的是( )
考点 3
独立性检验
1.独立性检验的有关概念 (1)分类变量 可用变量的不同“值”表示个体所属的 不同类别 的 变量称为分类变量.
(2)2×2 列联表 假设有两个分类变量 X 和 Y,它们的取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 y1 x1 x2 总计 a c y2 b d 总计 a+b c+d a+b+c+d
【变式训练 2】
PM2.5 是指空气中直径小于或等于 2.5
微 米 的 颗粒 物 ( 也称 可 入肺 颗 粒物 ) . 为 了探 究 车流 量 与 PM2.5 的浓度是否相关, 现采集到某城市周一至周五某一时 间段车流量与 PM2.5 浓度的数据如下表: 时间 车流量 x(万辆) PM2.5 的浓度 y(微克/立方米) 周一 周二 周三 周四 周五 100 78 102 80 108 84 114 88 116 90
[双基夯实] 一、疑难辨析 判断下列结论的正误. ( 正确的打“√”,错误的打 “×”) 1.相关关系与函数关系都是一种确定性的关系,也是 一种因果关系.( × ) 2.只有两个变量有相关关系,所得到的回归模型才有 预测价值.( √ )
3. 某同学研究卖出的热饮杯数 y 与气温 x(℃)之间的关 ^ 系,得到回归方程y=-2.352x+147.767,则气温为 2 ℃时, 一定可卖出 143 杯热饮.( × ) 4.事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ ) 5. 由独立性检验可知, 在犯错误的概率不超过 1%的前 提下认为物理成绩优秀与数学成绩有关,某人数学成绩优 秀,则他有 99%的可能物理优秀.( × )
2018年高考数学(人教文科)总复习配套课件:10.4变量间的相关关系、统计案例

专题十
知识梳理
考点自测
10.4
变量间的相关关系、统计案例
必备知识预案自诊 必备知识预案自诊 关键能力学案突破
考情概览备考定向
-3-
1.变量间的相关关系 (1)定义:当自变量取值一定时,因变量的取值带有一定随机性的 两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是 非确定性关系 一种 . (2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做 散点图,它可直观地判断两个变量的关系是否可以用线性关系表示. 若这些散点分布在从左下角到右上角的区域,则称两个变量正相关; 若这些散点分布在从左上角到右下角的区域,则称两个变量负相关 . (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看 一条直线附近 大致在 ,就称这两个变量之间具有线 性相关关系,这条直线叫做回归直线.
五年考题统计 命题规律及趋势 1.通过对近五年 高考试卷的统计 2015 全国Ⅰ,文 分析可知,高考 对本节内容的考 19 2016 全国Ⅲ,文 查逐渐升温,已 经成为高考的热 18 2017 全国Ⅰ,文 点内容. 19 2.考查的重点是 2017 全国Ⅱ,文 回归分析和独立 19 性检验,并且以 解答题的形式呈 现.
2 越接近于 1,表示回归效果越好. , R 2
专题十
知识梳理
考点自测
10.4
变量间的相关关系、统计案例
必备知识预案自诊 必备知识预案自诊 关键能力学案突破
考情概览备考定向
-8-
3.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类 变量称为分类变量. (2)2×2列联表:假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3节变量的相关性与统计案例【选题明细表】基础对点练(时间:30分钟)1.(2016·重庆一中模拟)对某高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到散点图.下面关于这位同学的数学成绩的分析中,正确的共有( D )①该同学的数学成绩总的趋势是在逐步提高②该同学在这连续九次测验中的最高分与最低分的差超过40分③该同学的数学成绩与考试次号具有线性相关性,且为正相关(A)0个(B)1个(C)2个(D)3个解析:根据散点图可知该同学的成绩与考试次数成正相关关系,所以①③均正确;第一次的成绩在90分以下,第九次的成绩在130分以上,所以②正确,故选D.2.(2016·吉林大学附中二模)2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中有1 200名持反对意见,在运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是( C )(A)茎叶图 (B)分层抽样(C)独立性检验(D)回归直线方程解析:这是独立性检验,因为这里有两个分类变量,一个是性别分为男女,一个是意见分为支持和反对,这样就构成一个2×2列联表,用独立性检验来验证“性别”对判断“人机大战是人类的胜利”是否有关系.3.(2016·湖南永州模拟)当今人口政策受到人们的广泛关注,下表是某大学人口预测课题组通过研究预测的15~64岁人口所占比例的结果:已知所占比例y关于年份代号t的回归直线方程为=-1.7t+m,则m等于( D )(A)67.8 (B)68 (C)68.5 (D)68.7解析:因==3,==63.6,故63.6=-1.7×3+m,即m=68.7,故选D.4.(2017·湖南师大附中摸底)某研究性学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算K2=10,则下列选项正确的是( A )(A)有99.5%的把握认为使用智能手机对学习有影响(B)有99.5%的把握认为使用智能手机对学习无影响(C)有99.9%的把握认为使用智能手机对学习有影响(D)有99.9%的把握认为使用智能手机对学习无影响解析:因为7.879<K2<10.828,故有99.5%的把握认为使用智能手机对学习有影响,故选A.5.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(件)之间的一组数据为若y关于x的回归直线方程为=-11.5x+28.1,则上表中的y0值为( C ) (A)7.4 (B)5.1 (C)5 (D)4解析:因==1.8,将其代入=-11.5x+28.1,可得=7.4,即=7.4,解之得y0=37-32=5,故选C.6.下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据下表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,则下列结论错误的是( C )(A)回归直线一定过点(4.5,3.5)(B)产品的生产能耗与产量正相关(C)t的取值是3.15(D)A产品每多生产1吨,则相应的生产能耗约增加0.7吨解析:由题意,==4.5,因为=0.7x+0.35,过样本点的中心(,),所以=0.7×4.5+0.35=3.5,所以t=4×3.5-2.5-4-4.5=3,故选C.7.某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为万元.解析:由上表可得=,=42,所以=-=42-9.4×=9.1,所以当广告费用为6万元时,有=9.4×6+9.1=65.5.答案:65.58.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为.(K2=)解析:由题意知为了判断主修统计专业是否与性别有关系,根据表中的数据,得K2=≈4.84,因为K2≥3.841,由临界值表可以得到P(K2≥3.841)=0.05,所以判定主修统计专业与性别有关系的这种判断出错的可能性最高为0.05=5%.答案:5%9.(2015·福建龙岩市高三5月质检)为了判断高中二年级学生是否喜欢足球运动与性别的关系,现随机抽取50名学生,得到2×2列联表:则有以上的把握认为“喜欢足球与性别有关”.解析:K2的观测值k=≈8.333>7.879,故有99.5%以上的把握认为喜欢足球与性别有关.答案:99.5%10.为了了解观众对春晚节目的喜爱程度,随机调查了观看了该节目的140名观众,得到如下2×2的列联表:(单位:名)(1)从这60名男观众是否喜爱春晚节目采取分层抽样,抽取一个容量为6的样本,问样本中喜爱与不喜爱的观众各有多少名?(2)根据以上列联表,问能否在犯错误的概率不超过0.025的前提下认为观众性别与喜爱春晚节目有关;(精确到0.001)(3)从(1)中的6名男性观众中随机选取两名跟踪调查,求选到的两名观众都喜爱春晚节目的概率.附:临界值表参考公式:K2=,n=a+b+c+d.解:(1)抽样比为=,则样本中喜爱的观众有40×=4(名);不喜爱的观众有6-4=2(名).(2)由已知数据可求得,K2==≈1.167<5.024,所以不能在犯错误的概率不超过0.025的前提下认为观众性别与喜爱春晚节目有关.(3)设喜爱春晚节目的4名男性观众为a,b,c,d,不喜爱春晚节目的2名男性观众为1,2;则基本事件分别为(a,b),(a,c),(a,d),(a,1),(a,2),(b,c),(b,d),(b,1),(b,2),(c,d),(c,1),(c,2),(d,1),(d,2),(1,2)共15个.其中选到的两名观众都喜爱春晚节目的事件有6个,故其概率为P==0.4.11.某益智闯关节目对前期不同年龄段参赛选手的闯关情况进行统计,得到如下2×2列联表,已知从30~40岁年龄段中随机选取一人,其恰好闯关成功的概率为.(1)完成2×2列联表;(2)有多大把握认为是否闯关成功与年龄有关?附:临界值表供参考K2=解:(1)(2)K2==≈7.14>6.635,所以有99%的把握认为是否闯关成功与年龄有关.能力提升练(时间:15分钟)12.(2016·江西萍乡二模)为研究某灌溉渠道水的流速y(m/s)和水深x(m)之间的关系,现抽测了100次,统计出其流速的平均值为1.92,水深的频率直方图如图,已知流速对水深的线性回归方程为=x+0.012,若水深的平均值用每组数据的中值(同一组数据用该区间中点值作代表)来估计,则估计约为( D )(A)0.3 (B)0.6 (C)0.9 (D)1.2解析:水深平均值为1.5×0.3+1.6×0.5+1.7×0.2=1.59,将(1.59,1.92)代入回归直线方程,求得=1.2.故选D.13.根据如下样本数据:得到了回归方程=x+,则( C )(A)>0,>0 (B)<0,>0(C)>0,<0 (D)<0,<0解析:因为总体趋势是y随着x的增大而减小,所以<0,又=5.5,=0.25,所以=-=0.25-5.5>0,选C.,报考学生有500人,其中男生300人,女生200人,为了研究学生的成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们测试的分数,然后按性别分为男、女两组,再将两组学生的分数分成4组:70,90),90,110),110,130),130,150]分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图可以估计女生测试成绩的平均值为103.5分,请你估计男生测试成绩的平均值,由此推断男、女生测试成绩的平均水平的高低;(2)若规定分数不低于110分的学生为“优秀生”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“优秀生与性别有关”?参考公式:K2=参考数据:解:(1)由频率分布直方图可以估计男生测试成绩的平均值为=80×0.015 0×20+100×0.022 5×20+120×0.010 0×20+140×0.002 5×20=100(分),因为103.5>100,所以由此可以推断女生测试成绩的平均水平略高于男生.(2)由题意及频率分布直方图可知,在抽取的100名学生中,男生有100×=60(人),测试成绩优秀的男生有60×(0.010 0+0.002 5)×20=15(人);女生有100×=40(人),测试成绩优秀的女生有40×(0.016 25+0.002 50)×20=15(人).据此可得2×2列联表如下:所以K2====1≈1.79,因为1.79<2.706,P(K2≥2.706)=0.100,所以没有90%的把握认为“优秀生与性别有关”.好题天天练x(单位:年)和所支出的维修费用y(单位:万元)有如下的统计资料:由上表可得回归直线方程=x+0.08,若规定当维修费用y>12时该设备必须报废,据此模型预报该设备使用年限的最大值为( C )(A)7 (B)8 (C)9 (D)10解题关键:理解回归直线过样本点中心求的值.解析:由已知表格得=(2+3+4+5+6)=4,=(2.2+3.8+5.5+6.5+7.0)=5,由于回归直线恒过样本点的中心(,),所以有5=4+0.08,解得=1.23,所以线性回归方程=1.23x+0.08,由y>12得1.23x+0.08>12解得x>9.69,由于x∈N*,所以据此模型预报该设备使用年限的最大值为9.故选C.2.某工厂对新研发的一种产品进行试销,得到如下数据表:已知销量y与单价x具有线性回归关系,该工厂每件产品的成本为5.5元,请你利用所求的线性回归关系预测:要使得利润最大,单价应该定为元.附:线性回归方程=x+中斜率和截距最小二乘估计计算公式:=,=-解题关键:理解回归直线方程意义及利用其解决实际问题.解析:由已知得==8.5,==80,代入斜率估计公式可得=-20,将(,)代入得=-=250,所以回归直线方程为=-20x+250,利润z=(x-5.5)=(x-5.5)(-20x+250)=-20(x-5.5)(x-12.5),对称轴为x=9,所以单价应该定为9元.答案:9。