“十年高考”:概率与统计 回归分析与独立性检验(附详细答案解析)

合集下载

【高考数学】专题十 概率与统计第二十九讲 回归分析与独立性检验(含答案)

【高考数学】专题十  概率与统计第二十九讲  回归分析与独立性检验(含答案)

取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
x
正确的是
A. x 与 y 正相关, x 与 z 负相关 C. x 与 y 负相关, x 与 z 负相关
2.(2014 湖北)根据如下样本数据
B. x 与 y 正相关, x 与 z 正相关 D. x 与 y 负相关, x 与 z 正相关
x
3
4
5
6
7
8
y
4.0
2.5
− 0.5
0.5
− 2.0
− 3.0
得到的回归方程为 yˆ = bx + a ,则
=
1 16
16 i =1
xi
=
9.97 , s
=
1 16
16 i =1
( xi
− x)2
=
1 16
(
16 i =1
xi2
−16x 2 )
16
16
0.212 , (i − 8.5)2 18.439 , (xi − x)(i − 8.5) = −2.78 ,其中 xi 为抽取的
i =1
i =1
第 i 个零件的尺寸, i =1,2,…,16.
专题十 概率与统计
第二十九讲 回归分析与独立性检验
2019 年

十年高考理科数学真题 专题十一 概率与统计 三十三 回归分析与独立性检验及答案

十年高考理科数学真题 专题十一  概率与统计 三十三  回归分析与独立性检验及答案

专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。

十年高考统计与概率分析

十年高考统计与概率分析

2015(Ⅱ) 作图 2013(Ⅱ) 频率分布直方图 2014(Ⅰ) 频率分布直方图 2015(Ⅰ) 散点图 2015(Ⅱ) 茎叶图 2016(Ⅰ) 频率分布直方图 2016(Ⅲ) 折线图 2017(Ⅱ) 频率分布直方图 2017(Ⅱ) 折线图 2018(Ⅲ) 茎叶图
表4-概率计算统计
以购买易损零件所需要的期望值为决策依据,在n=19 与n=20之中选其一,应选用哪个?
以检验费用与赔偿费用和的期望值为决策依据,是否 该对这箱余下的所有产品做检验?
2017(Ⅰ) 试说明上述监控生产过程方法的合理性. 2018(Ⅰ)
2018(Ⅱ) 你认为用哪个模型得到的预测值更可靠?并说明理由.
表3-统计决断问题统计
试题年份 图形类型 考查内容
2009 2009
作图 频率分布直方图
作频率分布直方图 作茎叶图 估计方差,计算平均数 计算概率与方差 计算平均数与方差 求回归方程 估计平均值与分散程度 求分布列 回归分析,相关系数 计算概率,2×2列联表,中 位数 回归分析,统计推断 计算平均数,中位数,2×2 列联表
表5-与函数结合统计
年份 函数类型 问题描述
2011 2012
分段函数购进16枝玫瑰花,求 当天的利润y(单位:元)关于需 求量n(单位:份,n∈N)的函 数解析式 将T表示为X的函数 计算二次型函数的最值 求进货量n为多少时期望达到最大 值 求f(p)的最大值点p0
回归方程 非线性回归方程从统计 的角度计算二次型函数 的最值 茎叶图、从统计的角度 计算概率 分布列、从统计的角度 求最值、统计推断 从统计角度计算概率、 条件概率、期望 相关关系、回归直线方 程
频率分布直方图 232 表格 散点图 222 341
2015(Ⅱ) 18

2017高考十年高考文数分项版(新课标1专版)专题11 概率和统计(解析版) 含解析

2017高考十年高考文数分项版(新课标1专版)专题11 概率和统计(解析版) 含解析

一.基础题组1。

【2013课标全国Ⅰ,文3】从1,2,3,4中任取2个不同的数,则取出的2个数之差的绝对值为2的概率是( ).A .12B .13C .14D .16【答案】:B【解析】:由题意知总事件数为6,且分别为(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),满足条件的事件数是2,所以所求的概率为13。

2。

【2011课标,文6】有3个兴趣小组,甲、乙两位同学各自参加其中一个小组,每位同学参加各个小组的可能性相同,则这两位同学参加同一个兴趣小组的概率为( )A 。

13B 。

12 C.23D 。

34【答案】A【解析】因为每位同学参加各个小组的可能性相等,所以所求概率为13,选A 。

3。

【2008全国1,文2】掷一个骰子,向上一面的点数大于2且小于5的概率为1P ,抛两枚硬币,正面均朝上的概率为2P ,则( ) A .12P P < B .12P P > C .12P P = D 。

不能确定 【答案】B5。

【2016新课标1文数】为美化环境,从红、黄、白、紫4种颜色的花中任选2种花种在一个花坛中,余下的2种花种在另一个花坛中,则红色和紫色的花不在同一花坛的概率是(A )13 (B )12 (C )23 (D )56【答案】C【解析】试题分析:将4种颜色的花种任选2种种在一个花坛中,余下2种种在另一个花坛中,有6种种法,其中红色和紫色的花不在同一个花坛的种数有4种,故所求概率为23,选C 。

【考点】古典概型【名师点睛】作为客观题形式出现的古典概型试题,一般难度不大,解答中的常见错误是在用列举法计数时出现重复或遗漏,避免此类错误发生的有效方法是按照一定的标准进行列举。

6。

【2011全国1,文19】(Ⅰ)设所求概率为1P ,则1=1(10.5)(10.6)0.8.P --⨯-=故该地1位车主至少购买甲、乙两种保险中的l 种的概率为0.8.(Ⅱ)对每位车主甲、乙两种保险都不购买的概率为(10.5)(10.6)0.2.-⨯-=于是所求概率为:123(0.2)(10.2)0.384.C -=7. 【.2009....全国卷...Ⅰ.,文..20..】甲、乙二人进行一次围棋比赛,约定先胜3局者获得这次比赛的胜利,比赛结束。

概率统计解答题(理科)(解析版)- 十年(2014-2023)高考数学真题分项汇编(全国通用)

概率统计解答题(理科)(解析版)- 十年(2014-2023)高考数学真题分项汇编(全国通用)

Cm2 m3
)
(Cmn22
Cm2 n1
)]

m 1
Cm2 n2

民间解答:(1) 7C36 4C74 7 20 4 35 0 ;
(2)对任意的 m N* ,

当 n m 时,左边 m 1 Cmm
m
1
,右边
m
1
Cm2 m2
m 1,等式成立,
② 假设 n k k ≥ m 时命题成立,
题型一:二项式定理
1.(2019·江苏·第24题)设 (1 x)n a0 a1x a2 x2 an xn , n 4, n N* .已知 a32 2a2a4 . (1)求 n 的值;(2)设 (1 3)n a b 3 ,其中 a,b N* ,求 a2 3b2 的值. 【答案】见解析
PK2 k
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii) R 6 ;
解析:(1)由已知 K 2
n(ad bc)2
= 200(4090 6010)2
(a b)(c d)(a c)(b d) 50150100100
6
2
24
解得 n 5 .
(2)由(1)知, n 5 .
(1 3)n (1 3)5
C50 C15 3 C52 ( 3)2 C53 ( 3)3 C54 ( 3)4 C55 ( 3)5 ab 3. 解法一:因为 a,b N* ,所以 a C50 3C52 9C54 76,b C15 3C35 9C55 44 , 从而 a2 3b2 762 3 442 32 .
都为 1 , 2

高考数学专题《概率与统计》解读含答案解析

高考数学专题《概率与统计》解读含答案解析

重难点04 概率与统计新高考概率与统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。

试题考查特点是以实际应用问题为载体,小题部分主要是考查排列组合与古典概型,解答题部分主要考查独立性检验、超几何分布、离散型分布以及正态分布对应的数学期望以及方差。

概率的应用立意高,情境新,赋予时代气息,贴近学生的实际生活。

取代了传统意义上的应用题,成为高考中的亮点。

解答题中概率与统计的交汇是近几年考查的热点趋势,应该引起关注。

求解概率问题首先确定是何值概型再用相应公式进行计算,特别对于解互斥事件(独立事件)的概率时,要注意两点:(1)仔细审题,明确题中的几个事件是否为互斥事件(独立事件),要结合题意分析清楚这些事件互斥(独立)的原因;(2)要注意所求的事件是包含这些互斥事件(独立事件)中的哪几个事件的和(积),如果不符合以上两点,就不能用互斥事件的和的概率.离散型随机变量的均值和方差是概率知识的进一步延伸,是当前高考的热点内容.解决均值和方差问题,都离不开随机变量的分布列,另外在求解分布列时还要注意分布列性质的应用.捆绑法:题目中规定相邻的几个元素捆绑成一个组,当作一个大元素参与排列。

相离问题插空排:元素相离(即不相邻)问题,可先把无位置要求的几个元素全排列,再把规定的相离的几个元素插入上述几个元素的空位和两端。

定序问题缩倍法:在排列问题中限制某几个元素必须保持一定的顺序,可用缩小倍数的方法。

标号排位问题分步法:把元素排到指定位置上,可先把某个元素按规定排入,第二步再排另一个元素,如此继续下去,依次即可完成。

有序分配问题逐分法:有序分配问题指把元素分成若干组,可用逐步下量分组法。

对于二项式定理的应用,只要会求对应的常数项以及对应的n项即可,但是应注意是二项式系数还是系数。

新高考统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验

第65讲 回归分析和独立性检验【知识要点】(一)变量间的相关关系、回归分析的基本思想及初步运用 一、相关关系1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系.2、相关关系与函数关系的异同点. 相同点:两者均是指两个变量间的关系.不同点:函数关系是一种确定关系,是一种因果系.如正方形的面积s 和边长a 的关系2s a =就是一种函数关系.相关关系是一种非确定的关系,也不一定是因果关系.如产品的销售额与广告费的投入的关系. 二、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图.正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关. 负相关:如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系. 三、回归分析1、对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析的一般步骤为画散点图→求回归直线方程→用回归直线方程进行预报.2、回归直线方程回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线.回归直线方程:设所求的直线方程为y bx a ∧=+,其中121()(),()niii nii x x y y b a y bx x x ==--==--∑∑,1111,,n ni i i i x x y y n n ====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 3、相关系数两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()niix x y y r --=∑ 0r >,表示两个变量正相关;0r <,表示两个变量负相关;r 的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. 4、建立回归模型的基本步骤:①确定研究对象,明确哪个是解释变量,哪个是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系) ③由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+) ④按照公式计算回归方程中的参数(如最小二乘法) ⑤得出结果后检查数据模型是否合适检查数据模型拟合效果的好坏,一般有两种方法.方法一:通过残差分析,如果残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,反之,不合适)方法二:用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ∧==-=--∑∑其中i y y ∧-=真实值-预报值=残差,2R 值越大,说明残差的平方和越小,也就是说模型的拟合效果越好.(二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等二、独立性检验的方法1、列出两个分类变量的频数表(列联表),直观判断.2、画三维柱形图、二维条形图、等高条形图,直观判断.3、两个分类变量的独立性检验 一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:2 4.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%. 三、温馨提示(1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检验这个方法来确认所得得结论在多大程度上适用于总体.(2)独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.(3)2K 与k 的关系并不是2K k =,k 是2K 的观测值,或者说2K 是一个随机变量,它在dc b a ,,,取不同的值时,2K 可能不同,而k 是取定一组数d c b a ,,,后的一个确定值. 【方法讲评】【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.因为162211(16)0.21216i i x x =-≈∑,所以162211(16)16i i x x =-∑=20.212,所以162221160.21216i i x x ==⋅+∑ 22160.212169.971591.134=⋅+⋅≈剩下数据的样本方差为2222211611611611[()()][()152()]1515x x x x x x x x x x -++-=+++-++2222222211611315161622222111[()15215][(+x )15]151511[9.221510.02][1591.1349.221510.02]0.0081515i i x x x x x x x x x x ==+++-⋅=++++-=--⋅=--⋅≈∑0.0080.09≈.【点评】(1)统计概率的解答题一般阅读量信息量比较大,并且数据比较多,对考生的心理素质要求较高,如果学生急躁冒进,对解题的影响就大了. 遇到这样的题目,建议先绕过拦路虎,杀个回马枪.先把其它题目完成再回过头来解答. 不要硬碰硬. (2)前几年的高考,数据直接代进去就可以了,运算量比较小,最近几年的高考,有的数据不能直接代进去,还要把目标数据变形后才能代进去. 故近几年的高考统计概率题的数据分析处理能力要求更高了. 本题中要求162 1()iix x=-∑,已知告诉的却是16211()16iix x=-∑0.212≈,所以要化简计算才能得到1621()iix x=-∑.本题中要求剩下的15个数的平均数,但是已知告诉的却是16119.9716iix x===∑,所以要利用平均数的定义和16119.9716iix x===∑求出剩下的15个数的平均数. 本题要求剩下的15个数的方差,但是已知告诉的却是16个数的标准差16211()0.21216iix x=-≈∑,所以要利用方差的定义结合16211()0.21216iix x=-≈∑求出剩下的15个数的方差. 这是本题的三个难点.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32iiy==∑,7140.17i iit y==∑721()0.55iiy y=-=∑7 2.646≈.参考公式:相关系数12211()()()(y y)ni iin ni ii it t y yrt t===--=--∑∑∑回归方程y a bt=+中斜率和截距的最小二乘估计公式分别为:121()()()ni iiniit t y ybt t==--=-∑∑,=.a y bt-【反馈检测2】经销商小王对其所经营的某一型号二手汽车的使用年数x (0<x ≤10)与销售价格y (单位:万元/辆)进行整理,得到如下的对应数据:(Ⅰ)试求y 关于x 的回归直线方程;(附:回归方程y b x a ∧∧∧=+中,1221,ni ii nii x y nx yb a y bx xnx ---==--∑∑(Ⅱ)已知每辆该型号汽车的收购价格为20.05 1.7517.2w x x =-+万元,根据(Ⅰ)中所求的回归方程,预测x 为何值时,小王销售一辆该型号汽车所获得的利润z 最大.【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A 市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有0090的把握认为A 市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3) 将上述调查所得到的频率视为概率,.现在从A 市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X .①求X 的分布列;②求X 的数学期望()E X 和方差()D X . 参考公式:()()()()()22n ad bc K a b a d a c b d -=++++,其中n a b c d =+++ 参考数据:()2P K k >0.15 0.10 0.05 0.025 0.010 0.005 0.001 k2.0722.7063.8415.0246.6357.87910.828(3)(i )由22⨯列联表可知,抽到持“支持”态度的市民的频率为6031005=,将频率视为概率,即从A 市市民中任意抽取到一名持“支持”态度的市民的概率为35. 由于总体容量很大,故X 可视作服从二项分布,即3(3,)5XB ,所以3332()()()(0,1,2,3)55k k k P X k C k -===.从而X 的分布列为:X123P8125 36125 54125 27125(ii )39()355E X np ==⨯=;()(1)D X np p =-=321835525⨯⨯=. 【点评】第三小问中,由于总体容量很大,故X 可视作服从二项分布.【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n ad bc K a b c d a c b d -=++++高中数学常见题型解法归纳及反馈检测第65讲:回归分析和独立性检验参考答案【反馈检测1答案】(Ⅰ)0.99r ≈,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系;(Ⅱ)1.82亿吨(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.【反馈检测2答案】(I )ˆ 1.4518.7y x =-+;(II )预测当3x =时,销售利润z 取得最大值.【反馈检测2详细解析】(Ⅰ)由已知得6,10x y ==由552111242,220,i ii i x yx --==∑∑解得12211.45ni ii nii x y nx yb xnx---==--∑∑,18.7a y bx =-=所以回归直线的方程为14.518.7y x =-+(Ⅱ)221.4518.7(0.05 1.7517.2)0.050.3 1.5z x x x x x =-+--+=-++20.05(3) 1.95x =--+文档从网络中收集,已重新整理排版.word 版本可编辑.欢迎下载支持.11文档来源为:从网络收集整理.word 版本可编辑. 所以预测当3x =时,销售利润z 取得最大值.【反馈检测3答案】(1)0.4092;(2) 有99%的把握认为箱产量与养殖方法有关;(3)52.35kg.(2)根据箱产量的频率分布直方图得列联表箱产量50kg < 箱产量50kg ≥ 旧养殖法62 38 新养殖法 34 66()222006266343815.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯由于15.705 6.635>故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为()0.0040.0200.04450.340.5++⨯=<,箱产量低于55kg 的直方图面积为()0.0040.0200.044+0.06850.680.5++⨯=>故新养殖法箱产量的中位数的估计值为0.5-0.3450+ 2.35kg 0.068()≈5.。

高考数学复习第9章概率与统计第6讲回归分析与独立性检验

高考数学复习第9章概率与统计第6讲回归分析与独立性检验
第6讲 回归分析与独立性检验
课标要求
1.通过收集现实问题中两个有关联变量的数据作 出散点图,并利用散点图直观认识变量间的相关 关系. 2.经历用不同估算方法描述两个变量线性相关的 过程.知道最小二乘法的思想,能根据给出的线性 回归方程系数公式建立线性回归方程. 3.通过典型案例,学习下列一些常见的统计方法, 并能初步应用这些方法解决一些实际问题. (1)通过对典型案例(如“肺癌与吸烟有关吗”等) 的探究,了解独立性检验(只要求 2×2 列联表)的 基本思想、方法及初步应用. (2)通过对典型案例(如“人的体重与身高的关 系”等)的探究,了解回归的基本思想、方法及其 初步应用
有关”
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 有关”
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
解 析 : 由 2×2 列 联 表 , 可 求 K2 的 观 测 值 , k =
4488++3300+1428++21022102×+4280-3102+×23002≈5.288>3.841.由统计表 P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵 的认识与性别有关”.
i 1
i 1
n
xi yi nx y

i1
叫做变量 y 与 x 之间的样本相
n
(
xi2
2
nx )(
n
yi2
n
2
y
)
i1
i1
关系数,简称相关系数,用它来衡量两个变量之间的线性相关
程度.
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量___负__相__关_. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常|r|>0.75 时,认为两个变量有很强的线性相关性.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
附: K 2
n(ad bc)2

(a b)(c d )(a c)(b d )
P K 2 k
0.050
0.010
0.001
k
3.841 6.635 10.828
2010 — 2018 年
一、选择题
1.(2015 湖北)已知变量 x 和 y 满足关系 y 0.1x 1 ,变量 y 与 z 正相关,下列结论中
销售额 y(万元) 49 26 39 54
根据上表可得回归方程 yˆ bˆx aˆ 中的 bˆ 为 9.4,据此模型预报广告费用为 6 万元时销
售额为
A.63.6 万元
B.65.5 万元
C.67.7 万元
D.72.0 万元
二、填空题
7.(2015 北京)高三年级 267 位学生参加期末考试,某班 37 位学生的语文成绩,数学成绩
A.成绩
B.视力
C.智商
D.阅读量
4.(2012 新课标)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn 不
全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线 y 1 x 1 上,则 2
这组样本数据的样本相关系数为
A.−1
第 3 页 共 13 页
(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
9.(2017 新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该
生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽
取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
的折线图.
为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回 归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为1,2 ,…,17 )建立模 型①: yˆ 30.4 13.5t ;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2 ,…,7 )建立模型②: yˆ 99 17.5t .
第 1 页 共 13 页
得到的回归方程为 yˆ bx a ,则
A. a 0 , b 0 B. a 0 , b 0 C. a 0 , b 0 D. a 0 , b 0 3.(2014 江西)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量之间的关
系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最 大的变量是
B.0
C.1 2
D.1
5.(2012 湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关
系,根据一组样本数据( xi , yi )(i=1,2,…,n),用最小二乘法建立的回归方程为 y =0.85x 85.71,则下列结论中不.正.确.的是
A.y 与 x 具有正的线性相关关系
与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是

②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是

三、解答题
8.(2018 全国卷Ⅱ)下图是某地区 2000 年至 2016 年环境基础设施投资额 y (单位:亿元)
B.回归直线过样本点的中心( x , y )
C.若该大学某女生身高增加 1cm,则其体重约增加 0.85kg D.若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg 6.(2011 山东)某产品的广告费用 x 与销售额 y 的统计数据如下表
第 2 页 共 13 页
广告费用 x(万元) 4 2 3 5
i 1
个零件的尺寸, i =1,2,…,16.
(1)求 (xi , i) (i 1, 2,,16) 的相关系数 r ,并回答是否可以认为这一天生产的零件
尺寸不随生产过程的进行而系统地变大或变小(若 | r | 0.25 ,则可以认为零件的尺寸不
随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 (x 3s, x 3s) 之外的零件,就认为这
x

1 16
16 i 1
xi

9.97 ,
s

1 16
16
( xi
i 1
x)2

1 16
(
16 i 1
xi2
16x 2 )
.5)2 18.439 , (xi x )(i 8.5) 2.78,其中 xi 为抽取的第 i
i 1
条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在 (x 3s, x 3s) 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生
产的零件尺寸的均值与标准差.(精确到 0.01 )
“十年高考”:概率与统计(回归分析与独立性检验)
(附详细答案解析)
2019 年
1.(2019 全国 1 文 17)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女顾客,
每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
正确的是
A. x 与 y 正相关, x 与 z 负相关 B. x 与 y 正相关, x 与 z 正相关 C. x 与 y 负相关, x 与 z 负相关 D. x 与 y 负相关, x 与 z 正相关
2.(2014 湖北)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
2.0
3.0
相关文档
最新文档