高考数学一轮总复习:线性回归分析与统计案例

合集下载

高考数学一轮总复习课件:线性回归分析与统计案例

高考数学一轮总复习课件:线性回归分析与统计案例

(3)某商家今年上半年各月的人均销售额(单位:千元)与利润 率统计表如下:
月份
1
2
3
45 6
人均销售额 6
5
8
34 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( A ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系 D.利润率与人均销售额成反比例函数关系
状元笔记
判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关; 点的分布从左上角到右下角,两个变量负相关. (2)相关系数:r>0 时,正相关;r<0 时,负相关. (3)线性回归方程中:b^>0 时,正相关;b^<0 时,负相关.
题型二 线性回归分析
例 2 (2021·湘赣名校联考高三压轴卷一)某地区在一次考试后,从 全体考生中随机抽取 44 名,获取他们本次考试的数学成绩(x)和物理成 绩(y),绘制成如图散点图:
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
n(ad-bc)2
构造一个随机变量K2=_(__a+__b_)_(__c_+_d_)__(__a+__c_)_(__b_+_d_)___, 其中n=____a_+__b_+_c_+__d_____为样本容量.
(-x ,-y )称为样本点的中心.
(3)回归分析:对具有__相__关_关__系___的两个变量进行统计分析 的一种常用方法.
(4)相关系数.
②当r>0时,表明两个变量___正_相__关___; 当r<0时,表明两个变量___负_相__关____. r的绝对值越接近于1,表明两个变量的线性相关性_越__强_.r 的绝对值越接近于0,表明两个变量之间_几__乎_不__存__在_线__性_相__关__关_系__. 通常|r|大于__0_._7_5__时,认为两个变量有很强的线性相关性.

2025高考数学一轮复习-9.1.2-线性回归方程【课件】

2025高考数学一轮复习-9.1.2-线性回归方程【课件】

(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出). 根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概 率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千 件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料 成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选 择100元还是90元,请说明理由.
因为 y =3860=45,
8
uiyi-8 u y
i=1
所以b^ =
8
u2i -8 u 2
i=1
=1831..45- 3-8×8×0.03.411×545=06.611=100,
则a^ = y -b^ u =45-100×0.34=11, 所以y^ =11+100u, 所以 y 关于 x 的回归方程为y^=11+10x0.
三、非线性回归问题
知识梳理
解非线性回归分析问题的一般步骤 有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据 画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图 象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量 进行变换,把问题转化为线性回归分析问题,使之得到解决.
n
v2i -n
v
2
i=1
i=1
解 ①当产品单价为100元,设订单数为m千件,因为签订9千件订单的 概率为0.8,签订10千件订单的概率为0.2, 所以E(m)=9×0.8+10×0.2=9.2, 所以企业利润为 100×9.2-9.2×190.20+21=626.8(千元). ②当产品单价为90元,设订单数为n千件, 因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E(n)=10×0.3+11×0.7=10.7,

高考数学一轮复习(共节).线性回归方程及应用

高考数学一轮复习(共节).线性回归方程及应用

18、统计18.4 线性回归方程及应用【知识网络】1.能通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。

2.了解线性回归的方法;了解用最小二乘法研究两个变量的线性相关问题的思想方法;会根据给出的线性回归方程系数公式建立线性回归方程(不要求记忆系数公式)。

【典型例题】[例1](1)为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值为s与t,那么下列说法正确的是()A.直线l1和l2一定有公共点(s,t) B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2D.直线l1和l2必定重合(2)工人工资(元)依劳动生产率(千元)变化的回归方程为ˆy=50+80x,下列判断正确的是()A.劳动生产率为1000元时,工资为130元B.劳动生产率提高1000元时,工资提高80元C.劳动生产率提高1000元时,工资提高130元D.当月工资250元时,劳动生产率为2000元(3)下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。

其中正确的命题为()A.①③④B。

②④⑤C。

③④⑤D。

②③⑤(4)一家保险公司调查其总公司营业部的加班程度,收集了10周中每周加班工作时间y (小时)与签发新保单数目x的数据如下表,则用最小二乘法估计求出的线性回归方程是___________。

(5)上题中,若该公司预计下周签发新保单1000张,则需要加班的时间是。

[例2]其中x(血球体积,mm),y(血红球数,百万).①画出上表的散点图;②求出回归直线并且画出图形。

2024年高考数学一轮复习通用版第十五单元统计与统计案例

2024年高考数学一轮复习通用版第十五单元统计与统计案例

第一节统计
统计学是一门深入研究社会发展现象、收集各种信息有关经济、社会
等方面的现象,而综合运用几何学,概率论,统计学原理建立的科学模型,使数据进行统计分析的一门科学。

主要用于分析和收集各种信息,由此产
生的规律和趋势,调查统计现象和情况,发现其背后的规律和趋势,从而
研究社会上多种现象的变化规律。

统计学主要解决四个方面问题:
1.收集数据,概括和引申数据,以表示其中一社会现象的特征;
2.运用各种统计方法,对数据进行描述,以探索其中一社会现象的规律;
3.建立统计模型,用来估算、预测其中一社会现象的发展趋势;
4.根据统计分析结果,作出科学的决定,改善社会环境和生活质量。

第二节统计案例
1.调查学生上网时间
一所中学要开展学生上网时间的调查。

方法如下:
先在学校开展一次上网时间调查问卷调查,要求学生填写上网时间的
长短,有无违背规定的行为,网络上的活动,以及是否有不良信息等;
其次,定期对学生的上网行为进行监视,及时发现学生在上网时是否
有违背规定的行为;。

高考数学一轮复习 热点难点精讲精析 10.3统计案例

高考数学一轮复习 热点难点精讲精析 10.3统计案例

高考一轮复习热点难点精讲精析:10.3统计案例(一)线性回归分析※相关链接※1.首先利用散点图判断两个变量是否线性相关.=+.2.求回归方程y bx a(1)线性回归方程中的截距a和斜率b都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.=+中的b表示x增加1个单位时y的变化量为b.(2)回归方程y bx a=+预报在x取某一个值时y的估计值.(3)可以利用回归方程y bx a3.相关系数r利用相关系数r来衡量两个变量之间的线性相关的强弱.4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).=+).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x与进行相关性检验;(2)如果y x与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用分工求出回归方程进行回归分析.解答:(1)101010222211166.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,i i i ii i ix y x y x y x yr=== ===≈=====∑∑∑0.804.≈所以y x与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i iiiix y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.a y bx=-=-⨯≈故所求的回归方程为:ˆ0.464635.97y x=+.(3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a=+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n nx y x y x y,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b==和,其中a b和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i i i i Q y y Q y y ===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图 (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e=的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000,a b c d a b c d a c b d n ====+=+=+=+==代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。

高考数学一轮复习第10章算法初步与统计第4课时线性回

高考数学一轮复习第10章算法初步与统计第4课时线性回

(4)某同学研究卖出的热饮杯数y与气温 x(℃)之间的关系,得 回归方程 y =-2.352x+147.767,则气温为2 ℃时,一定可卖出 143杯热饮. (5)事件X,Y关系越密切,则由观测数据计算得到的K2的观 测值越大. (6)由独立性检验可知,在犯错误的概率不超过1%的前提下 认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他 有99%的可能物理优秀.

直线方程: y =0.254x+0.321.由回归直线方程可知,家庭年收入 每增加1万元,年饮食支出平均增加________万元.
2 n ( ad - bc ) 构造一个随机变量 K 2 = , ( a+ b)( c+d )(a + c)( b +d )
其中 n=a+b+ c+d 为样本容量.
(3)独立性检验. 利用随机变量 K2 来确定是否能有一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验.
1.判断下面结论是否正确(打“√”或“×”). (1)相关关系与函数关系都是一种确定性的关系,也是一种 因果关系. (2)“名师出高徒”可以解释为教师的教学水平与学生的水 平成正相关关系. (3)只有两个变量有相关关系,所得的回归模型才有预测价 值.
答案
C
解析 由已知,变量 x,y 成负相关,排除 A,B. ∵回归直线 - 必过点(x,y),经验算可知,选项 C 满足.
4.(2018· 河南开封一模)下列说法错误的是(
)
A.自变量取值一定时,因变量的取值带有一定随机性的两 个变量之间的关系叫做相关关系 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好

高考数学一轮复习 第十一章 统计 11.4 统计案例课件 文

高考数学一轮复习 第十一章 统计 11.4 统计案例课件 文
解:相关指数越大,模型拟合效果越好.故选 A.
(2)下列三个命题: ①残差平方和越小的模型,拟合的效果越好; ②用相关指数 R2 来刻画回归效果,R2 越小,说明模型拟合的 效果越好;
③散点图中所有点都在回归直线附近.
其中正确命题的个数是( ) A.1 B.2 C.3 D.0
解:②中 R2 越大,拟合效果越好;③中回归直线同样可以远
5.024
6.635
7.879
10.82 8
如果 K2≥5.024,那么有把握认为“X 与 Y 有关系”的百分数为( )
A.25% B.75% C.2.5% D.97.5%
解:∵K2≥5.024,而在观测值表中对应于 5.024 的是 0.025,∴有 1-0.025=97.5%的把握认为“X 和 Y 有关
方和
,即模型的拟合效果
;R2 越小,
残差平方和
,即模型的拟合效果
.
在线性回归模型中,R2 表示解释变量对于预报变量变化

,R2 越接近于 1,表示回归的效果
.
2. 独立性检验
(1)变量的不同“值”表示个体所属的不同类别,像
这样的变量称为___________.
(2)像下表所示列出两个分类变量的频数表,称为___________.
判断为“两个分类变量之间有关系”的概率不超过 P(K2≥k0).上面 这种利用随机变量 K2 来判断“两个分类变量有关系”的方法称为
___________.
自查自纠:
1.(2)随机误差 (3)( x , y )
n
(4) yi yˆi
( yi yˆi )2
i 1
n
( yi yˆi )2
(5)1-
i 1 n

高考数学一轮总复习 第十章 算法初步与统计 题组训练77 线性回归分析与统计案例 理-人教版高三全册

高考数学一轮总复习 第十章 算法初步与统计 题组训练77 线性回归分析与统计案例 理-人教版高三全册

题组训练77 线性回归分析与统计案例1.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:A .甲B .乙C .丙D .丁答案 D2.(2018·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( ) A .101.2万元 B .108.8万元 C .111.2万元 D .118.2万元答案 C解析 根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为b ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C. 3.(2018·某某一模)以下四个命题:①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加1个单位时,预报变量平均增加0.2个单位;④分类变量X 与Y ,对它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中真命题为( )A.①④B.②④C.①③D.②③答案 D解析①为系统抽样;④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.4.下面是一个2×2列联表其中a,b处填的值分别为(A.94 72 B.52 50C.52 74 D.74 52答案 C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.5.(2018·某某某某联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:)A.甲B.乙C.丙D.丁答案 D解析r越大,m越小,线性相关性越强.故选D.6.(2018·某某中学调研)以下四个命题中,真命题是( )A.对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大B .两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C .若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为2D .在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好 答案 D解析 对于A ,对分类变量x 与y 的随机变量K 2的观测值k 来说,k 越大,判断“x 与y 有关系”的把握程度越大,故A 错误;对于B ,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B 错误;对于C ,若数据x 1,x 2,x 3,…,x n 的方差为1,则2x 1,2x 2,2x 3,…,2x n 的方差为4,故C 错误;对于D ,根据离散变量的线性相关及相关指数的有关知识可知D 正确.7.2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,29][30,34]的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求得爱看比例y 关于x 的线性回归方程为y =(kx -4.68)%,由此可推测t 的值为( ) A .33 B .35 C .37 D .39答案 B解析 依题意,x =14×(12+17+22+27)=19.5,y =14×(10%+18%+20%+30%)=19.5%, 又∵回归直线必过点(x ,y),∴19.5%=(k×19.5-4.68)%,解得k =2 4181 950,∴当x =32时,(2 4181 950×32-4.68)%=35%,∴t ≈35. 8.(2018·某某某某月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).C .99%D .99.9%答案 C解析 由2×2列联表知,K 2=30×(4×2-16×8)212×18×20×10=10.∵K 2>6.635,K 2<10.828,∴有99%的把握认为其亲属的饮食习惯与年龄有关.9.2017世界特色魅力城市200强新鲜出炉,包括某某市在内的28个中国城市入选,美丽的某某风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在某某旅游节期间,随机抽取了100人,得如下所示的列联表:A .有99.5%以上的把握认为“赞成‘自助游’与性别无关”B .有99.5%以上的把握认为“赞成‘自助游’与性别有关”C .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”D .在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关” 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析 将2×2列联表中的数据代入计算,得K 2=100×(30×10-45×15)245×55×75×25≈3.030,∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.10.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:则y 对x A .y ^=2.3x -0.7 B .y ^=2.3x +0.7 C .y ^=0.7x -2.3D .y ^=0.7x +2.3(相关公式:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x)答案 C解析 ∵∑4i =1x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4.∴b ^=158-4×9×436+64+100+144-4×81=0.7,a ^=4-0.7×9=-2.3.故线性回归直线方程为y ^=0.7x -2.3.11.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为________(四舍五入到整数). 答案 73解析 x -=60+65+70+75+805=70,y -=62+64+66+68+705=66,所以66=0.36×70+a ^,解得a ^=40.8. 所以0.36×90+40.8=73.2≈73.12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9 销量y(件)908483807568由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为________. 答案 13解析 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.13.已知某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),…,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示.因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有8名.(1)根据频率分布直方图及题设数据完成下列2×2列联表.心率小于60次/分心率不小于60次/分合计 体育生 20 艺术生 30 合计50(2)根据于60次/分与常年进行系统的身体锻炼有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.P(K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828答案 (1)见解析 (2)有关解析 (1)根据频率分布直方图可知,前两组的学生总数为(0.032+0.08)×5×50=10,又前两组的学生中体育生有8名,所以前两组的学生中艺术生有2名,故2×2列联表如下:心率小于60次/分心率不小于60次/分合计 体育生 8 12 20 艺术生 2 28 30 合计104050(2)由(1)中数据知,K 2=50×(8×28-2×12)220×30×10×40≈8.333>7.879,故有99.5%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”.14.(2018·某某日照一模)某学校高三年级有学生500人,其中男生300人,女生200人.为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组:[100,110),[110,120),[120,130),[130,140),[140,150]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率; (2)若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P(K 2≥k 0)0.10 0.05 0.010 0.005 0.001 k 02.7063.8416.6357.87910.828答案 (1)35(2)有关解析 (1)由已知得,抽取的100名学生中,男生60名,女生40名.分数低于110分的学生中,男生有60×0.05=3(人),记为A 1,A 2,A 3;女生有40×0.05=2(人),记为B 1,B 2.从中随机抽取两名学生,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2)(B 1,B 2);其中两名学生恰好为一男一女的可能结果共有6种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2). ∴所求概率为P =610=35.(2)由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为60×0.25=15,分数不低于130分的女生人数为40×0.4=16,据此可得2×2列联表如下:∴K 2=60×40×31×69≈2.525<2.706,∴没有90%的把握认为“数学尖子生与性别有关”.15.(2017·某某某某二诊)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻两天数据的概率;(2)若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗.则认为得到的线性回归方程是可靠的.试问(2)中所得到的线性回归方程是可靠的吗?附:回归直线的斜率和截距的最小二乘估计公式分别为:答案 (1)35 (2) y ^=52x -3 (3)可靠解析 (1)设“选取的2组数据恰好是不相邻两天的数据”为事件A.从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),其中数据为12月份的日期数. 每种情况都是等可能出现的,事件A 包括的基本事件有6种. ∴P(A)=610=35.∴选取的2组数据恰好是不相邻两天数据的概率是35.(2)由数据可得x -=11+13+123=12,y -=25+30+263=27.∴b ^=(11-12)×(25-27)+(13-12)×(30-27)+(12-12)×(26-27)(11-12)2+(13-12)2+(12-12)2=52, a ^=y --b ^x -=27-52×12=-3.∴y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;同理,当x =8时,y ^=52×8-3=17,|17-16|<2.∴(2)中所得到的线性回归方程是可靠的.16.(2018·某某某某模拟)某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:超市 A B C D E F G 广告费支出x i 1 2 4 6 11 13 19 销售额y i19324044525354(1)(2)用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ∧=-0.17x 2+5x +20,经计算二次函数回归模型和线性回归模型的R 2分别约为0.92和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据及公式:x =8,y =42,∑7i =1x i y i =2 794,∑7i =1x i 2=708,b ^=∑ni =1x i y i -n ·x -y -∑ni =1x i 2-nx 2,a ^=y -b ^x.答案 (1) y ^=1.7x +28.4 (2)33.47解析 (1) b ^=∑7i =1x i y i -7·x -y -∑7i =1x i 2-7x 2=2 794-7×8×42708-7×82=1.7,a ^=y -b ^x =42-1.7×8=28.4. ∴y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.92,∴二次函数回归模型更合适.当x =3万元时,y ^=-0.17×9+5×3+20=33.47,预测A 超市销售额为33.47万元.1.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( ) A .b 与r 的符号相同 B .a 与r 的符号相同 C .b 与r 的符号相反 D .a 与r 的符号相反答案 A 2.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③回归直线y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表: P(K 2≥k)0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解析 只有②错误,应该是y 平均减少5个单位.3.(2018·某某某某模拟)根据“2015年国民经济和社会发展统计公报”中公布的数据,从2011年到2015年,我国的第三产业在GDP 中的比重如下:年份 2011 2012 2013 2014 2015 年份代码x 1 2 3 4 5 第三产业比重y/%44.345.546.948.150.5(1)在所给坐标系中作出数据对应的散点图;(2)建立第三产业在GDP 中的比重y 关于年份代码x 的回归方程; (3)按照当前的变化趋势,预测2018年我国第三产业在GDP 中的比重.附:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x.答案 (1)见解析 (2) y ^=1.5x +42.56 (3)54.56% 解析 (1)数据对应的散点图如图所示.(2)x =3,y =47.06,b ^=∑5i =1 (x i -x )(y i -y )∑5i =1 (x i -x )2=1510=1.5,a ^=y -b ^x =42.56, 所以回归直线方程为y ^=1.5x +42.56.(3)代入2018年的年份代码x =8,得y ^=1.5×8+42.56=54.56,所以按照当时的变化趋势,预计到2018年,我国第三产业在GDP 中的比重将达到54.56%. 4.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如以下的统计数据;x(年) 2 3 4 5 6 y(万元)2.23.85.56.57.0(1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少?答案 (1)x -=4,y -=5 (2)略 (3) y ^=1.23x +0.08 (4)12.38万元 解析 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.所以r =12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.5.(2018·某某某某期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x 为该商品的进货量,y 为销售天数).x/吨 2 3 4 5 6 8 9 11 y/天12334568(1)根据上表数据在下图所示的网格中绘制散点图;(2)根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.参考公式和数据:b ^=∑ni =1x i y i -nx ·y ∑n i =1x i 2-nx 2,a ^=y -b ^x ;∑8i =1x i 2=356,∑8i =1x i y i =241. 答案 (1)略 (2) y ^=4968x -1134 (3)17天解析 (1)散点图如图所示:(2)依题意,得x =18×(2+3+4+5+6+8+9+11)=6,y =18×(1+2+3+3+4+5+6+8)=4, 又∑8i =1x i 2=356,∑8i =1x i y i =241,所以b ^=∑8i =1x i y i -8x ·y ∑8i =1x i 2-8x 2=241-8×6×4356-8×62=4968,a ^=4-4968×6=-1134, 故线性回归方程为y ^=4968x -1134.(3)由(2)知,当x =24时,y ^=4968×24-1134≈17,故若该商店一次性进货24吨,则预计需要销售17天.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

①y 与 x 负相关且y^=2.347x-6.423;
②y 与 x 负相关且y^=-3.476x+5.648;
③y 与 x 正相关且y^=5.437x+8.493;
④y 与 x 正相关且y^=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①②
B.②③
C.③④
D.①④
【解析】 正相关指的是 y 随 x 的增大而增大.负相关指的 是 y 随 x 的增大而减小,故不正确的为①④,故选 D.
5.(2019·沧州七校联考)通过随机询问 200 名性别不同的大
学 生 是 否 爱 好 踢 毽 子 运 动 , 计 算 得 到 统 计 量 K2 的 观 测 值
k≈4.892,参照附表,得到的正确结论是( )
P(K2≥k) 0.10
0.05 0.025
k
2.706 3.841 5.024
A.有 97.5%以上的把握认为“爱好该项运动与性别有关”
请注意 1.以考查线性回归系数为主,同时可考查利用散点图判断 两个变量间的相关关系. 2.以实际生活为背景,重在考查回归方程的求法.
两个变量的线性相关 (1)正相关. 在散点图中,点散布在从__左__下_角__到__右_上__角__的区域.对于两 个变量的这种相关关系,我们将它们称为正相关. (2)负相关. 在散点图中,点散布在从__左__上_角__到__右_下__角__的区域,两个变 量的这种相关关系称为负相关.
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于 20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于 20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于 20%
【解析】 观察图形,可知人体脂肪含量与年龄正相关,且 脂肪含量的中位数小于 20%,故选 B.
【答案】 D
题型二 线性回归分析 (2019·福建泉州一模)某测试团队为了研究“饮酒”对 “驾车安全”的影响,随机选取 100 名驾驶员先后在无酒状态、 酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶, 以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到 意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试 验数据分别列于下表.
4.(2014·湖北,理)根据如下样本数据
x3 4 5 6 7 8
-- y 4.0 2.5 -0.5 0.5
2.0 3.0
得到的回归方程为y^=b^x+a^,则( )
A.a^>0,b^>0
B.^a>0,b^&D.a^<0,b^<0
答案 B 解析 根据题中表内数据画出散点图(图略),由散点图可知b^ <0,a^>0,选 B.
(4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的 观测值越大.
(5)由独立性检验可知,在犯错误的概率不超过 1%的前提下 认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀.
答案 (1)√ (2)× (3)× (4)√ (5)×
2.最小二乘法的原理是( )
数;
(2)根据最小二乘法,由表 2 的数据计算 y 关于 x 的回归方程
y^=b^x+a^;
(3) 该 测 试 团 队 认 为 : 若 驾 驶 员 酒 后 驾 车 的 平 均 “ 停 车 距
离”y 大于(1)中无酒状态下的停车距离平均数的 3 倍,则认定驾
驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒
【答案】 A
【探究】 线性相关关系与函数关系的区别 (1)函数关系中的两个变量间是一种确定性关系.例如,正方 形面积 S 与边长 x 之间的关系 S=x2 就是函数关系. (2)相关关系是一种非确定性关系,即相关关系是随机变量与 随机变量之间的关系.例如,商品的销售额与广告费是相关关 系.两个变量具有相关关系是回归分析的前提.
高考数学一轮总复习
第十章 算法初步及概率与统计
第7课时 线性回归分析与统计案例
…复习任务… 1.会作两个有关联变量的数据的散点图,会利用散点图认 识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系 数公式建立线性回归方程. 3.了解独立性检验(只要求 2×2 列联表)的基本思想、方法 以及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.
(4)相关系数.
①r=
n
∑ (xi--x )(yi--y )
i=1
n
n

∑ (xi--x )2∑ (yi--y )2
i=1
r=1
②当 r>0 时,表明两个变量_正__相__关__;
当 r<0 时,表明两个变量_负__相__关__.
r 的绝对值越接近于 1,表明两个变量的线性相关性_越_强___.r
B.有 97.5%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过 5%的前提下,认为“爱好该项运 动与性别有关”
D.在犯错误的概率不超过 5%的前提下,认为“爱好该项运 动与性别无关”
答案 C
题型一 判断变量的相关性 (1)在一次对人体脂肪含量和年龄关系的研究中,研究人 员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年 龄关系的散点图.根据该图,下列结论中正确的是( )
3.下列说法错误的是( ) A.自变量取值一定时,因变量的取值带有一定随机性的两 个变量之间的关系叫做相关关系 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好
表1
停车距离 (10,20] (20,30] (30,40] (40,50] (50,60]
d(米)
频数
26
a
b
8
2
表2
平均每毫升血液 10 30 50 70 90
酒精含量 x(毫克)
平均停车距离 y(米) 30 50 60 70 90
已知表 1 数据的中位数估计值为 26,回答以下问题.
(1)求 a,b 的值,并估计驾驶员无酒状态下停车距离的平均
★状元笔记★ 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关; 点的分布从左上角到右下角,两个变量负相关. (2)相关系数:r>0 时,正相关;r<0 时,负相关. (3)线性回归方程中:b^>0 时,正相关;b^<0 时,负相关.
思考题 1 (1)与变量 X 与 Y 相对应的一组数据为(10,1),
【答案】 B
(2)对四组数据进行统计,获得以下关于其相关系数的比较, 正确的是( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
【解析】 由相关系数的定义及散点图所表达的含义,可知 r2<r4<0<r3<r1,故选 A.
答案 B 解析 根据相关关系的概念知 A 正确;当 r>0 时,r 越大, 相关性越强,当 r<0 时,r 越大,相关性越弱,故 B 不正确;对 于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区 域越窄,拟合效果越好,二是 R2 越大,拟合效果越好,所以 R2 为 0.98 的模型比 R2 为 0.80 的模型拟合的效果好,C,D 正确, 故选 B.
n
n
∑ (xi--x )(yi--y ) ∑xiyi-n-x -y
b^=i=1 n
=i=1 n
∑ (xi--x )2
i=1
∑xi2-n-x 2
i=1
a^=-y -b^-x
(-x ,-y )称为样本点的中心点.
(3)回归分析:对具有__相__关_关__系___的两个变量进行统计分析的
一种常用方法.
(3)独立性检验. 利用随机变量__K_2 __来确定是否能有一定把握认为“两个分 类变量_有__关_系___”的方法称为两个分类变量的独立性检验.
1.判断下面结论是否正确(打“√”或“×”). (1)“名师出高徒”可以解释为教师的教学水平与学生的水 平成正相关关系. (2)两个随机变量的线性相关性越强,相关系数的绝对值越接 近于 0. (3)某同学研究卖出的热饮杯数 y 与气温 x(℃)之间的关系, 得回归方程y^=-2.352x+147.767,则气温为 2 ℃时,一定可卖 出 143 杯热饮.
的绝对值越接近于 0 时,表明两个变量之间__几_乎__不__存_在__线_性__相_关___ __关_系___.通常|r|大于_0_.7_5__时,认为两个变量有很强的线性相关性.
独立性检验
(1)分类变量:变量的不同“值”表示个体所属的__不_同__类_别___,
像这样的变量称为分类变量.
(2)列联表:列出两个分类变量的___频_数__表___,称为列联表.假
精含量大于多少毫克时为“醉驾”?
n
∑xiyi-n-x -y
(附:回归方程y^=b^x+a^中,b^=i=1n
,a^=-y -b^-x )
∑xi2-n-x 2
i=1
【解析】 (1)依题意,得160a=50-26,解得 a=40. 又 a+b+36=100,解得 b=24, 故停车距离的平均数为 15×12060+25×14000+35×12040+45×1800+55×1020=27. (2)依题意,可知-x =50,-y =60, b^=10×30+30×1052+0+30520+×56002++7700× 2+7900+2-905××9500-2 5×50×60 =0.7,a^=60-0.7×50=25, 所以回归直线方程为y^=0.7x+25.
相关文档
最新文档