(word)高中数学非线性回归方程(可线性化)简答题练习(含答案)
2023年高考数学复习:非线性回归问题

通过变量间的相关关系对两个变量进行统计分析是数学的重要应 用,其中非线性回归问题具有十分重要的现实意义.
例 (2021·武汉模拟)近年来,明代著名医药学家李时珍的故乡黄冈市蕲 春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主 要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃) 有关,现收集了蕲艾的13组观测数据,得到如下的散点图: 现根据散点图利用 y=a+b x或 y =c+dx建立 y 关于 x 的非线性回归 方程,令 s= x,t=1x得到如下数据:
^
2 230.8-20=2 210.8,所以z≤2 210.8,
当且仅当x=20时等号成立, 所以当温度为20℃时蕲艾的利润最大.
能力 提升
非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数. (3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.
解 先建立v关于x的线性回归方程. 由y=eλx+t,得ln y=t+λx,即v=t+λx.
12
xi- x vi- v
^ i=1
由于λ=
12
xi- x 2
=71740≈0.018,
i=1
^
^
t= v -λ x =4.20-0.018×20=3.84,
^
所以 v 关于 x 的线性回归方程为v=0.02x+3.84,
i=1
14
(1)设(ui,yi)的相关系数为r1,(xi,vi)的相关系数为r2,请从相关系数的角 度,选择一个拟合程度更好的模型;
解 r1=
12
ui- u yi- y
高中数学 对模型刻画数据效果的分析及非线性回归模型课后提能训练新人教A版选择性必修第三册

第八章 8.2.1、8.2.2 第2课时A 级——基础过关练1.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )【答案】A 【解析】 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.2.在回归分析中,R 2的值越大,说明残差平方和( ) A .越大B .越小C .可能大也可能小D .以上均错【答案】B3.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R 2分别如下表:学生甲 乙 丙 丁 R 20.950.500.850.77A .甲B .乙C .丙D .丁【答案】A 【解析】R 2越大,表示回归模型的拟合效果越好.4.若一函数模型为y =sin 2α+2sin α+1,为将y 转化为t 的回归直线方程,则需作变换t 等于( )A .sin 2α B .(sin α+1)2C .⎝⎛⎭⎪⎫sin α+122D .以上都不对【答案】B 【解析】 因为y 是关于t 的回归直线方程,实际上就是y 关于t 的一次函数,又因为y =(sin α+1)2,若令t =(sin α+1)2,则可得y 与t 的函数关系式为y =t ,此时变量y 与变量t 是线性相关关系.5.某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:已知y 关于x 的经验回归方程为y =0.5x +0.4,则当销售额为5千万元时,残差为________.【答案】0.1 【解析】当x =5时,y ^=0.5×5+0.4=2.9,表格中对应y =3,于是残差为3-2.9=0.1.6.以模型y =c e kx去拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程z =0.3x +4,则c =________.【答案】e 4【解析】由题意,得ln(c e kx)=0.3x +4,所以ln c +kx =0.3x +4,比较两边系数,得ln c =4,所以c =e 4.7.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (单位:万元)和销售量y (单位:万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好.B 级——能力提升练8.2020年初,新冠肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:由表格可得y 关于x 的非线性经验回归方程为y =6x 2+a ,则此回归模型第4周的残差为( )A .13B .-13C .5D .-5【答案】A 【解析】因为x 2=15(1+4+9+16+25)=11, y -=15(2+17+36+103+142)=60,所以a ^=60-6×11=-6,则y 关于x 的非线性经验回归方程为y ^=6x 2-6.取x =4,得y ^=6×42-6=90,所以此回归模型第4周的预报值为90,则此回归模型第4周的残差为103-90=13.9.已知变量y 关于x 的非线性经验回归方程为y ^=e b ^x -0.5,其一组数据如下表所示:若x =5,则预测y A .e 5B .e 112C .e 7D .e 152【答案】D 【解析】将式子两边取对数,得到ln y ^=b ^x -0.5.令z =ln y ^,得到z =b ^x -0.5,列出x ,z 的取值对应的表格如下:则x =1+2+3+44=2.5,z -=4=3.5.∵(x ,z )满足z =b ^x -0.5,∴3.5=b^×2.5-0.5,解得b ^=1.6,∴z =1.6x -0.5,∴y ^=e 1.6x -0.5.当x =5时,y ^=e 1.6×5-0.5=e 152.10.对两个具有非线性相关关系的变量x ,y 进行回归分析,设μ=ln y ,υ=(x -4)2,利用二乘法得到μ关于υ的经验回归方程为μ=-0.5υ+2,则y ^的最大值是________.【答案】e 2【解析】将μ=ln y ,υ=(x -4)2代入经验回归方程μ=-0.5υ+2,得y ^=e -0.5(x -4)2+2.当x =4时,y ^=e -0.5(4-4)2+2=e 2,故y ^最大值为e 2.C 级——探究创新练11.BMI 指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.在我国,BMI <18.5,认为体重过轻;18.5≤BMI <24,认为体重正常;BMI ≥24,认为体重超重.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如下表所示:(1)根据最小二乘法求得的经验回归方程为y ^=0.8x -75.9,利用已经求得的经验回归方程完善下列残差表,并求变化的贡献值R 2(保留两位有效数字);有人为的错误.已知通过重新采集发现,该组数据的体重应该为58 kg.请重新根据最小二乘法,求出y 关于x 的经验回归方程.。
回归分析练习题(有标准答案)

回归分析练习题(有答案)作者:日期:1.1回归分析的基本思想及其初步应用一、选择题1.某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为均值为2,数据y 的平均值为3,则()A .回归直线必过点(2,3)C 点(2,3)在回归直线上方B.回归直线一定不过点(2,3)D 点(2,3)在回归直线下方y bx a ,已知:数据x 的平2.在一次试验中,测得(x, y)的四组值分别是A (1,2),B(2,3),C(3,4),D(4,5),则丫与X 之间的回归直线方程为()A.$x1B .$ x 2C$2x1D.$ x 13.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;③求线性回归方程;④求未知参数;②收集数据(X j 、y i ),i 1,2,…,n ;⑤根据所搜集的数据绘制散点图)如果根据可行性要求能够作岀变量A.①②⑤③④Bx, y 具有线性相关结论,则在下列操作中正确的是(C.②④③①⑤D .②⑤④③①.③②④⑤①4.下列说法中正确的是()B人的知识与其年龄具有相关关系D 根据散点图求得的回归直线方程都是有意义的A.任何两个变量都具有相关关系C.散点图中的各点是分散的没有规律5.给出下列结论:2 2(1)在回归分析中,可用指数系数R 的值判断模型的拟合效果,R 越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,较合适带状区域的宽度越窄,说明模型的拟合精度越高.A.y 平均增加1.5个单位B.A. 1B )个..2r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比y 平均增加2个单位C.y 平均减少1.5个单位C.3DD.y 平均减少2个单位.4以上结论中,正确的有(6.已知直线回归方程为y7.2 1.5x ,则变量x 增加一个单位时()下面的各图中,散点图与相关系数r 不符合的是()\ 1V ||一1,— 1 < r<(>■r?■* ■■■■* ■..* .**打4X(7UV1)D.'8.一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归直线方程为据此可以预测这个孩子10岁时的身高,则正确的叙述是(A.身高一定是145.83cm C.身高低于145.00cm BD)7.19x 73.93,.身高超过146.00cm身高在145.83cm左右9.(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)(D)在画两个变量的散点图时,下面哪个叙述是正确的()可以选择两个变量中任意一个变量在x轴上可以选择两个变量中任意一个变量在y轴上10.两个变量y与x的回归模型中,通常用R2来刻画回归的效果,则正确的叙述是(22)A.R越小,残差平方和小2B.R越大,残差平方和大2c.R于残差平方和无关D.R越小,残差平方和大211.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.802 2C.模型3的相关指数R为0.50 D.模型4的相关指数R为0.2512.回归直线上相应位置的差异的是A.总偏差平方和B.C.回归平方和13.回归直线方程为残差平方和D.相关指数R2在回归分析中,代表了数据点和它在()工人月工资(元)依劳动生产率(千元)变化的60 90x,下列判断正确的是()A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元14.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② E.①②③ C.①②④ D.①②③④15.已知回归直线的斜率的估计值为中心为(4,5),则回归直线方程为()1.23,样本点的A.$ 1.23x 4B.$ 1.23x 5C.$ 1.23x 0.08D.y 0.08x 1.2316.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数果好的模型是 __________.17.在回归分析中残差的计算公式为 ____________.18.线性回归模型y bx a e(a和b为模型的未知参数)中,e称为_________________.19.若一组观测值(X1,yJ(X2,y2)…(Xn,y“)之间满足yi=bXi+a+e(i=1、2.…n)若恒为0,则氏为______________R2的值分别约为0.96和0.85,则拟合效20.调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:使用年限x 维修费用y(求线性回归方程;n22.233.845.556. 567.0(2)由(1)中结论预测第10年所支出的维修费用.i 1(X i x) (y iy).n(X ii 1x)2bx21.以下是某地搜集到的新房屋的销售价格闵屋面积Ey 和房屋的面积x 的数据:11524.Q1102 1. CIB-413G29.21口丘22t 肖年愉梧(1)画岀数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格(4)求第2个点的残差。
高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案

专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=65×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .K 2=a +bc +d a +cb +d=20×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。
微专题7 非线性回归方程(原卷版)-2022届高三数学三轮靶向复习专题(新高考版)

非线性回归方程的求法根据原始数据作出散点图根据散点图,选择恰当的拟合函数作恰当变换,将其转化成线性函数,求回归方程在(3)的基础上通过相应变换,即可得非线性回归方程.微专题7 非线性回归方程知识梳理所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
典例精讲【例1】红铃虫是棉花的主要害虫之一,能对农作物造成严重伤害,每只红铃虫的平均产卵数y 和平均温度x 有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.平均温度/C x ︒ 21 23 25 27 29 31 33 平均产卵数/y 个7 11 21 24 66 115 325 z lny =1.92.43.03.24.24.75.8(1)根据散点图判断,y bx a =+与y ce =(其中 2.718e =⋅⋅⋅为自然对数的底数)哪一个更适宜作为平均产卵数y 关于平均温度x 的回归方程类型?(给出判断即可,不必说明理由)并由判断结果及表中数据,求出y 关于x 的回归方程.(计算结果精确到0.01)(2)根据以往统计,该地每年平均温度达到28C ︒以上时红铃虫会造成严重伤害,需要人工防治,其他情况均不需要人工防治,记该地每年平均温度达到28C ︒以上的概率为p .记该地今后5年中,恰好需要3次人工防治的概率为()f p ,求()f p 的最大值,并求出相应的概率0p .附:回归方程ˆˆˆybx a =+中,1122211()()ˆ()nniii ii i nniii i x x yy x ynxy b x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据721i i x =∑71i i i x y =∑71i i i x z =∑y z5215 17713 717 81.3 3.6【例2】个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税.我国在1980年9月10日,第五届全国人民代表大会第三次会议通过并公布了《中华人民共和国个人所得税法》.公民依法诚信纳税是义务,更是责任现将自2013年至2017年的个人所得税收入统计如表:年 份 2013 2014 2015 2016 2017 时间代号x 1 2 3 4 5 个税收入/y 千亿元6.537.388.6210.0911.97根据散点图判断,可用①nx y me =与②2y px q =+作为年个人所得税收入y 关于时间代号x 的回归方程,经过数据运算和处理,得到如下数据:xyz w521()ii xx =-∑521()ii w w =-∑38.922.161110 37451()()ii i xx z z =--∑51()()iii w w yy =--∑1.6083.83表中z lny =,2w x =,215i i z x ==∑,参考数据: 1.68 5.37e =,0.96 2.61e =.以下计算过程中四舍五入保留两位小数.(1)根据所给数据,分别求出①,②中y 关于x 的回归方程;(2)已知2018年个人所得税收入为13.87千亿元,用2018年的数据验证(1)中所得两个回归方程,哪个更适宜作为y 关于时间代号x 的回归方程?(3)你还能从统计学哪些角度来进一步确认哪个回归方程更适宜?(只需叙述,不必计算)附:对于一组数据1(u ,1)v ,2(u ,2)v ,⋯,(n u ,)n v ,其回归直线v a u β=+的斜率和截距的最小二乘估计分别为:121()()ˆˆˆ,()nii i nii uu v v v u uu βαβ==--==--∑∑.【变式1-1】为了迎接十四运,提高智慧城市水平,西安公交公司近期推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:x1 2 3 4 5 6 7 y611213466101196(1)根据散点图判断,在推广期内,y a bx =+与(x y c d c =⋅,d 均为大于零的常数),哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表1中的数据,建立y 与x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表:支付方式 现金 乘车卡 扫码 比例10%60%30%西安公交六公司车队为缓解周边居民出行压力,以90万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有2万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,请你估计这批车辆需要几年(结果取整数年)才能盈利? 参考数据:y v71i ii x y=∑71i ii x v=∑0.541062.14 1.54 2535 50.12 3.47其中其中i i v lgy =,117i i v v ==∑,参考公式:对于一组数据1(u ,1)v ,2(u ,2)v ,,(n u ,)n v ,其回归直线ˆˆˆvu αβ=+的斜率和截距的最小二乘估计公式分别为:1221ˆni i i nii u vnu v unu β==-⋅=-∑∑,ˆˆv u αβ=-.【变式1-2】某公司拟对某种材料进行应用改造,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x1 2 3 4 5 6 7 8 y1126144.53530.5282524对历史数据对比分析,考虑用函数模型①y a x=+,②dx y ce =分别对两个变量的关系进行拟合,令模型①中1u x=上,模型②中w lny =,对数据作了初步处理,已计算得到如下数据: u y2u821i i y =∑821i i u =∑81i i i u y =∑0.616185.5⨯2e -0.34 45 0.115 22385.5 1.53 183.4 61.4 0.135122请从样本相关系数(精确到0.01)的角度判断,哪个模型拟合效果更好?(2)根据(1)的选择及表中数据,建立y 关于x 的非线性回归方程,并用其估计当每件产品的非原料成本为21元时,产量约为多少千件?参考公式:对于一组数据1(u ,1)v ,2(u ,2)v ,⋯,(n u ,)n v 其回归直线ˆˆˆva u β=+的斜率和截距的最小二乘估计分别为:1221ˆni i i nii u vnuv unu β==-=-∑∑,ˆˆˆav u β=-,相关系数1222211()()ni ii n ni i i i u vnu vr u nu v nv ===-⋅=-⋅-∑∑∑.巩固训练1、一只药用昆虫的产卵数y (单位:个)在一定范围内与温度x (单位:C)︒有关,现收集了该种药用昆虫的6组观测数据如表:温度/C x ︒ 21 23 24 27 29 32 产卵数/y 个61120275777(1)若用线性回归模型,求y 关于x 的回归方程ˆˆybx a =+.ˆ(a ,b 的结果精确到0.1) (2)若用非线性回归模型,y 关于x 的回归方程为0.2303ˆ0.06x ye =且决定系数20.9522R =. ①试与(1)中的线性回归模型相比,用2R 说明哪种模型的拟合效果更好. ②用拟合效果好的模型预测温度为35C ︒时该种药用昆虫的产卵数.(结果取整数)[参考公式:22121ˆ()1()nii i n ii yy R yy ==-=--∑∑.参考数据:61()()557i i i x x y y =--=∑,621()3930i i y y =-=∑,621ˆ()236.64ii i yy=-=∑,8.06053167]e ≈(此公式在下文中不再列出)2、为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2019年种植的一批试验紫甘薯在温度升高时6组死亡的株数. 温度/C x ︒ 21 23 24 27 29 30 死亡数/y 株 61120275777经计算,1266i i x x ===∑,1336i i y y ===∑,1()()557i ii x x y y =-⋅-=∑,21()84i i x x =-=∑,621()3930i i y y =-=∑,621ˆ()236.64i i i y y=-=∑,8.06053167e ≈,其中i x ,i y 分别为试验数据中的温度和死亡株数,1i =,2,3,4,5,6.(1)若用一元线性回归模型,求y 关于x 的经验回归方程ˆˆˆybx a =+(结果精确到0.1); (2)若用非线性回归模型求得y 关于x 的非线性经验回归方程0.2303ˆ0.06x y e =,且相关指数为20.8841R =.(ⅰ)试与(1)中的回归模型相比,用2R 说明哪种模型的拟合效果更好;(ⅱ)用拟合效果好的模型预测温度为35C ︒时该批紫甘薯的死亡株数(结果取整数).3、一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术(5)G 的进步就是源于数学算法的优化.华为公司所研发的SingleRAN 算法在部署5G 基站时可以把原来的4G 、3G 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大5G 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.(1)现抽样调查英市所轴的A 地和B 地5G 基站覆盖情况,各取100个村,调查情况如表:已覆盖 未覆盖 A 地 20 80 B 地25754个村中A 地5G 已覆盖的村比B 地多的概率;(2)该市2020年已建成的5G 基站数y 与月份x 的数据如表:x1 2 3 4 5 6 7 8 9 10 11 12y2833404285477019051151 1423 1721 2109 2601 3381有效控制,5G 基站建设进度越来越快,根据散点图分析,已建成的5G 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型ˆˆbx y ae =拟合比较合理,请结合参考数据,求5G 基站数y 关于月份x 的回归方程.ˆ(b的值精确到0.01). 附:设u lny =,则i i u lny =,(1i =,2,,12),1299.17y ≈, 6.88u ≈,1221()143i i x x =-=∑,121()()37238ii i xx y y =--=∑,121()()32.42i i i x x u u =--≈∑,对于样本(i x ,)i y ,(1i =,2,,)n 的线性回归方程ˆˆˆybx a =+有121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =-.4、当前,短视频行业异军突起,抖音、快手、秒拍等短视频平台吸引了大量流量和网络博主的加入.红人榜的数据推出是体现各平台KOL 网络博主商业价值的榜单,每周一期,红人榜能反应最近一周KOL 网络的综合价值,以粉丝数、集均评论、集均赞,以及集均分享来进行综合衡量,红人榜单在统计时发现某平台一网络博主的累计粉丝数y (百万)与入驻平台周次x (周)之间的关系如图所示: 设lnx ω=,数据经过初步处理得:55552111173,5, 6.3,258ii i i i i i i i yx y ωω========∑∑∑∑,5521186,()160i ii i i yy y ω===-=∑∑,521ˆ()9i i y y=-=∑.(其中i x ,i y 分别为观测数据中的周次和累计粉丝数)(1)求出y 关于x 的线性回归模型ˆˆˆybx a =+的相关指数21R ,若用非线性回归模型ˆˆˆy clnx d =+求得的相关指数220.9998R =,试用相关指数2R 判断哪种模型的拟合效果较好(相关指数越接近于1,拟合效果越好)(2)根据(1)中拟合效果较好的模型求出y 关于x 的回归方程,并由此预测入驻平台8周后,对应的累计粉丝数y 为多少?附参考公式:相关指数22121ˆ()1()nii nii y yR yy ==-=--∑∑,121()()ˆ()niii nii x x yy bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:20.70ln ≈.。
高中数学非线性回归方程专练

非线性回归方程专练三、解答题(本题共4道小题,第1题0分,第2题0分,第3题0分,第4题0分,共0分) 1.某学生为了测试煤气灶烧水如何节省煤气的问题设计了一个实验,并获得了煤气开关旋钮旋转的弧度数x 与烧开一壶水所用时间y 的一组数据,且作了一定的数据处理(如下表),得到了散点图(如下图).xyw1021()ii x x =-∑1021()ii w w =-∑ 101()()i i i x x y y =--∑ 101()()i ii w w y y =--∑1.4720.60.782.35 0.81−19.3 16.2表中102111,10i i i i w w w x ===∑.(1)根据散点图判断,y a bx =+与2dy c x =+哪一个更适宜作烧水时间y 关于开关旋钮旋转的弧度数x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;(3)若单位时间内煤气输出量t 与旋转的弧度数x 成正比,那么,利用第(2)问求得的回归方程知x 为多少时,烧开一壶水最省煤气?附:对于一组数据112233(,),(,),(,),,(,)n n u v u v u v u v ⋅⋅⋅,其回归直线ˆˆˆvu αβ=+的斜率和截距的最小二乘法估计值分别为121()()ˆˆˆ,()niii nii v v uu v u uu βαβ==--==--∑∑2.大连市某企业为确定下一年投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量()1,2,,8i y i =…数据作了初步处理,得到下面的散点图及一些统计量的值.xyw()821ii x x =-∑()821ii w w =-∑81i ii x y =∑81i ii w y =∑46.65736.8289.8 1.6 215083.4 31280表中i w x ,18i i w w ==∑.()Ⅰ根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)()Ⅱ根据()Ⅰ的判断结果及表中数据,建立y 关于x 的回归方程;()Ⅲ已知这种产品的年利润z 与x 、y 的关系为0.2z y x =-.根据()Ⅱ的结果回答下列问题:()i 年宣传费64x =时,年销售量及年利润的预报值是多少? ()ii 年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据()()()1122,,,,,,n n u v u v u v ……,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:()()()121niii nii u u v v u u β∧==--=-∑∑,v u αβ∧∧=-.3.(12分)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y=C 1x 2+C 2与模型②:41C x C e y +=作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系. 温度x/℃ 20 22 24 26 28 30 32 产卵数y/个6 10 21 24 64 113 322 t=x 2 400 484 576 676 784 900 1024 z=lny 1.792.303.043.184.164.735.77xtyz26692803.57∑∑==---71i 2i 71i i i )x x ()y y )(x x (∑∑==---71i 2i 71i i i )t t ()y y )(t t (∑∑==---71i 2i 71i i i )x x ()x x )(z z (∑∑==---71i 2i 71i i i )t t ()t t )(z z (1157.540.430.32 0.00012其中t i =x i 2,∑==71i i t t,z i =lny i ,∑==71i i z u ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v=βu+α的斜率和截距的最小二乘估计分别为:β=∑∑==---n1i 2i n1i i i )u u ()v v )(u u (,α=v ﹣βu .(1)分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).(2)根据表中数据,分别建立两个模型下建立y关于x的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C1,C2,C3,C4与估计值均精确到小数点后两位)(参考数据:e4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算分别为R12=0.82,R22=0.96,请根据相关指数判断哪个模型的拟合效果更好.4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费x i和年销售量y i (i=1,2,…,8)数据作了初步处理,得到一些统计量的值.(x i ﹣)2(w i ﹣)2(x i ﹣)(y i﹣)(w i ﹣)(y i﹣)46.6 56.3 6.8 289.8 1.6 1469 108.8表中w i =, =w i(I)根据表中数据,求回归方程y=c+d;(II)已知这种产品的年利润z与x,y的关系为z=0.2y﹣x,根据( II)的结果回答下列问题:(i)当年宣传费x=90时,年销售量及年利润的预报值时多少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n ),其回归线=α+βu的斜率和截距的最小二乘估计分别为:=, =﹣β.试卷答案1.:(1)2dy c x=+更适宜作烧水时间y 关于开关旋钮旋转的弧度数x 的回归方程类型. ……………………………2分(2)由公式可得:1011021()()16.2200.81()iii ii w w y y d w w ∧==--===-∑∑ ˆ20.6200.785ˆcy dw =-⨯-==, 所以所求回归方程为2205y x=+.………………………………………………………………7分(3)设t kx =,则煤气用量22020(5)520k S yt kx kx k x x ==+=+≥=, 当且仅当205kkx x=时取“=”,即2x =时,煤气用量最小.………………………………12分 2.()Ⅰ由散点图可以判断y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.()Ⅱ令w =y 关于w 的线性回归方程()()()()()()()88888111118888222211118iii iiii iii ii i i i i iiiii i i i y y w w w y wy yw wy w y wy w y wyd w w w w w w w w =========----+--====----∑∑∑∑∑∑∑∑∑31280 6.85738681.6-⨯⨯==,57368 6.8110.6c y dw =-=-⨯=,所以y 关于w 的线性回归方程为110.668y w =+,所以y 关于x 的线性回归方程为110.6y =+()Ⅲ()i 由()Ⅱ知,当64x=时,年销售量y 的预报值为110.6654.6y =+=,年利润z 的预报值为654.60.26466.92z =⨯-=.()ii 根据()Ⅱ的结果知,年利润z 的预报值()20.2(110.668)13.622.12 6.868.36z x x x x x =⨯+-=-++=--+,当 6.8x =,即46.24x =时,年利润的预报值最大, 故年宣传费为46.24千元时,年利润预报值最大. 3.【考点】变量间的相关关系;用样本的频率分布估计总体分布.【分析】(1)画出y 关于t 的散点图和z 关于x 的散点图,结合图形判断模型②更适宜作为回归方程类型;(2)计算模型①的回归系数,写出回归方程,求出x=30时的值;计算模型②的回归系数,写出回归方程,求出x=30时的值即可;(3)根据<判断模型②的拟合效果更好.【解答】解:(1)画出y 关于t 的散点图如图1,画出z 关于x 的散点图如图2;根据散点图可以判断模型②更适宜作为回归方程类型; (2)对于模型①,设t=x 2,则y=C 1x 2+C 2=C 1t+C 2,计算C 1==0.43,C2=﹣C1=80﹣0.43×692=﹣217.56,∴所求回归方程为=0.43x2﹣217.56,当x=30时,估计温度为=0.43×302﹣217.56=169.44;对于模型②,设y=,则z=lny=C3x+C4,计算C3==0.32,C4=﹣C3=3.57﹣0.32×26=﹣4.75,∴所求回归方程为=0.32x﹣4.75,即=e0.32x﹣4.75;当x=30时,估计温度为=e0.32×30﹣4.75≈127.74;(3)∵R12=0.82,R22=0.96,∴<,∴模型②的拟合效果更好.【点评】本题考查了散点图以及回归方程和相关指数的应用问题,也考查了分析与判断能力的应用问题,是综合性题目.4.【考点】线性回归方程.【分析】(Ⅰ)先建立中间量w=,建立y关于w的线性回归方程,根据公式求出w,问题得以解决;(Ⅱ)(i)年宣传费x=90时,代入到回归方程,计算即可,(ii)求出预报值得方程,根据函数的性质,即可求出.【解答】解:(Ⅰ)令w=,先建立y关于w的线性回归方程,由于d=68,c=563﹣68×6.8=100.6,所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68,(Ⅱ)(i)由(Ⅰ)知,当x=90时,年销售量y的预报值y=100.6+68=745.2,年利润z的预报值z=745.2×0.2﹣90=59.04,(ii)根据(i)的结果可知,年利润z的预报值z=0.2﹣x=﹣x+13.6+20.12,当=6.8时,年利润的预报值最大为66.36千元.。
高中数学回归分析精选题
回归分析精选题20道一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R 依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R 为( )A .0.95B .0.81C .0.74D .0.365.已知四个命题:①在回归分析中,2R 可以用来刻画回归效果,2R 的值越大,模型的拟合效果越好; ②在独立性检验中,随机变量2K 的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1; 其中真命题是( )A .①④B .②④C .①②D .②③6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+ D .210xy=7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好 D .若12a a <,则12b b >,B 的拟合效果更好8.下列结论正确的是( )①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32yx =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A .总偏差平方和B .残差平方和C .回归平方和D .相关指数二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A .运用最小二乘法求得的回归直线一定经过样本点的中心(x ,)yB .若相关系数r 的绝对值越接近于1,则相关性越强C .若相关指数2R 的值越接近于0,表示回归模型的拟合效果越好D .在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高 三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是 .15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 .17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 . 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380 i iix y==∑,521145)iix==∑回归分析精选题20道参考答案与试题解析一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g【分析】根据回归方程为ˆ0.8585.71yx =-,0.85>,可知A ,B ,C 均正确,对于D 回归方程只能进行预测,但不可断定. 【解答】解:对于A ,0.85>,所以y 与x 具有正的线性相关关系,故正确;对于B ,回归直线过样本点的中心(x ,)y ,故正确;对于C ,回归方程为ˆ0.8585.71yx =-,∴该大学某女生身高增加1c m ,则其体重约增加0.85k g,故正确;对于D ,170xc m=时,ˆ0.8517085.7158.79y =⨯-=,但这是预测值,不可断定其体重为58.79k g,故不正确故选:D .【点评】本题考查线性回归方程,考查学生对线性回归方程的理解,属于中档题. 2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-【分析】本题考查的知识点是回归分析的基本概念,根据某商品销售量y (件)与销售价格x(元/件)负相关,故回归系数应为负,再结合实际进行分析,即可得到答案.【解答】解:由x 与y 负相关, 可排除B 、D 两项,而C 项中的ˆ102000yx =--<不符合题意.故选:A .【点评】两个相关变量之间的关系为正相关关系,则他们的回归直线方程中回归系数为正;两个相关变量之间的关系为负相关关系,则他们的回归直线方程中回归系数为负.3.有一散点图如图所示,在5个(,)D后,下列说法正确的是()x y数据中去掉(3,10)A.残差平方和变小B.相关系数r变小C.相关指数2R变小D.解释变量x与预报变量y的相关性变弱【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和,的变化情况.【解答】解:从散点图可分析得出:只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,相关系数变大,相关指数变大,残差的平方和变小,故选:A.【点评】本题考查了利用散点图分析数据,判断变量的相关性问题,属于运用图形解决问题的能力,属于容易出错的题目.4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R为()A.0.95B.0.81C.0.74D.0.36【分析】根据两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,由此选出选项中的答案.【解答】解:两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,在所给的四个选项中0.95是相关指数最大的值,∴其拟合效果也最好.故选:A.【点评】本题考查了相关指数,这里不用求相关指数,而是根据所给的相关指数判断模型的拟合效果,解题的关键是理解相关指数越大拟合效果越好.5.已知四个命题:①在回归分析中,2R可以用来刻画回归效果,2R的值越大,模型的拟合效果越好;②在独立性检验中,随机变量2K的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212y x=+中,当解释变量x每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1;其中真命题是()A.①④B.②④C.①②D.②③【分析】对4个选项分别进行判断,即可得出结论.【解答】解:①相关指数2R是用来刻画回归效果的,2R表示解释变量对预报变量的贡献率,2R越接近于1,表示解释变量和预报变量的线性相关关系越强,越趋近0,关系越弱,故2R的值越大,说明回归模型的拟合效果越好,故①正确.②由2K的计算公式可知,对分类变量X与Y的随机变量2K的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量2K的值越大,说明两个分类变量有关系的可能性越大,故②正确;③在回归直线方程ˆ0.212=+中,当解释变量x每增加一个单位时,预报变量ˆy平均增加y x0.2个单位,故③错误.④两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故④不正确.故选:C.【点评】本题以命题的真假判断为载体,考查了抽样方法,相关系数,回归分析,独立性检验等知识点,难度不大,属于基础题.6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+D .210xy=【分析】将(1,0.2),(2,0.39),(3,0.78)分别代入0.2y x=,20.10.1yx x=+,40.2lo g yx=+和210xy=中,验证即可.【解答】解:将(1,0.2),(2,0.39),(3,0.78)代入0.2y x=,当3x=时,0.6y=,和0.78相差较大;将(1,0.2),(2,0.39),(3,0.78)代入20.10.1y x x=+,当2x=时,0.6y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入40.2lo g y x=+,当2x=时,0.7y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入210xy =,当1x =时,0.2y =,当2x =时,0.4y =,与0.39相差0.01, 当3x=时,0.8y=,和0.78相差0.02;综合以上分析,选用函数关系210xy =较为近似.故选:D .【点评】本题考查了函数模型的应用问题,也考查了运算求解能力,是基础题.7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好D .若12a a <,则12b b >,B 的拟合效果更好【分析】比较两个模型的拟合效果时,如果模型残差平方和越小,则相应的相关指数2R 越大,该模型拟合的效果越好,即可得出结论.【解答】解:比较两个模型的拟合效果时,如果模型残差平方和越小, 则相应的相关指数2R 越大,该模型拟合的效果越好. 故选:C .【点评】本题是基础题.考查残差平方和、相关指数. 8.下列结论正确的是()①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④【分析】本题是一个对概念进行考查的内容,根据相关关系的定义与回归分析的统计意义进行判断.【解答】解:①函数关系是一种确定性关系,这是一个正确的结论. ②相关关系是一种非确定性关系,是一个正确的结论.③回归分析是对具有相关关系的两个变量进行统计分析的一种方法,所以③不对. 与③对比,依据定义知④是正确的, 故选:C .【点评】本题的考点是相关关系,对本题的正确判断需要对相关概念的熟练掌握. 9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟【分析】根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,代入样本中心点求出a 的值,写出线性回归方程.将100x=代入回归直线方程,得y ,可以预测加工100个零件需要102分钟,这是一个预报值,不是生产100个零件的准确的时间数. 【解答】解:由表中数据得:20x =,30y=,又ˆb 值为0.9,故300.92012a=-⨯=,0.912y x ∴=+.将100x=代入回归直线方程,得0.910012102y =⨯+=(分钟).∴预测加工100个零件需要102分钟.故选:C .【点评】本题考查线性回归方程的求法和应用,解题的关键是正确应用最小二乘法求出线性回归方程的系数的运算,再一点就是代入样本中心点可以求出字母a 的值,是一个中档题目. 10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =【分析】根据回归分析中相关指数2R 越接近于1,拟合效果越好,即可得出答案. 【解答】解:回归分析中,相关指数2R 越接近于1,拟合效果越好; 越接近0,拟合效果越差,由模型2对应的2R 最大,其拟合效果最好. 故选:C .【点评】本题考查了利用相关指数判断模型拟合效果的应用问题,是基础题. 11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32y x =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 【分析】根据题意,对选项种的命题分析判断正误即可.【解答】解:对于A ,在残差图中,纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,所以A 正确;对于B,散点图中的一组点全部位于直线ˆ32=-+的图象上,则x,y成负相关,且相关y x关系最强,此时相关系数1r=-,所以B错误;对于C,若残差平方和越小,则残差点分布的带状区域的宽度越窄,其相关性越强,相关指数2R越大,所以C正确;对于D,回归分析中,变量间的关系若是非确定关系,即变量间的关系不是函数关系,因变量不能由自变量唯一确定,所以D正确.故选:B.【点评】本题考查了统计知识的概念与应用问题,掌握相关概念的含义是解题的关键,是基础题.12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是() A.总偏差平方和B.残差平方和C.回归平方和D.相关指数【分析】本题考查的回归分析的基本概念,根据拟合效果好坏的判断方法我们可得,数据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.【解答】解:拟合效果好坏的是由残差的平方和来体现的,而拟合效果即数据点和它在回归直线上相应位置的差异故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.故选:B.【点评】拟合效果好坏的是由残差的平方和来体现的,也可以理解为拟合效果即数据点和它在回归直线上相应位置的差异,故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A.运用最小二乘法求得的回归直线一定经过样本点的中心(x,)yB.若相关系数r的绝对值越接近于1,则相关性越强C.若相关指数2R的值越接近于0,表示回归模型的拟合效果越好D.在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高【分析】利用回归分析中的相关知识对四个选项逐一分析判断即可.【解答】解:对于A,回归方程必定经过样本中心(x,)y,故选项A正确;对于B,由相关系数的意义可知,相关系数r的绝对值越接近于1,则相关性越强,故选项B正确;对于C ,若相关指数2R 的值越接近于1,表示回归模型的拟合效果越好,故选项C 错误; 对于D ,在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高,故选项D 正确. 故选:A B D .【点评】本题考查了回归分析的理解,主要考查了回归方程的性质,相关系数的意义等,属于基础题.三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是13(2,8).【分析】根据回归方程必过点(,)x y ,计算出,x y 即可求得答案. 【解答】解:35289121362x+++++==,4639121486y+++++==,回归方程必过点(,)x y ,∴该直线必过的定点是13(2,8).故答案为:13(2,8).【点评】本题考查了回归方程,线性回归方程必过样本中心点(,)x y ,这是线性回归中最常考的知识点,希望大家熟练掌握.属于基础题.15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是 106.5【分析】根据表中数据计算x 、y ,代入回归直线方程求得ˆa的值, 写出回归直线方程,利用方程求出10x =时ˆy的值即可. 【解答】解:根据表中数据,计算1(24568)55x=⨯++++=,1(2040607080)545y =⨯++++=,代入回归直线方程ˆˆ10.5y x a=+中,求得ˆ5410.55 1.5a =-⨯=,∴回归直线方程为ˆ10.5 1.5yx =+,据此模型预测,10x=时,ˆ10.510 1.5106.5y=⨯+=,即y 的估计值是106.5. 故答案为:106.5.【点评】本题考查了线性回归方程的应用问题,是基础题. 16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 0.5 .【分析】首先求出这组数据的横标和纵标的平均数,写出这组数据的样本中心点,把样本中心点代入线性回归方程求出m 的值. 【解答】解:0123342x +++==,3 5.5715.544m m y++++==,∴这组数据的样本中心点是3(2,15.5)4m +, 关于y 与x 的线性回归方程ˆ 2.10.85y x =+,∴15.532.10.8542m +=⨯+,解得0.5m =,m∴的值为0.5.故答案为:0.5.【点评】本题考查回归分析,考查样本中心点满足回归直线的方程,考查求一组数据的平均数,是一个运算量比较小的题目,并且题目所用的原理不复杂,是一个好题.17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 75%.【分析】根据y 与x 具有线性相关关系,且满足回归方程,和该城市居民人均消费水平为,把消费水平的值代入线性回归方程,可以估计该市的职工均工资水平,做出人均消费额占人均工资收入的百分比. 【解答】解:y与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,该城市居民人均消费水平为7.5y=,∴可以估计该市的职工均工资水平7.50.6 1.5x =+,10x ∴=,∴可以估计该城市人均消费额占人均工资收入的百分比约为7.5100%75%10⨯=,故答案为:75%【点评】本题考查线性回归方程的应用,考查用线性回归方程估计方程中的一个变量,利用线性回归的知识点解决实际问题. 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-【分析】(1)用数组(,)m n 表示选出2天的发芽情况,用列举法可得m ,n 的所有取值情况,分析可得m ,n 均不小于25的情况数目,由古典概型公式,计算可得答案;(2)根据所给的数据,先做出x ,y 的平均数,即做出本组数据的样本中心点,根据最小二乘法求出线性回归方程的系数,写出线性回归方程.(3)根据估计数据与所选出的检验数据的误差均不超过2颗,就认为得到的线性回归方程是可靠的,根据求得的结果和所给的数据进行比较,得到所求的方程是可靠的.【解答】解:(1)用数组(,)m n 表示选出2天的发芽情况,m,n 的所有取值情况有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(30,26),共有10个设“m ,n 均不小于25”为事件A ,则包含的基本事件有(25,30),(25,26),(30,26) 所以3()10P A =,故事件A 的概率为310(2)由数据得12,27xy ==,3972x y=,31977i i i x y ==∑,321434i i x ==∑,23432x =由公式,得9779725ˆ4344322b -==-,5ˆ271232a=-⨯=-所以y 关于x 的线性回归方程为5ˆ32yx =-(3)当10x =时,ˆ22y=,|2223|2-<,当8x=时,ˆ17y=,|1716|2-<所以得到的线性回归方程是可靠的.【点评】本题考查回归直线方程的计算与应用,涉及古典概型的计算,是基础题,在计算线性回归方程时计算量较大,注意正确计算.19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.【分析】(1)利用描点法作出散点图;(2)把数据代入公式,利用最小二乘法求回归方程的系数,可得回归直线方程; (3)把10x=代入回归方程得y 值,即为预报变量.【解答】解:(1)散点图如图,由图知y 与x 间有线性相关关系.(2)4x=,5y=,52190i i x ==∑,51112.3i i i x y ==∑,∴112.354512.3ˆ 1.239054210a-⨯⨯===-⨯;ˆˆ5 1.2340.08a y b x =-=-⨯=.(3)线性回归直线方程是ˆ 1.230.08y x =+,当10x=(年)时,ˆ 1.23100.0812.38y=⨯+=(万元),即估计使用10年时,支出总费用是12.38万元.【点评】本题考查了线性回归直线方程的求法及利用回归方程估计预报变量,解答此类问题的关键是利用公式求回归方程的系数,计算要细心.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y 对x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380i i i x y ==∑,521145)i i x ==∑【分析】(1)根据表格数据,可得散点图;(2)先求出横标和纵标的平均数,代入求系数b 的公式,利用最小二乘法得到系数,再根据公式求出a 的值,写出线性回归方程,得到结果.(3)允许每小时的产品中有缺点的零件最多为89个,即线性回归方程的预报值不大于89,写出不等式,解关于x 的一次不等式,得到要求的机器允许的转数. 【解答】解:(1)散点图如图;(2)5x =,50y=,511380i i i x y ==∑,521145i i x ==∑∴13805550ˆ 6.5145555b-⨯⨯==-⨯⨯,ˆˆ17.5ay b x =-=∴回归直线方程为:ˆ 6.517.5yx =+;(3)由89y …得6.517.589x+…,解得11x …∴机器的运转速度应控制11转/秒内【点评】本题考查线性回归分析,考查线性回归方程,考查线性回归方程的应用,考查不等式的解法,是一个综合题目.。
2019—2020年新课标北师大版高中数学选修1-2《可线性化的回归分析》课时同步练习及答案解析.docx
(新课标)2017-2018学年北师大版高中数学选修1-21.3 可线性化的回归分析课时目标 1.理解两个变量之间的非线性相关关系的可线性化.2.进一步理解回归分析的基本思想.1.有些相关关系,若用直线来描述,误差很大,可以使用______________来描述它们的关系.2.常见的非线性回归模型 (1)幂函数曲线y =ax b作变换u =ln y ,v =ln x ,c =ln a ,得线性函数__________. (2)指数曲线y =ae bx作变换u =ln y ,c =ln a ,得线性函数__________. (3)倒指数曲线y =ae bx作变换u =ln y ,v =1x ,c =ln a ,得线性函数________.(4)对数曲线y =a +bln x作变换u =y ,v =ln x ,得线性函数____________.一、选择题1.有下列说法:①线性回归分析就是由样本点去寻找贴近这些样本点的一条直线的数学方法.②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示.③通过回归方程y=bx+a及其回归系数b,可以估计和观测变量的取值和变化趋势.④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题个数是( )A.1 B.2 C.3 D.42.下列有关样本相关系数的说法不正确的是( )A.相关系数用来衡量x与y之间的线性相关程度B.|r|≤1,且|r|越接近于1,相关程度越强C.|r|≤1,且|r|越接近于0,相关程度越弱D.|r|≥1,且|r|越接近于1,相关程度越强3.下列有关线性回归的说法,不正确的是( )A.变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图C.线性回归直线最能代表观测值x,y之间的关系D.任何一组观测值都得到具有代表意义的线性回归方程4.今有一组试验数据如下:t 1.993 3.002 4.001 5.032 6.121 s1.5014.4137.49812.0417.93现准备用下列函数中的一个来近似地表示数据满足的规律,其中接近的一个是( ) A .s -1=2t -3B .s =23log 2tC .2s =t 2-1D .s =-2t -25.在下列各量与量之间的关系中是相关关系的是( )①正方体的体积与棱长之间的关系;②一块农田的小麦的产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的收入与支出之间的关系;⑤某家庭用水量与水费之间的关系.A .②③B .③④C .④⑤D .②③④二、填空题6.下列关系正确的是________(填序号). ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.7.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,那么b 与r 的符号________(填“相同”或“相反”).8.已知某个样本点中的变量x ,y 线性相关,相关系数r<0,则在以(x ,y )为坐标原点的坐标系下的散点图中,大多数的点都落在第________象限.三、解答题9.在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1如何建立y与x之间的回归方程.10.某地区不同身高的未成年男性的体重平均值如下表:身高x/cm 60 70 80 90 100 110体重y/kg 6.13 7.90 9.99 12.15 15.02 17.50身高x/cm 120 130 140 150 160 170体重y/kg 20.92 26.86 31.11 38.85 47.25 55.05 试建立y与x之间的回归方程.能力提升11.在一次试验中,当变量x 的取值分别为1,12,13,14时,变量y 的值分别为2,3,4,5,则y 与1x的回归曲线方程为____________________.12.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:房屋面积(m 2) 115 110 80 135 105 销售价格(万元)24.821.618.429.222(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决.1.3 可线性化的回归分析答案知识梳理1.非线性函数2.(1)u=c+bv (2)u=c+bx (3)u=c+bv(4)u =a +bv 作业设计1.C [①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y =bx +a 的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.]2.D3.C [两个变量之间不一定是线性回归关系,所得方程可能不代表x 、y 之间的关系.] 4.C [可以代入数值用排除法选择,也可以结合散点图形状.] 5.D 6.①②④ 7.相同解析 可以由b 、r 的公式知. 8.二、四解析 ∵r<0时b<0,∴大多数点落在第二、四象限.9.解 画出散点图如图(1)所示,观察可知y 与x 近似是反比例函数关系. 设y =k x (k ≠0),令t =1x,则y =kt.可得到y 关于t 的数据如下表:t 4 2 1 0.5 0.25 y1612521画出散点图如图(2)所示,观察可知t 和y 有较强的线性相关性,因此可利用线性回归模型进行拟合,易得:∑5i =1t i y i =94.25,∑5i =1t 2i =21.312 5,t =1.55,y =7.2,b =∑5i =1t i y i -5t y∑5i =1t 2i -5t2≈4.134 4,a =y -b t ≈0.791 7,所以y =4.134 4t +0.791 7,所以y 与x 的回归方程是y =4.134 4x +0.791 7.10.解 根据上表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y =c 1ec 2x 的周围,于是令z =ln y.x 60 70 80 90 100 110 z1.812.072.302.502.712.86x 120 130 140 150 160 170 z3.043.293.443.663.864.01画出散点图如下图所示:由表中数据可得z 与x 之间的线性回归方程: z =0.693+0.020x ,则有y =e 0.693+0.020x . 11.y =1x+1解析 给出的四个点坐标都适合y =1x +1.12.解 (1)散点图如图所示:(2)x =15∑5i =1x i =109,∑5i =1 (x i -x )2=1 570,y =23.2,∑5i =1 (x i -x )(y i -y )=308. 设所求线性回归方程为y =bx +a , 则b =3081 570≈0.196 2,a =y -b x =23.2-109×3081 570≈1.816 6.故所求线性回归方程为y =0.196 2x +1.816 6.(3)根据(2),当x =150 m 2时,销售价格的估计值为y =0.196 2×150+1.816 6=31.246 6≈31.2(万元).。
【高考数学】专题02 非线性回归方程(解析版)
专题2 非线性回归方程例1. 某景区的各景点从2009年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y (万人)与年份x 的数据:模型①:由最小二乘法公式求得y 与x 的线性回归方程5081697=+ˆ..yx ; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线=bx y ae 的附近. (1)根据表中数据,求模型②的回归方程=ˆbx yae .(a 精确到个位,b 精确到001.). (2)根据下列表中的数据,比较两种模型的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测2021①对于一组数据1(v ,1)w ,2(v ,2)w ,⋯,(n v ,)n w ,其回归直线αβ=+ˆˆˆwv 的斜率和截距的最小二乘法估计分别为121βαβ==--==--∑∑()()ˆˆ,()nii i nii ww v v w v vv .②刻画回归效果的相关指数221211==-=--∑∑()()nii i n ii yy R yy .③参考数据:546235≈.e ,14342≈..e .表中101110===∑,i i ii u lny u u.【解析】解:(1)对=bx y ae 取对数,得=+lny bx lna , 设=u lny ,=c lna ,先建立u 关于x 的线性回归方程.1011021900010883==--==≈-∑∑()().ˆ.()ii i ii xx u u bxx , 6050108555456546=-≈-⨯=≈ˆˆ.....cu bx ,546235=≈≈ˆ.ˆc a e e . ∴模型②的回归方程为011235=.ˆx ye ; (2)由表格中的数据,有3040714607>,即101022113040714607==>--∑∑()()iii i yy yy ,即10102211304071460711==-<---∑∑()()iii i yy yy ,∴2212<R R ,模型①的相关指数21R 小于模型②的22R ,说明回归模型②的拟合效果更好.2021年时,13=x ,预测旅游人数为0111314323523523542987⨯==≈⨯=..ˆ.y e e (万人).例2. 近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了20122016-年中国高铁密度的发展情况(单位:千米/万平方千米).已知高铁密度y 与年份代码x 之间满足关系式=(b y ax a ,b 为大于0的常数).若对=b y ax 两边取自然对数,得到=+lny blnx lna ,可以发现lny 与lnx 线性相关.(1)根据所给数据,求y 关于x 的回归方程ˆ(lna ,ˆb 保留到小数点后一位);(2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米.参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(i x ,1=)(i y i ,2,⋯⋯)n ,则回归方程ˆˆˆybx a =+的系数:121==--=-∑∑()()ˆ()nii i nii xx y y b xx ,=-ˆay bx . 参考数据:515092=-≈∑.ii i lnxlny lnx lny ,5221516=-≈∑()().ii lnx lnx ,515=≈∑ii lnx,5114=≈∑ii lny,274≈.,3034≈.ln .【解析】解:(1)对00=>>(,)b y ax a b 两边取自然对数,得=+lny blnx lna ; 令=i i v lnx ,=i i u lny ,1=i ,2,3,⋯,n ; 得u 与v 具有线性相关关系,计算51522150920575165==-===-∑∑.ˆ..i i i ii v uvubvv ,140575122255=-=-⨯=ˆ..lna u bv , ∴06≈ˆ.b,22≈≈.lna , ∴0622=+ˆ..u v ,故y 关于x 的回归方程为0622+=..ˆlnx y e , 即2206=..ˆye x ; (2)在(1)的回归方程中,0622+=..lnx y e ,高铁密度超过30千米/万平方千米; 即062230+>..lnx e ,06223034+>≈...lnx ln ,2>lnx .274>≈.x e ,即8=x 时,高铁密度超过30千米/万平方千米;所以预测2019年,高铁密度超过30千米/万平方千米.例3. 某公司生产一种产品,从流水线上随机抽取100件产品,统计其质量指数并绘制频率分布直方图(如图1):产品的质量指数在[50,70)的为三等品,在[70,90)的为二等品,在[90,110]的为一等品,该产品的三、二、一等品的销售利润分别为每件1.5,3.5,5.5(单位:元),以这100件产品的质量指数位于各区间的频率代替产品的质量指数位于该区间的概率. (1)求每件产品的平均销售利润;(2)该公司为了解年营销费用x (单位:万元)对年销售量y (单位:万件)的影响,对近5年的年营销费用i x 和年销售量i y (1,2,3,4,5)i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中ln i i u x =,ln i i v y =,5115i i u u ==∑,5115i i v v ==∑根据散点图判断,by a x =可以作为年销售量y (万件)关于年营销费用x (万元)的回归方程.(ⅰ)建立y 关于x 的回归方程;(ⅰ)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?(收益=销售利润-营销费用,取 4.15964e =)参考公式:对于一组数据:11(,)u v ,22(,)u v ,,(,)n n u v ,其回归直线v u αβ=+的斜率和截距的最小乘估计分别为^121()()()nii i nii uu v v uu β==--=-∑∑,^v u αβ∧∧=-【解析】(1)设每件产品的销售利润为ξ元,则ξ的所有可能取值为1.5,3.5,5.5 由直方图可得:一、二、三等品的频率分别为0.4,0.45,0.15, 所以()1.50.15P ξ==,()3.50.45P ξ==, ()5.50.4P ξ==,所以:随机变量ξ的分布列为:所以, 1.50.15 3.50.45 5.50.44E ξ=⨯+⨯+⨯= 故每件产品的平均销售利润为4元.(2)(ⅰ)由·b y a x =得,()ln ln ?ln ln by a x a b x ==+,令ln u x =,ln v y =,ln c a =,则v c bu =+,由表中数据可得,()()()1210.410.251.6ˆ4ni i i n i i u u v v b u u ==--===-∑∑, 则24.8716.300.25 4.15955ˆc v bu∧∧=-=-⨯= 所以, 4.1590.25v u ∧=+,即14.1594ln 4.1590.25ln ln ?y x e x ∧⎛⎫=+= ⎪⎝⎭因为 4.15964e=,所以1464?y x ∧=故所求的回归方程为1464?y x =(ⅰ)设年收益为z 万元,则()14256z E y x x x ξ=-=- 设14t x =,()4256f t t t =-,则()()33'2564464f t t t=-=-当()0,4t ∈时,()'0f t >,()f t 在()0,4单调递增, 当()4,t ∈+∞时,()'0f t <,()f t 在()4,+∞单调递减. 所以,当4t =,即256x =时,z 有最大值为768即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.例4. 近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”、“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图(1)若从以上六家“农家乐”中随机抽取两家深入调查,记ξ为“入住率”超过0.6的农家乐的个数,求ξ的概率分布列;(2)令ln z x =,由散点图判断ˆˆˆybx a =+与ˆˆy bz a =+哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程.(ˆb结果保留一位小数) (3)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额365L =⋅入住率⋅收费标准x )参考数据:1221ˆ,ni i i n ii x y nx y b x nx ==-⋅=-∑∑621,200,0.45,32500,ˆˆ0ii a y bx x y x ==-===∑ 615.1,12.7,i i i z y z =≈≈∑6231158.1,148.4ii ze =≈≈∑【解析】(1)ξ的所有可能取值为0,1,2.则()0P ξ== 2426C C 62,155== ()1124268115C C P C ξ⋅===,()2P ξ== 2226C C 115= ξ∴的分布列(2)由散点图可知ˆˆˆybz a =+更适合于此模型. 其中6162216 1.070.52.0ˆ46i i i i i z y zy bz z ==--==≈--∑∑,ˆ3ˆˆay bz =-= 所求的回归方程为0.5ˆ3ylnx =-+ (3)()3650.53L lnx x =-+=3651095.2xlnx x -+ 365365365322L lnx =--+⨯'令505148.4L lnx x e =⇒=⇒=≈' ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.例5. 已知某种细菌的适宜生长温度为10C 25C ︒~︒,为了研究该种细菌的繁殖数量y (单位:个)随温度x (单位:C ︒)变化的规律,收集数据如下:对数据进行初步处理后,得到了一些统计量的值,如下表所示:其中lni ik y=,7117iik k==∑.(1)请绘出y关于x的散点图,并根据散点图判断y bx a=+与21e c xy c=哪一个更适合作为该种细菌的繁殖数量y关于x的回归方程类型(结果精确到0.1);(2)当温度为25C︒时,该种细菌的繁殖数量的预报值为多少?参考公式:对于一组数据()(),1,2,3,...,i iu v i n=,其回归线ˆˆˆv uβα=+的斜率和截距的最小二乘估计分别为:()121ˆ()()ni iiniiu u v vu uβ==--=-∑∑,ˆˆa v uβ=-.参考数据: 5.5e245≈.【解析】(1)绘出的散点图如图所示,根据散点图判断21c xy c e =更适合作为该种细菌的繁殖数量y 关于x 的回归方程类型;(2)∵21c xy c e=,∴21lny c x lnc =+,∴()()()71272120.50.2112i ii i i x x k k c x x ==--==≈-∑∑,1220.53.8180.5112lnck c x =-=-⨯≈, ∴0.51c e =,20.20.51c xx y c e e +==,当温度为25C ︒时,该种细菌的繁殖数量的预报值为 5.5245e ≈.例6. 噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量(单位:2/W cm )之间的关系,将测量得到的声音强度1D 和声音能量i I (i =1,2…,10)数据作了初步处理,得到如图散点图及一些统计量的值.表中lg i i W I =,101110i i W W ==∑。
高中数学回归分析的基本思想及其初步应用测试题(含答案)
高中数学回归分析的基本思想及其初步应用测试题(含答案)1.1回归分析的基本思想及其初步应用一、选择题1. 下列说法中正确的是()A.任何两个变量都具有相关关系 B.人的知识与其年龄具有相关关系C.散点图中的各点是分散的没有规律 D.根据散点图求得的回归直线方程都是有意义的2. 某同学由与之间的一组数据求得两个变量间的线性回归方程为,已知:数据的平均值为2,数据的平均值为3,则 ( )A.回归直线必过点(2,3) B.回归直线一定不过点(2,3)C.点(2,3)在回归直线上方 D.点(2,3)在回归直线下方3. 在一次试验中,测得的四组值分别是,则Y与X之间的回归直线方程为()A. B. C.D.4. 在对两个变量,进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据、),,…,;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量具有线性相关结论,则在下列操作中正确的是A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③①5. 下面的各图中,散点图与相关系数r不符合的是()6. 设有一个直线回归方程为,则变量增加一个单位时()A.平均增加个单位 B.平均增加个单位C.平均减少个单位 D.平均减少个单位7. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在轴上,解释变量在轴上(B)解释变量在轴上,预报变量在轴上(C)可以选择两个变量中任意一个变量在轴上(D)可以选择两个变量中任意一个变量在轴上8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145.83cm;B.身高在145.83cm以上;C.身高在145.83cm以下;D.身高在145.83cm左右.9. 两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下,其中拟合效果最好的模型是( )A.模型1的相关指数为0.98B.模型2的相关指数为0.80C.模型3的相关指数为0.50D.模型4的相关指数为0.2510. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A.总偏差平方和B.残差平方和C.回归平方和D.相关指数R211. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为,下列判断正确的是()A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元12. 下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② B.①②③ C.①②④ D.①②③④13. 已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为()A.B.C.D.二、填空题14. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数的值分别约为0.96和0.85,则拟合效果好的模型是.15. 线性回归模型(和为模型的未知参数)中,称为.16. 若一组观测值(x1,y1)(x2,y2)…(xn,yn)之间满足yi=bxi+a+ei (i=1、2. …n)若ei恒为0,则R2为_____三、解答题17. 调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下:使用年限2 3 4 5 6维修费用2.2 3.8 5.5 6.5 7.0(1)求线性回归方程;(2)由(1)中结论预测第10年所支出的维修费用.()18. 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为时的销售价格. 19. 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:x 2 3 4 5 6y 2 23 85 56 57 0若由资料可知y对x呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?1.1回归分析的基本思想及其初步应用(参考答案)一、选择题1. B2. A3. A4. D5.B6.C7. 解析:通常把自变量称为解析变量,因变量称为预报变量.选B8. D9. A10. B11. C12. C13. C二、填空题14. 甲15. 随机误差16. 解析: ei恒为0,说明随机误差对yi贡献为0.答案:1.三、解答题17.解析:(1) 回归方程为:(2) 预计第10年需要支出维修费用12.38 万元.18. 解析:(1)数据对应的散点图如图所示:(2),,设所求回归直线方程为,则故所求回归直线方程为(3)据(2),当时,销售价格的估计值为:(万元)19. 解析:(1)列表如下:i 1 2 3 4 52 3 4 5 62 23 85 56 57 04 411 422 032 542 04 9 16 25 36于是,线性回归方程为:(2)当x=10时,(万元)即估计使用10年时维修费用是12 38万元。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非线性回归方程(可线性化)
1. 近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁
路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了2012−2016年中国高铁密度的发展情况(单位:千米/万平方千米).
已知高铁密度y 与年份代码x 之间满足关系式y =yy y (y ,b 为大于0的常数).若对y =yy y 两边取自然对数,
得到yyy =yyyy +yyy ,可以发现ln y 与ln x 线性相关. (1)根据所给数据,求y 关于x 的回归方程(ln y ̂,y ̂
保留到小数点后一位); (2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米. 参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(y y ,y y )(y =1,2,……y ),
则回归方程y ̂
=y ̂
y +y ̂
的系数:y ̂
=
∑(y y =1y y −y −
)(y y −y −
)
∑(y y =1y y −y −)
2,y ̂
=y −
−yy −
.
参考数据:∑y 5y =1yy y ⋅yyy y −5yyy −
⋅yyy −
≈0.92,∑(5y =1yyy y )2−5(yyy −
)2≈1.6,∑y 5y =1yy y ≈5,∑y 5y =1yy y ≈14, 2≈7.4,yy30≈3.4.
解:(1)对y =yy y (y >0,y >0)两边取自然对数,得yyy =yyyy +yyy ; 令y y =yyy y ,y y =yyy y ,y =1,2,3,…,n ; 得u 与v 具有线性相关关系, 计算y ̂
=
∑y y 5y =1y y −5y −y
−
∑y y 25y =1−5y
−2=
0.921.6
=0.575,yyy ⏜=y −
−y ̂y −
=145
−0.575×1=2.225,
∴y ̂≈0.6,yyy ⏜≈≈2.2, ∴y ̂
=0.6y +2.2,
故y关于x的回归方程为ŷ=y0.6yyy+2.2,
即ŷ=y2.2⋅y0.6;
(2)在(1)的回归方程中,y=y0.6yyy+2.2,高铁密度超过30千米/万平方千米;即y0.6yyy+2.2>30,
0.6yyy+2.2>yy30≈3.4,yyy>2.y>y2≈7.4,
即y=8时,高铁密度超过30千米/万平方千米;
所以预测2019年,高铁密度超过30千米/万平方千米.
2.2017年5月,“一带一路”沿线的20国青年评选出了中国“新四大发明”:高
铁、支付宝、共享单车和网购.2017年末,“支付宝大行动”用发红包的方法刺激支付宝的使用.某商家统计前5名顾客扫描红包所得金额分别为5.5元,2.1元,3.3元,5.9元,4.7元,商家从这5名顾客中随机抽取3人赠送台历.
(1)求获得台历是三人中至少有一人的红包超过5元的概率;
(2)统计一周内每天使用支付宝付款的人数x与商家每天的净利润y元,得
到7组数据,如表所示,并作出了散点图.
(y)直接根据散点图判断,y=y+yy与y=y y+yy哪一个适合作为每天的净利润的回归方程类型.(y,b,c,d的值取整数)
(yy)根据(y)的判断,建立y关于x的回归方程,并估计使用支付宝付款的人数增加到35时,商家当天的净利润.
参考数据:
附:对于一组数据(y1,y1),(y2,y2),…,(y y,y y),其回归直线y=yy+y的斜
率和截距的最小二乘估计分别为y ̂
=
y y =1y y −y )(y −y )
∑(y y =1y y −y )
2,y ̂=y −y ̂
y .
解:(1)记事件“获得台历的三人中至少有一人的红包超过5元”为事件M ,5名顾客中红包超过5元的两人分别记为y 1,y 2,不足5元的三人分别记为y 1,y 2,y 3,从这5名顾客中随机抽取3人,共有抽取情况如下:y 1y 2y 1,y 1y 2y 2,y 1y 2y 3,y 1y 1y 2,y 1y 1y 3,y 1y 2y 3,y 2y 1y 2,y 2y 1y 3,y 2y 2y 3,y 1y 2y 3,共10种. 其中至少有一人的红包超过5元的是前9种情况, 所以y (y )=9
10.
(2)(ⅰ)根据散点图可判断,选择y =y +yy 作为每天的净利润的回归方程类型比较适合.
(ⅰ)由最小二乘法求得系数y ̂=7
y =1y y −y )(y −y )∑(7y =1
y y
−y )2=3484.29
268.86
≈13, 所以y
̂=y −y ̂y =194.29−13×22.86≈−103 所以y 关于x 的回归方程为y =−103+13y . 当y =35时,商家当天的净利润y =352元,
故使用支付宝付款的人数增加到35时,预计商家当天的净利润为352元.
3. 已知某种农产品的日销量y 与上市天数x 之间满足的关系如图所示.
(Ⅰ)根据散点图判断y =y +yy 与y =y +yyyy 哪一个更适合作为日销量y 与上市天数x 的回归方程类型;(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)中的结果,求日销量y 与上市天数x 的回归方程.
参考公式:回归直线方程y ^=y ^y +y ^中的斜率和截距的最小二乘估计公式分
别为y ̂
=
∑(y y =1
y y −y −)(y y −y −
)
∑(y y =1y y −y −
)
2,y ̂=y ̂−y ̂
y −
.
参考数据:
∑x x 10
x =1
∑x x 10
x =1
∑x x 10
x =1
∑(10
x =1
x x
−x −
)
2
∑(10
x =1
x x
−x −
)
2
∑(10
x =1
x x
−x −
)(x x −x −
) ∑(10
x =1
x x
−x −
)(x x −x −
)
55 155.5 15.1 82.5 4.84
94.9
24.2
其中y y =yyy y .
解:(Ⅰ)由图可知,y =y +yyyy 更适合; (Ⅱ)令y =yyy ,则y ̂=yy +y . y =
∑(10y =1y y −y −
)(y y −y −
)
∑(10y =1y y −y −)
2=24.2
4.84=5,
y −
=
1
10∑y
y
10y =1=
15.110
=1.51,y −
=1
10∑y y 10y =1=
155.510
=15.55,
∴y =y −
−yy −
=15.55−5×1.51=8. 故y 关于t 的回归方程为y
̂=5y +8, 即日销量y 与上市天数x 的回归方程为y ̂=5yyy +8.
【解析】(Ⅰ)由图可知,y =y +yyyy 更适合;
(Ⅱ)令y =yyy ,则y
̂=yy +y ,利用已知数据及公式求得c 与d 的值,可得y 关于t 的线性回归方程,进一步求得y 关于x 的回归方程.
4.某学生为了测试煤气灶烧水如何节省煤气的问题设计了一个实验,并获得
了煤气开关旋钮旋转的弧度数x与烧开一壶水所用时间y的一组数据,且做了一定的数据处理(如表),做出了散点图(如图).
x x x ∑( 10 x=
1
x x
−x)2
∑(
10
x=1
x x−x)2
∑(
10
x=1
x x
−x)(x x−x)
∑(
10
x=1
x x
−x)(x x−x)
1.4720.60.78
2.350.81−19.316.2
表中y y=1
y y2
,y=1
10
∑y y
10
y=1.
(1)根据散点图判断,y=y+yy与y=y+y
y2
哪一个更适宜作烧水时间y关于开关旋转角x的回归方程类型?(不必说明理由)
(2)根据判断结果和表中数据,建立y关于x的回归方程;
(3)若旋转角x与单位时间内煤气输出量t成正比,那么x为多少时,烧开一
壶水最省煤气?
附:对于一组数据(y1,y1),(y2,y2),(y3,y3),…,(y y,y y),其回归直线y=y+
yy的斜率和截距的最小二乘估计分别为ŷ=y y=1y y−y)(y−y)
∑(
y
y=1y y−y)2
,ŷ=y−ŷy.
解:(1)y=y+y
y2
更适宜作烧水时间y关于开关旋转角x的回归方程类型.
(2)由公式可得:y=16.2
0.81
=20,y=20.6−20×0.78=5,所以回归方程为y=5+
20
y2.
(3)设y=yy,则煤气用量y=yy=yy(5+20
y2)=5yy+20y
y
≥2√5yy⋅20y
y
=20y,
当且仅当5yy=20y
y
时取“=”,即y=2时,煤气用量最小.
【解析】(1)根据散点图是否按直线型分布作答;
(2)根据回归系数公式得出y关于y的线性回归方程,再得出y关于x的回归方程;
(3)利用基本不等式得出煤气用量的最小值及其成立的条件.。