回归分析及独立性检验的基本知识点及习题集锦
考点5,回归分析与独立性检验

考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。
◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。
◆了解回归分析的基本思想、方法及其简单应用。
命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。
◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。
回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。
2018 高考 回归分析和独立性检验专题复习(学生版)

回归分析与独立性检验(一)变量间的相关关系、回归分析的基本思想及初步运用一、相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系. 二、散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 三、回归分析:对具有相关关系的两个变量进行统计分析的方法叫回归分析. 1、回归直线方程设所求的直线方程为y b x a ∧=+,其中121()(),()ni i i ni i x x y y b a y b x x x ==--==--∑∑,1111,,nni i i i x x y y nn====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 2、相关系数:两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()ni i x x y y r --=∑0r >,表示两个变量正相关;0r <,表示两个变量负相关;r的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. (二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例:是否吸烟,是否患肺癌等 二、独立性检验的方法:列出两个分类变量的频数表(列联表),直观判断.一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n a d b c Kn a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:24.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%.【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅. (1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()ni i x x y y r --=∑0.09≈.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55=2.646≈.参考公式:相关系数()()ni i t t y y r --=∑回归方程y a b t =+ 中斜率和截距的最小二乘估计公式分别为:121()()()ni i i ni i t t y y b t t ==--=-∑∑,=.a yb t -【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有090的把握认为A市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3)将上述调查所得到的频率视为概率,.现在从A市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X.①求X的分布列;②求X的数学期望()E X和方差()D X.参考公式:()()()()()22n a d b cKa b a d a c b d-=++++,其中n a b c d=+++【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n a d b c K a b c d a c b d -=++++。
回归分析的基本知识点及习题

模型评估:线性 回归模型的评估 通常使用R方值、 调整R方值、残 差图等指标进行
评估。
参数估计与求解
最小二乘法:通过最小化误差的平 方和来估计线性回归模型的参数
梯度下降法:通过迭代更新参数, 使得损失函数最小化,从而得到最 优解
添加标题
添加标题
添加标题
添加标题
最大似然估计法:基于似然函数的 最大值来估计参数,使得观测到的 数据出现的概率最大
原理:通过引入 一个小的正则化 项来改进最小二 乘法的估计,以 减少过拟合和增 加模型的稳定性。
目的:在回归分析 中,岭回归分析用 于处理自变量之间 高度相关的情况, 通过加入正则化项 来减少过拟合,提 高模型的预测精度。
应用场景:岭回 归分析广泛应用 于统计学、机器 学习和数据分析 等领域,尤其在 处理共线性数据 问题时表现出色。
感谢您的观看
汇报人:
梯度下降法:通过 迭代更新参数来最 小化损失函数
牛顿-拉夫森方法 :利用泰勒级数展 开来求解参数
模型评估与优化
模型的准确性评估:通过比较实际值与预测值来评估模型的预测能力。
模型的可靠性评估:检查模型是否具有足够的稳定性和可靠性。
模型的优化方法:通过调整模型参数或改变模型结构来提高模型的预测能力和可 靠性。
假设:满足线性关系、误差项独立同分布、误差项无偏、误差项无自相关等假设。 模型建立:基于历史数据,通过最小二乘法等估计方法确定自变量和因变量的关系。 模型评估:通过残差分析、决定系数、调整决定系数等方法评估模型的拟合优度。
参数估计与求解
最小二乘法:通过 最小化误差的平方 和来估计参数
最大似然估计法: 基于似然函数的最 大值来估计参数
模型的适用性:确定模型是否适用于特定的数据集和问题类型。
考点11 回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】1. 回归直线方程12(1)(2)1.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:(年龄岁)(脂肪含量)根据上表的数据得到如下的散点图.脂肪含量年龄岁)根据上表中的样本数据及其散点图.求.计算样本相关系数(精确到),并刻画它们的相关程度.若关于的线性回归方程为,求的值(精确到),并根据回归方程估计年龄为岁时人体的脂肪含量.附:参考数据:,,,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.(1)12(2)2.我市南澳县是广东唯一的海岛县,海区面积广阔,发展太平洋牡蛎养殖业具有得天独厚的优势,所产的“南澳牡蛎”是中国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买只该基地的“南澳牡蛎”,会买到质量小于的牡蛎的可能性有多大?年该基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量(万元)的数据如下:人工投入增量(人)年收益增量(万元)该基地为了预测人工投入增量为人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量做变换,令,则,且有,,,.年收益增量(万元)人工投入增量(万人)根据所给的统计量,求模型②中关于的回归方程(精确到).根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为人时的年收益增量.回归模型模型①模型②回归方程附:若随机变量,则,;样本的最小二乘估计分式为:,,另,刻画回归效果的相关指数.(1)(2)3.某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”,现统计了活动刚推出一周内每天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次,统计数据如下表所示:参考数据:设,,,.参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.根据散点图判断,在推广期内,扫码支付的人次关于活动推出天数的回归方程适合用来表示,求出该回归方程,并预测活动推出第天使用扫码支付的人次.推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式现金会员卡扫码比例商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受折优惠的概率为,享受折优惠的概率为,享受折优惠的概率为,现有一名顾客购买了元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少.(1)4.一个工厂在某年里连续个月每月产品的总成本(万元)与该月产量(万件)之间有如下一组数据:通过画散点图,发现可用线性回归模型拟合与的关系,请用相关系数加以说明.12(2)解答下列各题:建立月总成本与月产量之间的回归方程.通过建立的关于的回归方程,估计某月产量为万件时,此时产品的总成本为多少万元?(均精确到)附注:①参考数据:,,,,.②参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.(1)(2)(3)5.某单位共有名员工,他们某年的收入如下表:员工编号年薪(万元)求该单位员工当年年薪的平均值和中位数.从该单位中任取人,此人中年薪收入高于万的人数记为,求的分布列和期望.已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为万元,万元,万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.全民健身倡导全民做到每天参加一次以上的体育健身活动,旨在全面提高国民体质和健康水平.某部门在该市年发布的全民健身指数中,其中的“运动参与”的评分值进行了统计,制成如图所示的散点图:运动参与评分值年份代码:注:年份代码分别对应年份(1)(2)根据散点图,建立关于的回归方程.从该市的市民中随机抽取了容量为的样本,其中经常参加体育锻炼的人数为,以频率为概率,若从这名市民中随机抽取人,记其中“经常参加体育锻炼”的人数为,求的分布列和数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.(1)(2)7.某项科研活动共进行了次试验,其数据如表所示:特征量第次第次第次第次第次从次特征量的试验数据中随机地抽取两个数据,求至少有一个大于的概率.求特征量关于的线性回归方程;并预测当特征量为时特征量的值.(附:回归直线的斜率和截距的最小二乘法估计公式分别为,).8.某地区某农产品近几年的产量统计如表:年份年份代码年产量(万吨)(1)12(2)附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.根据表中数据,建立关于的线性回归方程.若近几年该农产品每千克的价格(单位:元)与年产量满足的函数关系式为,且每年该农产品都能售完.根据中所建立的回归方程预测该地区年该农产品的产量.当为何值时,销售额最大?(1)(2)9.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精确到).若莫斯科某餐厅销售的中国小龙虾的等级代码数值为,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对一组数据,,,,其回归直线的斜率和截距最小二乘估计分别为:,.参考数据:,.(1)(2)(3)10.某食品店为了了解气温对销售量的影响,随机记录了该店月份中天的日销售量(单位:千克)与该地当日最低气温(单位:)的数据,如表:求出与的回归方程.判断与之间是正相关还是负相关;若该地月份某天的最低气温为,请用所求回归方程预测该店当日的销售量.设该地月份的日最低气温,其中近似为样本平均数,近似为样本方差,求.附:①回归方程中,,.②,.若,则,.2. 独立性检验(1)(2)11.我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施,其中一项是为了减少燃油汽车对大气环境污染,从年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车,政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高,所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高,有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行,满分分,将分数按照,,,,分成组,得如下频率分布直方图.得分频数组距若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,得分不少于分为满意,根据提供的条件数据,完成下面的列联表,并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?满意不满意总计购买本市企业生产的新能源汽车户数 购买外地企业生产的新能源汽车户数总计以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元,但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元,则购买外地产的新能源汽车每台最多补贴多少万元?附:,其中.(1)1(2)12.大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备.某高中成功开设大学先修课程已有两年,共有人参与学习先修课程,这两年学习先修课程的学生都参加了高校的自主招生考试(满分分),结果如下表所示:分数人数参加自主招生获得通过的概率这两年学校共培养出优等生人,根据如图等高条形图,填写相应列联表,并根据列联表检验能否在犯错误的概率不超过的前提下认为学习先修课程与优等生有关系?非优等生优等生学习大学先修课程没有学习大学先修课程优等生非优等生总计学习大学先修课程 没有学习大学先修课程总计已知今年全校有名学生报名学习大学先修课程,并都参加了高校的自主招生考试,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.在今年参与大学先修课程学习的学生中任取一人,求他获得高校自主招生通过的概率.2某班有名学生参加了大学先修课程的学习,设获得高校自主招生通过的人数为,求的分布列,试估计今年全校参加大学先修课程学习的学生获得高校自主招生通过的人数.参考数据:参考公式:,其中.(1)(2)13.某企业原有甲、乙两条生产线,为了分析两条生产线的效果,先从两条生产线生产的大量产品中各抽取了件产品作为样本.检测一项质量指标值,该项指标值落在内的产品视为合格品,否则为不合格品.乙生产线样本的频数分布表质量指标合计频数质量指标值频率组距甲生产线样本的频率分布直方图根据甲生产线样本的频率分布直方图,以从样本中任意抽取一件产品且为合格品的频率近似代替从甲生产线生产的产品中任意抽取一件产品且为合格品的概率,估计从甲生产线生产的产品中任取件恰有件为合格品的概率.现在该企业为提高合格率欲只保留其中一条生产线.根据上述图表所提供的数据,完成下面的列联表,并判断是否有的把握认为该企业生产的这种产品的质量指标值与生产线有关.若有的把握,请从合格率的角度分析保留哪条生产线较好.甲生产线乙生产线合计合格品不合格品合计附:,.12(1)(2)14.某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷,整理分析及开座谈会三个阶段.在随机问卷阶段,,两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对至岁的人群,按比例随机抽取了份,进行了数据统计,具体情况如下表:组别年龄组统计结果组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车人人人人人人人人人人人人先用分层抽样的方法从上述人中按“年龄是否达到岁”抽出一个容量为人的样本,再用分层抽样的方法将“年龄达到岁”的被抽个体数分配到“经常使用单车”和“偶尔使用单车”中去.求这人中“年龄达到岁且偶尔使用单车”的人数.为听取对发展共享单车的建议,调查组专门组织所抽取的“年龄达到岁且偶尔使用单车”的人员召开座谈会,会后共有份礼品赠送给其中人,每人份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有人来自组,求组这人中得到礼品的人数的分布列和数学期望.从统计数据可直观得出“是否经常使用共享单车与年龄(记作岁)有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄应取还是?请通过比较的观测值的大小加以说明.参考公式:,其中.15.年,依托用户碎片化时间的娱乐需求,分享需求以及视频态的信息负载力,短视频快速崛起,与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.某读书抽样调查了非一线城市和一线城市各名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于分钟的用户记为“活跃用户”.(1)(2)(3)频率组距日使用时长分钟频率组距日使用时长分钟城市城市请填写以下列联表,并判断是否有的把握认为用户活跃与否与所在城市有关.活跃用户不活跃用户合计城市 城市合计以频率估计概率,从城市中任选名用户,从城市中任选名用户,设这名用户中活跃用户人数为,求的分布列和数学期望.该读书还统计了年个季度的用户使用时长(单位:百万小时),发现与季度()线性相关,得到回归直线为,已知这个季度的用户平均使用时长为百万小时,试以此回归方程估计年第一季度该读书用户使用时长约为多少百万小时.附:,其中.(1)16.在中国移动的赞助下,某大学就业部从该大学年已就业的、两个专业的大学本科毕业生中随机抽取了人进行月薪情况的问卷调查,经统计发现,他们的月薪收入在元到元之间,具体统计数据如下表:月薪(百元)人数将月薪不低于元的毕业生视为“高薪收入群体”,并将样本的频率视为总体的概率,已知该校届大学本科毕业生李阳参与了本次调查问卷,其月薪为元.请根据上述表格中的统计数据填写下面的列联表,并通过计算判断,是否能在犯错误的概率不超过的前提下认为“高薪收入群体”与所学专业有关?12(2) 非高薪收入群体高薪收入群体合计专业专业 合计经统计发现,该大学届的大学本科毕业生月薪(单位:百元)近似地服从正态分布,其中近似为样本平均数(每组数据取区间的中点值).若落在区间的左侧,则可认为该大学本科生属“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.试判断李阳是否属于“就业不理想”的学生.中国移动为这次参与调查大学本科毕业生制定了赠送话费的活动,赠送方式为:月薪低于的获赠两次随机话费,月薪不低于的获赠一次随机话费,每次赠送的话费及对应的概率分别为:赠送话费(单位:元)概率则李阳预期获得的话费为多少元?附:,其中,.(1)(2)17.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中,随机抽取了人,从美国某城市的高中生中随机抽取了人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:家占、朋友聚集的地方占、个人空间占.为了考察高中生的“恋家(在家里感到最幸福)”是否与国别有关,构建了如下列联表.在家里最幸福在其它场所幸福合计中国高中生美国高中生合计请将列联表补充完整;试判断能否有的把握认为“恋家”与否与国别有关.从中国高中生的学生中以“是否恋家”为标准采用分层抽样的方法,随机抽取了人,再从这人中随机抽取人.若所选名学生中的“恋家”人数为,求随机变量的分布列及期望.附:,其中.视力频率组距(1)不做操做操近视不近视是否做操是否近视(2)(3)18.眼保健操是一种眼睛的保健体操,主要是通过按摩眼部穴位,调整眼及头部的血液循环,调节肌肉,改善眼的疲劳,达到预防近视等眼部疾病的目的.某学校为了调查推广眼保健操对改善学生视力的效果,在应届高三的全体名学生中随机抽取了名学生进行视力检查,并得到如图的频率分布直方图.附:,若直方图中后三组的频数成等差数列,试估计全年级视力在以上的人数.为了研究学生的视力与眼保健操是否有关系,对年纪不做眼保健操和坚持做眼保健操的学生进行了调查,得到下表中数据,根据表中的数据,能否在犯错的概率不超过的前提下认为视力与眼保健操有关系?在中调查的名学生中,按照分层抽样在不近视的学生中抽取人,进一步调查他们良好的护眼习惯,在这人中任取人,记坚持做眼保健操的学生人数为,求的分布列和数学期望.19.为调查某地人群年龄与高血压的关系,用简单随机抽样方法从该地区年龄在岁的人群中抽取人测量血压,结果如下:高血压非高血压总计年龄到岁(1)(2)年龄到岁总计附参考公式及参考数据:计算表中的、、值;是否有的把握认为高血压与年龄有关?并说明理由.现从这名高血压患者中按年龄采用分层抽样的方法抽取人,再从这人中随机抽取人,求恰好一名患者年龄在到岁的概率.(1)(2)20.随着移动支付的普及,中国人的生活方式正悄然巨变,带智能手机,不带钱包出门还渐成为中国人的新习惯. 年我国移动支付增长迅猛,据统计,某支付平台年移动支付的笔数占总支付笔数的.从该支付平台 年的所有支付中任取笔,求移动支付笔数的期望和方差.现有名使用该支付平台的用户,其中 名是城市用户,名是农村用户,调查他们年个人移动支付的比例是否达到了,得到列联表如下:个人移动支付达到了个人移动支付达到了合计城市用户农村用户合计根据上表数据,问是否有的把握认为年个人移动支付比例达到了与该用户是城市用户还是农村用户有关?附:.(1)21.学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各名进行问卷调查,其中每天自主学习中国古典文学的时间超过小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:古文迷非古文迷合计男生女生合计根据表中数据能否判断有的把握认为“古文迷”与性别有关?(2)(3)现从调查的女生中按分层抽样的方法抽出人进行调查,求所抽取的人中“古文迷”和“非古文迷”的人数.现从()中所抽取的人中再随机抽取人进行调查,记这人中“古文迷”的人数为,求随机变量的分布列与数学期望.参考公式:,其中.参考数据:(1)(2)(3)22.每年的月日为世界读书日,为调查某高校学生(学生很多)的读书情况,随机抽取了男生,女生各人组成的一个样本,对他们的年阅读量(单位:本)进行了统计,分析得到了男生年阅读量的频率分布表和女生阅读量的频率分布直方图.男生年阅读量的频率分布表(年阅读量均在区间内):本/年频数根据女生的频率分布直方图估计该校女生年阅读量的中位数.在样本中,利用分层抽样的方法,从男生年与度量在,的两组里抽取人,再从这人中随机抽取人,求这一组中至少有人被抽中的概率.若年阅读量不小于本为阅读丰富,否则为阅读不丰富,依据上述样本研究阅读丰富与性别的关系,完成下列列联表,并判断是否有的把握认为月底丰富与性别有关.性别 阅读量丰富不丰富合计男 女 合计附:,其中.频率组距分数(1)(2)(3)23.为了调查学生数学学习的质量情况,某校从高二年级学生(其中男生与女生的人数之比为)中,采用分层抽样的方法抽取名学生依期中考试的数学成绩进行统计.根据数学的分数取得了这名同学的数据,按照以下区间分为八组:①,②,③,④,⑤,⑥,⑦,⑧得到频率分布直方图如图.已知抽取的学生中数学成绩少于分的人数为人.求的值及频率分布直方图中第④组矩形条的高度;如果把“学生数学成绩不低于分”作为是否达标的标准,对抽取的名学生,完成下列列联表:达标未达标合计男生女生合计据此资料,你是否认为“学生性别”与“数学成绩达标与否”有关?若从该校的高二年级学生中随机抽取人,记这人中成绩不低于分的学生人数为,求的分布列、数学期望和方差.附1:“ 列联表”的卡方统计量公式:附2:卡方 统计量的概率分布表:…………(1)12(2)24.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”遍布了一二线城市的大街小巷.为了解共享单车在.市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,得到下表(单位:人):经常使用偶尔或不用合计岁及以下岁以上合计根据以上数据,能否在犯错误的概率不超过的前提认为市使用共享单车情况与年龄有关?请回答下列问题:现从所抽取的岁以上的网民中,按“经常使用”与“偶尔或不用”这两种类型进行分层抽样抽取人,然后,再从这人中随机选出人赠送优惠券,求选出的人中至少有人经常使用共享单车的概率.将频率视为概率,从市所有参与调查的网民中随机抽取人赠送礼品,记其中经常使用共享单车的人数为,求的数学期望和方差.参考公式:,其中.参考数据:(1)(2)25.某调查机构对某校学生做了一个是否同意生“二孩”抽样调查,该调查机构从该校随机抽查了名不同性别的学生,调查统计他们是同意父母生“二孩”还是反对父母生“二孩”,现已得知人中同意父母生“二孩”占,统计情况如表:同意不同意合计男生 女生合计求,的值,根据以上数据,能否有的把握认为是否同意父母生“二孩”与性别有关?请说明理由.。
高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析及独立性检验的基本知识点及习题集锦回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
(3)观测误差。
由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。
上面三项误差越小,说明我们的回归模型的拟合效果越好。
二、例题选讲例1:研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:水深流速(1)求对的回归直线方程;(2)预测水深为1.95时水的流速是多少?分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。
解:1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。
由计算器求得。
对的回归直线方程为。
(2)由(1)中求出的回归直线方程,把代入,易得。
计算结果表示,当水深为时可以预测渠水的流速为。
评注:建立回归模型的一般步骤:(1)确定研究对象,明确两个变量即解释变量和预报变量;(2)画出散点图,观察它们之间的关系;(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。
例2:1993年到2002年中国的国内生产总值(GDP)的数据如下:(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。
(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。
(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。
解:(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近线呈线性关系;(2)用y t表示GDP值,t表示年份,根据截距和斜率的最小二乘计算公式,得:从而得线性回归方程:(3)2003年的GDP预报值为112976.360,根据国家统计局2004年统计,2003年实际GDP值为117251.9,所以预报与实际相-4275.540;(4)上面建立的回归方程的R2=0.974,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系。
说明:关于2003年的GDP的值来源,不同的渠道可能会有所不同。
例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表述二者之间的关系。
解:由表中数据得散点图如下:从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.做变换y=lgN,得到的数据如下表所示:x和y的散点图如下:从这个散点图中可以看出x和y之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。
根据截距和斜率的最小二乘计算公式,得:故线性回归方程为:相关指数R2≈0.997,说明x可以解释y的99.7%的变化。
因此,可以用回归方程描述x和y之间的关系。
例4:电容器充电后,电压达到,然后开始放电,由经验知道,此后电压随时间变化的规律公式表示,观测得时间时的电压如下表所示:0 1 2 3 4 5 6 7 8 9 10100 75 55 40 30 20 15 10 10 5 5试求电压对时间的回归方程。
分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变换把指数关系变为线性关系,通过线性回归模型来建立与之间的非线性回归方程。
解:对两边取自然对数得,令,即。
由所给数据可得其散点图为:由散点图可知与具有线性相关关系,可用来表示。
经计算得:(最小二乘法),,即。
所以,。
评注:一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。
本周练习:1.对具有相关关系的两个变量统计分析的一种常用的方法是()A.回归分析 B.相关系数分析 C.残差分析 D.相关指数分析2.在画两个变量的散点图时,下面叙述正确的是()A.预报变量在轴上,解释变量在轴上B.解释变量在轴上,预报变量在轴上C.可以选择两个变量中任意一个变量在轴上D.可以选择两个变量中任意一个变量在轴上3.两个变量相关性越强,相关系数()A.越接近于0 B.越接近于1 C.越接近于-1 D.绝对值越接近14.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()A.0 B.1 C.-1 D.-1或15.一位母亲记录了她儿子3到9岁的身高,数据如下表:身高(由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是()A.她儿子10岁时的身高一定是145.83B.她儿子10岁时的身高在145.83以上C.她儿子10岁时的身高在145.83左右D.她儿子10岁时的身高在145.83以下6.两个变量有线性相关关系且正相关,则回归直线方程中,的系数()A. B. C. D.7.两个变量有线性相关关系且残差的平方和等于0,则()A.样本点都在回归直线上B.样本点都集中在回归直线附近C.样本点比较分散D.不存在规律8.在建立两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关指数如下,其中拟合最好的模型是()A.模型1的相关指数为0.98B.模型2的相关指数为0.80C.模型3的相关指数为0.50D.模型4的相关指数为0.259.相关指数=。
10.某农场对单位面积化肥用量和水稻相应产量的关系作了统计,得到数据如下:15 20 25 30 35 40 45330 345 365 405 445 450 455如果与之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为时水稻的产量大约是多少?(精确到)11.假设美国10家最大的工业公司提供了以下数据:(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;(3)你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。
参考答案:A B D B C A A A9.10.由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。
由计算器求得。
对的回归直线方程为(*)。
由(*)中求出的回归直线方程,把代入,易得。
计算结果表示,当单位面积化肥用量为时水稻的产量大约是.11.(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;(2)由最小二乘法的计算公式,得:则线性回归方程为:其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,相关指数为R2≈0.457,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系。
说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确。
独立性检验的基本知识点及习题本周题目:独立性检验的基本思想及其初步应用本周重点:(1)通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K²(或R²)的大小关系.(2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.(3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.本周难点:(1)了解独立性检验的基本思想;(2)了解随机变量的含义,太大认为两个分类变量是有关系的;(3)能运用自己所学的知识对具体案例进行检验与说明.本周内容:一、基础知识梳理1.独立性检验利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。