概率与统计-回归教材纠错例题解析-数学

合集下载

高三数学高考复习回归课本概率与统计

高三数学高考复习回归课本概率与统计

2010高考复习数学回归课本:概率与统计一.考试内容:离散型随机变量的分布列. 离散型随机变量的期望值和方差.抽样方法.总体分布的估计.正态分布.线性回归.二.考试要求:(1)了解离散型随机变量的意义,会求出某些简单的离散型随机变量的分布列.(2)了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差.(3)会用随机抽样、系统抽样、分层抽样等常用的抽样方法从总体中抽取样本. (4)会用样本频率分布去估计总体分布. (5)了解正态分布的意义及主要性质. (6)了解线性回归的方法和简单应用.【注意】这部分复习的重点是随机变量的分布列、期望、方差、抽样方法与样本方差、标准方差公式.三.基础知识:1.离散型随机变量的分布列的两个性质 (1)0(1,2,)i P i ≥=;(2)121P P ++=.2.数学期望1122n n E x P x P x P ξ=++++170.数学期望的性质(1)()()E a b aE b ξξ+=+. (2)若ξ~(,)B n p ,则E np ξ=.(3) 若ξ服从几何分布,且1()(,)k P k g k p q p ξ-===,则1E pξ=. 4.方差()()()2221122n n D x E p x E p x E p ξξξξ=-⋅+-⋅++-⋅+5.标准差σξ=ξD .6.方差的性质(1)()2D a b a D ξξ+=;(2)若ξ~(,)B n p ,则(1)D np p ξ=-. (3) 若ξ服从几何分布,且1()(,)k P k g k p q p ξ-===,则2q D p ξ=. 7.方差与期望的关系()22D E E ξξξ=-.8.正态分布密度函数()()()2226,,x f x x μ--=∈-∞+∞,式中的实数μ,σ(σ>0)是参数,分别表示个体的平均数与标准差.9.标准正态分布密度函数()()22,,x f x x -∈-∞+∞.10.对于2(,)N μσ,取值小于x 的概率()x F x μσ-⎛⎫=Φ ⎪⎝⎭.()()()12201x x P x x P x x x P <-<=<<()()21F x F x =-21x x μμσσ--⎛⎫⎛⎫=Φ-Φ ⎪ ⎪⎝⎭⎝⎭.11.回归直线方程y a bx =+,其中()()()1122211n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑.四.基本方法和数学思想1.理解随机变量,离散型随机变量的定义,能够写出离散型随机变量的分布列,由概率的性质可知,任意离散型随机变量的分布列都具有下述两个性质:(1)p i ≥0,i=1,2,...; (2) p 1+p 2+ (1)2.二项分布:记作ξ~B (n,p ),其中n,p 为参数,,)(kn k k n q p C k P -==ξ并记),;(p n k b q p C k n k k n =-;3.记住以下重要公式和结论:(1)期望值E ξ= x 1p 1 + x 2p 2 + … + x n p n + … ;(2)方差D ξ=⋅⋅⋅+-+⋅⋅⋅+-+-n n p E x p E x p E x 2222121)()()(ξξξ ; (3)标准差ξξξξξδξD a b a D b aE b a E D 2)(;)(;=++=+=;(4)若ξ~B (n,p ),则E ξ=np, D ξ=npq,这里q=1- p;4.掌握抽样的三种方法:(1)简单随机抽样(包括抽签法和随机数表法);(2)系统抽样,也叫等距离抽样;(3)分层抽样,常用于某个总体由差异明显的几部分组成的情形;5.总体分布的估计:用样本估计总体,是研究统计问题的一个基本思想方法,一般地,样本容量越大,这种估计就越精确,要求能画出频率分布表和频率分布直方图;6.正态总体的概率密度函数:,,21)(22)(R x ex f x ∈=-σμσπ式中σμ,是参数,分别表示总体的平均数与标准差; 7.正态曲线的性质:(1)曲线在x =μ 时处于最高点,由这一点向左、向右两边延伸时,曲线逐渐降低;(2)曲线的对称轴位置由确定;曲线的形状由确定,越大,曲线越矮胖;反过来曲线越高瘦;(3)曲线在x 轴上方,并且关于直线x=μ 对称; 8.利用标准正态分布的分布函数数值表计算一般正态分布),(2σμN 的概率 P (x 1<ξ<x 2),可由变换t x =-σμ而得)()(σμφ-=x x F ,于是有P (x 1<ξ<x 2)=)()(12σμφσμφ---x x ;9.假设检验的基本思想:(1)提出统计假设,确定随机变量服从正态分布),(2σμN ;(2)确定一次试验中的取值a 是否落入范围)3,3(σμσμ+-;(3)作出推断:如果a ∈)3,3(σμσμ+-,接受统计假设;如果a ∉)3,3(σμσμ+-,由于这是小概率事件,就拒绝假设;五.高考题回顾一、离散型随机变量的分布列的性质:1. (04年湖北卷.理13)设随机变量ξ的概率分布为P (ξ=k )=5k a,a 为常数,=k 1,2,…,则a =______.2(04年辽宁卷.8)已知随机变量ξ的概率分布如下:则(10)P ξ==( ). A. 93 B. 103 C. 93 D. 103 二.基本概念的考察.3.经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多 人4. (江苏卷)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:( )9.4 8.4 9.4 9.9 9.6 9.4 9.7去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为:( A ) 9.4 , 0.484 ( B ) 9.4 , 0.016 ( C ) 9.5 , 0.04 ( D ) 9.5 ,0.016 5. .(湖南)一工厂生产了某种产品16800件,它们来自甲.乙.丙3条生产线, 为检查这批产品的质量,决定采用分层抽样的方法进行抽样,已知甲.乙.丙 三条生产线抽取的个体数组成一个等差数列,则乙生产线生产了 件产品.6. 江西卷)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a ,视力在4.6到5.0之间的学生数为b ,则a , b 的值分别为( ) A .0,27,78 B .0,27,83 C .2.7,78 D .2.7,83 7. 从存放号码分别为1,2,…,10的卡片的盒子中,在放回地取100次,每次取一张卡片并记下号码,统计结果如下:则取到号码为奇数的频率是()(A)0.53 (B) 0.5 (C) 0.47 (D) 0.37三.典型大题举例.8. 甲、乙两队进行一场排球比赛.根据以往经验,单局比赛甲队胜乙队的概率为0.6.本场比赛采用五局三胜制,即先胜三局的队获胜,比赛结束.设各局比赛相互间没有影响.令ξ为本场比赛的局数,求ξ的概率分布和数学期望.(精确到0.0001)9.(广东卷)箱中装有大小相同的黄、白两种颜色的乒乓球,黄、白乒乓球的数量比为s:t.现从箱中每次任意取出一个球,若取出的是黄球则结束,若取出的是白球,则将其放回箱中,并继续从箱中任意取出一个球,但取球的次数最多不超过n次.以ξ表示取球结束时已取到白球的次数.(Ⅰ)求ξ的分布列;(Ⅱ)求ξ的数学期望.10(湖北卷)某地最近出台一项机动车驾照考试规定;每位考试者一年之内最多有4次参加考试的机会,一旦某次考试通过,使可领取驾照,不再参加以后的考试,否则就一直考到第4次为止。

概率论与数理统计-回归分析

概率论与数理统计-回归分析

第11章 回归分析设x 为普通变量,Y 为随机变量。

如果当x 变化时,Y 随着x 的变化大体上按某种趋势变化,则称x 与Y 之间存在相关关系,即),0(~,)(2σεεN x f Y +=例如,某地人均收入x 与某种商品的消费量Y 之间的关系;森林中树木的断面直径x 与高度Y 之间的关系;某种商品的价格x 与销售量Y 之间的关系;施用氮肥、磷肥、钾肥数量1x ,2x ,3x 与某种农作物产量Y 之间的关系。

在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的近似函数关系或得到样点之外的数据。

我们确定的函数要求在某种距离意义下的误差达到最小(通常用最小二乘法,即考虑使各数据点误差平方和最小)。

由一个(或几个)普通变量来估计或预测某个随机变量的取值时,所建立的数学模型及所进行的统计分析称为回归分析。

§11.1 一元线性回归假设有一批关于x 与Y 的离散样点),(,),,(),,(2211n n y x y x y x集中在一条直线附近,说明x 与Y 之间呈线性相关关系,即),0(~,2σεεN bx a Y ++=称为一元线性回归模型。

一、模型中的参数估计 1、b a ,的估计 首先引进记号∑∑∑∑∑=====-=-=-===ni i i xy ni i yy ni i xx ni ini iyx n y x S y n y S x n x S y n y x n x 11221221111按最小二乘法可得到xxxyS S b =ˆ x b y a ˆˆ-= 称x b a yˆˆˆ+=为Y 关于x 的一元线性回归方程。

2、2σ的估计)ˆ(21ˆ22xx yy S b S n --=σ求出关于的一元线性回归方程。

解:先画出散点图如下计算出 3985193282503.6714510======xy yy xx S S S y x n483.0ˆ==xxxyS S b 735.2ˆˆ-=-=x b y a所求的回归方程是x y483.0735.2ˆ+-=。

高中数学概率统计题型归纳05 回归分析

高中数学概率统计题型归纳05 回归分析

专题5 回归分析例1.已知回归方程y=5x+1,则该方程在样本(1,4)处的残差为()A.﹣2B.1C.2D.5【解析】解:当x=1时,y=5x+1=6,∴方程在样本(1,4)处的残差是4﹣6=﹣2.故选:A.例2.研究变量x,y得到一组样本数据,进行回归分析,有以下结论①残差平方和越小的模型,拟合的效果越好;②用相关指数R2来刻画回归效果,R2越小说明拟合效果越好;③在回归直线方程y=−0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y平均减少0.2个单位;④若变量y和x之间的相关系数为r=﹣0.9462,则变量y和x之间的负相关很强.以上正确说法的是①③④.【解析】解:①可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故①正确;②用相关指数R2来刻画回归效果,R2越大说明拟合效果越好,故②错误;③在回归直线方程y=−0.2x+0.8中中,当解释变量x每增加1个单位时,预报变量y平均减少0.2个单位,故③正确;④若变量y和x之间的相关系数为r=﹣0.9462,r的绝对值趋向于1,则变量y和x之间的负相关很强,故④正确.故答案为:①③④.例3.下列命题中,正确的命题有②③.①回归直线y=b x+a恒过样本点中心(x,y),且至少过一个样本点;②用相关指数R2来刻画回归效果,表示预报变量对解释变量变化的贡献率,R2越接近于1说明模型的拟合效果越好;③残差图中残差点比较均匀的落在水平的带状区域中,说明选用的模型比较合适;④两个模型中残差平方和越大的模型的拟合效果越好.【解析】解:①回归直线y=b x+a恒过样本点中心(x,y),不一定过样本点,故①正确;②用相关指数R2来刻画回归效果,表示预报变量对解释变量变化的贡献率,R2越接近于1说明模型的拟合效果越好,正确;③残差图中残差点比较均匀的落在水平的带状区域中,说明选用的模型比较合适,正确;④两个模型中残差平方和越大的模型的拟合效果越差.故④错误,故正确的是②③,故答案为:②③例4.下列命题:①相关指数R2越小,则残差平方和越大,模型的拟合效果越好.②对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”可信程度越大.③残差点比较均匀地落在水平带状区域内,带状区域越宽,说明模型拟合精度越高.④两个随机变量相关性越强,则相关系数的绝对值越接近0.其中错误命题的个数为4.【解析】解:对于①,相关指数R2越小,则残差平方和越大,此时模型的拟合效果越差,所以①错误;对于②,对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”可信程度越小,所以②错误;对于③,残差点比较均匀地落在水平带状区域内,带状区域越宽,说明模型拟合精度越低,所以③错误;对于④,两个随机变量相关性越强,则相关系数的绝对值越接近1,所以④错误.综上知,错误命题的序号是①②③④,共4个.故答案为:4.例5.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调査产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据(x i,y i)(i=1,2,……,20),其中x i和y i分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得∑20i=1x i=80,∑20i=1y i=4000,∑20i=1(x i−x)2=80,∑20i=1(y i−y)2=8000,∑20i=1(x i−x)(y i−y)=7000.(1)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合;(2)求y关于x的线性回归方程;(3)某科研机构研发了两款垃圾处理机器,如表是以往两款垃圾处理机器的使用年限(整年)统计表:1年2年3年4年5年使用年限台数款式甲款520151050乙款152010550某环保机构若考虑购买其中一款垃圾处理器,以使用年限的频率估计概率.根据以往经验估计,该机构选择购买哪一款垃圾处理机器,才能使用更长久?参考公式:相关系数r=∑n i=1i−x)(y i−y)√∑i=1(x i−x)∑i=1(y i−y)2.对于一组具有线性相关关系的数据(x i,y i)(i=1,2,……,n),其回归直线y=b x+a的斜率和截距的最小二乘估计分别为:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2,a=y−b x.【解析】解:(1)由题意知相关系数r=∑20i=1i−x)(y i−y)√∑i=1(x i−x)2∑i=1(y i−y)2=√80×8000=78=0.875,因为y与x的相关系数接近1,所以y与x之间具有较强的线性相关关系,可用线性回归模型进行拟合.(2)由题意可得,b=∑20i=1(x i−x)(y i−y)∑20i=1(x i−x)2=70080=8.75,a=y−b x=400020−8.75×8020=200−8.75×4=165,所以y=8.75x+165.(3)以频率估计概率,购买一台甲款垃圾处理机器节约政府支持的垃圾处理费用X(单位:万元)的分布列为X﹣50050100P0.10.40.30.2E(X)=﹣50×0.1+0×0.4+50×0.3+100×0.2=30(万元)购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用Y(单位:万元)的分布列为:Y﹣302070120P0.30.40.20.1E(Y)=﹣30×0.3+20×0.4+70×0.2+120×0.1=25(万元)因为E(X)>E(Y),所以该县城选择购买一台甲款垃圾处理机器更划算.例6.某基地蔬菜大棚采用水培、无土栽培方式种植各类蔬菜.据统计该基地的西红柿增加量y(百斤)与使用某种液体肥料x(千克)之间对应数据为如图所示的折线图.(1)依据数据的折线图,请计算相关系数r(精确到0.01),并以此判定是否可用线性回归模型拟合y 与x的关系?若是请求出回归直线方程,若不是请说明理由;(2)过去50周的资料显示,该地周光照量X(小时)都在30小时以上,其中不足50小时的周数有5周,不低于50小时且不超过70小时的周数有35周,超过70小时的周数有10周.蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪最多可运行台数受周光照量X限制,并有如表关系:周光照量X(单位:小时)30<X<5050≤X≤70n≥2光照控制仪最多可运行台数542若某台光照控制仪运行,则该台光照控制仪周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了5台光照控制仪,求商家在过去50周每周利润的平均值.附:对于一组数据(x1,y1),(x2,y2),……,(x n,y n),其相关系数公式r=∑n i=1i−x)(y i−y)√∑i=1i−x)2∑i=1i−y)2,回归直线y=b x+a的斜率和截距的最小二乘估计分别为:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=∑ni=1x i y i−nxy∑n i=1(x i−x)2,a=y−b x,参考数据√0.3≈0.55,√0.9≈0.95.【解析】解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4,因为∑5i=1(x i−x)(y i−y)=(−3)×(−1)+0+0+0+3×1=6,√∑5i=1(x i−x)2=√(−3)2+(−1)2+02+12+32=2√5,√∑5i=1(y i−y)2=√(−1)2+02+02+02+12=√2.所以相关系数r=∑n i=1i−x)(y i−y)√∑i=1i −x)2√∑i=1i−y)2=2√5⋅√2=√910≈0.95,因为r>0.75,所以可用线性回归模型拟合y与x的关系,因为b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=620=0.3,a=y−b x=2.5,所以回归直线方程y=0.3x+2.5.(2)记商家周总利润为Y元,由条件可得在过去50周里:X>70时,共有10周,只有2台光照控制仪运行,周总利润Y=2×3000﹣3×1000=3000元,当50≤X≤70时,共有35周,有4台光照控制仪运行,周总利润Y=4×3000﹣1×1000=11000元,当X<50时,共有5周,5台光照控制仪都运行,周总利润Y=5×3000=15000元,所以过去50周每周利润的平均值Y=3000×10+11000×35+15000×550=9800元,所以商家在过去50周每周利润的平均值为9800元.例7.湖南省从2021年开始将全面推行“3+1+2”的新高考模式,新高考对化学、生物、地理和政治等四门选考科目,制定了计算转换T分(即记入高考总分的分数)的“等级转换赋分规则”(详见附1和附2),具体的转换步骤为:①原始分Y等级转换;②原始分等级内等比例转换赋分.某校的一次年级统考中,政治、生物两选考科目的原始分分布如表:等级A B C D E比例约15%约35%约35%约13%约2%政治学科各等级对应的原始分区间[81,98][72,80][66,71][63,65][60,62]生物学科各等级对应的原始分区间[90,100][77,89][69,76][66,68][63,65]现从政治、生物两学科中分别随机抽取了20个原始分成绩数据,作出茎叶图:(1)根据茎叶图,分别求出政治成绩的中位数和生物成绩的众数;(2)该校的甲同学选考政治学科,其原始分为82分,乙同学选考生物学科,其原始分为91分,根据赋分转换公式,分别求出这两位同学的转化分;(3)根据生物成绩在等级B的6个原始分和对应的6个转化分,得到样本数据(Y i,T i),请计算生物原始分Y i与生物转换分T i之间的相关系数,并根据这两个变量的相关系数谈谈你对新高考这种“等级转换赋分法”的看法.附1:等级转换的等级人数占比与各等级的转换分赋分区间等级A B C D E原始分从高到低排序的等级人数占比约15% 约35% 约35% 约13% 约2%转换分T 的赋分区间[86,100] [71,85][56,70] [41,55] [30,40]附2:计算转换分T 的等比例转换赋分公式:Y 2−Y Y−Y 1=T 2−T T−T 1.(其中:Y 1,Y 2别表示原始分Y 对应等级的原始分区间下限和上限;T 1,T 2分别表示原始分对应等级的转换分赋分区间下限和上限.T 的计算结果按四舍五入取整).附3:∑ 6i=1(Y i −Y )(T i −T )=74,√∑ 6i=1(Yi −Y)2∑ 6i=1(T i −T)2=√5494≈74.12,r =∑n i=1i −Y)(T i −T)√∑i=1i −Y)2∑i=1i −T)2.【解析】解:(1)根据茎叶图知,政治成绩的中位数为72,生物成绩的众数为73; (2)甲同学选考政治学科的等级为A ,由转换赋分公式:98−8282−81=100−T T−86,解得T =87;乙同学选考生物学科的等级为A ,由赋分转换公式:100−9191−90=100−T T−86,解得T =87;所以甲、乙两位同学的转换分都是87分. (3)由题意知,r =∑n i=1i −Y)(T i −T)√∑ i=1(Y i −Y)2∑ i=1(T i −T)2=7474.12≈0.998, 说法1:等级转换赋分公平,因为相关系数十分接近1,接近函数关系,因此高考这种“等级转换赋分”具有公平性与合理性.说法2:等级转换赋分法不公平,在同一等级内,原始分与转化分是确定的函数关系,理论上原始分与转化分的相关系数为1,在实际赋分过程中由于数据的四舍五入,使得实际的转化分与应得的转化分有一定的误差,极小部分同学赋分后会出现偏高或偏低的现象. (只要说法有道理,都可以得分).例8.某市房管局为了了解该市市民2018年1月至2019年1月期间买二手房情况,首先随机抽样其中200名购房者,并对其购房面积m (单位:平方米,60≤m ≤130)进行了一次调查统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年1月至2019年1月期间当月在售二手房均价y (单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1﹣13分别对应2018年1月至2019年1月).(Ⅰ)试估计该市市民的购房面积的中位数m0;(Ⅱ)现采用分层抽样的方法从购房面积位于[110,130]的40位市民中随机抽取4人,再从这4人中随机抽取2人,求这2人的购房面积恰好有一人在[120,130]的概率;(Ⅲ)根据散点图选择y=a+b√x和y=c+d lnx两个模型进行拟合,经过数据处理得到两个回归方程,分别为y=0.9369+0.0285√x和y=0.9554+0.0306lnx,并得到一些统计量的值如表所示:y=0.9369+0.0285√x y=0.9554+0.0306lnx ∑13i=1(y i−y i)20.0005910.000164∑13i=1(y i−y)20.006050请利用相关指数R2判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测出2019年12月份的二手房购房均价(精确到0.001).【参考数据】ln2≈0.69,ln3≈1.10,ln23≈3.14,ln25≈3.22,√2≈141,√3≈1.73,√23≈4.80.【参考公式】R2=1−∑ni=1(y i−y i)2∑n i=1(y i−y)2.【解析】解:(I)由频率分布直方图,可得,前三组频率和为0.05+0.1+0.2=0.35,前四组频率和为0.05+0.1+0.2+025=0.6,故中位数出现在第四组,且m0=90+10×0.150.25=96.(Ⅱ)设从位于[110,120)的市民中抽取x人,从位于[120,130]的市民中抽取y人,由分层抽样可知:440=x30=y10,则x=3,y=1,在抽取的4人中,记3名位于[11,120)的市民为A1,A2,A3,位于[120,130]的市民为B则所有抽样情况为:(A1,A2),(A1,A3),(A1,B),(A2,A3),(A2,B),(A3,B)共6种.而其中恰有一人在位于购房面积[120,130]的情况共有3种,故所求概率P=36=12,(III)设模型y=0.9369+0.0285√x和y=0.955+0.0306lnx的相关指数分别为R12,R22,则R12=1−0.0005910.006050,R22=1−0.0001640.006050,显然R12<R22,故模型y=0.9554+0.0306lnx的拟合效果更好.由2019年12月份对应的代码为24,则y=0.9554+0.0306ln24=0.9554+0.0306(3ln2+ln3)≈1.052万元/平方米.例9.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x(亿元)与科技改造直接收益y(亿元)的数据统计如表:x2346810132122232425y1322314250565868.56867.56666当0<x≤16时,建立了y与x的两个回归模型:模型①:y=4.1x+11.8;模型②:y=21.3√x−14.4;当x>16时,确定y与x满足的线性回归方程为:y=−0.7x+a.(Ⅰ)根据下列表格中的数据,比较当0<x≤16时模型①、②的相关指数R2,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.回归模型模型①模型②回归方程y=4.1x+11.8y=21.3√x−14.4∑7i=1(y i−y i)2182.479.2(附:刻画回归效果的相关指数R2=1−∑n i=1(y i−y i)2∑n i=1(y i−y)2.)(Ⅱ)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16元与20亿元时公司实际收益的大小;(附:用最小二乘法求线性回归方程y=b x+a的系数公式b=∑ni=1x i y i−nx⋅y∑n i=1x i2−nx2=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2;a=y−b x)(Ⅲ)科技改造后,“东方红”款汽车发动机的热效率X大幅提高,X服从正态分布N(0.52,0.012),公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%但不超过53%,不予奖励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率超过53%,每台发动机奖励4万元.求每台发动机获得奖励的数学期望.(附:随机变量ξ服从正态分布N(μ,σ2),则P(μ﹣σ<ξ<μ+σ)=0.6827,P(μ﹣2σ<ξ<μ+2σ)=0.9545.)【解析】解:(Ⅰ)由表格中的数据,有182.4>79.2,即182.4∑7i=1(y i−y)2>79.2∑7i=1(y i−y)2,∴模型①的R2小于模型②的R2,说明模型②的刻画效果更好.∴当x=16亿元时,科技改造直接收益的预测值为y=21.3×√16−14.4=70.8(亿元);(Ⅱ)由已知可得,x−20=0.5+2+3.5+4+55=3,则x=23,y−60=8.5+8+7.5+6+65=7.2,则y=67.2,∴a=y−0.7x=67.2+0.7×23=83.3,∴当x>16亿元时,y与x满足线性回归方程y=−0.7x+83.3,当x=20亿元时,科技改造直接收益的预测值为y=−0.7×20+83.3=69.3.∴当x=20亿元时,实际收益的预测值为69.3+10=79.3亿元>70.8亿元.∴科技改造投入20亿元时,公司的实际收益更大;(Ⅲ)∵P(0.52﹣0.02<X<0.52+0.02)=0.9545,∴P(X>0.50)=1+0.95452=0.97725,P(X≤0.50)=1−0.95452=0.02275,∵P(0.52﹣0.01<X<0.52+0.01)=0.6827,∴P(X>0.53)=1−0.68272=0.15865,∴P(0.50<X≤0.53)=0.97725﹣0.15865=0.8186.设每台发动机获得的奖励为Y(万元),则Y的分布列为:Y024P0.022750.81860.15865∴每台发动机获得的奖励的数学期望为:E(Y)=0×0.02275+2×0.8186+4×0.15865=2.2718(万元).例10.某高中数学建模兴趣小组的同学为了研究所在地区男高中生的身高与体重的关系,从若干个高中男学生中抽取了1000个样本,得到如下数据.数据一:身高在[170,180)(单位:cm)的体重频数统计体重(kg)[50,55)[55,60)[60,65)[65,70)[70,75)[75,80)[80,85)[85,90)人数206010010080201010数据二:身高所在的区间含样本的个数及部分数据身高x(cm)[140,150)[150,160)[160﹣170)[170﹣180)[180﹣190)平均体重y(kg)4553.66075(Ⅰ)依据数据一将下面男高中生身高在[170﹣180)(单位:cm)体重的频率分布直方图补充完整,并利用频率分布直方图估计身高在[170﹣180)(单位:cm)的中学生的平均体重;(保留小数点后一位)(Ⅱ)依据数据一、二,计算身高(取值为区间中点)和体重的相关系数约为0.99,能否用线性回归直线来刻画中学生身高与体重的相关关系,请说明理由;若能,求出该回归直线方程;(Ⅲ)说明残差平方和或相关指数R2与线性回归模型拟合效果之间关系.(只需写出结论,不需要计算)参考公式:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=∑ni=1x i y i−nx⋅y∑n i=1x i2−nx2,a=y−b x.参考数据:(1)145×45+155×53.6+165×60+185×75=38608;(2)1452+1552+1652+1752+1852﹣5×1652=1000.(3)663×175=116025,664×175=116200,665×175=116375.(4)728×165=120120.【解析】解:(1)身高在[170,180)的总人数为:20+60+100+100+80+20+10+10=400,体重在[55﹣60)的频率为:60400=0.15,体重在[70﹣75)的 频率为:80400=0.2,平均体重为:52.5×0.05+57.5×0.15+62.5×0.25+67.5×0.25+72.5×0.2 +77.5×0.05+82.5×0.025+87.5×0.025≈66.4,(2)因为 r =0.99→1,线性相关很强,故可以用线性回归直线来 刻画中学生身高与体重的相关, x =145+155+165+175+1855=165,y =45+75+60+53.6+66.45=60,b =∑ 8i=1x i y i −8x⋅y ∑ 8i=1x i 2−8x2=38608+175×66.4−5×165×601000=0.728, a =y −b x =60−0.728×165=−60.12, 所以回归直线方程为:y =0.728x −60.12,(3)残差平方和越小或相关指数 R 2 越接近于1,线性回归模型拟合效果越好.例11.2019年的“金九银十”变成“铜九铁十”,国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.如图是该地某小区2018年11月至2019年1月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2018年11月~2019年11月)根据散点图选择y =a +b √x 和y =c +dlnx 两个模型进行拟合,经过数据处理得到两个回归方程分别为y ^=0.9369+0.0285√x和y^=0.9554+0.0306lnx,并得到以下一些统计量的值:y^=0.9369+0.0285√x y^=0.9554+0.0306lnx ∑13i=1(y i−y^i)20.0005910.000164∑13i=1(y i−y)20.006050(1)请利用相关指数R2判断哪个模型的拟合效果更好;(2)某位购房者拟于2020年4月购买这个小区m(70≤m≤160)平方米的二手房(欲购房为其家庭首套房).若购房时该小区所有住房的房产证均已满2但未满5年,请你利用(1)中拟合效果更好的模型解决以下问题:(i)估算该购房者应支付的购房金额;(购房金额=房款+税费,房屋均价精确到0.001万元/平方米)(ii)若该购房者拟用不超过100万元的资金购买该小区一套二手房,试估算其可购买的最大面积.(精确到1平方米)附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格=房款)进行征收的.房产证满2年但未满5年的征收方式如下:首套面积90平方米以内(含90平方米)为1%;首套面积90平方米以上且140平方米以内(含140平方米)1.5%;首套面积140平方米以上或非首套为3%.参考数据:ln2≈0.69,ln3≈1.10,ln17≈2.83,ln19≈2.94,√2≈1.41,√3≈1.73,√17≈4.12,√19≈4.36.参考公式:相关指数R2=1−∑ni=1(y i−y^i)2∑n i=1(y i−y)2.【解析】解:(1)模型一中,y=0.9369+0.0285√x的残差平方和为0.000591,相关指数为R21−0.0005910.006050≈0.923,模型二中,y=0.9554+0.0306lnx的残差平方和为0.000164,相关指数为 R 21−0.0001640.006050≈0.973,∴ 相关指数较大的模型二拟合效果好些. (2)通过散点图确定2020年4月对应的 x =18, 代入(1)中拟合效果更好的模型二,代入计算 y =0.9554+0.0306ln18 =0.9554+0.0306×(ln 2+2ln 3) =0.9554+0.0306×(0.69+2×1.10) ≈1.044 (万元/平方米),则2020年4月份二手房均价的预测值为1.044(万元/平方米).(i )设该购房者应支付的购房金额 h 万元,因为税费中淵方只需缴纳契税, ①当70⩽m ⩽90 时,契税为计税价格的 1%, 故h =m ×1.044×(1%+1)=1.05444m ; ②当90<m ⩽144 时,契税为计税价格的 1.5%, 故h =m ×1.044×(1.5%+1)=1.05966m ; ③当144<m ⩽160 时,契税为计税价格的 3%, 故h =m ×1.044×(3%+1)=1.07532m ;∴ℎ={1.05444m ,70⩽m ⩽901.05966m ,90<m ⩽1441.07532m ,144<m ⩽160;∴ 当 70⩽m ⩽90 时购房金额为 1.05444m 万元, 当 90<m ⩽144 时购房金额为 1.05966m 万元, 当 144<m ⩽160 时购房金额为 1.07532m 万元.(ii )设该购房者可购买该小区二手房的最大面积为 t 平方米,由(i ) 知,当70⩽m ⩽90时,应支付的购房金额为 1.05444t ,又1.05444t ⩽1.05444×90<100, 又因为房屋均价约为1.044万元/平方米,所以 t <100,所以90⩽t <100, 由1.05966t ⩽100,解得 t ⩽1001.05966,且1001.05966≈94.4,所以该购房者可购买该小区二手房的最大面积为94平方米.例12.某新兴科技公司为了确定新研发的产品下一季度的营销计划,需了解月宣传费x (单位:万元)对月销售量y(单位:千件)的影响,收集了2020年3月至2020年8月共6个月的月宣传费x和月销售量y的数据如表:月份345678宣传费x5678910月销售量y0.4 3.5 5.27.08.610.7现分别用模型①y=b x+a和模型②y=e m x+n对以上数据进行拟合,得到回归模型,并计算出模型的残差如表:(模型①和模型②的残差分别为e1和e2,残差=实际值﹣预报值)x5678910y0.4 3.5 5.37.08.610.7e1﹣0.60.540.280.12﹣0.24﹣0.1e2﹣0.63 1.71 2.10 1.63﹣0.7﹣5.42(1)根据上表的残差数据,应选择哪个模型来拟合月宣传费x与月销售量y的关系较为合适,简要说明理由;(2)为了优化模型,将(1)中选择的模型残差绝对值最大所对应的一组数据(x,y)剔除,根据剩余的5组数据,求该模型的回归方程,并预测月宣传费为12万元时,该公司的月销售量.(剔除数据前的参考数据:x=7.5,y=5.9,∑6i=1x i y i=299.8,∑6i=1x i2=355,z=lny.z≈−1.41,∑6i=1x i y i=−73.10,ln10.7≈2.37,e4.034≈56.49.)参考公式:b=∑ni=1x i y i−nxy∑n i=1x i2−nx2,a=y−b x.【解析】解:(1)应选择模型①,因为模型①每组数据对应的残差绝对值都比模型②的小,残差波动小,残差点比较均匀地落在水平的带状区域内,说明拟合精度高.(2)由(1)知,需剔除第一组数据,则剔除后的x=7.5×6−55=8,y=5.9×6−0.45=7,5xy=280,5x2=320,∑5i=1x i y i=299.8−5×0.4=297.8,∑5i=1x i2=355−25=330.∴b=∑5i=1x i y i−5xy∑5i=1x i2−5x2=297.8−280330−320=1.78,a=y−b x=7−1.78×8=−7.24.得①的回归方程为y=1.78x−7.24,则当x=12时,y=1.78×12−7.24=14.12.故月宣传费为12万元时,该公司的月销售量为14.12千件.例13.新型冠状病毒肺炎COVID﹣19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.如表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.日期代码x12345678累计确诊人数y481632517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两种模型:①y=bx2+a,②y=dx+c对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差e î=y i−y î):经过计算得它∑8i=1(x i−x)(y i−y)=728,∑8i=1(x i−x)2=42,∑8i=1(z i−z)(y i−y)=6868,∑8i=1(z i−z)2=3570,其中z i=x i2,z=18∑8i=1z i.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?附:回归直线的斜率和截距的最小二乘估计公式分别为:b=∑8i=1(x i−x)(y i−y)∑8i=1(x i−x)2,a=y−b x.【解析】解:(1)选择模型①,理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对比较大,所以模型①的拟合效果相对较好;(2)由(1)可知y关于x的回归方程为y=bx2+a,令z=x2,则y=bz+a,由所给的数据可得:z=18(1+4+9+16+25+36+49+64)=25.5,y=18(4+8+16+31+51+71+97+122)=50,b=∑8i=1(z i−z)(y i−y)∑8i=1(z i−z)2=68683570≈1.92,则a=y−b z≈50﹣1.92×25.5=1.04,所以y关于x的回归方程为y=1.92x2+1.04;(3)将x=9代入回归方程,可得y=1.92×92+1.04=156.56≈157(人),所以预测该地区第9天新型冠状病毒感染确诊的累计人数约为157人.例14.H市某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量x(吨)与相应的生产总成本y(万元)的五组对照数据.产量x(件)12345生产总成本y(万元)3781012(Ⅰ)根据上达数据,若用最小二乘法进行线性模拟,试求y关于x的线性回归方程y=b x+a;参考公式:b=∑ni=1x i y i−nxy∑n i=1x i2−nx2,a=y−b x.(Ⅱ)记第(Ⅰ)问中所求y与x的线性回归方程y=b x+a为模型①,同时该企业科研人员利用计算机根据数据又建立了y与x的回归模型②:y=12x2+1.其中模型②的残差图(残差=实际值﹣预报值)如图所示:请完成模型①的残差表与残差图,并根据残差图,判断哪一个模型更适宜作为y关于x的回归方程?并说明理由;(Ⅲ)根据模型①中y与x的线性回归方程,预测产量为6吨时生产总成本为多少万元?【解析】解:(Ⅰ)计算x=15(1+2+3+4+5)=3,y=15(3+7+8+10+12)=8,∑5i=1x i2=12+22+32+42+52=55,∑5i=1x i y i=1⋅3+2⋅7+3⋅8+4⋅10+5⋅12=141,b=∑5i=1x i y i−nxy∑5i=1x i2−nx2=141−5×3×855−5×9=2.1,a=y−b x=8−2.1×3=1.7,因此,回归直线方程为y=2.1x+1.7.(Ⅱ)模型①的残差表为:x12345y3781012 y 3.8 5.9810.112.2 e﹣0.8 1.10﹣0.1﹣0.2画出残差图,如图所示;结论:模型①更适宜作为y关于x的回归方程,因为:理由1:模型①的4个样本点的残差点落在的带状区域比模型②的带状区域更窄;理由2:模型①的4个样本点的残差点比模型②的残差点更贴近进x轴..(不列残差表不扣分,写出一个理由即可得分.)(Ⅲ)根据模型①中y与x的回归直线方程,计算x=6时,y=2.1×6+1.7=14.3,所以预测产量为6吨时生产总成本为14.3万元.例15.为了解某企业生产的某产品的年利润与年广告投入的关系,该企业对最近一些相关数据进行了调查统计,得出相关数据见表:23456年广告投入x(万元)346811年利润y(十万元)根据以上数据,研究人员分别借助甲.乙两种不同的回归模型,得到两个回归方程,方程甲:方程甲:y(1)=b(x﹣1)2+2.75,方程乙:y(2)=c x﹣1.6.(1)求b(结果精确到0.01)与c的值.(2)为了评价两种模型的拟合效果,完成以下任务.①完成下表(备注:e î=y i−y î,e î称为相应于点(x i,y i)的残差;年广告投入x(万元)23456年利润y(十万元)346811模型甲估计值y î(1)残差e î(1)模型乙估计值y î(2)残差e î(2)②分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.【解析】解:(1)设t=(x﹣1)2,则t=15(1+4+9+16+25)=11.∵y=6.4,∴6.4=b×11+2.75,解得b≈0.33.又x=4,∴6.4=c×4−1.6,即c=2.(2)①经计算,可得下表:年广告投入x(万元)23456年利润y(十万元)346811模型甲估计值y î(1) 3.08 4.07 5.728.0311残差e î(1)﹣0.08﹣0.070.28﹣0.030模型乙估计值y î(2) 2.4 4.4 6.48.410.4残差e î(2)0.6﹣0.4﹣0.4﹣0.40.6②Q1=(−0.08)2+(−0.07)2+0.282+(−0.03)2=0.0906.Q2=0.62×2+(−0.4)2×3=1.2.∵Q1<Q2,∴模型甲的拟合效果更好.。

专题11 概率与统计第二十九讲 回归分析与独立性检验(解析版)

专题11 概率与统计第二十九讲 回归分析与独立性检验(解析版)

专题11 概率与统计第二十九讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx ,把15x 代入上式得,ˆ0.76150.411.8y(万元),选B . 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=.(ⅱ)根据(Ⅱ)得结果知,年利润z的预报值ˆ0.2(100.620.12z x x=+-=-+.13.66.82==,即46.24x=时,ˆz取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。

概率论与数理统计第十章回归分析

概率论与数理统计第十章回归分析

第十章回归分析回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法.第一节回归分析的概述在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U 与电阻R、电流I之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性.具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.(1)从一组观察数据出发,确定这些变量之间的回归方程.(2)对回归方程进行假设检验.(3) 利用回归方程进行预测和控制.实用文档回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab,SAS等都有非常有效的线性回归方面的计算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.我们先考虑两个变量的情形.设随机变量y与x之间存在着某种相关关系.这里x是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,…,x n,故可将它看成普通变量,称为自变量,而产量y是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.由x可以在一定程度上决定y,但由x的值不能准确地确定y的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):(x1,y1),(x2,y2),…,(x n,y n),其中y i是x=x i处对随机变量y观察的结果.每对(x i,y i)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图10-1.图10-1由图10-1a可看出散点大致地围绕一条直线散布,而图10-1b中的散点大致围绕实用文档一条抛物线散布,这就是变量间统计规律性的一种表现.如果图中的点像图10-1a中那样呈直线状,则表明y与x之间有线性相关关系,我们可建立数学模型y=a+bx+ε(10.1)来描述它们之间的关系.因为x不能严格地确定y,故带有一误差项ε,假设ε~N(0,σ2),相当于对y作这样的正态假设,对于x的每一个值有y~N(a+bx,σ2),其中未知数a,b,σ2不依赖于x,(10.1)式称为一元线性回归模型(Univariable linear regression model).在(10.1)式中,a,b,σ2是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程ˆˆˆ=+(10.2)y a bx称为y关于x的线性回归方程或回归方程,其图形称为回归直线.(10.2)式是否真正描述了变量y与x客观存在的关系,还需进一步检验.实际问题中,随机变量y有时与多个普通变量x1,x2,…,x p(p>1)有关,可类似地建立数学模型y=b0+b1x1+…+b p x p+ε, ε~N(0,σ2),(10.3)其中b0,b1,…,b p,σ2都是与x1,x2,…,x p无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行n次独立观测,得样本:(x11,x12,…,x1p,y1),…,(x n1,x n2,…,x np,y n )实用文档实用文档有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为0,1,…,p ,得多元线性回归方程ˆy =011ˆˆˆp pb b x b x +++ (10.4)同理,(10.4)式是否真正描述了变量y 与x 1,x 2,…,x p 客观存在的关系,还需进一步检验.第二节 参数估计1.一元线性回归最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a 和b 的估计.最小二乘法的基本思想是:对一组观察值(x 1,y 1),(x 2,y 2),…,(x n ,y n ),使误差εi =y i -(a +bx i )的平方和Q (a , b ) =()2211n ni i i i i y a bx ε===-+⎡⎤⎣⎦∑∑ (10.5)达到最小的a 和b 作为a 和b 的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(x i ,y i ),i =1,2,…,n ,与某条直线的偏差平方和比它们与任何其他直线的偏差平方和都要小时,这条直线便能最佳地反映这些点的分布状况,并且可以证明,在某些假设下,和实用文档是所有线性无偏估计中最好的.根据微分学的极值原理,可将Q (a ,b )分别对a ,b 求偏导数,并令它们等于零,得到方程组:()()1120,20.ni i i ni i ii Qy a bx a Q y a bx x b==∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ (10.6) 即112111,.n n i i i i nn ni i i i i i i na x b y x a x b x y =====⎧⎛⎫+=⎪ ⎪⎪⎝⎭⎨⎛⎫⎛⎫⎪+= ⎪ ⎪⎪⎝⎭⎝⎭⎩∑∑∑∑∑ (10.7) (10.7)式称为正规方程组.由于x i 不全相同,正规方程组的参数行列式2122111211()ninn ni i i i nni i i ii i i nxn x x n x x xx ======⎛⎫=-=- ⎪⎝⎭∑∑∑∑∑∑≠0. 故(10.7)式有惟一解11()()ˆ,()2ˆˆˆ.ni i i nii x x y y b x x ay bx ==⎧--⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ (10.8) 于是,所求的线性回归方程为ˆˆˆ.ya bx =+ (10.9)实用文档若将ˆˆˆay bx =-代入上式,则线性回归方程亦可表为 ˆˆ().yy b x x =+- (10.10) (10.10)式表明,对于样本观察值(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线通过散点图的几何中心(,x y ).回归直线是一条过点(,x y ),斜率为ˆb的直线. 上述确定回归直线所依据的原则是使所有观测数据的偏差平方和达到最小值.按照这个原理确定回归直线的方法称为最小二乘法.“二乘”是指Q 是二乘方(平方)的和.如果y 是正态变量,也可用极大似然估计法得出相同的结果.为了计算上的方便,引入下述记号:22211122211111111(),1(),1()().n n n xx i i i i i i n n nyy i i i i i i n n n n xy i i i i i i i i i i S x x x x n S y y y y n S x x y y x y x y n ==========⎧⎛⎫=-=-⎪ ⎪⎝⎭⎪⎪⎛⎫⎪=-=-⎨ ⎪⎝⎭⎪⎪⎛⎫⎛⎫⎪=--=- ⎪⎪⎪⎝⎭⎝⎭⎩∑∑∑∑∑∑∑∑∑∑ (10.11) 这样,a ,b 的估计可写成:11ˆ,11ˆˆ.xyxx n n i ii i S b S a y x b n n ==⎧=⎪⎪⎨⎛⎫⎪=- ⎪⎪⎝⎭⎩∑∑ (10.12)例10.1 某企业生产一种毛毯,1~10月份的产量x 与生产费用支出y 的统计资料如表10-1.求y 关于x 的线性回归方程.表10-1实用文档解 为求线性回归方程,将有关计算结果列表如表10-2所示表10-2S xx =1421.89-110(117.3)2=45.961,S xy =1352.15-110×117.3×112.6=31.352, ˆb = xy xxS S =0.6821, ˆa = 112.610-0.6821×117.310=3.2585,故回归方程:ˆy=3.2585+0.6821x . 2.多元线性回归多元线性回归(Multiple linear regression)分析原理与一元线性回归分析相同,但在计算上要复杂些.若(x 11,x 12,…,x 1p ,y 1),…,(x n 1,x n 2,…,x np ,y n )为一样本,根据最小二乘法原理,多元线性实用文档回归中未知参数b 0,b 1,…,b p 应满足Q =20111()ni i p ip i y b b x b x =----∑达到最小.对Q 分别关于b 0,b 1,…,b p 求偏导数,并令它们等于零,得0111001112()0,2()0,1,2,,.ni i p ip i ni i p ip ij i jQy b b x b x b Q y b b x b x x j p b ==∂⎧=-----=⎪∂⎪⎨∂⎪=-----==⎪∂⎩∑∑即01122111120111212111111120112211111,,.n n n ni i p ip i i i i i n n n n ni i i i p i ip i i i i i i i n n n n nip i ip i ip p ip ip i i i i i i b n b x b x b x y b x b x b x x b x x x y b x b x x b x x b x x y ==============⎧++++=⎪⎪⎪++++=⎪⎨⎪⎪⎪++++=⎪⎩∑∑∑∑∑∑∑∑∑∑∑∑∑∑ (10.13) (10.13)式称为正规方程组,引入矩阵X =11121212221211,1p p n n np x x x x x x xx x ⎛⎫⎪ ⎪ ⎪ ⎪ ⎪⎝⎭Y =12,n y y y ⎛⎫⎪ ⎪ ⎪⎪⎝⎭ B =01,p b b b ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ 于是(10.13)式可写成X ′XB =X ′Y . (10.13)′(10.13)′式为正规方程组的矩阵形式.若(X ′X )-1存在,则实用文档011ˆˆˆ()ˆp b b b -⎛⎫ ⎪ ⎪'= ⎪ ⎪ ⎪⎝⎭B=X X XY. (10.14) 方程011ˆˆˆˆp py b b x b x =+++为p 元线性回归方程. 例10.2 见表10-3,某一种特定的合金铸品,x 和z 表示合金中所含的A 及B 两种元素的百分数,现x 及z 各选4种,共有4×4=16种不同组合,y 表示各种不同成分的铸品数,根据表中资料求二元线性回归方程.表10-3解 由(10.13)式,根据表中数据,得正规方程组0120120121620040560,20030005006110,405001201580.b b b b b b b b b ++=⎧⎪++=⎨⎪++=⎩ 解 之得:b 0=34.75, b 1=-1.78,b 2=9. 于是所求回归方程为:y =34.75-1.78x +9z .实用文档第三节 假设检验用最小二乘法求出的回归直线并不需要y 与x 一定具有线性相关关系.从上述求回归直线的过程看,对任何一组试验数据(x i ,y i )(i =1,2,…,n )都可用最小二乘法形式地求出一条y 关于x 的回归直线.若y 与x 间不存在某种线性相关关系,那么这种直线是没有意义的,这就需要对y 与x 的线性回归方程进行假设检验,即检验x 的变化对变量y 的影响是否显著.这个问题可利用线性相关的显著性检验来解决.因为当且仅当b ≠0时,变量y 与x 之间存在线性相关关系.因此我们需要检验假设:H 0:b =0;H 1:b ≠0 (10.15)若拒绝H 0,则认为y 与x 之间存在线性关系,所求得的线性回归方程有意义;若接受H 0,则认为y 与x 的关系不能用一元线性回归模型来表示,所求得的线性回归方程无意义.关于上述假设的检验,我们介绍3种常用的检验法.1.方差分析法(F 检验法)当x 取值x 1,x 2,…,x n 时,得y 的一组观测值y 1,y 2,…,y n ,Q 总=S yy =21()ni i y y =-∑称为y 1,y 2,…,y n 的总偏差平方和(Total sum of squares),它的大小反映了观测值实用文档y 1,y 2,…,y n 的分散程度.对Q 总进行分析:Q 总=[]2211ˆˆ()()()n ni i i i i i y y y yy y ==-=-+-∑∑ =2211ˆ()()n niiii i y yy y ==-+-∑∑=Q 剩+Q 回, (10.16)其中Q 剩=21ˆ()ni i i y y=-∑, Q 回=2222111ˆˆˆˆˆˆ()()()().n nni i ii i i y y a bx a bx bx x ===⎡⎤-=+-+=-⎣⎦∑∑∑Q 剩称为剩余平方和(Residual sum of squares),它反映了观测值y i 偏离回归直线的程度,这种偏离是由试验误差及其他未加控制的因素引起的.可证明2ˆ2Q n σ=-剩是σ2的无偏估计.Q 回为回归平方和(Regression sum of squares),它反映了回归值ˆi y(i =1,2,…,n )的分散程度,它的分散性是因x 的变化而引起的.并通过x 对y 的线性影响反映出来.因此1,2,…,n 的分散性来源于x 1,x 2,…,x n 的分散性.通过对Q 剩、Q 回的分析,y 1,y 2,…,y n 的分散程度Q 总的两种影响可以从数量上区分开来.因而Q 回与Q 剩的比值反映了这种线性相关关系与随机因素对y 的影响的大小;比值越大,线性相关性越强.可证明统计量实用文档F =012~H Q Q n -真剩回F (1,n -2) (10.17)给定显著性水平α,若F ≥F α,则拒绝假设H 0,即认为在显著性水平α下,y 对x 的线性相关关系是显著的.反之,则认为y 对x 没有线性相关关系,即所求线性回归方程无实际意义.检验时,可使用方差分析表10-4.表10-4方差来源 平方和 自由度 均方 F 比回归 剩余 Q 回 Q 剩 1n -2 Q 回/1Q 剩/(n -2)F=(2)Q Q n -回剩总计 Q 总n -1其中:⎪⎩⎪⎨⎧-=-===-=∑=.,ˆ)ˆ(212222xx xy yy ni xx xy xx i S S S Q Q Q S S S b y y Q 回总剩 (10.18)例10.3 在显著性水平α=0.05,检验例10.1中的回归效果是否显著? 解 由例10.1知S xx =45.961, S xy =31.352, S yy =22.124, Q 回=S xy 2/S xx =21.3866, Q 剩=Q 总-Q 回=22.124-21.3866=0.7374,实用文档F =2Q Q n -剩回=232.0102>F 0.05(1,8)=5.32. 故拒绝H 0,即两变量的线性相关关系是显著的.2.相关系数法(t 检验法)为了检验线性回归直线是否显著,还可用x 与y 之间的相关系数来检验.相关系数的定义是:r =xy xx yyS S S ⋅. (10.19)由于Q 回/Q 总=2xy xx yyS S S =r 2(|r |≤1), ˆxy xxS b S =,则r =ˆxx xx yyS S .显然r 和ˆb的符号是一致的,它的值反映了x 和y 的内在联系. 提出检验假设: H 0: r =0; H 1: r ≠0. (10.20) 可以证明,当H 0为真时,t =221r n r-- ~t (n -2). (10.21)故H 0的拒绝域为t ≥t α/2(n -2) (10.22)由上例的数据可算出实用文档r =xx yyS S S =0.9832,t =221r n r-- =15.2319>t 0.025(8)=2.3060.故拒绝H 0,即两变量的线性相关性显著.在一元线性回归预测中,相关系数检验,F 检验法等价,在实际中只需作其中一种检验即可.与一元线性回归显著性检验原理相同,为考察多元线性回归这一假定是否符合实际观察结果,还需进行以下假设检验:H 0: b 1=b 2=…=b p =0; H 1: b i 不全为零.可以证明统计量F =01~H UQp n p --真F (p ,n -p -1).其中 U =Y ′X (X ′X )-1X ′Y -n 2ˆy, Q =Y ′Y -Y ′X (X ′X )-1X ′Y . 给定水平α,若F ≥F α,则拒绝H 0.即认为回归效果是显著的.第四节 预测与控制1.预测由于x 与y 并非确定性关系,因此对于任意给定的x =x 0,无法精确知道相应的y 0实用文档值,但可由回归方程计算出一个回归值0ˆy=ˆb +x 0,可以以一定的置信度预测对应的y 的观察值的取值范围,也即对y 0作区间估计,即对于给定的置信度1-α,求出y 0的置信区间(称为预测区间(Prediction interval)),这就是所谓的预测问题.对于给定的置信度1-α,可证明y 0的1-α预测区间为2200()1ˆˆ(2)1.xx x x y t n n S ασ⎛⎫-±-++ ⎪ ⎪⎝⎭(10.24)给定样本观察值,作出曲线22201202()1ˆˆ()()(2)1,()1ˆˆ()()(2)1.xxxxx x y x yx t n n S x x y x y x t n n S αασσ⎧-=--++⎪⎪⎨-⎪=+-++⎪⎩(10.25)这两条曲线形成包含回归直线=+x 的带形域,如图10-2所示,这一带形域在x =x 处最窄,说明越靠近,预测就越精确.而当x 0远离时,置信区域逐渐加宽,此时精度逐渐下降.在实际的回归问题中,若样本容量n 很大,在附近的x 可得到较短的预测区间,又可简化计算20()11xxx x n S -++≈1,2(2)t n α-≈2z α,图10-2故y 0的置信度为1-α的预测区间近似地等于实用文档()22ˆˆˆˆ,.y z y z αασσ-+(10.26)特别地,取1-α=0.95,y 0的置信度为0.95的预测区间为()00ˆˆˆˆ1.96, 1.96yy σσ-+ 取1-α=0.997,y 0的置信度为0.997的预测区间为()00ˆˆˆˆ2.97, 2.97yy σσ-+图10-3可以预料,在全部可能出现的y 值中,大约有99.7%的观测点落在直线L 1:y =ˆa-2.97ˆσ+ˆb x 与直线L 2:y =ˆa +2.97ˆσ+ˆb x 所夹的带形区域内.如图10-3所示. 可见,预测区间意义与置信区间的意义相似,只是后者对未知参数而言,前者是对随机变量而言.例10.4 给定α=0.05,x 0=13.5,问例10.1中生产费用将会在什么范围. 解 当x 0=13.5,y 0的预测值为:0ˆy=3.2585+0.6821×13.5=12.4674给定α=0.05,t 0.025(8)=2.306,21ˆ()0.7374ˆ28niii y yn σ=-==-∑=0.3036, 220()11(13.511.73)111045.961xx x x n S --++=++=1.0808,故实用文档220()1ˆ(2)1xxx x t n n S ασ--++=2.306×0.3036×1.0808=0.7567.即y 0将以95%的概率落在(12.4674±0.7567)区间,即预报生产费用在(11.7107,13.2241)万元之间.2.控制控制实际上是预测的反问题,即要求观察值y 在一定范围内y1<y <y 2内取值,应考虑把自变量x 控制在什么范围,即对于给定的置信度1-α,求出相应的x 1,x 2,使x 1<x <x 2时,x 所对应的观察值y 落在(y 1′,y 2′)之内的概率不小于1-α.当n 很大时,从方程222212ˆˆˆˆˆ,ˆˆˆˆˆ.y y z a bx z y y z a bx z αααασσσσ⎧=-=+-⎪⎨=+=++⎪⎩ (10.27) 分别解出x 来作为控制x 的上、下限:221122ˆˆˆ(),ˆˆˆ().x y a z b x y a z bαασσ⎧=-+⎪⎨=--⎪⎩ (10.28)当ˆb>0时,控制区间为(x 1,x 2);当ˆb <0时,控制区间为(x 2,x 1).如图10-4,图10-4注意,为了实现控制,我们必须使区间(y 1,y 2)的长度不小于22z ασ,即:实用文档y 2-y 1>2σ2z α.第五节 非线性回归的线性化处理前面讨论了线性回归问题,对线性情形我们有了一整套的理论与方法.在实际中常会遇见更为复杂的非线性回归问题,此时一般是采用变量代换法将非线性模型线性化,再按照线性回归方法进行处理.举例如下:模型 y =a +b sin t +ε, ε~N (0,σ2), (10.29) 其中a ,b ,σ2为与t 无关的未知参数,只要令x =sin t ,即可将(10.29)化为(10.1).模型 y =a +bt +ct 2+ε, ε~N (0,σ2), (10.30) 其中a ,b ,c ,σ2为与t 无关的未知参数.令x 1=t ,x 2=t 2,得y =a +bx 1+cx 2+ε, ε~N (0,σ2), (10.31)它为多元线性回归的情形.模型1y=a +b /x +ε, ε~N (0,σ2), 令y ′=1y , x ′=1x,则有 y ′=a +bx ′+ε,ε~N (0,σ2), 化为(10.1)式.模型 y =a +b ln x +ε, ε~N (0,σ2),令x ′=ln x ,则有 y =a +bx ′+ε,ε~N (0,σ2), 又可化为(10.1)式.另外,还有下述模型Q(y)=a+bx+ε, ε~N(0,σ2),其中Q为已知函数,且设Q(y)存在单值的反函数,a,b,σ2为与x无关的未知参数.这时,令z=Q(y),得z=a+bx+ε, ε~N(0,σ2).在求得z的回归方程和预测区间后,再按z=Q(y)的逆变换,变回原变量y.我们就分别称它们为关于y的回归方程和预测区间.此时y的回归方程的图形是曲线,故又称为曲线回归方程.例10.5某钢厂出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断扩大.通过试验,得到了使用次数x和钢包增大的容积y之间的17组数据如表10-5,求使用次数x与增大容积y的回归方程.表10-5实用文档解散点图如图10-5.看起来y与x呈倒指数关系ln y=a+b1x +ε,记y′=ln y,1xx'=,求出x′,y′的值(表10-6).表10-6作(x′,y′)的散点图,如图10-6.实用文档实用文档图10-5 图10-6可见各点基本上在一直线上,故可设y ′=a +bx ′+ε,ε~(0,σ2),经计算,得x '=0.1464, y '=2.2963,21()nii x ='∑=0.5902,21()nii y ='∑=89.9311,1niii x y =''∑=5.4627.ˆb=-1.1183, ˆa =2.4600. 于是x ′对于y ′的线性回归方程为y ′=-1.1183x ′+2.4600,换回原变量得1.1183ˆ11.7046xy-=e .现对x ′与y ′的线性相关关系的显著性用F 检验法进行检验,得F (1,15)=379.3115>F 0.01(1,15)=8.68.实用文档检验结论表明,此线性回归方程的效果是显著的.小 结本章介绍了在实际中应用非常广泛的数理统计方法之一——回归分析,并对线性回归作了参数估计、相关性检验、预测与控制及非线性回归的线性化处理.1. 一元线性回归模型y =a +bx +ε的最小二乘估计为ˆˆˆ,xy xxS ba y xb S ==-. 其中 11n i i x x n ==∑, 11ni i y y n ==∑, S xx =221ni i y ny =-∑,S xy =1ni i i x y nxy =-∑, S yy =221ni i y ny =-∑.2. 变量y 与x 的线性相关性假设检验有: (1) 方差分析法(F 检验法)H 0: b =0; H 1: b ≠0. F =02~H Q Q n -真剩回F α(1,n -2).其中Q 回=S xy 2/S xx , Q 剩=Q 总-Q 回=S yy -S xy 2/S xx .给定显著性水平α,若F ≥F α,则拒绝H 0,即认为y 对x 具有线性相关关系.(2) 相关系数法(t 检验法)实用文档H 0: r =0; H 1: r ≠0.其中r =xx yyS S S , t =0222(2)1~H r n tn rα---真.若t ≥2(2)t n α-则拒绝H 0.即认为两变量的线性相关性显著.3. 给定x =x 0时,y 的置信水平为1-α的预测区间2200()1ˆˆˆ(2)1xxx x abx t n n S ασ⎛⎫-+±-++ ⎪ ⎪⎝⎭. 重要术语及主题线性回归,最小二乘估计,预测与控制,非线性回归.习 题 十1.在硝酸钠(NaNO 3)的溶解度试验中,测得在不同温度x (℃)下,溶解于100份水中的硝酸钠份数y 的数据如下,试求y 关于x 的线性回归方程.x i 0 4 10 15 21 29 36 51 68 y i66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.12.测量了9对父子的身高,所得数据如下(单位:英寸). 父亲身高x i 60 62 64 66 67 68 70 72 74 儿子身高y i63.6 65.2 66 66.9 67.1 67.4 68.3 70.1 70求(1) 儿子身高y 关于父亲身高x 的回归方程.(2)取α=0.05,检验儿子的身高y与父亲身高x之间的线性相关关系是否显著.(3)若父亲身高70英寸,求其儿子的身高的置信度为95%的预测区间.3.随机抽取了10个家庭,调查了他们的家庭月收入x(单位:百元)和月支出y(单位:百元),记录于下表:求:(1)在直角坐标系下作x与y的散点图,判断y与x是否存在线性关系.(2)求y与x的一元线性回归方程.(3)对所得的回归方程作显著性检验.(α=0.025)4.设y为树干的体积,x1为离地面一定高度的树干直径,x2为树干高度,一共测量了31棵树,数据列于下表,作出y对x1,x2的二元线性回归方程,以便能用简单分法从x1和x2估计一棵树的体积,进而估计一片森林的木材储量.实用文档5.一家从事市场研究的公司,希望能预测每日出版的报纸在各种不同居民区内的周末发行量,两个独立变量,即总零售额和人口密度被选作自变量.由n=25个居民区组成的随机样本所给出的结果列表如下,求日报周末发行量y关于总零售额x1和人口密度x2的线性回归方程.实用文档实用文档实用文档6.一种合金在某种添加剂的不同浓度之下,各做3次试验,得数据如下:(1) 作散点图.(2) 以模型y =b 0+b 1x 1+b 2x 2+ε,ε~N (0,σ2)拟合数据,其中b 0,b 1,b 2,σ2与x 无关,求回归方程ˆy =0ˆb +1ˆb x +2ˆb x 2.。

专题十一 概率与统计第三十三讲 回归分析与独立性检验答案

专题十一  概率与统计第三十三讲  回归分析与独立性检验答案

专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y b tt ==--===-∑∑, 4.30.54 2.3a y bt =-=-⨯=. 所求回归方程为0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)1003.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。

概率与统计-回归教材纠错例题解析-数学

概率与统计-回归教材纠错例题解析-数学

7.概率与统计1.随机抽样方法简单随机抽样、系统抽样、分层抽样的共同点是抽样过程中每个个体被抽取的机会相等,且是不放回抽样.[问题1] 某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福社区的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次抽取的总户数为________. 答案 24解析 由抽样比例可知6x =480-200-160480,则x =24.2.对于统计图表问题,求解时,最重要的就是认真观察图表,从中提取有用信息和数据.对于频率分布直方图,应注意的是图中的每一个小矩形的面积是数据落在该区间上的频率.茎叶图没有原始数据信息的损失,但数据很大或有多组数据时,茎叶图就不那么直观、清晰了. [问题2] (2015·湖南)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案 4解析 由题意知,将1~35号分成7组,每组5名运动员,落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.3.在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.平均数的估计值等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和,众数是最高矩形的中点的横坐标.[问题3] 某公司为了解用户对其产品的满意度,随机调查了40个用户,根据用户满意度的评分制成频率分布直方图(如下),则该地区满意度评分的平均值为________.答案 77.5解析 由直方图估计评分的平均值为55×0.05+65×0.2+75×0.35+85×0.25+95×0.15=77.5.4.变量间的相关关系假设我们有如下一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ).线性回归方程y ^=b ^x +a ^,其中⎩⎪⎨⎪⎧b ^=i =1n (x i -x )(y i-y )i =1n (x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i2i -n x2,a ^=y -b ^x .[问题4] 回归直线y ^=b ^x +a ^必经过点________. 答案 (x ,y )5.互斥事件的概率公式P (A +B )=P (A )+P (B ) (1)公式适合范围:事件A 与B 互斥. (2)P (A )=1-P (A ).[问题5] 抛掷一枚骰子,观察掷出的点数,设事件A 为出现奇数点,事件B 为出现2点,已知P (A )=12,P (B )=16,则出现奇数点或2点的概率之和为________.答案 236.古典概型P (A )=mn (其中,n 为一次试验中可能出现的结果总数,m 为事件A 在试验中包含的基本事件个数).[问题6] (2015·广东)已知5件产品中有2件次品,其余为合格品.现从这5件产品中任取2件,恰有一件次品的概率为( ) A .0.4B .0.6C .0.8D .1答案 B解析 5件产品中有2件次品,记为a ,b ,有3件合格品,记为c ,d ,e ,从这5件产品中任取2件,结果有(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ),(b ,e ),(c ,d ),(c ,e ),(d ,e )共10种.恰有一件次品的结果有6种,则其概率为p =610=0.6.7.几何概型一般地,在几何区域D 内随机地取一点,记事件“该点在其内部一个区域d 内”为事件A ,则事件A 发生的概率为P (A )=d 的度量D 的度量.此处D 的度量不为0,其中“度量”的意义依D 确定,当D 分别是线段、平面图形和立体图形时,相应的度量分别为长度、面积和体积等. 即P (A )=构成事件A 的区域长度(面积或体积)试验的全部结果所构成的区域长度(面积或体积).[问题7] 在棱长为2的正方体ABCD —A 1B 1C 1D 1中,点O 为底面ABCD 的中心,在正方体ABCD —A 1B 1C 1D 1内随机取一点P ,则点P 到点O 的距离大于1的概率为( ) A.π12 B .1-π12C.π6 D .1-π6答案 B解析 记“点P 到点O 的距离大于1”为A , P (A )=23-12×43π×1323=1-π12. 8.解排列组合问题的常用策略相邻问题捆绑法;相间隔问题插空法;定位问题优先法;多元问题分类法;至多至少问题间接法;相同元素分组可采用隔板法,数量不大时可以逐一排出结果.[问题8] 4个不同的小球放入编号为1、2、3、4的4个盒中,则恰有1个空盒的放法共有________种. 答案 144解析 把4个球分成3组,每组至少1个,即分的小球个数分别为2,1,1的3组,有C 24C 12C 11A 22种.最后将三组球放入4个盒中的3个,有分配方法数A 34种,因此,放法共有C 24C 12C 11A 22×A 34=144(种). 9.二项式系数的性质(1)对称性:C k n =C n -k n (k =0,1,2,…,n ).(2)系数和:C 0n +C 1n +…+C n n =2n ,C 1n +C 3n +C 5n +…=C 0n +C 2n +C 4n +…=2n -1. (3)最值:n 为偶数时,n +1为奇数,中间一项的二项式系数最大且为第(n2+1)项,二项式系数为2C n n;n 为奇数时,(n +1)为偶数,中间两项的二项式系数最大为第n +12项及第n +12+1项,其二项式系数为1122CC.n n nn--=[问题9] 已知(x +1241x )n展开式中,前三项系数成等差数列.(1)求n ;(2)求第三项的二项式系数及该项的系数. 解 (1)前三项系数为1,12C 1n ,14C 2n,成等差数列,所以2×12C 1n=1+14C 2n ,即n 2-9n +8=0,得n =1(舍)或n =8. (2)由n =8可知其通项公式为 T k +1=C k 8(x )8-k·(1241x)k34481()C 0,182k k k x k ⋅⋅⋅-=,=,,,所以第三项的二项式系数为C 28=28, 第三项系数为(12)2C 28=7.10.条件概率 P (A |B )=P (AB )P (B ).[问题10] 设A 、B 为两个事件,若事件A 和B 同时发生的概率为310,在事件A 发生的条件下,事件B 发生的概率为12,则事件A 发生的概率为________.答案 3511.离散型随机变量的均值、方差(1)离散型随机变量的均值、方差:E (X )=x 1p 1+x 2p 2+…+x i p i +…+x n p n 为随机变量X 的均值,D (X )=[x 1-E (X )]2p 1+[x 2-E (X )]2p 2+…+[x n -E (X )]2p n 叫做这个离散型随机变量X 的方差. (2)两点分布与二项分布的均值、方差.①若X 服从两点分布,则E (X )=p ,D (X )=p (1-p ). ②若X ~B (n ,p ),则E (X )=np ,D (X )=np (1-p ).[问题11] 若随机变量ξ的分布列如下表,则E (ξ)的值为________.答案209解析 根据概率之和为1,求出x =118,则E (ξ)=0×2x +1×3x +…+5x =40x =209.12.一般地,如果对于任意实数a <b ,随机变量X 满足P (a <X ≤b )=ʃb a φμ,σ(x )d x ,则称X 的分布为正态分布.正态分布完全由参数μ和σ确定,因此正态分布常记作N (μ,σ2).如果随机变量X 服从正态分布,则记为X ~N (μ,σ2).满足正态分布的三个基本概率的值是①P (μ-σ<X ≤μ+σ)=0.6826;②P (μ-2σ<X ≤μ+2σ)=0.9544;③P (μ-3σ<X ≤μ+3σ)=0.9974. [问题12] 已知随机变量ξ服从正态分布N (2,σ2),且P (ξ<4)=0.8,则P (0<ξ<2)等于( ) A .0.6B .0.4C .0.3D .0.2 答案 C解析 ∵P (ξ<4)=0.8,∴P (ξ>4)=0.2, 由题意知图象的对称轴为直线x =2,P (ξ<0)=P (ξ>4)=0.2,∴P (0<ξ<4)=1-P (ξ<0)-P (ξ>4)=0.6. ∴P (0<ξ<2)=12P (0<ξ<4)=0.3.易错点1 抽样方法理解不准例1 一个总体中100个个体的编号为0,1,2,3,…,99,并依次按其分为10个小组,组号为0,1,2,…,9.要用系统抽样的方法抽取一个容量为10的样本,规定如果第0组(号码0~9)随机抽取的号码为l ,那么依次错位地抽取后面各组的号码,即第k 组中抽取的号码的个位数为l +k 或l +k -10(如果l +k ≥10).若l =6,则所抽取的第5组的号码是________.易错分析 本题易错点有两个:一是忽视题中对组号的描述,误以为第一个号码6为第一组的号码导致错误;二是忽视系统抽样号码抽样法则的制定,误以为组距为10,所以每组抽取号码的个位数都为6.所以解决此类问题,一定要根据题中的条件准确进行编号与抽样. 解析 由题意,第0组抽取的号码为6,则第一组抽取的号码的个位数为6+1=7,所以选17.因为7+1=8,第二组抽取号码的个位数为8,故选28.因为8+1=9,第三组抽取号码的个位数为9,故选39.因为9+1=10≥10,9+1-10=0,第四组抽取号码的个位数为0,故选40. 因为0+1=1,第五组抽取号码的个位数为1,故选51. 答案 51易错点2 误解基本事件的等可能性例2 若将一枚质地均匀的骰子(一种各面上分别标有1,2,3,4,5,6个点的正方体玩具)先后抛掷2次,则出现向上的点数之和为4的概率为________.易错分析 解本题时易出现的错误在于对等可能性事件的概率中“基本事件”以及“等可能性”等概念的理解不深刻,错误地认为基本事件总数为11(点数和等于2,3,4,5,6,7,8,9,10,11,12),或者将点数和为4的事件错误地计算为(1,3)(2,2)两种,从而导致出错.解析 将先后掷2次出现向上的点数记作点坐标(x ,y ),则共可得点坐标的个数为6×6=36,而向上点数之和为4的点坐标有(1,3),(2,2),(3,1),共3个,故先后掷2次,出现向上的点数之和为4的概率P =336=112.故填112.答案112易错点3 几何概型中“测度”确定不准例3 在等腰直角三角形ABC 中,直角顶点为C . (1)在斜边AB 上任取一点M ,求AM <AC 的概率;(2)在∠ACB 的内部,以C 为端点任作一条射线CM ,与线段AB 交于点M ,求AM <AC 的概率.易错分析 本题易出现的问题是混淆几何概型中对事件的度量方式,不注意题中两问中点M 生成方式的差异,误以为该题两问中的几何概型都是用线段的长度来度量造成错解. 解 (1)如图所示,AB =2AC .由于点M 是在斜边AB 上任取的,所以点M 等可能分布在线段AB 上,因此基本事件的区域应是线段AB . 所以P (AM <AC )=AC 2AC =22. (2)由于在∠ABC 内作射线CM ,等可能分布的是CM 在∠ACB 内的任一位置(如图所示),因此基本事件的区域应是∠ACB ,所以P (AM <AC )=∠ACC ′∠ACB=π-π42π2=34.易错点4 互斥事件概念不清例4 对飞机连续射击两次,每次发射一枚炮弹.设A ={两次都击中飞机},B ={两次都没击中飞机},C ={恰有一次击中飞机},D ={至少有一次击中飞机},其中彼此互为互斥事件的是________;互为对立事件的是________.易错分析 对事件互斥意义不明确,对事件的互斥与对立之间的关系不清楚,就会出现错误的判断.对立事件和互斥事件都不可能同时发生,但对立事件必有一个要发生,而互斥事件可能都不发生.所以两个事件对立,则两个事件必是互斥事件;反之,两事件是互斥事件,但未必是对立事件.解析 因为A ∩B =∅,A ∩C =∅,B ∩C =∅,B ∩D =∅,故A 与B ,A 与C ,B 与C ,B 与D 为彼此互斥事件,而B ∩D =∅,B ∪D =Ω,故B 与D 互为对立事件. 答案 A 与B ,A 与C ,B 与C ,B 与D B 与D易错点5 排列、组合问题混淆例5 如图所示,A ,B ,C ,D 是海上的四个小岛,要建三座桥,将这四个岛连接起来,不同的建桥方案共有多少种?易错分析 搞不清几个元素之间有无顺序,混淆排列与组合的区别. 解 由题意可能有两种结构,如图:第一种:,第二种:对于第一种结构,连接方式只需考虑中心位置的情况,共有C 14种方法.对于第二种结构,有C 24A 22种方法. ∴总共有C 14+C 24A 22=16(种).易错点6 概率计算时是否有序理解不清例6 袋子A 和B 中装有若干个均匀的红球和白球,从A 中摸出一个红球的概率是13,从B中摸出一个白球的概率为p .从A 中有放回地摸球,每次摸出一个,有3次摸到红球即停止. (1)求恰好摸5次停止的概率;(2)记5次之内(含5次)摸到红球的次数为ξ,求随机变量ξ的分布列.易错分析 注意题中的摸球是“有放回地”,另外条件“有3次摸到红球即停止”在解题中要充分考虑.解 (1)C 24×(13)2×(23)2×13=881.(2)随机变量ξ的取值为0,1,2,3. 由n 次独立重复试验概率公式P n (k )=C k n p k (1-p )n -k, 得P (ξ=0)=C 05×(1-13)5=32243, P (ξ=1)=C 15×13×(1-13)4=80243, P (ξ=2)=C 25×(13)2×(1-13)3=80243, P (ξ=3)=1-32+80×2243=1781.随机变量的分布列是1.某学校利用系统抽样的方法,从学校高三年级全体1000名学生中抽50名学生做学习状况问卷调查.现将1000名学生从1到1000进行编号,共分50组.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应取的号码是( ) A .177 B .157 C .417 D .367答案 B解析 根据系统抽样法的特点,可知抽取出的编号成首项为17,公差为20的等差数列,所以第8组的编号是17+(8-1)×20=157.2.如图是2016年某大学自主招生面试环节中,七位评委为某考生打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( )A .85,84B .84,85C .86,84D .84,86答案 A解析 由图可知,去掉一个最高分和一个最低分后,所剩数据为84,84,84,86,87. ∴平均数为84+84+84+86+875=85,众数为84.3.从正六边形的6个顶点中随机选择4个顶点,则以它们作为顶点的四边形是矩形的概率等于( ) A.110B.18C.16D.15 答案 D解析 如图所示,从正六边形ABCDEF 的6个顶点中随机选4个顶点,可以看作随机选2个顶点,剩下的4个顶点构成四边形,有A 、B ,A 、C ,A 、D ,A 、E ,A 、F ,B 、C ,B 、D ,B 、E ,B 、F ,C 、D ,C 、E ,C 、F ,D 、E ,D 、F ,E 、F ,共15种.若要构成矩形,只要选相对顶点即可,有A 、D ,B 、E ,C 、F ,共3种,故其概率为315=15.4.(2015·福建)如图,矩形ABCD 中,点A 在x 轴上,点B 的坐标为(1,0),且点C 与点D 在函数f (x )=⎩⎪⎨⎪⎧x +1,x ≥0,-12x +1,x <0的图象上.若在矩形ABCD 内随机取一点,则此点取自阴影部分的概率等于()A.16B.14C.38D.12 答案 B解析 由图形知C (1,2),D (-2,2),∴S 四边形ABCD =6,S 阴=12×3×1=32.∴P =326=14.5.某路段检查站监控录像显示,在某时段内,有1000辆汽车通过该站,现在随机抽取其中的200辆汽车进行车速分析,分析的结果表示为如图所示的频率分布直方图,则估计在这一时段内通过该站的汽车中车速不小于90km/h 的约有________辆.(注:分析时车速均取整数)答案 300解析 由图可知,车速大于等于90 km/h 的车辆未标出频率,而小于90 km/h 的都标出了,故考虑对立事件.由题图知车速小于90 km/h 的汽车总数的频率之和为(0.01+0.02+0.04)×10=0.7,所以车速不小于90 km/h 的汽车总数的频率之和为1-0.7=0.3.因此在这一时段内通过该站的车速不小于90 km/h 的汽车有1 000×0.3=300(辆).6.春节期间,某销售公司每天销售某种取暖产品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=-125,则a ^=________. 答案775解析 由表中数据可得x =-4,y =25,所以线性回归方程y ^=-125x +a ^过点(-4,25),代入方程得25=-125×(-4)+a ^,解得a ^=775.7.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x ,y 的值分别为________,________.答案 6 4解析 x 甲=75+82+84+(80+x )+90+936=85,解得x =6,由题图可知y =4.8.从2男3女共5名同学中任选2名(每名同学被选中的机会均等),这2名都是男生或都是女生的概率为______. 答案 25解析 设2名男生为A ,B,3名女生为a ,b ,c ,则从5名同学中任取2名的方法有(A ,B ),(A ,a ),(A ,b ),…,(b ,c ),共10种,而这2名同学刚好是一男一女的有(A ,a ),(A ,b ),(A ,c ),(B ,a ),(B ,b ),(B ,c ),共6种,故所求概率为1-610=25. 9.已知某人投篮的命中率为34,则此人投篮4次,至少命中3次的概率是________. 答案 189256解析 该人投篮4次,命中3次的概率为P 1=C 34⎝⎛⎭⎫343⎝⎛⎭⎫1-34=2764; 该人投篮4次,命中4次的概率为P 2=C 44⎝⎛⎭⎫344=81256, 故至少命中3次的概率是P =2764+81256=189256. 10.某校校庆,各届校友纷至沓来,某班共来了n 位校友(n >8,且n ∈N *),其中女校友6位,组委会对这n 位校友登记制作了一份校友名单,现随机从中选出2位校友代表,若选出的2位校友是一男一女,则称为“最佳组合”.(1)若随机选出的2位校友代表为“最佳组合”的概率不小于12,求n 的最大值; (2)当n =12时,设选出的2位校友代表中女校友人数为X ,求随机变量X 的分布列和均值E (X ). 解 (1)由题意可知,所选2人为“最佳组合”的概率为C 1n -6C 16C 2n =12(n -6)n (n -1), 则12(n -6)n (n -1)≥12. 化简得n 2-25n +144≤0,解得9≤n ≤16,故n 的最大值为16.(2)由题意可得,X 的可能取值为0,1,2.则P (X =0)=C 26C 212=522,P (X =1)=C 16C 16C 212=611,P (X =2)=C 26C 212=522, X 的分布列为∴E (X )=0×522+1×611+2×522=1.。

2024年高考数学二轮专题10 概率与统计的综合运用(精讲精练)(解析版)

2024年高考数学二轮专题10 概率与统计的综合运用(精讲精练)(解析版)

专题10概率与统计的综合运用【命题规律】概率统计在高考中扮演着很重要的角色,概率统计解答题是新高考卷及多数省市高考数学必考内容,考查热点为古典概型、相互独立事件的概率、条件概率、超几何分布、二项分布、正态分布、统计图表与数字特征、回归分析、离散型随机变量的分布列、期望与方差的实际应用等.回顾近几年的高考试题,可以看出概率统计解答题,大多紧密结合社会实际,以现实生活为背景设置试题,注重知识的综合应用与实际应用,作为考查实践能力的重要载体,命题者要求考生会收集,整理、分析数据,能从大量数据中抽取对研究问题有用的信息,建立数学模型,再应用数学原理和数学工具解决实际问题.【核心考点目录】核心考点一:求概率及随机变量的分布列与期望核心考点二:超几何分布与二项分布核心考点三:概率与其它知识的交汇问题核心考点四:期望与方差的实际应用核心考点五:正态分布核心考点六:统计图表核心考点七:回归分析核心考点八:独立性检验核心考点九:与体育比赛规则有关的概率问题核心考点十:决策型问题核心考点十一:条件概率、全概率公式、贝叶斯公式【真题回归】1.(2022·全国·统考高考真题)甲、乙两个学校进行体育比赛,比赛共设三个项目,每个项目胜方得10分,负方得0分,没有平局.三个项目比赛结束后,总得分高的学校获得冠军.已知甲学校在三个项目中获胜的概率分别为0.5,0.4,0.8,各项目的比赛结果相互独立.(1)求甲学校获得冠军的概率;(2)用X表示乙学校的总得分,求X的分布列与期望.A B C,所以甲学校获得冠军的概率为【解析】(1)设甲在三个项目中获胜的事件依次记为,,()()()()=+++P P ABC P ABC P ABC P ABC=⨯⨯+⨯⨯+⨯⨯+⨯⨯0.50.40.80.50.40.80.50.60.80.50.40.20.160.160.240.040.6=+++=.(2)依题可知,X的可能取值为0,10,20,30,所以,()00.50.40.80.16P X==⨯⨯=,()100.50.40.80.50.60.80.50.40.20.44P X==⨯⨯+⨯⨯+⨯⨯=,()200.50.60.80.50.40.20.50.60.20.34P X==⨯⨯+⨯⨯+⨯⨯=,()300.50.60.20.06P X==⨯⨯=.即X的分布列为X0102030P0.160.440.340.06E X=⨯+⨯+⨯+⨯=.期望()00.16100.44200.34300.06132.(2022·全国·统考高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).x=⨯+⨯+⨯+⨯+⨯【解析】(1)平均年龄(50.001150.002250.012350.017450.023+⨯+⨯+⨯+⨯⨯=(岁).550.020650.017750.006850.002)1047.9(2)设A ={一人患这种疾病的年龄在区间[20,70)},所以()1(1(0.0010.0020.0060.002)1010.110.89P A P A =-=-+++⨯=-=.(3)设B =“任选一人年龄位于区间[40,50)”,C =“从该地区中任选一人患这种疾病”,则由已知得:()()16%0.16,0.1%0.001,(|)0.023100.23P B P C P B C =====⨯=,则由条件概率公式可得从该地区中任选一人,若此人的年龄位于区间[40,50),此人患这种疾病的概率为()(|)()()0.0010.23(|)0.00143750.0014()0.16P BC P C P B C C B P B B P P ⨯====≈.3.(2022·全国·统考高考真题)甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,()2P K k …0.1000.0500.010k2.7063.8416.635【解析】(1)根据表中数据,A 共有班次260次,准点班次有240次,设A 家公司长途客车准点事件为M ,则24012()26013==P M ;B 共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N ,则210()27840==P N .A 家公司长途客车准点的概率为1213;B 家公司长途客车准点的概率为78.(2)列联表准点班次数未准点班次数合计A 24020260B 21030240合计4505050022()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.4.(2022·全国·统考高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:2m )和材积量(单位:3m ),得到如下数据:样本号i12345678910总和根部横截面积i x 0.040.060.040.080.080.050.050.070.070.060.6材积量iy 0.250.400.220.540.510.340.360.460.420.403.9并计算得10101022iii i i=1i=1i=10.038, 1.6158,0.2474x y x y ===∑∑∑.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为2186m .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数 1.377r =≈.【解析】(1)样本中10棵这种树木的根部横截面积的平均值0.60.0610x ==样本中10棵这种树木的材积量的平均值 3.90.3910y ==据此可估计该林区这种树木平均一棵的根部横截面积为20.06m ,平均一棵的材积量为30.39m(2)r==0.01340.970.01377==≈≈则0.97r≈(3)设该林区这种树木的总材积量的估计值为3mY,又已知树木的材积量与其根部横截面积近似成正比,可得0.06186=0.39Y,解之得3=1209mY.则该林区这种树木的总材积量估计为31209m5.(2022·北京·统考高考真题)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到950m.以上(含950m.)的同学将获得优秀奖.为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):甲:9.80,9.70,9.55,9.54,9.48,9.42,9.40,9.35,9.30,9.25;乙:9.78,9.56,9.51,9.36,9.32,9.23;丙:9.85,9.65,9.20,9.16.假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立.(1)估计甲在校运动会铅球比赛中获得优秀奖的概率;(2)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计X的数学期望E(X);(3)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)【解析】(1)由频率估计概率可得甲获得优秀的概率为0.4,乙获得优秀的概率为0.5,丙获得优秀的概率为0.5,故答案为0.4(2)设甲获得优秀为事件A1,乙获得优秀为事件A2,丙获得优秀为事件A31233(0)()0.60.50.520P X P A A A===⨯⨯=,123123123(1)((()P X P A A A P A A A P A A A==++80.40.50.50.60.50.50.60.50.520=⨯⨯+⨯⨯+⨯⨯=,123123123(2)()()()P X P A A A P A A A P A A A==++70.40.50.50.40.50.50.60.50.520=⨯⨯+⨯⨯+⨯⨯=,1232(3)()0.40.50.520P X P A A A===⨯⨯=.∴X 的分布列为X 0123P320820720220∴38727()0123202020205E X =⨯+⨯+⨯+⨯=(3)丙夺冠概率估计值最大.因为铅球比赛无论比赛几次就取最高成绩.比赛一次,丙获得9.85的概率为14,甲获得9.80的概率为110,乙获得9.78的概率为16.并且丙的最高成绩是所有成绩中最高的,比赛次数越多,对丙越有利.6.(2022·全国·统考高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:不够良好良好病例组4060对照组1090(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.(|)(|)P B A P B A 与(|)(|)P B A P B A 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R .(ⅰ)证明:(|)(|)(|)(|)P A B P A B R P A B P A B =⋅;(ⅱ)利用该调查数据,给出(|),(|P A B P A B 的估计值,并利用(ⅰ)的结果给出R 的估计值.附22()()()()()n ad bc K a b c d a c b d -=++++,()2P K k ≥0.0500.0100.001k3.8416.63510.828【解析】(1)由已知222()200(40906010)=24()()()()50150100100n ad bc K a b c d a c b d -⨯-⨯==++++⨯⨯⨯,又2( 6.635)=0.01P K ≥,24 6.635>,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)(i)因为(|)(|)()()()()=(|)(|)()()()()P B A P B A P AB P A P AB P A R P B A P B A P A P AB P A P AB =⋅⋅⋅⋅,所以()()()()()()()()P AB P B P AB P B R P B P AB P B P AB =⋅⋅⋅所以(|)(|)(|)(|)P A B P A B R P A B P A B =⋅,(ii)由已知40(|)100P A B =,10(|)100P A B =,又60(|)100P A B =,90(|)100P A B =,所以(|)(|)=6(|)(|)P A B P A B R P A B P A B =⋅【方法技巧与总结】(一)涉及的概率知识层面主要考查随机变量的概率分布与数学期望,一定要根据有关概念,判断是等可能事件、互斥事件、相互独立事件还是独立重复试验,以便选择正确的计算方法,进行概率计算及离散型随机变量的分布列和数学期望的计算,也要掌握几种常见常考的概率分布模型:离散型有二项分布、超几何分布,连续型有正态分布.考查运用概率知识解决简单实际问题的能力,1、离散型随机变量的期望与方差一般地,若离散型随机变量X 的分布列为称1122()n n E X x p x p x p =+++ 为随机变量X 的均值或数学期望,它反映了离散型随机变量取值的平均水平.称()21()()ni i i D X x E X p ==-∑为随机变量X 的方差,它刻画了随机变量X 与其均值()E X 的偏离程度,其X 的标准差.(1)离散型随机变量的分布列的性质①0(1,2,,)i p i n = …;②121n p p p +++= .(2)均值与方差的性质若Y aX b =+,其中,a b 为常数,则Y 也是随机变量,且2E aX b aE X b D aX b a D X+=++=()();()()(3)分布列的求法①与排列、组合有关分布列的求法.由排列、组合、概率知识求出概率,再求出分布列.②与频率分布直方图有关分布列的求法.可由频率估计概率,再求出分布列.③与互斥事件有关分布列的求法.弄清互斥事件的关系,利用概率公式求出概率,再列出分布列.④与独立事件(或独立重复试验)有关分布列的求法.先弄清独立事件的关系,求出各个概率,再列出分布列.(4)常见的离散型随机变量的概率分布模型①二项分布;②超儿何分布.2、常见的连续型概率分布模型正态分布.(二)概率分布与不同知识背景结合考查对实际问题的解决能力1、与数列结合的实际问题2、与函数导数结合的实际问题3、与分段函数求最值、解不等式结合的实际问题4、与统计结合的实际问题5、与其他背景结合的实际问题【核心考点】核心考点一:求概率及随机变量的分布列与期望【规律方法】求离散型随机变量的分布列及期望的一般步骤:(1)根据题中条件确定随机变量的可能取值;(2)求出随机变量所有可能取值对应的概率,即可得出分布列;(3)根据期望的概念,结合分布列,即可得出期望(在计算时,要注意随机变量是否服从特殊的分布,如超几何分布或二项分布等,可结合其对应的概率计算公式及期望计算公式,简化计算)【典型例题】例1.(2022·陕西宝鸡·统考一模)甲、乙两个代表队各有3名选手参加对抗赛.比赛规定:甲队的1,2,3号选手与乙队的1,2,3号选手按编号顺序各比赛一场,某队连赢3场,则获胜,否则由甲队的1号对乙队的2号,甲队的2号对乙队的1号加赛两场,胜场多者最后获胜(每场比赛只有胜或负两种结果).已知甲队的1号对乙队的1,2号选手的胜率分别是0.5,0.6,甲队的2号对乙队的1,2号选手的胜率都是0.5,甲队的3号对乙队的3号选手的胜率也是0.5,假设每场比赛结果相互独立.(1)求甲队仅比赛3场获胜的概率;(2)已知每场比赛胜者可获得200个积分,求甲队队员获得的积分数之和X的分布列及期望.【解析】(1)甲队1,2,3号选手与乙队1,2,3号选手比赛获胜的概率分别为0.5,0.5,0.5,,甲队比赛3场获胜的概率为P =0.50.50.50.125⨯⨯=;(2)X 所以可能取得值为0,200,400,600,800;()3500.50.12P X ===,()31213200C 0.50.500..540.5600.07.5P X ==⨯=⨯⨯=⨯,()()11233332400C 0.50.60.50.40.55C 0.50.40.5 2.1050.50.262.P X ==⨯+⨯⨯⨯=⨯+⨯=⨯⨯,()()313233336000.5C 0.50.60.5C 0.50.60.50.40.5 3.40.50.425P X ==+⨯⨯+⨯⨯+⨯=⨯=,()2333800C 0.50.605.50.900.112.5P X ===⨯⨯=⨯.即X 0200400600800P0.1250.0750.26250.4250.1125所以()00.1252000.0754000.26256000.4258000.1125465E X =⨯+⨯+⨯+⨯+⨯=.例2.(2022春·云南昆明·高三云南师大附中校考阶段练习)我校举办“学党史”知识测试活动,每位教师3次测试机会,规定按顺序测试,一旦测试合格就不必参加以后的测试,否则3次测试都要参加.甲教师3次测试每次合格的概率组成一个公差为18的等差数列,他第一次测试合格的概率不超过12,且他直到第二次测试才合格的概率为932,乙教师3次测试每次测试合格的概率均为23,每位教师参加的每次测试是否合格相互独立.(1)求甲教师第一次参加测试就合格的概率P ;(2)设甲教师参加测试的次数为m ,乙教师参加测试的次数为n ,求m n ξ=+的分布列.【解析】(1)由甲教师3次测试每次合格的概率组成一个公差为18的等差数列,又甲教师第一次参加测试就合格的概率为P ,故而甲教师参加第二、三次测试合格的概率分别是18P +、14P +,由题意知,19(1)832P P ⎛⎫-+= ⎪⎝⎭,解得14P =或58P =(舍),所以甲教师第一次参加测试就合格的概率为14.(2)由(1)知甲教师参加第二、三次测试合格的概率分别是38、12,由题意知,ξ的可能取值为2,3,4,5,6,由题意可知121(2)(1,1)436P P m n ξ=====⨯=,11233235(3)(1,2)(2,1)433483144P P m n P m n ξ⎛⎫⎛⎫====+===⨯⨯+⨯⨯= ⎪ ⎪⎝⎭⎝⎭,(4)(1,3)(2,2)(3,1)P P m n P m n P m n ξ====+==+==1113312352584334833483144⎛⎫⎛⎫⎛⎫⎛⎫=⨯+⨯⨯+⨯⨯= ⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,(5)(2,3)(3,2)P P m n P m n ξ====+==33113512134833483396⎛⎫⎛⎫⎛⎫⎛⎫=⨯⨯⨯+⨯⨯⨯= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,35115(6)(3,3)483396P P m n ξ⎛⎫⎛⎫=====⨯⨯⨯= ⎪ ⎪⎝⎭⎝⎭,所以ξ的分布列为:ξ23456P1635144581441396596例3.(2022春·云南曲靖·高三校联考阶段练习)受新冠肺炎疫情的影响,某商场的销售额受到了不同程度的冲击,为刺激消费,该商场开展一项促销活动,凡在商场消费金额满300元的顾客可以免费抽奖一次,抽奖的规则如下:在不透明箱子中装有除颜色外其他都相同的10个小球,其中:红色小球1个,白色小球3个,黄色小球6个,顾客从箱子中依次不放回地摸出3个球,根据摸出球的颜色情况分别进行兑奖.将顾客摸出的3个球的颜色分成以下四种情况:A :1个红球2个白球;B :3个白球;C :恰有1个黄球;D :至少两个黄球,若四种情况按发生的机会从小到大的顺序分别对应一等奖,二等奖,三等奖,不中奖.(1)写出顾客分别获一、二、三等奖时所对应的概率;(2)已知顾客摸出的第一个球是白球,求该顾客获得二等奖的概率;(3)若五名顾客每人抽奖一次,且彼此是否中奖相互独立.记中奖的人数为X ,求X 的分布列和期望.【解析】(1)由题意可得:()()23331010C 3111,C 12040C 120P A P B =====,()1264310C C 363=C 12010P C ==,2()1()()()3P D P A P B P C =---=所以中一等奖的概率为1120,二等奖的概率为140,三等奖的概率为310(2)记事件E 为顾客摸出的第一个球是白球,事件F 为顾客获得二等奖,则()111229C C 1C 18P FE ==∣.(3)由(1)知一名顾客中奖的概率为113112040103P =++=.由题意可得,15,3X B ⎛⎫ ⎪⎝⎭ ,所以()()5512C 1,2,3,4,533i ii P X i i -⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭则分布列为X012345P32243802438024340243102431243()15533E X =⨯=核心考点二:超几何分布与二项分布【规律方法】超几何分布与二项分布是两个非常重要的、应用广泛的概率模型,实际中的许多问题都可以利用这两个概率模型来解决.一般地,在含有M 件产品的N 件产品中,任取n 件,其中恰有X 件次品,则事件{}X k =发生的概率为()P X k ==1(0,1,2,,)k n M N MnNC C k m C --= ,其中min{,}m M n =,且*,,,,n N M N n M N N ∈……,称为超几何分布列.一般地,在n 次独立重复试验中,用X 表示事件A 发生的次数,设每次试验中事件A 发生的概率为P ,则(P X =)(1),0,1,2,,k kn k nk C p p k n -=-= .此时称随机变量X 服从二项分布,记作~(,)X B n p ,并称p 为成功概率.此时有,)EX np DX np p ==-.【典型例题】例4.(2022春·北京·高三北京铁路二中校考阶段练习)2022年2月20日,北京冬奥会在鸟巢落下帷幕,中国队创历史最佳战绩.北京冬奥会的成功举办推动了我国冰雪运动的普及,让越来越多的青少年爱上了冰雪运动,某校组织了一次全校冰雪运动知识竞赛,并抽取了100名参赛学生的成绩制作成如下频率分布表:竞赛得分[]50,60(]60,70(]70,80(]80,90(]90,100频率0.10.10.30.30.2(1)如果规定竞赛得分在(]80,90为“良好”,竞赛得分在(]90,100为“优秀”,从成绩为“良好”和“优秀”的两组学生中,使用分层抽样抽取10个学生,问各抽取多少人?(2)在(1)条件下,再从这10学生中抽取6人进行座谈,求至少有3人竞赛得分都是“优秀”的概率;(3)以这100名参赛学生中竞赛得分为“优秀”的频率作为全校知识竞赛中得分为“优秀”的学生被抽中的概率.现从该校学生中随机抽取3人,记竞赛得分为“优秀”的人数为X ,求随机变量X 的分布列及数学期望.【解析】(1)因为成绩为“良好”和“优秀”的两组频率合计0.5,共50人,抽样比为101505=,所以成绩为“良好”的抽取11000.365⨯⨯=人,成绩为“优秀”的抽取11000.245⨯⨯=人.(2)抽取的6人中至少有3人竞赛得分都是“优秀”可以分成两类:3个优3个良和4个优2个良,故至少有3人竞赛得分都是“优秀”的概率33424646610C C +C C 19C 42P ==.(3)由题意知,X 的可能取值0,1,2,3.由题可知,任意1名学生竞赛得分“优秀”的概率为12011005P ==,竞赛得分不是“优秀”的概率为21141155P P =-=-=.若以频率估计概率,则X 服从二项分布13,5B ⎛⎫ ⎪⎝⎭,()030314640C 55125P X ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭;()121314481C 55125P X ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭;()212314122C 55125P X ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭;()3331413C 55125P X ⎛⎫⎛⎫===⎪ ⎪⎝⎭⎝⎭.故X 的分布列为X123P6412548125121251125数学期望()13355E X =⨯=.例5.(2022·浙江·模拟预测)高尔顿板是英国生物统计学家高尔顿设计用来研究随机现象的模型,在一块木板上钉着若干排相互平行但相互错开的圆柱形小木块,小木块之间留有适当的空隙作为通道,前面挡有一块玻璃.将小球从顶端放入,小球下落的过程中,每次碰到小木钉后都等可能地向左或向右落下,最后落入底部的格子中.如图所示的高尔顿板有7层小木块,小球从通道口落下,第一次与第2层中间的小木块碰撞,以12的概率向左或向右滚下,依次经过6次与小木块碰撞,最后掉入编号为1,2,…,7的球槽内.(1)如图进行一次高尔顿板试验,求小球落入6号球槽的概率;(2)某商场店庆期间利用如图的高尔顿板举行有奖促销活动,顾客只要在商场购物消费每满800元就能得到一次抽奖机会,如消费400元没有抽奖机会,消费900元有一次抽奖机会,消费1700元有两次抽奖机会等,一次抽奖小球掉入m 号球槽得到的奖金为X (元),其中16040X m =-.(ⅰ)求一次抽奖的奖金X (元)的分布列及数学期望()E X ;(ⅱ)已知某顾客在商场消费2000元,设他所得的奖金为Y (元),求()E Y .【解析】(1)记事件A :小球落入6号球槽,需要在6次碰撞中有1次向左,5次向右.所以()1516113C 2232P A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭.(2)(i )记随机变量M :小球掉入m 号球槽,则M 的可能取值为:1,2,3,4,5,6,7.由题意可得()()661117C 264P M P M ⎛⎫===== ⎪⎝⎭;()()6161626C 264P M P M ⎛⎫===== ⎪⎝⎭;()()62611535C 264P M P M ⎛⎫===== ⎪⎝⎭;()6361204C 264P M ⎛⎫=== ⎪⎝⎭;所以M 的分布列为:M 1234567P164664156420641564664164因为16040404X m m =-=-,所以X 的可能取值为:0,40,80,120.其中()()200464P X P M ====,()()()30403564P X P M P M ===+==,()()()12802664P X P M P M ===+==,()()()21201764P X P M P M ===+==.所以一次抽奖的奖金X (元)的分布列为:X4080120P206430641264264所以数学期望为()20301227504080120646464642E X =⨯+⨯+⨯+⨯=.(ii )某顾客在商场消费2000元,可以抽奖2次,所以他所得的奖金为2Y X =.因为()752E X =,所以()()7522752E Y E X ==⨯=.例6.(2022春·四川绵阳·高三绵阳中学校考阶段练习)小区为了加强对“新型冠状病毒”的防控,确保居民在小区封闭期间生活不受影响,小区超市采取有力措施保障居民正常生活物资供应.为做好甲类生活物资的供应,超市对社区居民户每天对甲类生活物资的购买量进行了调查,得到了以下频率分布直方图.(1)从小区超市某天购买甲类生活物资的居民户中任意选取5户.若抽取的5户中购买量在[3,6](单位:kg )的户数为2户,从5户中选出3户进行生活情况调查,记3户中需求量在[3,6](单位:kg )的户数为ξ,求ξ的分布列和期望;(2)将某户某天购买甲类生活物资的量与平均购买量比较,当超出平均购买量不少于0.5kg 时,则该居民户称为“迫切需求户”,若从小区随机抽取10户,且抽到k 户为“迫切需求户”的可能性最大,试求k 的值.【解析】(1)随机变量ξ所有可能的取值为0,1,2.则()3335C 10C 10P ξ===,()213235C C 31C 5P ξ===,()123235C C 32C 10P ξ===,ξ012()P ξ11035310所以()336125105E ξ=⨯+⨯=.(2)根据频率分布直方图可知,每天对甲类生活物资的需求平均值为1.50.102.50.303.50.254.50.205.50.15 3.5⨯+⨯+⨯+⨯+⨯=(kg )则购买甲类生活物资为“迫切需求户”的购买量为[]4,6,从小区随机抽取中随机抽取一户为“迫切需求户”的概率为0.200.150.35p =+=.若从小区随机抽取10户,且抽到X 户为“迫切需求户”,则()~10,0.35X B ,若k 户的可能性最大,则()()1010C 1kkk p P X k p -=-=,0,1,,10k =⋅⋅⋅()()()()11P X k P X k P X k P X k ⎧=≥=-⎪⎨=≥=+⎪⎩,得()()()()()()()()1011111010101911010C 0.350.65C 0.350.65C 0.350.65C 0.350.65k k k k k k k k k k k k -----+-+⎧≥⎪⎨≥⎪⎩,即()()()71113131710k kk k ⎧-≥⎪⎨+≥-⎪⎩,解得2.85 3.85k ≤≤,由于k *∈N ,故3k =.核心考点三:概率与其它知识的交汇问题【规律方法】在知识交汇处设计试题是高考命题的指导思想之一,概率作为高中数学具有实际应用背景的主要内容,除与实际应用问题相交汇,还常与排列组合、函数、数列等知识交汇.求解此类问题要充分理解题意.根据题中已知条件,联系所学知识对已知条件进行转化.这类题型具体来说有两大类:1、所给问题是以集合、函数、立体几何、数列、向量等知识为载体的概率问题.求解时需要利用相关知识把所给问题转化为概率模型,然后利用概率知识求解.2、所给问题是概率问题,求解时有时需要把所求概率转化为关于某一变量的函数,然后利用函数、导数知识进行求解;或者把问题转化为与概率变量有关的数列递推关系式,再通过构造特殊数列求通项或求和.【典型例题】例7.(2022春·上海长宁·高三上海市延安中学校考期中)投掷一枚均匀的骰子,每次掷得的点数为1或6时得2分,掷得的点数为2,3,4,5时得1分;独立地重复掷一枚骰子,将每次得分相加的结果作为最终得分;(1)设投掷2次骰子,最终得分为X ,求随机变量X 的分布与期望;(2)设最终得分为n 的概率为n P ,证明:{}1n n P P --为等比数列,并求数列{}n P 的通项公式;【解析】(1)X 的可能取值为2,3,4,()2242339P x ==⨯=,()12432339P x ==⨯⨯=,()1114339P x ==⨯=,∴ X 的分布列为X234P494919数学期望()44182349993E X =⨯+⨯+⨯=.(2)由题意知()1221333n n n P P P n --=+≥,()11213n n n n P P P P ---∴-=--,212273339P =+⨯=,123P =,2119P P ∴-=,{}1n n P P -∴-是以19为首项,13-为公比的等比数列,()2111293n n n P P n --⎛⎫∴-=⨯-≥ ⎪⎝⎭,∴ 当2n ≥时,()()()121321n n n P P P P P P P P -=+-+-++- 2221111139333n -⎡⎤⎛⎫⎛⎫⎛⎫=+⨯+-+-++-⎢⎥ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎢⎥⎣⎦11121313913n -⎛⎫-- ⎪⎝⎭=+⨯+121113123n -⎡⎤⎛⎫=+--⎢⎥ ⎪⎝⎭⎢⎥⎣⎦13114123n -⎛⎫=-- ⎪⎝⎭,当1n =时,上式也成立,综上:13114123n n P -⎛⎫=-- ⎪⎝⎭.例8.(2022春·湖南长沙·高三校联考阶段练习)如图,一只蚂蚁从单位正方体1111ABCD A B C D -的顶点A 出发,每一步(均为等可能性的)经过一条边到达另一顶点,设该蚂蚁经过n 步回到点A 的概率n p .(I )分别写出12,p p 的值;(II )设顶点A 出发经过n 步到达点C 的概率为n q ,求3n n p q +的值;(III )求n p .【解析】(1)121110,3333p p ==⨯⨯=.(2)由于顶点A 出发经过n 步到达点C 的概率为n q ,则由A 出发经过n 步到达点11,B D 的概率也是n q ,并且由A 出发经过n 步不可能到11,,,A B D C 这四个点,所以当n 为奇数时0n n p q ==,所以30n n p q +=;当n 为偶数时,31n n p q +=.(3)同理,由11,,C B D 分别经2步到点A 的概率都是1122339⨯⨯=,由A 出发经过n 再回到A的路径分为以下四类:①由A 经历2n -步到A ,再经2步回到A ,概率为213n p -;②由A 经历2n -步到C ,再经2步回到A ,概率为229n q -;③由A 经历2n -步到1B ,再经2步回到A ,概率为229n q -;④由A 经历2n -步到1D ,再经2步回到A ,概率为229n q -;所以221233n n n p p q --=+,又31n n p q +=,所以2221121233399n n n n p p p p ----=+⋅=+,即2111494n n p p -⎛⎫-=- ⎪⎝⎭,所以11221111144943nn n p p --⎛⎫⎛⎫⎛⎫-=-=⋅ ⎪⎪⎪⎝⎭⎝⎭⎝⎭,故111143n np -⎡⎤⎛⎫=+⎢⎥ ⎪⎝⎭⎢⎥⎣⎦.综上所述,1111,=2430,21n n n k p n k -⎧⎡⎤⎛⎫+⎪⎢⎥ ⎪=⎝⎭⎨⎢⎥⎣⎦⎪=-⎩.例9.(2022春·山东·高三校联考阶段练习)某公司在一种传染病毒的检测试剂品上加大了研发投入,其研发的检验试剂品α分为两类不同剂型1α和2α.现对其进行两次检测,第一次检测时两类试剂1α和2α合格的概率分别为34和35,第二次检测时两类试剂1α和2α合格的概率分别为45和23.已知两次检测过程相互独立,两次检测均合格,试剂品α才算合格.(1)设经过两次检测后两类试剂1α和2α合格的种类数为X ,求X 的分布列和数学期望;(2)若地区排查期间,一户4口之家被确认为“与确诊患者的密切接触者”,这种情况下医护人员要对其家庭成员逐一使用试剂品α进行检测,如果有一人检测呈阳性,则检测结束,并确定该家庭为“感染高危户”.设该家庭每个成员检测呈阳性的概率均为(01)p p <<且相互独立,该家庭至少检测了3个人才确定为“感染高危户”的概率为()f p ,若当0p p =时,()f p 最大,求0p 的值.【解析】(1)剂型1α合格的概率为:343455⨯=;剂型2α合格的概率为:322535⨯=由题意知X 的所有可能取值为0,1,2.则()3260115525P X ⎛⎫⎛⎫==-⨯-= ⎪ ⎪⎝⎭⎝⎭,()323213111555525P X ⎛⎫⎛⎫==-⨯+⨯-= ⎪ ⎪⎝⎭⎝⎭,()32625525P X ==⨯=,则X 的分布列为X 012P6251325625数学期望()61360121252525E X =⨯+⨯+⨯=.(2)检测3人确定“感染高危户”的概率为()21p p -,检测4人确定“感染高危户”的概率为()31p p -,则()()()()()2321112f p p p p p p p p =-+-=--.令1x p =-,因为01p <<,所以01x <<,原函数可化为()()()22101g x x x x =-<<.因为()()2222211144x x x x ⎡⎤+-⎢⎥⎣⎦-≤=,当且仅当221x x =-,即x =此时1p =,所以01p =核心考点四:期望与方差的实际应用【规律方法】数学期望反映的是随机变量取值的平均水平,而方差则是反映随机变量取值在其平均值附近的离散程度.现代实际生活中,越来越多的决策需要应用数学期望与方差来对事件发生大小的可能性和稳定性进行评估,通过计算分析可以比较科学地得出各个方案的预期效果及出现偏差的大小,从而决定要选择的最佳方案.(1)若我们希望实际的平均水平较理想,则先求随机变量12,ξξ的期望,当12E E ξξ=时,不应认为它们一定一样好,还需要用12,D D ξξ来比较这两个随机变量的方差,确定它们的偏离程度.(2)若我们希望比较稳定性,应先考虑方差,再考虑均值是否相等或接近.(3)方差不是越小就越好,而是要根据实际问题的需要来判断.【典型例题】例10.(2022春·河南·高三期末)根据疫情防控的需要,某地设立进口冷链食品集中监管专仓,集中开展核酸检测和预防性消毒工作,为了进一步确定某批进口冷链食品是否感染病毒,在入关检疫时需要对其进行化验,若结果为阳性,则有该病毒;若结果呈阴性,则没有该病毒.对于()N n n *∈份样本,有以下两种检验方式:一是逐份检验,则需要检验n 次;二是混合检验,将k 份样本分别取样混合在一起,若检验结果为阴性,那么这k 份全为阴性,检验一次就够了;如果检验结果为阳性,为了明确这k 份究竟哪些为阳性,需要对它们再次取样逐份检验,则k 份检验的次数共为1k +1)p <<,而且样本之间是否有该病毒是相互独立的.(1)若取得8份样本,采用逐个检测,发现恰有2个样本检测结果为阳性的概率为()f p ,求()f p 的最大值点0p ;(2)若对取得的8份样本,考虑以下两种检验方案:方案一:采用混合检验;方案二:平均分成两组,每组4份样本采用混合检验,若检验次数的期望值越小,则方案越“优”.若“方案二”比“方案一”更“优”,求p。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7.概率与统计1.随机抽样方法简单随机抽样、系统抽样、分层抽样的共同点是抽样过程中每个个体被抽取的机会相等,且是不放回抽样.[问题1] 某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福社区的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次抽取的总户数为________. 答案 24解析 由抽样比例可知6x =480-200-160480,则x =24.2.对于统计图表问题,求解时,最重要的就是认真观察图表,从中提取有用信息和数据.对于频率分布直方图,应注意的是图中的每一个小矩形的面积是数据落在该区间上的频率.茎叶图没有原始数据信息的损失,但数据很大或有多组数据时,茎叶图就不那么直观、清晰了. [问题2] (2015·湖南)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案 4解析 由题意知,将1~35号分成7组,每组5名运动员,落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.3.在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.平均数的估计值等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和,众数是最高矩形的中点的横坐标.[问题3] 某公司为了解用户对其产品的满意度,随机调查了40个用户,根据用户满意度的评分制成频率分布直方图(如下),则该地区满意度评分的平均值为________.答案 77.5解析 由直方图估计评分的平均值为55×0.05+65×0.2+75×0.35+85×0.25+95×0.15=77.5.4.变量间的相关关系假设我们有如下一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ).线性回归方程y ^=b ^x +a ^,其中⎩⎪⎨⎪⎧b ^=i =1n (x i -x )(y i-y )i =1n (x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i2i -n x2,a ^=y -b ^x .[问题4] 回归直线y ^=b ^x +a ^必经过点________. 答案 (x ,y )5.互斥事件的概率公式P (A +B )=P (A )+P (B ) (1)公式适合范围:事件A 与B 互斥. (2)P (A )=1-P (A ).[问题5] 抛掷一枚骰子,观察掷出的点数,设事件A 为出现奇数点,事件B 为出现2点,已知P (A )=12,P (B )=16,则出现奇数点或2点的概率之和为________.答案 236.古典概型P (A )=mn (其中,n 为一次试验中可能出现的结果总数,m 为事件A 在试验中包含的基本事件个数).[问题6] (2015·广东)已知5件产品中有2件次品,其余为合格品.现从这5件产品中任取2件,恰有一件次品的概率为( ) A .0.4B .0.6C .0.8D .1答案 B解析 5件产品中有2件次品,记为a ,b ,有3件合格品,记为c ,d ,e ,从这5件产品中任取2件,结果有(a ,b ),(a ,c ),(a ,d ),(a ,e ),(b ,c ),(b ,d ),(b ,e ),(c ,d ),(c ,e ),(d ,e )共10种.恰有一件次品的结果有6种,则其概率为p =610=0.6.7.几何概型一般地,在几何区域D 内随机地取一点,记事件“该点在其内部一个区域d 内”为事件A ,则事件A 发生的概率为P (A )=d 的度量D 的度量.此处D 的度量不为0,其中“度量”的意义依D 确定,当D 分别是线段、平面图形和立体图形时,相应的度量分别为长度、面积和体积等. 即P (A )=构成事件A 的区域长度(面积或体积)试验的全部结果所构成的区域长度(面积或体积).[问题7] 在棱长为2的正方体ABCD —A 1B 1C 1D 1中,点O 为底面ABCD 的中心,在正方体ABCD —A 1B 1C 1D 1内随机取一点P ,则点P 到点O 的距离大于1的概率为( ) A.π12 B .1-π12C.π6 D .1-π6答案 B解析 记“点P 到点O 的距离大于1”为A , P (A )=23-12×43π×1323=1-π12. 8.解排列组合问题的常用策略相邻问题捆绑法;相间隔问题插空法;定位问题优先法;多元问题分类法;至多至少问题间接法;相同元素分组可采用隔板法,数量不大时可以逐一排出结果.[问题8] 4个不同的小球放入编号为1、2、3、4的4个盒中,则恰有1个空盒的放法共有________种. 答案 144解析 把4个球分成3组,每组至少1个,即分的小球个数分别为2,1,1的3组,有C 24C 12C 11A 22种.最后将三组球放入4个盒中的3个,有分配方法数A 34种,因此,放法共有C 24C 12C 11A 22×A 34=144(种). 9.二项式系数的性质(1)对称性:C k n =C n -k n (k =0,1,2,…,n ).(2)系数和:C 0n +C 1n +…+C n n =2n ,C 1n +C 3n +C 5n +…=C 0n +C 2n +C 4n +…=2n -1. (3)最值:n 为偶数时,n +1为奇数,中间一项的二项式系数最大且为第(n2+1)项,二项式系数为2C n n;n 为奇数时,(n +1)为偶数,中间两项的二项式系数最大为第n +12项及第n +12+1项,其二项式系数为1122CC.n n nn--=[问题9] 已知(x +1241x )n展开式中,前三项系数成等差数列.(1)求n ;(2)求第三项的二项式系数及该项的系数. 解 (1)前三项系数为1,12C 1n ,14C 2n,成等差数列,所以2×12C 1n=1+14C 2n ,即n 2-9n +8=0,得n =1(舍)或n =8. (2)由n =8可知其通项公式为 T k +1=C k 8(x )8-k·(1241x)k34481()C 0,182k k k x k ⋅⋅⋅-=,=,,,所以第三项的二项式系数为C 28=28, 第三项系数为(12)2C 28=7.10.条件概率 P (A |B )=P (AB )P (B ).[问题10] 设A 、B 为两个事件,若事件A 和B 同时发生的概率为310,在事件A 发生的条件下,事件B 发生的概率为12,则事件A 发生的概率为________.答案 3511.离散型随机变量的均值、方差(1)离散型随机变量的均值、方差:E (X )=x 1p 1+x 2p 2+…+x i p i +…+x n p n 为随机变量X 的均值,D (X )=[x 1-E (X )]2p 1+[x 2-E (X )]2p 2+…+[x n -E (X )]2p n 叫做这个离散型随机变量X 的方差. (2)两点分布与二项分布的均值、方差.①若X 服从两点分布,则E (X )=p ,D (X )=p (1-p ). ②若X ~B (n ,p ),则E (X )=np ,D (X )=np (1-p ).[问题11] 若随机变量ξ的分布列如下表,则E (ξ)的值为________.答案209解析 根据概率之和为1,求出x =118,则E (ξ)=0×2x +1×3x +…+5x =40x =209.12.一般地,如果对于任意实数a <b ,随机变量X 满足P (a <X ≤b )=ʃb a φμ,σ(x )d x ,则称X 的分布为正态分布.正态分布完全由参数μ和σ确定,因此正态分布常记作N (μ,σ2).如果随机变量X 服从正态分布,则记为X ~N (μ,σ2).满足正态分布的三个基本概率的值是①P (μ-σ<X ≤μ+σ)=0.6826;②P (μ-2σ<X ≤μ+2σ)=0.9544;③P (μ-3σ<X ≤μ+3σ)=0.9974. [问题12] 已知随机变量ξ服从正态分布N (2,σ2),且P (ξ<4)=0.8,则P (0<ξ<2)等于( ) A .0.6B .0.4C .0.3D .0.2 答案 C解析 ∵P (ξ<4)=0.8,∴P (ξ>4)=0.2, 由题意知图象的对称轴为直线x =2,P (ξ<0)=P (ξ>4)=0.2,∴P (0<ξ<4)=1-P (ξ<0)-P (ξ>4)=0.6. ∴P (0<ξ<2)=12P (0<ξ<4)=0.3.易错点1 抽样方法理解不准例1 一个总体中100个个体的编号为0,1,2,3,…,99,并依次按其分为10个小组,组号为0,1,2,…,9.要用系统抽样的方法抽取一个容量为10的样本,规定如果第0组(号码0~9)随机抽取的号码为l ,那么依次错位地抽取后面各组的号码,即第k 组中抽取的号码的个位数为l +k 或l +k -10(如果l +k ≥10).若l =6,则所抽取的第5组的号码是________.易错分析 本题易错点有两个:一是忽视题中对组号的描述,误以为第一个号码6为第一组的号码导致错误;二是忽视系统抽样号码抽样法则的制定,误以为组距为10,所以每组抽取号码的个位数都为6.所以解决此类问题,一定要根据题中的条件准确进行编号与抽样. 解析 由题意,第0组抽取的号码为6,则第一组抽取的号码的个位数为6+1=7,所以选17.因为7+1=8,第二组抽取号码的个位数为8,故选28.因为8+1=9,第三组抽取号码的个位数为9,故选39.因为9+1=10≥10,9+1-10=0,第四组抽取号码的个位数为0,故选40. 因为0+1=1,第五组抽取号码的个位数为1,故选51. 答案 51易错点2 误解基本事件的等可能性例2 若将一枚质地均匀的骰子(一种各面上分别标有1,2,3,4,5,6个点的正方体玩具)先后抛掷2次,则出现向上的点数之和为4的概率为________.易错分析 解本题时易出现的错误在于对等可能性事件的概率中“基本事件”以及“等可能性”等概念的理解不深刻,错误地认为基本事件总数为11(点数和等于2,3,4,5,6,7,8,9,10,11,12),或者将点数和为4的事件错误地计算为(1,3)(2,2)两种,从而导致出错.解析 将先后掷2次出现向上的点数记作点坐标(x ,y ),则共可得点坐标的个数为6×6=36,而向上点数之和为4的点坐标有(1,3),(2,2),(3,1),共3个,故先后掷2次,出现向上的点数之和为4的概率P =336=112.故填112.答案112易错点3 几何概型中“测度”确定不准例3 在等腰直角三角形ABC 中,直角顶点为C . (1)在斜边AB 上任取一点M ,求AM <AC 的概率;(2)在∠ACB 的内部,以C 为端点任作一条射线CM ,与线段AB 交于点M ,求AM <AC 的概率.易错分析 本题易出现的问题是混淆几何概型中对事件的度量方式,不注意题中两问中点M 生成方式的差异,误以为该题两问中的几何概型都是用线段的长度来度量造成错解. 解 (1)如图所示,AB =2AC .由于点M 是在斜边AB 上任取的,所以点M 等可能分布在线段AB 上,因此基本事件的区域应是线段AB . 所以P (AM <AC )=AC 2AC =22. (2)由于在∠ABC 内作射线CM ,等可能分布的是CM 在∠ACB 内的任一位置(如图所示),因此基本事件的区域应是∠ACB ,所以P (AM <AC )=∠ACC ′∠ACB=π-π42π2=34.易错点4 互斥事件概念不清例4 对飞机连续射击两次,每次发射一枚炮弹.设A ={两次都击中飞机},B ={两次都没击中飞机},C ={恰有一次击中飞机},D ={至少有一次击中飞机},其中彼此互为互斥事件的是________;互为对立事件的是________.易错分析 对事件互斥意义不明确,对事件的互斥与对立之间的关系不清楚,就会出现错误的判断.对立事件和互斥事件都不可能同时发生,但对立事件必有一个要发生,而互斥事件可能都不发生.所以两个事件对立,则两个事件必是互斥事件;反之,两事件是互斥事件,但未必是对立事件.解析 因为A ∩B =∅,A ∩C =∅,B ∩C =∅,B ∩D =∅,故A 与B ,A 与C ,B 与C ,B 与D 为彼此互斥事件,而B ∩D =∅,B ∪D =Ω,故B 与D 互为对立事件. 答案 A 与B ,A 与C ,B 与C ,B 与D B 与D易错点5 排列、组合问题混淆例5 如图所示,A ,B ,C ,D 是海上的四个小岛,要建三座桥,将这四个岛连接起来,不同的建桥方案共有多少种?易错分析 搞不清几个元素之间有无顺序,混淆排列与组合的区别. 解 由题意可能有两种结构,如图:第一种:,第二种:对于第一种结构,连接方式只需考虑中心位置的情况,共有C 14种方法.对于第二种结构,有C 24A 22种方法. ∴总共有C 14+C 24A 22=16(种).易错点6 概率计算时是否有序理解不清例6 袋子A 和B 中装有若干个均匀的红球和白球,从A 中摸出一个红球的概率是13,从B中摸出一个白球的概率为p .从A 中有放回地摸球,每次摸出一个,有3次摸到红球即停止. (1)求恰好摸5次停止的概率;(2)记5次之内(含5次)摸到红球的次数为ξ,求随机变量ξ的分布列.易错分析 注意题中的摸球是“有放回地”,另外条件“有3次摸到红球即停止”在解题中要充分考虑.解 (1)C 24×(13)2×(23)2×13=881.(2)随机变量ξ的取值为0,1,2,3. 由n 次独立重复试验概率公式P n (k )=C k n p k (1-p )n -k, 得P (ξ=0)=C 05×(1-13)5=32243, P (ξ=1)=C 15×13×(1-13)4=80243, P (ξ=2)=C 25×(13)2×(1-13)3=80243, P (ξ=3)=1-32+80×2243=1781.随机变量的分布列是1.某学校利用系统抽样的方法,从学校高三年级全体1000名学生中抽50名学生做学习状况问卷调查.现将1000名学生从1到1000进行编号,共分50组.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应取的号码是( ) A .177 B .157 C .417 D .367答案 B解析 根据系统抽样法的特点,可知抽取出的编号成首项为17,公差为20的等差数列,所以第8组的编号是17+(8-1)×20=157.2.如图是2016年某大学自主招生面试环节中,七位评委为某考生打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( )A .85,84B .84,85C .86,84D .84,86答案 A解析 由图可知,去掉一个最高分和一个最低分后,所剩数据为84,84,84,86,87. ∴平均数为84+84+84+86+875=85,众数为84.3.从正六边形的6个顶点中随机选择4个顶点,则以它们作为顶点的四边形是矩形的概率等于( ) A.110B.18C.16D.15 答案 D解析 如图所示,从正六边形ABCDEF 的6个顶点中随机选4个顶点,可以看作随机选2个顶点,剩下的4个顶点构成四边形,有A 、B ,A 、C ,A 、D ,A 、E ,A 、F ,B 、C ,B 、D ,B 、E ,B 、F ,C 、D ,C 、E ,C 、F ,D 、E ,D 、F ,E 、F ,共15种.若要构成矩形,只要选相对顶点即可,有A 、D ,B 、E ,C 、F ,共3种,故其概率为315=15.4.(2015·福建)如图,矩形ABCD 中,点A 在x 轴上,点B 的坐标为(1,0),且点C 与点D 在函数f (x )=⎩⎪⎨⎪⎧x +1,x ≥0,-12x +1,x <0的图象上.若在矩形ABCD 内随机取一点,则此点取自阴影部分的概率等于()A.16B.14C.38D.12 答案 B解析 由图形知C (1,2),D (-2,2),∴S 四边形ABCD =6,S 阴=12×3×1=32.∴P =326=14.5.某路段检查站监控录像显示,在某时段内,有1000辆汽车通过该站,现在随机抽取其中的200辆汽车进行车速分析,分析的结果表示为如图所示的频率分布直方图,则估计在这一时段内通过该站的汽车中车速不小于90km/h 的约有________辆.(注:分析时车速均取整数)答案 300解析 由图可知,车速大于等于90 km/h 的车辆未标出频率,而小于90 km/h 的都标出了,故考虑对立事件.由题图知车速小于90 km/h 的汽车总数的频率之和为(0.01+0.02+0.04)×10=0.7,所以车速不小于90 km/h 的汽车总数的频率之和为1-0.7=0.3.因此在这一时段内通过该站的车速不小于90 km/h 的汽车有1 000×0.3=300(辆).6.春节期间,某销售公司每天销售某种取暖产品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=-125,则a ^=________. 答案775解析 由表中数据可得x =-4,y =25,所以线性回归方程y ^=-125x +a ^过点(-4,25),代入方程得25=-125×(-4)+a ^,解得a ^=775.7.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x ,y 的值分别为________,________.答案 6 4解析 x 甲=75+82+84+(80+x )+90+936=85,解得x =6,由题图可知y =4.8.从2男3女共5名同学中任选2名(每名同学被选中的机会均等),这2名都是男生或都是女生的概率为______. 答案 25解析 设2名男生为A ,B,3名女生为a ,b ,c ,则从5名同学中任取2名的方法有(A ,B ),(A ,a ),(A ,b ),…,(b ,c ),共10种,而这2名同学刚好是一男一女的有(A ,a ),(A ,b ),(A ,c ),(B ,a ),(B ,b ),(B ,c ),共6种,故所求概率为1-610=25. 9.已知某人投篮的命中率为34,则此人投篮4次,至少命中3次的概率是________. 答案 189256解析 该人投篮4次,命中3次的概率为P 1=C 34⎝⎛⎭⎫343⎝⎛⎭⎫1-34=2764; 该人投篮4次,命中4次的概率为P 2=C 44⎝⎛⎭⎫344=81256, 故至少命中3次的概率是P =2764+81256=189256. 10.某校校庆,各届校友纷至沓来,某班共来了n 位校友(n >8,且n ∈N *),其中女校友6位,组委会对这n 位校友登记制作了一份校友名单,现随机从中选出2位校友代表,若选出的2位校友是一男一女,则称为“最佳组合”.(1)若随机选出的2位校友代表为“最佳组合”的概率不小于12,求n 的最大值; (2)当n =12时,设选出的2位校友代表中女校友人数为X ,求随机变量X 的分布列和均值E (X ). 解 (1)由题意可知,所选2人为“最佳组合”的概率为C 1n -6C 16C 2n =12(n -6)n (n -1), 则12(n -6)n (n -1)≥12. 化简得n 2-25n +144≤0,解得9≤n ≤16,故n 的最大值为16.(2)由题意可得,X 的可能取值为0,1,2.则P (X =0)=C 26C 212=522,P (X =1)=C 16C 16C 212=611,P (X =2)=C 26C 212=522, X 的分布列为∴E (X )=0×522+1×611+2×522=1.。

相关文档
最新文档