概率与统计专题及答案
概率与统计专题
【例1】为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到等高条形图如图所示,根据图中信息,在下列各项中,说法最佳的一项是()
A.药物B的预防效果优于药物A的预防效果B.药物A、B对该疾病均没有预防效果
C.药物A、B对该疾病均有显著的预防效果D.药物A的预防效果优于药物B的预防效果
【例2】某市为创建全国文明城市,推出“行人闯红灯系统建设项目”,将针对闯红灯行为进行曝光.交警部门根据某十字路口以往的监测数据,从穿越该路口的行人中随机抽查了200人,得到如图示的列联表:
闯红灯不闯红灯合计
年龄不超过45岁67480
年龄超过45岁2496120
合计30170200
(1)能否有97.5%的把握认为闯红灯行为与年龄有关?
(2)下图是某路口监控设备抓拍的5个月内市民闯红灯人数的统计图.请建立y与x的回归方程?
??
=+,并估计该路口6月份闯红灯人数.
y bx a
附:()
()()()()
2
2n ad bc K a b c d a c b d -=++++
1
2
2
1
?n
i i
i n
i
i x y
nx y b
x
nx
==-=-∑∑,??a
y bx =- ()2P K k ≥
0.050 0.025 0.010 0.005 0.001 k
3.841
5.024
6.635
7.879
10.828
参考数据:
5
21
685i
i y
==∑,5
1
1966i i i x y ==∑
【评析】求解线性回归方程的3步骤
【例3】 为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1 2 3
4 5 6 7 8
经计算得16119.9716i i x x ===∑,0.212s ==≈,
18.439≈,16
1
()(8.5) 2.78i i x x i =--=-∑,
其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =???. (1)求(,)i
x i (1,2,,16)i =???的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(,)i i x y (1,2,,)i n =???的相关系数()()
n
i
i
x x y y r --=
∑0.09≈.
【例4】 某校从参加某次知识竞赛的同学中,选取60名同学将其成绩(百分制,均为整数)分成[4050),,[5060),,[6070),,[7080),,[8090),,[90100],六组后,得到部分频率分布直方图(如图),观察图形
中的信息,回答下列问题:
,内的频率,并补全这个频率分布直方图;
(1)求分数[7080)
(2)从频率分布直方图中,估计本次考试成绩的中位数;
(3)若从第1组和第6组两组学生中,随机抽取2人,求所抽取2人成绩之差的绝对值大于10的概率. 【例5】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
超过不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,
【例6】 某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验,设每件产品为不合格品的概率都为,且各件产品是否为不合格品相互独
立.
(1)记20件产品中恰有2件不合格品的概率为
,求
的最大值点.
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的作为的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用. (i )若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为,求
;
(ii )以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
【例7】 某校高三实验班的60名学生期中考试的语文、数学成绩都在[]100,150内,其中语文成绩分组区
间是:[)100,110,[)110,120,[)120130
,,[)130140,,[]140,150.其成绩的频率分布直方图如图所示,这60名学生语文成绩某些分数段的人数x 与数学成绩相应分数段的人数y 之比如下表所示: 分组区间
[)100,110
[)110,120
[)120130, [)130140
, []140,150
:x y
1:2
2:1
3:5
3:4
语文人数x 24 3 数学人数y
12
4
(1)求图中a 的值及数学成绩在[)130140
,的人数; (2)语文成绩在[]140,150的3名学生均是女生,数学成绩在[]140,150的4名学生均是男生,现从这7
名学生中随机选取4名学生,事件M 为:“其中男生人数不少于女生人数”,求事件M 发生的概率; (3)若从数学成绩在[]
130,150的学生中随机选取2名学生,且这2名学生中数学成绩在[]140,150的人数为X ,求X 的分布列和数学期望()E X . 求解离散型随机变量的数学期望的一般步骤为:
第一步是“判断取值”,即判断随机变量的所有可能取值,以及取每个值所表示的意义;
第二步是“探求概率”,即利用排列组合、枚举法、概率公式(常见的有古典概型公式、几何概型公式、互斥事件的概率和公式、独立事件的概率积公式,以及对立事件的概率公式等),求出随机变量取每个值时的概率;
第三步是“写分布列”,即按规范形式写出分布列,并注意用分布列的性质检验所求的分布列或某事件的概率是否正确;
第四步是“求期望值”,一般利用离散型随机变量的数学期望的定义求期望的值,对于有些实际问题中的随机变量,如果能够断定它服从某常见的典型分布(如二项分布(,)X B n p :),则此随机变量的期望可直接利用这种典型分布的期望公式(()E X np =)求得.因此,应熟记常见的典型分布的期望公式,可加快解题速度.
【例1】 为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm ).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布2
(,)N μσ.
(1)假设生产状态正常,记X 表示一天内抽取的16个零件中其尺寸在(3,3)μσμσ-+之外的零件数,求(1)P X ≥及X 的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(3,3)μσμσ-+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性; (ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
6 3 2 4
5
经计算得16119.9716i i x x ===∑,16162
22211
11()(16)0.2121616i i i i s x x x x ===-=-≈∑∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =???.用样本平均数x 作为μ的估计值?μ
,用样本标准差s 作为σ的估计值?σ,利用估计值判断是否需对当天的生产过程进行检查?剔除????(3,3)μσμσ-+之外的数据,用剩下的数据估计
μ和σ(精确到0.01).
附:若随机变量Z 服从正态分布2(,)N μσ,则(33)0.997 4P Z μσμσ-<<+=,
160.997 40.959 2=,0.0080.09≈.
【例2】 一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t (分钟)和答对人数y 的统计表格如下: 时间t (分钟) 10 20 30 40 50 60 70 80 90 100 答对人数y
98 70 52 36 30 20 15 11 5 5 lg y
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t 与答对人数y 的散点图如图:
附:
2
38500i
t
=∑,342i y =∑,lg 13.5i y =∑,10960i i t y =∑,lg 620.9i i t y =∑,对于一组数据
()11,u v ,()22,u v ,……,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:
μ12
2
1
n
i i i n
i
i u v nuv
u
nu
β
==-=-∑∑,μμv u α
β=-.请根据表格数据回答下列问题: (1)根据散点图判断,y at b =+与lg y ct d =+,哪个更适宣作为线性回归类型?(给出判断即可,不
必说明理由)
(2)根据(1)的判断结果,建立y 与t 的回归方程;(数据保留3位有效数字)
(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 20.3≈,
lg30.48≈)
【例3】 2017年3月郑州市被国务院确定为全国46个生活垃圾分类处理试点城市之一,此后由郑州市城市管理局起草公开征求意见,经专家论证,多次组织修改完善,数易其稿,最终形成《郑州市城市生活垃圾分类管理办法》(以下简称《办法》).《办法》已于2019年9月26日被郑州市人民政府第35次常务会议审议通过,并于2019年12月1日开始施行.《办法》中将郑州市生活垃圾分为厨余垃圾、可回收垃圾、有害垃圾和其他垃圾4类.为了获悉高中学生对垃圾分类的了解情况,某中学设计了一份调查问卷,500名
学生参加测试,从中随机抽取了100名学生问卷,记录他们的分数,将数据分成7组:[20)30,,[30)40,,…,
[80]90,,并整理得到如下频率分布直方图:
(1)从总体的500名学生中随机抽取一人,估计其分数不低于60的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40)50,
内的学生人数, (3)学校环保志愿者协会决定组织同学们利用课余时间分批参加“垃圾分类,我在实践”活动,以增强学生的环保意识.首次活动从样本中问卷成绩低于40分的学生中随机抽取2人参加,已知样本中分数小于40的5名学生中,男生3人,女生2人,求抽取的2人中男女同学各1人的概率是多少?
【例4】 已知某单位甲、乙、丙三个部门的员工人数分别为24,16,16.现采用分层抽样的方法从中抽取
7人,进行睡眠时间的调查.
(I )应从甲、乙、丙三个部门的员工中分别抽取多少人?
(II )若抽出的7人中有4人睡眠不足,3人睡眠充足,现从这7人中随机抽取3人做进一步的身体检查. (i )用X 表示抽取的3人中睡眠不足的员工人数,求随机变量X 的分布列与数学期望;
(ii )设A 为事件“抽取的3人中,既有睡眠充足的员工,也有睡眠不足的员工”,求事件A 发生的概率. 【评析】本题主要在考查超几何分布和分层抽样.超几何分布描述的是不放回抽样问题,随机变量为抽到的某类个体的个数.超几何分布的特征是:①考查对象分两类;②已知各类对象的个数;③从中抽取若干个个体,考查某类个体个数X 的概率分布,超几何分布主要用于抽检产品、摸不同类别的小球等概率模型,其实质是古典概型.进行分层抽样的相关计算时,常利用以下关系式巧解:(1) ;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
【例5】 在2019年女排世界杯中,中国女子排球队以11连胜的优异战绩成功夺冠,为祖国母亲七十华诞献上了一份厚礼.排球比赛采用5局3胜制,前4局比赛采用25分制,每个队只有赢得至少25分,并同时超过对方2分时,才胜1局;在决胜局(第五局)采用15分制,每个队只有赢得至少15分,并领先对方2分为胜.在每局比赛中,发球方赢得此球后可得1分,并获得下一球的发球权,否则交换发球权,并且对方得1分.现有甲乙两队进行排球比赛:
(1)若前三局比赛中甲已经赢两局,乙赢一局.接下来两队赢得每局比赛的概率均为1
2
,求甲队最后赢得整场比赛的概率;
(2)若前四局比赛中甲、乙两队已经各赢两局比赛.在决胜局(第五局)中,两队当前的得分为甲、乙各14分,且甲已获得下一发球权.若甲发球时甲赢1分的概率为
25,乙发球时甲赢1分的概率为3
5
,得分者获得下一个球的发球权.设两队打了(4)x x ≤个球后甲赢得整场比赛,求x 的取值及相应的概率p (x ).
【例6】 某城市100户居民的月平均用电量(单位:度),以[)160,180,[)180,200,[)200,220,[
)220,240,
[)240,260,[)260,280,[]280,300分组的频率分布直方图如图.
(1)求直方图中的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[)220,240,[)240,260,[)260,280,[]
280,300的四组用户中,用分层抽样的方法抽取
户居民,则月平均用电量在[
)220,240的用户中应抽取多少户?
【例7】 有如下四个命题:
①甲乙两组数据分别为甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44. ②相关系数
,表明两个变量的相关性较弱.
③若由一个22列联表中的数据计算得的观测值
,那么有95%的把握认为两个变量有关.
④用最小二乘法求出一组数据的回归直线方程
后要进行残差分析,相应于
数据
的残差是指
.
以上命题“错误”的序号是_________________
【例8】 如表是我国2012年至2018年国内生产总值(单位:万亿美元)的数据: 年份 2012 2013 2014 2015 2016 2017 2018 年份代号x 1
2
3
4
5
6
7
国内生产总值y
(单位:万亿美元)
8.5
9.6 10.4 11 11.1 12.1 13.6
(1)从表中数据可知x 和y 线性相关性较强,求出以x 为解释变量y 为预报变量的线性回归方程; (2)已知美国2018年的国内生产总值约为20.5万亿美元,用(1)的结论,求出我国最早在那个年份才能赶
上美国2018年的国内生产总值? 参考数据:7
1
76.3i i y ==∑,7
1
326.2i i i y x ==∑
参考公式:回归方程y bx a =+$$$中斜率和截距的最小二乘估计公式分别为:
()()(
)
1
12
2
2
1
1
n
n
i
i i i i i n
n
i
i
i i y
y x x
y x nyx
b
x x x
nx
====---==
--∑∑∑∑$,a y bx =-$$.
针对训练
一、选择题
1. 某高校调查了320名学生每周的自习时间(单位:小时),制成了下图所示的频率分布直方图,其中自
习时间的范围是[]17.530,
,样本数据分组为[]17.520,,[]2022.5,,[]22.525,,[]2527.5,,[]27.530,.根据直方图,这320名学生中每周的自习时间不足22.5小时的人数是( )
A .68
B .72
C .76
D .80
2. 某学生5次考试的成绩(单位:分)分别为85,67,m ,80,93,其中0m >,若该学生在这5次考试中成绩的中位数为80,则得分的平均数不可能为( )
A .70
B .75
C .80
D .85
3. 新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考).其中“选择考”成绩将计入高考总成绩,即“选择考”成绩根据学生考试时的原始卷面分数,由高到低进行排序,评定为A 、B 、C 、D 、E 五个等级.某试点高中2018年参加“选择考”总人数是2016年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2016年和2018年“选择考”成绩等级结果,得到如下图表:
针对该校“选择考”情况,2018年与2016年比较,下列说法正确的是( ) A .获得A 等级的人数减少了 B .获得B 等级的人数增加了1.5倍 C .获得D 等级的人数减少了一半 D .获得E 等级的人数相同
4. 某地有两个国家AAAA 级旅游景区——甲景区和乙景区.相关部门统计了这两个景区2019年1月至6月的月客流量(单位:百人),得到如图所示的茎叶图.关于2019年1月至6月这两个景区的月客流量,以下结论错误..
的是( )
A .甲景区月客流量的中位数为12950人
B .乙景区月客流量的中位数为12450人
C .甲景区月客流量的极差为3200人
D .乙景区月客流量的极差为3100人
5. 已知变量x 、y 之间的线性回归方程为0.710.3y x =-+,且变量x 、y 之间的一-组相关数据如下表所示,则下列说法错误..
的是( ) x
6 8
10 12
y
6
m
3
2
A .可以预测,当20x =时, 3.7y =-
B .4m =
C .变量x 、y 之间呈负相关关系
D .该回归直线必过点()9,4
二、填空题
6. 某工厂为了解产品的生产情况,随机抽取了100个样本.若样本数据1x ,2x ,…,100x 的方差为16,则数据121x -,221x -,…,10021x -的方差为______. 7. 一台仪器每启动一次都随机地出现一个位的二进制数
,其中的各位数字中,