第17讲 统计与统计案例-2021届高考数学(理)培优专题提升训练(解析版)

合集下载

专题07 概率与统计-2021年高考数学(理)试题分项版解析(解析版)

专题07 概率与统计-2021年高考数学(理)试题分项版解析(解析版)

1.【2017课标1,理】如图,正方形ABCD内的图形来自中国古代的太极图.正方形内切圆中的黑色部分和白色部分关于正方形的中心成中心对称.在正方形内随机取一点,则此点取自黑色部分的概率是A.14B.π8C.12D.π4【答案】B【解析】【考点】几何概型【名师点睛】对于几何概型的计算,首先确定事件类型为几何概型并确定其几何区域(长度、面积、体积或时间),其次计算基本事件区域的几何度量和事件A区域的几何度量,最后计算()P A.学科@网2.【2017课标3,理3】某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是 A .月接待游客量逐月增加 B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳 【答案】A 【解析】【考点】 折线图【名师点睛】将频率分布直方图中相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率折线图,频率分布折线图的的首、尾两端取值区间两端点须分别向外延伸半个组距,即折线图是频率分布直方图的近似,他们比频率分布表更直观、形象地反映了样本的分布规律.A .1E()ξ<2E()ξ,1D()ξ<2D()ξB .1E()ξ<2E()ξ,1D()ξ>2D()ξC .1E()ξ>2E()ξ,1D()ξ<2D()ξD .1E()ξ>2E()ξ,1D()ξ>2D()ξ【答案】A 【解析】 试题分析:112212(),(),()()E p E p E E ξξξξ==∴<111222121212()(1),()(1),()()()(1)0D p p D p p D D p p p p ξξξξ=-=-∴-=---<,选A .【考点】 两点分布【名师点睛】求离散型随机变量的分布列,首先要根据具体情况确定X 的取值情况,然后利用排列,组合与概率知识求出X 取各个值时的概率.对于服从某些特殊分布的随机变量,其分布列可以直接应用公式给出,其中超几何分布描述的是不放回抽样问题,随机变量为抽到的某类个体的个数.由已知本题随机变量i ξ服从两点分布,由两点分布均值与方差公式可得A 正确.4.【2017山东,理5】为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为 (A )160 (B )163 (C )166 (D )170 【答案】C【解析】试题分析:由已知22.5,160,160422.570,42470166x y a y ==∴=-⨯==⨯+= ,选C. 【考点】线性相关与线性回归方程的求法与应用.【名师点睛】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数r 公式求出r ,然后根据r 的大小进行判断.求线性回归方程时在严格按照公式求解时,一定要注意计算的准确性.5.【2017山东,理8】从分别标有1,2,⋅⋅⋅,9的9张卡片中不放回地随机抽取2次,每次抽取1张.则抽到的2张卡片上的数奇偶性不同的概率是 (A )518 (B )49 (C )59(D )79 【答案】C【考点】古典概型【名师点睛】概率问题的考查,侧重于对古典概型和对立事件的概率考查,属于简单题.江苏对古典概型概率考查,注重事件本身的理解,淡化计数方法.因此先明确所求事件本身的含义,然后一般利用枚举法、树形图解决计数问题,而当正面问题比较复杂时,往往采取计数其对立事件. 学科@网6.【2017课标II ,理13】一批产品的二等品率为0.02,从这批产品中每次随机取一件,有放回地抽取100次,X 表示抽到的二等品件数,则D X = 。

统计案例(精讲)(提升版)(原卷版)

统计案例(精讲)(提升版)(原卷版)

8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。

高考数学二轮复习讲义(新高考版)专题5培优点17概率与统计的创新题型(学生版+解析)

高考数学二轮复习讲义(新高考版)专题5培优点17概率与统计的创新题型(学生版+解析)

培优点17 概率与统计的创新题型概率统计问题在近几年的高考中背景取自现实,题型新颖,综合性增强,难度加深,掌握此类问题的解题策略在高考中就显得非常重要.【典例】 (2020·青岛模拟)某网络购物平台每年11月11日举行“双十一”购物节,当天有多项优惠活动,深受广大消费者喜爱.(1)已知该网络购物平台近5年“双十一”购物节当天成交额如表所示:求成交额y (百亿元)与时间变量x (记2016年为x =1,2017年为x =2,…依次类推)的线性回归方程,并预测2021年该平台“双十一”购物节当天的成交额(百亿元);(2)在2021年“双十一”购物节前,某同学的爸爸、妈妈计划在该网络购物平台上分别参加A ,B 两店各一个订单的“秒杀”抢购,若该同学的爸爸、妈妈在A ,B 两店订单“秒杀”成功的概率分别为p ,q ,记该同学的爸爸和妈妈抢购到的订单总数量为X . ①求X 的分布列及E (X );②已知每个订单由k (k ≥2,k ∈N *)件商品W 构成,记该同学的爸爸和妈妈抢购到商品W 的总数量为Y ,假设p =7sin πk 4k -πk 2,q =sinπk4k,求E (Y )取最大值时正整数k 的值.【拓展训练】一种掷骰子走跳棋的游戏:棋盘上标有第0站、第1站、第2站…第100站,共101站,设棋子跳到第n站的概率为P n,一枚棋子开始在第0站,棋手每掷一次骰子,棋子向前跳动一次.若掷出奇数点,棋子向前跳一站;若掷出偶数点,棋子向前跳两站,直到棋子跳到第99站(获胜)或第100站(失败)时,游戏结束(骰子是用一种均匀材料做成的立方体形状的游戏玩具,它的六个面分别标有点数1,2,3,4,5,6).(1)求P0,P1,P2,并根据棋子跳到第n站的情况,试用P n-2和P n-1表示P n;(2)求证:{P n-P n-1}(n=1,2,…,99)为等比数列;(3)求玩该游戏获胜的概率.培优点17 概率与统计的创新题型概率统计问题在近几年的高考中背景取自现实,题型新颖,综合性增强,难度加深,掌握此类问题的解题策略在高考中就显得非常重要.【典例】 (2020·青岛模拟)某网络购物平台每年11月11日举行“双十一”购物节,当天有多项优惠活动,深受广大消费者喜爱.(1)已知该网络购物平台近5年“双十一”购物节当天成交额如表所示:求成交额y (百亿元)与时间变量x (记2016年为x =1,2017年为x =2,…依次类推)的线性回归方程,并预测2021年该平台“双十一”购物节当天的成交额(百亿元);(2)在2021年“双十一”购物节前,某同学的爸爸、妈妈计划在该网络购物平台上分别参加A ,B 两店各一个订单的“秒杀”抢购,若该同学的爸爸、妈妈在A ,B 两店订单“秒杀”成功的概率分别为p ,q ,记该同学的爸爸和妈妈抢购到的订单总数量为X . ①求X 的分布列及E (X );②已知每个订单由k (k ≥2,k ∈N *)件商品W 构成,记该同学的爸爸和妈妈抢购到商品W 的总数量为Y ,假设p =7sin πk 4k -πk 2,q =sinπk4k ,求E (Y )取最大值时正整数k 的值.【解析】解 (1)由已知可得 x =1+2+3+4+55=3,y =9+12+17+21+275=17.2,i y i =1×9+2×12+3×17+4×21+5×27=303, 2i=12+22+32+42+52=55. 所以b ^=303-5×3×17.255-5×32=4510=4.5,所以a ^=y -b ^x =17.2-4.5×3=3.7, 所以y ^=4.5x +3.7.当x =6时,y ^=4.5×6+3.7=30.7(百亿元),所以预测2021年该平台“双十一”购物节当天的成交额为30.7百亿元.(2)①由题意知,X 的所有可能取值为0,1,2. P (X =0)=(1-p )(1-q ), P (X =1)=(1-p )q +(1-q )p , P (X =2)=pq . 所以X 的分布列为E (X )=0×(1-p )(1-q )+(p +q -2pq )+2pq =p +q . ②因为Y =kX ,所以E (Y )=kE (X )=k (p +q ) =k ⎝ ⎛⎭⎪⎫7sin πk 4k -πk 2+sin πk 4k =2sin πk -πk . 令t =1k ∈⎝⎛⎦⎤0,12, 设f (t )=2sin πt -πt ,则E (Y )=f (t ).因为f ′(t )=2πcos πt -π=2π⎝⎛⎭⎫cos πt -12,且πt ∈⎝⎛⎦⎤0,π2,所以,当t ∈⎝⎛⎭⎫0,13时,f ′(t )>0, 所以f (t )在区间⎝⎛⎭⎫0,13上单调递增; 当t ∈⎝⎛⎭⎫13,12时,f ′(t )<0, 所以f (t )在区间⎝⎛⎭⎫13,12上单调递减, 所以,当t =13时,f (t )max =3-π3,即E (Y )取最大值时,正整数k 的值为3.【方法总结】概率统计问题考查学生的数据分析能力,要从已知数表中经过阅读分析判断获取关键信息,搞清各数据、各事件间的关系,建立适当的数学模型.【拓展训练】一种掷骰子走跳棋的游戏:棋盘上标有第0站、第1站、第2站…第100站,共101站,设棋子跳到第n 站的概率为P n ,一枚棋子开始在第0站,棋手每掷一次骰子,棋子向前跳动一次.若掷出奇数点,棋子向前跳一站;若掷出偶数点,棋子向前跳两站,直到棋子跳到第99站(获胜)或第100站(失败)时,游戏结束(骰子是用一种均匀材料做成的立方体形状的游戏玩具,它的六个面分别标有点数1,2,3,4,5,6).(1)求P 0,P 1,P 2,并根据棋子跳到第n 站的情况,试用P n -2和P n -1表示P n ; (2)求证:{P n -P n -1}(n =1,2,…,99)为等比数列;(3)求玩该游戏获胜的概率.【解析】(1)解 棋子开始在第0站是必然事件,所以P 0=1.棋子跳到第1站,只有一种情形,第一次掷骰子出现奇数点,其概率为12,所以P 1=12.棋子跳到第2站,包括两种情形,①第一次掷骰子出现偶数点,其概率为12;②前两次掷骰子都出现奇数点,其概率为14,所以P 2=12+14=34.棋子跳到第n (2≤n ≤99)站,包括两种情形,①棋子先跳到第n -2站,又掷骰子出现偶数点,其概率为12P n -2;②棋子先跳到第n -1站,又掷骰子出现奇数点,其概率为12P n -1.故P n =12P n -2+12P n -1(2≤n ≤99,n ∈N *).棋子跳到100站只有一种情况,棋子先跳到第98站,又掷骰子出现偶数点,其概率为12P 98,所以P 100=12P 98.(2)证明 由(1)知,当2≤n ≤99时, P n =12P n -2+12P n -1,所以P n -P n -1=-12(P n -1-P n -2).又因为P 1-P 0=-12,所以{P n -P n -1}(n =1,2,…,99)是首项为-12,公比为-12的等比数列.(3)解 由(2)知,P n -P n -1=-12⎝⎛⎭⎫-12n -1=⎝⎛⎭⎫-12n. 所以P 99=(P 99-P 98)+(P 98-P 97)+…+(P 1-P 0)+P 0 =⎝⎛⎭⎫-1299+⎝⎛⎭⎫-1298+…+⎝⎛⎭⎫-12+1 =⎝⎛⎭⎫-12⎣⎡⎦⎤1-⎝⎛⎭⎫-12991-⎝⎛⎭⎫-12+1=23⎝⎛⎭⎫1-12100. 所以玩该游戏获胜的概率为23⎝⎛⎭⎫1-12100.。

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

2013年高考第二轮复习数学江西理科专题升级训练17 概率、统计与统计案例专题升级训练卷(附答案).pdf

2013年高考第二轮复习数学江西理科专题升级训练17 概率、统计与统计案例专题升级训练卷(附答案).pdf

专题升级训练17 概率、统计与统计案例 (时间:60分钟 满分:100分)一、选择题(本大题共6小题,每小题6分,共36分) 1.从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( ). A.不全相等 B.均不相等 C.都相等,且为 D.都相等,且为 2.已知x与y之间的一组数据: x0123y1357则y与x的线性回归方程=+x必过点( ). A.(2,2) B.(1.5,0) C.(1,2) D.(1.5,4) 3.向假设的三座相互毗邻的军火库投掷一颗炸弹,只要炸中其中任何一座,另外两座也要发生爆炸.已知炸中第一座军火库的概率为0.2,炸中第二座军火库的概率为0.3,炸中第三座军火库的概率为0.1,则军火库发生爆炸的概率是( ). A.0.006 B.0.4 C.0.5 D.0.6 4.在区间[-2,2]内任取两数a,b,使函数f(x)=x2+2bx+a2有两相异零点的概率是( ). A. B. C. D. 5.在样本的频率分布直方图中,共有11个小长方形,若中间一个长方形的面积等于其他10个小长方形面积和的,且样本容量为160,则中间一组的频数为( ). A.32 B.0.2 C.40 D.0.25 6.从标有1,2,3,…,7的7个小球中取出一球,记下它上面的数字,放回后再取出一球,记下它上面的数字,然后把两数相加得和,则取得的两球上的数字之和大于11或者能被4整除的概率是( ). A. B. C. D. 二、填空题(本大题共3小题,每小题6分,共18分) 7.某校有高一学生400人,高二学生302人,高三学生250人,现在按年级分层抽样,从所有学生中抽取一个容量为190人的样本,应该从高______学生中剔除______人,高一、高二、高三抽取的人数依次是________. 8.现有10个数,它们能构成一个以1为首项,-3为公比的等比数列,若从这10个数中随机抽取一个数,则它小于8的概率是__________. 9.已知实数x∈[-1,1],y∈[0,2],则点P(x,y)落在区域内的概率为__________. 三、解答题(本大题共3小题,共46分.解答应写出必要的文字说明、证明过程或演算步骤) 10.(本小题满分15分)(2012·江西八校联考,理17)某公司举办一次募捐爱心演出,有1 000人参加,每人一张门票,每张100元.在演出过程中穿插抽奖活动,第一轮抽奖从这1 000张票根中随机抽取10张,其持有者获得价值1000元的奖品,并参加第二轮抽奖活动.第二轮抽奖由第一轮获奖者独立操作按钮,电脑随机产生两个数x,y(x,y∈{0,1,2,3}),满足|x-1|+|y-2|≥3电脑显示“中奖”,且抽奖者获得9 000元奖金;否则电脑显示“谢谢”,则不中奖. (1)已知小明在第一轮抽奖中被抽中,求小明在第二轮抽奖中获奖的概率; (2)若小白参加了此次活动,求小白参加此次活动收益的期望. 11.(本小题满分15分)设ξ为随机变量,从棱长为1的正方体的12条棱中任取两条,当两条棱相交时,ξ=0;当两条棱平行时,ξ的值为两条棱之间的距离;当两条棱异面时,ξ=1. (1)求概率P(ξ=0); (2)求ξ的分布列,并求其数学期望E(ξ). 12.(本小题满分16分)某单位招聘面试,每次从试题库中随机调用一道试题.若调用的是A类型试题,则使用后该试题回库,并增补一道A类型试题和一道B类型试题入库,此次调题工作结束;若调用的是B类型试题,则使用后该试题回库,此次调题工作结束.试题库中现有n+m道试题,其中有n道A类型试题和m道B类型试题.以X表示两次调题工作完成后,试题库中A类型试题的数量. (1)求X=n+2的概率; (2)设m=n,求X的分布列和均值(数学期望).一、选择题 1.C 2.D 3.D 解析:设A,B,C分别表示炸中第一、第二、第三座军火库这三个事件,则P(A)=0.2,P(B)=0.3,P(C)=0.1.设D表示“军火库爆炸”,则D=A∪B∪C.又∵A,B,C彼此互斥,∴P(D)=P(A∪B∪C)=P(A)+P(B)+P(C)=0.2+0.3+0.1=0.6. 4.D 5.A 解析:设中间的长方形面积为x,则其他的10个小长方形的面积为4x,所以可得x+4x=1,得x=0.2;又因为样本容量为160,所以中间一组的频数为160×0.2=32,故选A. 6.A 二、填空题 7.二 2 80,60,50 解析:总体人数为400+302+250=952(人),∵=5……2,=80,=60,=50,∴从高二年级中剔除2人.从高一,高二,高三年级中分别抽取80人、60人、50人. 8. 解析:∵以1为首项,-3为公比的等比数列的10个数为1,-3,9,-27,…,其中有5个负数,1个正数一共6个数小于8,∴从这10个数中随机抽取一个数,它小于8的概率是=. 9. 解析:如图所示,(x,y)在矩形ABCD内取值,不等式组所表示的区域为△AEF,由几何概型的概率公式,得所求概率为. 三、解答题 10.解:(1)从0,1,2,3四个数字中(可重复)任取2个数字,其基本事件有(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(1,3),(2,0),(2,1),(2,2),(2,3),(3,0),(3,1),(3,2),(3,3),共16个. 设“小明在第二轮抽奖中获奖”为事件A,且事件A所包含的基本事件有(0,0),(2,0),(3,0),(3,1),(3,3),共5个. ∴P(A)=. (2)设小白参加此次活动的收益为ξ,ξ的可能取值为-100,900,9 900. 则P(ξ=-100)=,P(ξ=900)=×=,P(ξ=9 900)=×=. ∴ξ的分布列为 ξ-1009009 900P∴E(ξ)=-100×+900×+9 900×=-. 11.解:(1)若两条棱相交,则交点必为正方体8个顶点中的1个,过任意1个顶点恰有3条棱,所以共有8对相交棱,因此P(ξ=0)===. (2)若两条棱平行,则它们的距离为1或,其中距离为的共有6对,故P(ξ=)==, 于是P(ξ=1)=1-P(ξ=0)-P(ξ=)=1--=, 所以随机变量ξ的分布列是 ξ01P(ξ)因此E(ξ)=1×+×=. 12.解:以Ai表示第i次调题调用到A类型试题,i=1,2. (1)P(X=n+2)=P(A1A2)=·=. (2)X的可能取值为n,n+1,n+2. P(X=n)=P()=·=. P(X=n+1)=P(A1)+P(A2)=·+·=, P(X=n+2)=P(A1A2)=·=, 从而X的分布列是 Xnn+1n+2PE(X)=n×+(n+1)×+(n+2)×=n+1.。

【精准解析】2021届高考数学北师大版单元检测十一 算法、统计与统计案例(提升卷)

【精准解析】2021届高考数学北师大版单元检测十一 算法、统计与统计案例(提升卷)
A.4,5 B.5,4 C.4,4 D.5,5 2.今年入夏以来,我市天气反复,降雨频繁.在下图中统计了上个月前 15 天的气温,以及 相对去年同期的气温差(今年气温-去年气温,单位:摄氏度),以下判断错误的是( )
A.今年每天气温都比去年气温高 B.今年的气温的平均值比去年低 C.去年 8~11 号气温持续上升 D.今年 8 号气温最低 3.(2020·江西省抚州市临川一中模拟)某创业公司共有 36 名职工,为了了解该公司职工的年 龄构成情况,随机采访了 9 位代表,得到的数据分别为 36,36,37,37,40,43,43,44,44,若用样本 估计总体,年龄在( x -s, x +s)内的人数占公司人数的百分比是(其中 x 是平均数,s 为标 准差,结果精确到 1%)( ) A.14% B.25% C.56% D.67% 4.在下列各散点图中,两个变量具有正相关关系的是( )
了问卷调查,调查结果如下:
支持 A 方案 支持 B 方案 支持 C400
800
35 岁以上(含 35 岁)的人数
100
100
400
(1)从所有参与调查的人中,用分层抽样的方法抽取 n 个人,已知从支持 A 方案的人中抽取了 6 人,求 n 的值; (2)从支持 B 方案的人中,用分层抽样的方法抽取 5 人,这 5 人中在 35 岁以下的人数是多少? 35 岁以上(含 35 岁)的人数是多少? 18.(12 分)某高校组织自主招生考试,共有 2 000 名学生报名参加了笔试,成绩均介于 195 分 到 275 分之间,从中随机抽取 50 名学生的成绩进行统计,将统计的结果按如下方式分成八组: 第一组[195,205),第二组[205,215),…,第八组[265,275].如图是按上述分组方法得到的频率 分布直方图:

(新高三)暑期作业高考复习方法策略17讲_第17讲 统计与统计案例(含答案解析)

(新高三)暑期作业高考复习方法策略17讲_第17讲 统计与统计案例(含答案解析)

第17讲统计与统计案例统计与现实生活联系较为紧密,应用性非常强,理论要求低,难度不大,在复习中要深入课本,牢牢把握统计的基本思想和统计方法,掌握随机抽样、用样本估计总体、线性回归分析的方法.对于统计案例,知道回归分析、独立性检验的基本思想、方法及简单应用,会解决简单独立性检验问题.1.把握统计的基本思想.通过复习课本,从中提炼出统计的基本思想,即用样本估计总体,它主要研究两个主要问题,一是如何从总体中抽取样本,二是如何通过对所抽取的样本进行数据处理、分析,对总体的情况作出判断和分析.把握了统计的基本思想,就抓住了统计方法的主线.2.能根据样本的特点正确抽样.明确简单随机抽样、分层抽样与系统抽样的共同点,各自特点,适用范围,清楚它们之间的相互联系,用表格的形式把它们作一对比.3.掌握用样本估计总体的方法.利用图表分析数据是统计的基本要求,频率分布表、频数分布表、2×2列联表是统计数据的数字体现,频率分布直方图、茎叶图、散点图是统计数据的直观体现.会用样本的频率分布直方图、茎叶图估计总体分布,会用样本的数字特征估计总体的数字特征,会根据散点图判断两组变量的相关关系.4.了解回归分析、独立性检验的原理.对于回归分析、独立性检验,了解其基本思想、方法及简单应用即可,知道独立性检验的步骤,会按照公式计算,能和临界值表对照得出正确结论.例1某单位有840名职工,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为()A.11 B.12 C.13 D.14解后反思利用简单随机抽样抽取出的样本号码没有规律性;分层抽样中,在每一层抽取的号码个数m等于该层所含个体数目与抽样比的积,并且应该恰有m个号码在该层的号码段内;利用系统抽样取出的样本号码有规律性,其号码按从小到大的顺序排列,则所抽取的号码是:l,l+k,l+2k,…,l+(n-1)k.其中,n为样本容量,l是第一组中的号码,k为分段间隔=总体容量/样本容量.例2某市2013年4月1日~4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.(1)完成频率分布表.(2)作出频率分布直方图.(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.解后反思1.用样本估计总体是统计的基本思想,当样本容量较大时,将样本数据恰当分组,通过频率分布表或频率分布直方图,用各组的频率分布描述总体的分布.2.在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1.例3从某居民区随机抽取10个家庭,获得第i个家庭的月收入x i(单位:千元)与月储蓄y i(单位:千元)的数据资料,算得(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;(2)判断变量x与y(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解后反思2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.例4某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”..附:K2=(a+b)(c+d)(a+c)(b+d)解后反思独立性检验是一种假设检验(先假设,再推翻假设),其基本思想类似反证法:(1)提出假设:即假设两个分类变量没有关系;(2)在此假设下随机变量K2应该很小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.然后根据随机变量K2的含义,评价该假设不合理的程度,继而得出在多大程度上认为两个分类变量有关系.总结感悟1.用样本估计总体是统计的基本思想,科学的统计方法是保证.一要合理抽样,使样本更具有代表性,二要对所抽取的样本进行数据处理、分析,对总体的情况作出判断.2.利用图表分析数据是统计的基本方法,能熟练作频率分布表、频数分布表、2×2列联表,它们是作图、计算的基础,频率分布直方图、茎叶图、散点图,是统计数据的直观体现,是识图和用图的基础.3.独立性检验是一种假设检验(先假设,再推翻假设),其基本思想类似反证法.A级1.为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588 B.480C.450 D.1203.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确...的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg4.下图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4 C.0.5 D.0.65.一个容量为20的样本,数据的分组及各组的频数如下:[10,20),2;[20,30),3;[30,40),x;[40,50),5;[50,60),4;[60,70),2;则x=________;根据样本的频率分布估计,数据落在[10,50)的概率约为________.6.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.7.下面茎叶图表示的是甲、乙两人在5次综合测评中的成绩,其中一个数字被污损,若乙的平均分是89,求被污损的数字.B级8.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.49.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e,众数为m o,平均值为x,则()A.m e=m o=x B.m e=m o<xC.m e<m o<x D.m o<m e<x10.(2015·全国Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图.以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关11.某中学为了解学生数学课程的学习情况,在 3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测这3 000名学生在该次数学考试中成绩小于60分的学生数是________.12.下表是某数学老师及他的爷爷、父亲和儿子的身高数据:身高为________.13.某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n.14.为了了解一个小水库中养殖的鱼的有关情况,从这个水库中多个不同位置捕捞出100条鱼,称得每条鱼的质量(单位:kg),并将所得数据分组,画出频率分布直方图(如图所示).(1)在下面表格中填写相应的频率;(2)估计数据落在[1.15,1.30中的概率为多少;(3)将上面捕捞的100条鱼分别作一记号后再放回水库,几天后再从水库的多处不同位置捕捞出120条鱼,其中带有记号的鱼有6条.请根据这一情况来估计该水库中鱼的总条数.第17讲 统计与统计案例题型分析例1 B [由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12(人).] 例2 解 (1)频率分布表:(2)频率分布直方图如图所示.(3)答对下述两条中的一条即可:①该市有一个月中空气污染指数有2天处于优的水平,占当月天数的115;有26天处于良的水平,占当月天数的1315;处于优或良的天数为28,占当月天数的1415.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的115;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数2,共有17天,占当月天数的1730,超过50%;说明该市空气质量有待进一步改善.例3 解 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又l xx =错误!i y i -n x y =184-10×8×2=24,由此得b=l xyl xx=2480=0.3,a=y-b x=2-0.3×8=-0.4,故所求线性回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).例4解(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联可算得K 2=300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 线下作业1.C [不同的学段在视力状况上有所差异,所以应该按照学段分层抽样.] 2.B [少于60分的学生人数600×(0.05+0.15)=120(人), ∴不少于60分的学生人数为480人.]3.D [根据线性回归方程中各系数的意义求解. 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确. 又线性回归方程必过样本点的中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.]4.B [10个数据落在区间[22,30)内的数据有22,22,27,29,共4个,因此,所求的频率为410=0.4.故选B.] 5.4 0.7解析 x =20-(2+3+5+4+2)=4, P =2+3+4+520=0.7或P =1-4+220=0.7.6.37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人,则40200=x100,解得x =20.7.解 设污损的数字对应的成绩是x ,由茎叶图可得89×5=83+83+87+x +99,所以x =93,故污损的数字是3.8.A [因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.]9.D [由题目所给的统计图示可知,30个得分中,按大小顺序排好后,中间的两个得分为5,6,故中位数m e =6+52=5.5, 又众数m o =5,平均值x =3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930,∴m o <m e <x .]10.D [从2006年起,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A 选项正确; 2007年二氧化硫排放量较2006年降低了很多,B 选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C 选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D.] 11.600解析 由频率分布直方图易得,成绩低于60分的频率为0.002×10+0.006×10+0.012×10=0.2,故3 000名学生中成绩低于60分的学生数为:3 000×0.2=600(人).12.185 cm13.解总体容量为6+12+18=36.当样本容量是n时,由题意知,系统抽样的间隔为36n,分层抽样的比例是n36,抽取的工程师人数为n36×6=n6,技术员人数为n36×12=n3,技工人数为n36×18=n2,所以n应是6的倍数,36的约数,即n=6,12,18.当样本容量为(n+1)时,总体容量是35人,系统抽样的间隔为35n+1,因为35n+1必须是整数,所以n只能取6.即样本容量n=6.14.解(1)根据频率分布直方图可知,频率=组距×(频率/组距),故可得下表:(2)0.30+0.15+0.02=0.47,所以数据落在[1.15,1.30)中的概率约为0.47.(3)120×1006=2 000,所以水库中鱼的总条数约为2 000.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第17讲 统计与统计案例A 组一、选择题1.某书法社团有男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生①该抽样一定不是系统抽样;②该抽样可能是随机抽样;③该抽样不可能是分层抽样;④男生被抽到的概率大于女生被抽到的概率,其中说法正确的为( )A .①②③B .②③C . ③④D .①④ 【答案】B【解析】由题意得,从男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生,该抽样应该是简单的随机抽样,其中男生被抽到的概率为135P =,女生被抽到的概率为225P =,所以只有②③是正确的,故选B.2.如下图所示的茎叶图记录了甲、乙两组各5名学生在一次英语听力测试中的成绩(单位:分)。

已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y 的值分别为( )A .2,5B .5,5C .5,8D .8,8 【答案】C【解析】由中位数的定义可知5=x ,因8.16524930)85(⨯=+++++y ,故8=y ,应选C 。

3.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设0H :“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为0H 成立的可能性不足1%,那么2K 的一个可能取值为( )A .7.897 B.6.635 C. 5.024 D. 3.841 【答案】A【解析】由题这种血清能起到预防感冒的作用为99%的有效率,显然0 6.635,k >所以选A. 4.下列说法正确的是 ( )A .在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B .线性回归方程对应的直线至少经过其样本数据点 中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,相关指数为的模型比相关指数为的模型拟合的效果差 【答案】Ca xb yˆˆˆ+=),,(11y x ),,(22y x ),(,33y x ),(n n y x 2R 98.02R 80.0【解析】A .回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况。

错误;B .线性回归方程对应的直线,过其样本数据平均数点,错误;D .相关指数越大,则相关性越强,模型的拟合效果越好。

错误;C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确。

二、填空题5.甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则的大小关系为 ;分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则的大小关系为 . 【答案】123x x x ==;213s s s >>6.某班有55人,现根据学生的学号,用系统抽样的方法,抽取一个容量为5的样本,已知3号、25号、47号同学在样本中,那么样本中还有两个同学的学号分别为 和 。

【答案】14和36三、解答题7. 某生产企业对其所生产的甲、乙两种产品进行质量检测,分别各抽查10件产品,检测其重量的误差,测得数据如下(单位:mg ): 甲:13 15 14 14 9 14 21 9 10 11 乙:10 14 9 1 15 21 23 19 22 16(Ⅰ)画出样本数据的茎叶图,并指出甲,乙两种商品重量误差的中位数; (Ⅱ)计算甲种商品重量误差的样本方差; (Ⅲ)根据茎叶图分析甲、乙两种产品的质量. 【解析】茎叶图如图.甲,乙两种商品重量误差的中位数分别为13.5,15.5.(Ⅱ)1315141491421111091310x +++++++++==.∴ 甲种商品重量误差的样本方差为()()()()222221[(1313)15131413141391310-+-+-+-+-()()()()()222221413211311131013913]+-+-+-+-+-=11.6(Ⅲ)由茎叶图知,乙产品的重量误差的中位数高于甲产品的重量误差的中位数,而且由茎叶图可以大致看出乙产品的重量误差的的标准差要大于甲产品的重量误差的的标准差,说明甲产品的质量较好,而且较稳定.a xb y ˆˆˆ+=2R 123,,x x x 123,,x x x 123,,s s s 123,,s ss8.某工厂36名工人的年龄数据如下表: (1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据; (2)计算(1)中样本的平均值x 和方差2s ;(3)求这36名工人中年龄在(),x s x s -+内的人数所占的百分比.【解析】(1)根据系统抽样的方法,抽取容量为9的样本,应分为9组,每组4人. 由题意可知,抽取的样本编号依次为:2,6,10,14,18,22,26,30,34, 对应样本的年龄数据依次为:44,40,36,43,36,37,44,43,37. (2)由(1),得444036433637444337409x ++++++++==,()()()()()()()()()2222222222444040403640434036403740110099444043403740s ⎡⎤-+-+-+-+-+-+⎢⎥==⎢⎥-+-+-⎣⎦. (3)由(2),得1040,3x s ==,∴2136,4333x s x s -=+=,由表可知,这36名工人中年龄在(),x s x s -+内共有23人,所占的百分比为23100%63.89%36⨯≈. 9.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请在图中画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+; (3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力。

【解析】(1)如图所示.(2)1ni ii x y=∑=6×2+8×3+10×5+12×6=158,9,4x y ==21nii x=∑=62+82+102+122=344, 0.7b =,a bx y =-=4-0.7×9=-2.3,故线性回归方程为ˆy=0.7x -2.3. (3)由回归直线方程,当x =9时,ˆy=6.3-2.3=4,所以预测记忆力为9的同学的判断力约为4. 10.2019年全国两会,即中华人民共和国第十二届全国人民代表大会第四次会议和中国人民政治协商会议第十二届全国委员会第四次会议,分别于2019年3月5日和3月3日在北京开幕.为了解哪些人更关注两会,某机构随机抽取了年龄在1575岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:[)[)[)[)[]15,25,25,35,35,45,55,65,65,75.把年龄落在区间[)15,35和[]35,75内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11.(1)求图中a b 、的值;(2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的22⨯列联表,根据此统计结果能否 附参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()()45100.0310055100.0100.0050.005100b a ⎧⨯+=⎪⎪⎨⎪⨯+++=⎪⎩,解之,得0.0350.015a b =⎧⎨=⎩,(2)依题意可知:“青少年人”共有()1000.0150.03045⨯+=人, 22⨯列联表如下:结合列联表的数据得:()()()()()()222100303520159.0915*******n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯因为()2 6.6350.01,9.091 6.635P K >=>,所以有超过99%的把握认为“中老年人”比“青少年人”更加关注两会B 组一、选择题1.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)如图所示;若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数为( )A 、3B 、4C 、5D 、6 【答案】B【解析】根据茎叶图中的数据得,成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取207435⨯= (人),故选B. 2.从实验小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图由图中数据可知身高在[120,130]内的学生人数为( )A .3B .25C .30D .35 【答案】C【解析】由图知,(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03 ∴身高在[120,130]内的学生人数在样本的频率为0.03×10=0.3 故身高在[120,130]内的学生人数为0.3×100=30 3.已知x 与y 之间的一组数据: x 0 1 2 3ym 35.5 7已求得关于y 与x 的线性回归方程为 2.10.85y x =+,则m 的值为( )A .1B .0.85C .0.7D .0.5 【答案】D 【解析】因45.15,5.143210+==+++=m y x ,故将其代入 2.10.85y x =+,可得5.0=m .应选D.4.在一次独立性检验中,得出2×2列联表如下: y 1 y 2 合计 x 1 200 800 1000 x 2 180 m 180+m 合计380800+m1180+m最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( )A .200B .720C .100D .180 【答案】B【解析】由独立性检验,已知使两个分类变量无关,则可得;720,800380180=+=m mm二、填空题5.为了了解我校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数是 . 【答案】48. 【解析】设图中从左到右的第1小组的频率为x ,则第2小组的频率为2x ,第3小组的频率为3x ,由频率分布直方图的性质,得:230.03750.01351x x x +++⨯+⨯=,解得:0.125x =,∴第2小组的频率为20.25x =,又已知第2小组的频数为12, ∴报考飞行员的学生人数是:120.2548÷=.故答案应填:48.6.某村有2500人,其中青少年1000人,中年人900人,老年人600人,为了调查本村居民的血压情况,采用分层抽样的方法抽取一个样本,若从中年人中抽取36人,从青年人和老年人中抽取的个体数分别为,a b ,则直线80ax by ++=上的点到原点的最短距离为___________.【答案】3434 【解析】2436900600,40369001000=⨯==⨯=b a ,因此直线80ax by ++=上的点到原点的最短距离为34342440822=+ 三、解答题7.今年的NBA 西部决赛勇士和雷霆共进行了七场比赛,经历了残酷的“抢七”比赛,两队的当家球星库里和杜兰特七场比赛的每场比赛的得分如下表: 杜兰特 26 293326402927(1)绘制两人得分的茎叶图;(2)分析并比较两位球星的七场比赛的平均得分及得分的稳定程度. 【解析】(1)如图(2)库里的平均得分28)36293122242826(711=++++++=x 分 方差7130]813)6()4(0)2[(71222222221=+++-+-++-=s .杜兰特的平均得分30)27294026332926(712=++++++=x 分方差7152])3()1(10)4(3)1()4[(71222222222=-+-++-++-+-=s . ∴222121,s s x x <<,则这七场比赛库里的平均得分低于杜兰特,但库里的得分更稳定一些.8.100名学生某次数学考试成绩(单位:分)的频率分布直方图如图所示.(1)估计这100名学生的数学成绩落在[50,60)中的人数; (2)求频率分布直方图中a 的值;(3)估计这次考试的中位数n (结果保留一位小数). 【解析】(1)由图可知落在[50,60)的频率为0.01×10=0.1由频数=总数×频率,从而得到该范围内的人数为100×0.1=10. (2)由频率分布直方图知组距为10,频率总和为1,可列如下等式:(0.01+0.015+0.03++0.01+a )×10=1 解得a =0.035.(3)前两个小矩形面积为0.01×10+0.015×10=0.25. 第三个小矩形的面积为0.035×10=0.35∵中位数要平分直方图的面积. 1.771.770035.025.05.070=+≈+=∴—n9.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布 统计表如下:(1)计算,的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率;(3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.【解析】(1)甲校抽取110×60人,乙校抽取110×=50人, 故x =10, y =7,(2)估计甲校优秀率为, 乙校优秀率为=40%.(3)表格填写如图,k 2=≈2.83>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异. 10.下表提供了甲产品的产量(吨)与利润(万元)的几组对照数据.(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (2)计算相关指数的值,并判断线性模型拟合的效果.参考公式:,x y 12002200=100022001525%60=20502110(15302045)60503575⨯-⨯⨯⨯⨯x y y x ˆˆˆybx a =+2R 1122211()()ˆˆˆ,()n niii ii i nniii i x x y y x y nx ybay bx x x xnx====---===---∑∑∑∑22121ˆ()1()niii nii y yR y y ==-=--∑∑【解析】(1) ∴, ,∴,∴ ∴关于的线性回归方程 (2)∴∴线性模型拟合的效果较好C 组一、选择题1.某学校高一、高二、高三年级分别有720、720、800人,现从全校随机抽取56人参加防火防灾问卷调查.先采用分层抽样确定各年级参加调查的人数,再在各年级内采用系统抽样确定参加调查的同学,若将高三年级的同学依次编号为001,002,…,800,则高三年级抽取的同学的编号不可能为( ) A .001,041,……761 B .031,071,……791 C .027,067,……787 D .055,095,……795 【答案】D【解析】由根据分层抽样可得高三年级抽取出20人,利用系统抽样可分成40组得到的数据特征应成等差数列,经计算答案中的数据740055795=-不是40的整数倍,因此这组数据不合系统抽样得到的,故应选D. 2.已知一组数据54321,,,,x x x x x 的平均数是2,方差是31,那么另一组数据23,23,23,23,2354321-----x x x x x 的平均数,方差是( )A .31,2B .1,2C .32,4 D .3,4 【答案】D【解析】因为数据54321,,,,x x x x x 的平均数是2,方差是31,所以31)2(51,2512=-=∑=i i x x ,因此数据23,23,23,23,2354321-----x x x x x 的平均数为:42513)23(515151=-⨯=-∑∑==i i i i x x ,4.5, 3.5x y ==224 4.5 3.563,4 4.581nx y nx ⋅=⨯⨯==⨯=17.512202766.5ni ii x y==+++=∑21916253686ni i x ==+++=∑122166.563ˆ0.78681ni ii ni i x y nx ybx nx==--===--∑∑ˆˆ 3.50.7 4.50.35a y bx =-=-⨯=y x ˆ0.70.35yx =+222221()(2.5 3.5)(3 3.5)(4 3.5)(4.5 3.5) 2.5nii y y =-=-+-+--=∑222221ˆ()(2.5 2.45)(3 3.15)(4 3.85)(4.5 4.55)0.05niii y y=-=-+-+--=∑22121ˆ()0.05110.982.5()niii nii y yR y y ==-=-=-=-∑∑方差为:3319)2(519)63(51)23(51512512251=⨯=-⨯=-=--∑∑∑===i i i i i i x x x x .3.已知关于某设备的使用年限(单位:年)和所支出的维修费用(单位:万元)有如下的统计资料,由上表可得线性回归方程,若规定当维修费用时该设备必须报废,据此模型预报该设备使用年限的最大值为( )A .7B .8C .9D .10 【答案】C【解析】由已知表格得:1(23456)45x =++++=,1(2.2 3.8 5.5 6.57.0)55y =++++= , 由于线性回归直线恒过样本中心点(),x y ,所以有:540.08b =+,解得: 1.23b =, 所以线性回归方程^1.230.08y x =+,由得:1.230.0812x +>解得:9.69x >, 由于*x N ∈,所以据此模型预报该设备使用年限的最大值为9.故选C.则,x y 的函数关系与下列( )类函数最接近(其中,a b 为待定系数) A .y a bx =+ B . xy a b =+ C. 2y ax b =+ D. by a x=+【答案】B【解析】由表格数据逐个验证,观察图象,类似于指数函数,分析选项可知模拟函数为y=a+b x .故选B .二、填空题5.一个总体中的80个个体编号为0,1,2,…,79,并依次将其分为8个组,组号为0,1,…,9,要用(错位)系统抽样的方法抽取一个容量为8的样本,即规定先在第1组随机抽取一个号码,记为i ,依次错位地得到后面各组的号码,即第k 组中抽取个位数为i k +(当10i k +<)或10i k +-(当10i k +≥)的号码,在6i =时,所抽到的第8组的号码是 . 【答案】73【解析】第1组抽取号码为6,第8组抽取号码为68106973+-+= 6.给出下列命题:x y 0.08y bx =+12y >12y >①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程ˆ0.110yx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是 .【答案】②④⑤【解析】线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱,故①错;回归直线方程一定经过样本中心点(),x y P ,所以②正确;③的抽样方式为系统抽样,故③错;由在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方。

相关文档
最新文档