统计与统计案例真题与解析

合集下载

统计案例练习题(附答案)

统计案例练习题(附答案)

统计案例练习题(附答案)一、选择题 1.对具有线性相关关系的两个变量建立的线性回归方程y=a+bx中,回归系数b( ) A.可以小于0 B.只能大于0 C.可能等于0 D.只能小于0 【解析】b可能大于0,也可能小于0,但当b=0时,x,y不具有线性相关关系.【答案】 A 2.下列两个变量间的关系不是函数关系的是( ) A.正方体的棱长与体积 B.角的弧度数与它的正弦值 C.单产为常数时,土地面积与粮食总产量 D.日照时间与水稻亩产量【解析】∵A、B、C都可以得出一个函数关系式,而D不能写出确定的函数关系式,它只是一个不确定关系.【答案】 D 3.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元) 4 2 3 5 销售额y(万元) 49 26 39 54 根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.36万元 B.65.5万元C.67.7万元 D.72.0万元【解析】x=4+2+3+54=3.5, y=49+26+39+544=42,∴a=y-bx=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B. 【答案】 B 4.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y) B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(xn,bn)中的一个点 C.直线y=bx+a的斜率为∑ni=1xiyi-nx•y∑ni=1x2i-nx2 D.直线y=bx+a的纵截距为y-bx 【解析】回归直线可以不经过任何一个点.其中A:由a=y-bx代入回归直线方程y=bx+y-ax,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B 5.已知两个变量x和y 之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y 的观测数据的平均数都是t,则下列说法正确的是( ) A.l1与l2一定有公共点(s,t) B.l1与l2相交,但交点一定不是(s,t) C.l1与l2必定平行 D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A 二、填空题 6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg 7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1xiyi=1 481. b=1 481-6×72×7179--1.818 2, a=71-(-1.8182)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】由上表可得,y=-1.818 2x+77.36,销量每增加1千箱,则单位成本下降1.818 2元.【答案】 1.818 2 8.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254. 【答案】0.254 三、解答题 9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x/年 3 5 6 7 9 推销金额y/万元 2 3 3 4 5 (1)求年推销金额y关于工作年限x的线性回归方程; (2)若第6名推销员的工作年限为11年,试估计他的年推销金额.【解】(1)设所求的线性回归方程为y=bx+a,则b=i=--=-=1020=0.5, a=y-bx=0.4. 所以年推销金额y关于工作年限x的线性回归方程为y=0.5x+0.4. (2)当x=11时,y=0.5x+0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元. 10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件个数.现观测得到(x,y)的4组值为(8,5),(12,8),(14,9),(16,11). (1)假设y与x之间存在线性相关关系,求y与x之间的线性回归方程. (2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】(1)设回归方程为y=a+bx,则x=8+12+14+164=12.5, y=5+8+9+114=8.25,∑4i=1x2i=660,∑4i =1xiyi=438, b=∑4i=1xiyi-4xy∑4i=1x2i-4x2=438-4×12.5×8.25660-4×12.52≈0.73, a=y-bx=8.25-0.73×12.5=-0.875,所以所求回归方程为y=-0.875+0.73x. (2)由y≤10,即-0.875+0.73x≤10,得x≤10.8750.73≈15,即机器速度不得超过15转/秒. 11.高二(3)班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y 92 79 97 89 64 47 83 68 71 59 若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 xi 24 15 23 19 16 11 20 16 17 13 yi 9279 97 89 64 47 83 68 71 59 xiyi 2 208 1 185 2 231 1 691 1 024 517 1 660 1 088 1 207 767 ∑10i=1x2i=3 182,∑10i=1xiyi=13 578于是可得b=∑10i=1xiyi-10xy∑10i=1x2i-10x2=545.4154.4≈3.53, a=y-bx=74.9-3.53×17.4≈13.5. 因此可求得回归直线方程为y=3.53x+13.5. 当x=18时,y=3.53×18+13.5≈77. 故该同学预计可得77分左右.。

2016届高考数学理命题猜想专题18统计与统计案例(解析版)

2016届高考数学理命题猜想专题18统计与统计案例(解析版)

【命题热点突破一】抽样方法某工厂生产的甲、乙、丙、丁四种不同型号的产品分别有150件、120件、180件、150件.为了调查产品的情况,需从这600件产品中抽取一个容量为100的样本,若采用分层抽样法,设甲产品中应抽取的产品件数为x ,某件产品A 被抽到的概率为y ,则x ,y 的值分别为( )A .25,14B .20,16 C .25,1600 D .25,16 【【答案】】D【特别提醒】 三种抽样方法均是等概率抽样,当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.【变式探究】从编号分别为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量为10的样本,若编号为58的产品在样本中,则该样本中产品的最大编号为________.【【答案】】74【【解析】】每8件产品抽取一件,编号为58的产品在样本中,则样本中产品的最大编号为58+16=74.【命题热点突破二】用样本估计总体(1)将某市8所中学参加中学生合唱比赛的得分用茎叶图表示(如图18-3所示),其中茎为十位数,叶为个位数,则这组数据的中位数和平均数分别是( )图18-3A .91,91.5B .91,92C .91.5,91.5D .91.5,92(2)2014年6月,一篇关于“键盘侠”(“键盘侠”一词描述了部分网民在现实生活中胆小怕事自私自利,却习惯在网络上大放厥词的一种现象)的时评引发了大家对“键盘侠”的热议.某地区新闻栏目对该地区群众对“键盘侠”的认可度做出调查:在随机抽取的50人中,有14人持认可态度,其余持反对态度.若该地区有9600人,则估计该地区对“键盘侠”持反对态度的有________人.【【答案】】(1)C(2)6912【特别提醒】统计的基本思想之一就是以样本估计总体.以样本的频率估计总体的概率、以样本的特征数估计总体的特征数.【变式探究】(1)某学校随机抽查了本校20个同学,调查他们平均每天在课外进行体育锻炼的时间(分钟),根据所得数据的茎叶图,以5为组距将数据分为八组,分别是[0,5),[5,10),…,[35,40],作出的频率分布直方图如图18-4所示,则原始的茎叶图可能是()图18-5(2)高三年级上学期期末考试中,某班级数学成绩的频率分布直方图如图18-6所示,数据分组依次如下:[70,90),[90,110),[110,130),[130,150].估计该班数学成绩的平均分数为()图18-6A.112B.114C.116D.120【【答案】】(1)B(2)B【命题热点突破三】统计案例例3、某高校共有15 000人,其中男生10 500人,女生4500人,为调查该校学生每周平均参加体育运动时间情况,采用分层抽样的方法,收集了300名学生每周平均参加体育运动时间的样本数据(单位:小时).(1)应收集多少名女生的样本数据?(2)根据这300个样本数据,得到学生每周平均参加体育运动时间的频率分布直方图(如图18-7所示),其中样本数据分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均参加体育运动时间超过4个小时的概率.(3)在样本数据中,有60名女生每周平均参加体育运动的时间超过4个小时,请画出每周平均参加体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生每周平均参加体育运动的时间与性别有关”.附:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)结合列联表可得K 2的观测值k =300×(165×30-45×60)75×225×210×90=10021≈4.762>3.841. 所以有95%的把握认为“该校学生每周平均参加体育运动的时间与性别有关”.【特别提醒】 在计算K 2时要注意公式中各个字母的含义,分子上是总量乘2×2列联表中对角线数字乘积之差的平方,分母上是四个分和量的乘积.【变式探究】为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球的时间x(单位:小时)与当天投篮命中率y 之间的关系.(1)求小李这5天的平均投篮命中率;(2)用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率. 解:(1)小李这5天的平均投篮命中率y -= 0.4+0.5+0.6+0.6+0.45=0.5.(2)易知x -=1+2+3+4+55=3, 设线性回归方程为y ^=b ^x +a ^,则由公式可得b ^==(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)(-2)2+(-1)2+02+12+22=0.01,所以a ^=y --b ^x -=0.5-0.01×3=0.47, 所以y ^=b ^x +a ^=0.01x +0.47.当x =6时,y ^=0.53,故小李该月6号打6小时篮球的投篮命中率约为0.53.【特别提醒】 回归直线一定过样本点的中心(x ,y),当已知回归直线方程两个系数中的一个时,可以直接代入样本点中心的坐标求得另一个系数.正相关和负相关是根据回归直线方程的斜率判断的:正相关时回归直线方程的斜率为正值;负相关时回归直线方程的斜率为负值.回归直线方程斜率的符号与相关系数的符号是一致的.【高考真题解读】1.(2015·陕西,2)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A .167B .137C .123D .93【答案】 B2.(2015·安徽,6)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32 【答案】 C【解析】 法一 由题意知,x 1+x 2+…+x 10=10x ,s 1则y =1n [(2x 1-1)+(2x 2-1)+…+(2x 10-1)] =1n[2(x 1+x 2+…+x 10)-n]=2x -1,所以S 2==2s 1,故选C.3.(2015·重庆,3)重庆市2013年各月的平均气温(℃)数据的茎叶图如下: 则这组数据的中位数是( )01228 9 2 5 80 0 03 3 8 1 2A .19B .20C .21.5D .23【答案】 B4.(2015·新课标全国Ⅱ,31)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 【答案】 D【解析】从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.5.(2015·福建,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y∧=b∧x+a∧,其中b∧=0.76,a∧=y-b∧x.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元【答案】B6.(2014·山东,7)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A .6B .8C .12D .18 【答案】 C【解析】 由题图可知,第一组和第二组的频率之和为(0.24+0.16)×1=0.40,故该试验共选取的志愿者有200.40=50人.所以第三组共有50×0.36=18人,其中有疗效的人数为18-6=12.7.(2014·陕西,9)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a(a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( )A .1+a ,4B .1+a ,4+aC .1,4D .1,4+a【答案】 A8.(2014·湖南,2)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3【答案】 D【解析】 因为采取简单随机抽样、系统抽样和分层抽取样本时,总体中每个个体被抽中的概率相等,故选D.9.(2014·广东,6)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A .200,20B .100,20C .200,10D .100,10【答案】A10.(2014·天津,9)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.【答案】 60【解析】 420×300=60(名).11.(2015·江苏,2)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________. 【答案】 6【解析】 这组数据的平均数为16(4+6+5+8+7+6)=6.12.(2015·湖南,12)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:1314150 0 3 4 5 6 6 8 8 91 1 12 2 23 34 45 5 56 678 0 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.【答案】 41 3.(2015·新课标全国Ⅱ,18)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:6273819295857464537678869566977888827689B地区:7383625191465373648293486581745654766579(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.解(1)两地区用户满意度评分的茎叶图如下通过茎叶图可以看出,A 地区用户满意度评分的平均值高于B 地区用户满意度评分的平均值;A 地区用户满意度评分比较集中,B 地区用户满意度评分比较分散.由所给数据得C A1,C A2,C B1,C B2发生的频率分别为1620,420,1020,820,故P(C A1)=1620,P(C A2)=420,P(C B1)=1020,P(C B2)=820,P(C)=1020×1620+820×420=0.48.。

高三一轮复习专题训练:统计、统计案例(最新题,14页)

高三一轮复习专题训练:统计、统计案例(最新题,14页)

2 分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问
------ 珍贵文档 ! 值得收藏! ------
------ 精品文档 ! 值得拥有! ------
题需先求出抽样比 —— 样本容量与总体容量的比, 则各层所抽取的样本容量等于该层个体总 数与抽样比的乘积 .
三、预测押题不能少
解析: 由题意知, 0.15(x+ 1)+ 0.2- 0.15 x- 0.2= 0.15. 答案: 0.15
统计与概率的交汇
统计与统计案例的主要内容是随机抽样、 样本估计总体、 变量的相关性、 回归分析和独 立性检验, 该部分内容在高考中占有一定的位置, 近两年高考中由单纯考查统计及统计案例 转化为与概率交汇命题且背景贴近生活,角度新颖,试题多为解答题,难度中档.
D. b^<b′, a^<a′
[解析 ] 由 (1,0), (2,2) 求 b′ , a′,则
2- 0 b′ = = 2,a′ = 0-2× 1=- 2.
2- 1 由上表数据求 b^, a^,
6
xiyi= 0+ 4+ 3+12+ 15+24= 58,
i=1
13 x = 3.5, y = 6 ,
6
x2i = 1+Βιβλιοθήκη 4+ 9+ 16+ 25+ 36= 91,
3n 60= 260,解得 n=13.
(2)将某班的 60 名学生编号为: 01,02,…, 60,采用系统抽样方法抽取一个容量为 5 的 样本,且随机抽得的一个号码为 04,则剩下的四个号码依次是 ________.
解析: 依据系统抽样方法的定义知,将这 60 名学生依次按编号每 12 人作为一组,即
1. (1) 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为

8-1统计与统计案例

8-1统计与统计案例

专题8 第1讲统计与统计案例一、选择题1.(2011·湛江测试)某学校进行问卷调查,将全校4200名同学分为100组,每组42人按1~42随机编号,每组的第34号同学参与调查,这种抽样方法是() A.简单随机抽样B.分层抽样C.系统抽样D.分组抽样[答案] C[解析]一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.2.(文)(2011·重庆文,4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):12512012210513011411695120134则样本数据落在[114.5,124.5)内的频率为()A.0.2 B.0.3C.0.4 D.0.5[答案] C[解析]在[114.5,124.5]范围内的频数m=4,样本容量n=10,∴所求频率410=0.4. (理)(2011·四川理,1)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5) 4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12[35.5,39.5)7[39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16B.13C.12D.23[答案] B[解析]因为[31.5,35.5)12[35.5,39.5)7[39.5,43.5)3故[31.5,43.5)的概率为12+7+366=13,故选B.3.(2011·山东理,7)某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额大约为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 依题意:x =3.5,y =42, 又b ^=9.4,∴42=9.4×3.5+a ^. 而a ^=9.1,∴y ^=9.4x +9.1, 当x =6时,y ^=65.5,故选B.4.(2011·大连模拟)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.5.(文)(2011·江西文,7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x[答案] D[解析] 由图可以不难发现众数为5.中位数为5+62=5.5,平均值x =2×3+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930(理)(2011·江西理,6)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0 B. 0<r 2<r 1 C. r 2<0<r 1 D .r 2=r 1[答案] C[解析] 对于第一组数据x -=10+11.3+11.8+12.5+135=11.75,y -=1+2+3+4+55=3.∑i =15(x i -x -)(y i -y -)=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)…(x 5-x -)(y 5-y -)=1.75×(-2)+(-0.45)×(-1)+0.05×0+0.75×1+1.25×2=0.2. ∑i =15(x i -x -)2=(x 1-x -)2+(x 2-x -)2+…+(x 5-x -)2=1.752+(-0.45)2+0.052+0.752+1.252=5.3925.∑i =15(y i -y -)2=(y 1-y -)2+(y 2-y -)2+…+(y 5-y -)2=(-2)2+(-1)2+02+12+22=10, 代入公式中有r 1=0.25.3925×10=0.27.09≈0.0282.同理r 2中∑i =15(x i -x -)(y i -y -)=-4.36<0,故r 2<0,∴r 2<0<r 1,故选C.6.(2011·湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” [答案] C[解析] ∵6.635<K 2=7.8<10.828,∴我们有99%的把握认为二者有关,或者说在犯错的概率不超过1%的前提下二者有关. 7.(2011·合肥二检)甲、乙两名学生的六次数学测验成绩(百分制)的茎叶图如图所示.①甲同学成绩的中位数大于乙同学成绩的中位数; ②甲同学的平均分比乙同学的平均分高; ③甲同学的平均分比乙同学的平均分低;④甲同学成绩的方差小于乙同学成绩的方差. 上面说法正确的是( ) A .③④ B .①②④ C .②④ D .①③④[答案] A[解析] 由茎叶图知甲同学的成绩为72,76,80,82,86,90;乙同学的成绩为69,78,87,88,92,96.故甲同学成绩的中位数小于乙同学成绩的中位数,①错;计算得甲同学的平均分为81,乙同学的平均分为85,故甲同学的平均分比乙同学的平均分低,因此②错、③对;计算得甲同学成绩的方差小于乙同学成绩的方差,故④对.所以说法正确的是③④,选A.8.(2011·东北四市联考)在2011年5月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +a (参考公式:回归方程y ^=bx +a ,a =y --b x -),则a =( )A .-24B .35.6C .40.5D .40[答案] D[解析] 价格的平均数是x -=9+9.5+10+10.5+115=10,销售量的平均数是y -=11+10+8+6+55=8,由y ^=-3.2x +a 知b =-3.2,所以a =y --b x -=8+3.2×10=40,故选D.二、填空题9.(2011·湖北文,11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.[答案] 20[解析] 属简单题,关键是清楚每一层的抽取比例都一样是n N.由于所有超市共计200+400+1400=2000家,需抽取100家,则抽取比例为1002000所以中型超市抽取400×1002000=20家.10.(文)(2011·广东文,13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.[答案] 0.5 0.53[解析] 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53.(理)(2011·广东理,13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185[解析] 设儿子身高y 与父亲身高x 有关系,列表如下:∵x =13(173+170+176)=173,y =13+176+182)=176,∑i =13x i y i =173×170+170×176+176×182=91362,∑i =13x 2i =1732+1702+1762=89805, ∴b ^=91362-3×173×17689805-3×1732=1,a ^=y -b ^x =176-173=3 ∴回归直线方程为y ^=x +3, ∴x =182时,y ^=182+3=185(cm).11.(文)(2011·西城抽样)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有________名.[答案] 40[解析] 由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.(理)(2011·福州二检)若样本a 1,a 2,a 3,a 4,a 5的方差是3,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的方差是________.[答案] 12[解析] 若a -表示样本a 1,a 2,a 3,a 4,a 5的均值,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的均值为2a -+3.又15∑i =15 (a i -a -)2=3,∴15∑i =15[(2a i +3)-(2a -+3)]2=15∑i =15 (2a i -2a -)2=12. 12.把容量为1000的某个样本数据分为10组,并填写频率分布表.若前3组的频率依次构成公差为0.05的等差数列,且后7组的频率之和是0.79.则前3组中频率最小的一组的频数是________.[答案] 20[解析] 设前3组中频率最小的一组的频率是x .由题意得前3组的频率之和是1-0.79=0.21,则x +(x +0.05)+(x +0.05×2)=0.21,由此解得x =0.02,即前3组中频率最小的一组的频率是0.02,相应的频数是0.02×1000=20.三、解答题13.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a1,a2,大于40岁的为b1,b2,b3,从中随机取2名,基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共十个,设恰有一名观众年龄在20至40岁为事件A,则A中含有基本事件6个:(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),∴P(A)=610=3 5.14.(文)(2011·郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K2=(a+b)(c+d)(a+c)(b+d),[解析] 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(50×50×55×45=99≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·广东广州)某校高三(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:(1)求全班人数;(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高; (3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.[解析] (1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以,全班人数为20.08=25(人).(2)分数在[80,90)之间的人数为25-2-7-10-2=4人,分数在[80,90)之间的频率为425=0.16,所以频率分布直方图中[80,90)间的矩形的高为0.1610=0.016.(3)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5,6. 则在[80,100)之间的试卷中任取两份的基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15个,其中至少有一个在[90,100]之间的基本事件有(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6)共9个,故至少有一份分数在[90,100]之间的概率是915=35.15.(2011·安徽文,20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.[解析] 由所给数据分析,年需求量与年份之间近似直线上升,可对数据进行预处理如下表对预处理后的数据,容易算出x =0,y =3.2∑i =15x i y i =-4×(-21)+(-2)×(-11)+2×19+4×29=260∑i =15x 2i =16+4+0+4+16=40∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=26040=6.5,∴a ^=y -b ^x =3.2 ∴所求回归直线方程y -257=6.5(x -2006)+3.2即y =6.5(x -2006)+260.2(2)当x =2012时,y =6.5(2012-2006)+260.2=299.2万吨=300万吨 故预测2012年粮食需求量约为300万吨.。

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。

统计与统计案例练习题及知识点总结(全面)-高考数学

统计与统计案例练习题及知识点总结(全面)-高考数学

统计与统计案例练习题与知识点总结1.为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%+==,故A 正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误.综上,给出结论中不正确的是C.故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于⨯频率组距组距.2.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++()2P K k ≥0.0500.0100.001k3.8416.63510.828【答案】(1)75%;60%;(2)能.【分析】本题考查频率统计和独立性检验,属基础题,根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075% 200=,乙机床生产的产品中的一级品的频率为12060% 200=.(2)()22400150801205040010 6.63527013020020039K⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.1.随机抽样(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积的总和等于1.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x=x1+x2+…+x nn,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=1[x1-x2+x2-x2+…+x n-x2].n[(x1-x)2+(x2-x)2+…+(x n-x)2](x n是样本数据,n是样本容量,x是样本平均数).(5)方差:s2=1n4.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心.③相关系数当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.5.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1y 2总计x 1a b a +b x 2c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.(3)独立性检验:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1.如图为国家统计局2021年1月19日发布的2020年各季度社会消费品零售总额及增速,则下列说法:①各季度社会消费品零售总额增速最快的是4季度;②各季度社会消费品零售总额增速最快的是2季度;③各季度社会消费品零售总额增量最大的是4季度;④各季度社会消费品零售总额增量最大的是2季度.其中所有正确说法的序号为()A.①④B.②③C.①③D.②④2.下图是2020年我国居民消费价格月度涨跌幅度图(来源于国家统计局网站)下列说法错误的是()A.1~12月月度同比的平均值为2.55B .1~12月月度环比的平均值为负数C .1~12月月度同比整体为下降趋势D .1~12月月度环比的方差大于月度同比的方差3.已知相关变量x 和y 的散点图如图所示,若用()11ln y b k x =⋅与22y kx b =+拟合时的相关系数分别为12,r r 则比较12,r r 的大小结果为()A .12r r >B .12r r =C .12r r <D .不确定4.下列说法中错误的个数是①某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按系统抽样的方法抽取为200人,则每个女生被抽到的概率为110;②由样本数据得到的回归直线方程y bx a =+$$$必经过样本中心点()x y ;③如果落在回归直线上的样本点越多,则回归直线方程的拟合效果就越好;④在一个2×2列联表中,由计算得出220.21K =,而()210.8280.001P K ≥≈,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系.()A .1B .2C .3D .45.质检机构为检测一大型超市某商品的质量情况,从编号为1~120的该商品中利用系统抽样的方法抽8件进行质检,若所抽样本中含有编号67的商品,则下列编号一定被抽到的是()A .112B .53C .38D .96.2020年是全面实现小康社会目标的一年,也是全面打赢脱贫攻坚战的一年,某研究性学习小组调查了某脱贫县的甲、乙两个家庭,对他们过去6年(2014年到2019年)的家庭收入情况分别进行统计,发现他们的收入逐年增长,得到这两个家庭的年人均纯收入(单位:百元/人)茎叶图.对甲、乙两个家庭的年人均纯收入(以下分别简称“甲”“乙”)情况的判断,不正确的是()A.过去的6年,“甲”的极差小于“乙”的极差B.过去的6年,“甲”的平均值小于“乙”的平均值C.过去的6年,“甲”的中位数小于“乙”的中位数D.过去的6年,“甲”的平均增长率小于“乙”的平均增长率7.为了普及新冠肺炎知识,增强疫情防控意识,某学校从高一和高二两个年级各抽取5位同学参加新冠肺炎知识测试,得分(十分制)情况如下表所示,则下列描述正确的是()高一年级组高二年级组得分45678得分569频数11111频数311A.高一年级组数据的平均数为6分,高二年级组数据的平均数为5分B.两组数据的中位数都是6分C.高一年级组数据的极差小于高二年级组数据的极差D.高一年级组成绩的方差小于高二年级组成绩的方差8.某中学2018年的高考考生人数是2015年高考考生人数的1.5倍,为了更好地对比该校考生的升学情况,统计了该校2015年和2018年的高考情况,得到如图柱状图:则下列结论正确的是()A.与2015年相比,2018年一本达线人数减少B .与2015年相比,2018年二本达线人数增加了0.5倍C .2015年与2018年艺体达线人数相同D .与2015年相比,2018年不上线的人数有所增加9.m 个数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据,则下列关于这组新数据的说法正确的是()A .平均数为aB .中位数为2bC D .方差为2c10.已知变量y 关于x 的回归方程为0.5bx y e -=,其一组数据如表所示:若5x =,则预测y 值可能为()x1234ye3e 4e 6e A .5e B .112e C .7e D .152e 11.给出下列说法:①回归直线ˆˆˆy bx a =+恒过样本点的中心(x y ,且至少过一个样本点;②两个变量相关性越强,则相关系数||r 就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5yx =-中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5个单位.其中说法正确的是()A .①②④B .②③④C .①③④D .②④12.在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是()性别说谎不说谎总计男6713女8917总计141630A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分证据显示说谎与性别有关13.下列四个命题中,正确的有()①两个变量间的相关系数r 越小,说明两变量间的线性相关程度越低;②命题“x ∃∈R ,使得210x x ++<”的否定是:“对x ∀∈R ,均有210x x ++>”;③命题“p g ∧为真”是命题“p q ∨为真”的必要不充分条件;④若函数322()3f x x ax bx a =+++在1x =-有极值0,则2a =,9b =或1a =,3b =.A .0B .1C .2D .314.某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如图.已知在样本数据中,有40位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理()附:()()()()()22n ad bc K a c b d a d b c -=++++,其中n a b c d =+++.()20P K k ≥0.100.050.010.0050k 2.7063.8416.6357.879A .有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”B .有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C .有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”15.下图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的概率为()A.0.2B.0.4C.0.5D.0.616.设一组样本数据x1,x2,…,x n的方差为0.01,则数据10x1,10x2,…,10x n的方差为()A.0.01B.0.1C.1D.1017.下图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为A.5,5B.3,5C.3,7D.5,718.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次[0,200](200,400](400,600]空气质量等级1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:22()()()()()n ad bcKa b c d a c b d-=++++,P(K2≥k)0.0500.0100.001k 3.841 6.63510.82819.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001k 3.841 6.63510.82820.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:是否需要志愿性别男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由附:1.C 【分析】根据折线统计图比较各季度社会消费品零售总额增速,可判断①②的正误;计算各季度社会消费品零售总额增量,可判断③④的正误.【详解】第1季度社会消费品零售总额增速为19.0%-,第2季度社会消费品零售总额增速为 3.9%-,第3季度社会消费品零售总额增速为0.9%,第4季度社会消费品零售总额增速为4.6%,故①正确,②错误;第2季度社会消费品零售总额增量为9.377.86 1.51-=(万亿元),第3季度社会消费品零售总额增量为10.119.370.74-=(万亿元),第4季度社会消费品零售总额增量为11.8710.11 1.76-=(万亿元).故③正确,④错误.故选:C.2.D 【分析】根据图表数据计算平均数,然后判断A 和B ;根据图表数据的变化趋势判断C 和D.【详解】同比平均数:()5.4 5.2 4.3 3.3 2.4 2.5 2.7 2.4 1.70.50.50.72.5512++++++++++-+=,环比平均数:()()()()()()1.40.8 1.20.90.80.10.60.40.20.30.60.20.02512++-+-+-+-++++-+-+=-,1-12月月度同比的平均值为2.55,选项A 正确;1~12月月度环比的平均值为0.025-,选项B 正确;观察图表可以得出,1~12月月度同比整体为下降趋势,选项C 正确;1~12月月度环比的波动小于月度同比的波动,选项D 错误.故选:D .3.C 【分析】由散点图可知,对数形式的拟合程度高,再根据负相关,比较两个相关系数大小.【详解】由散点图可知,()11ln y b k x =拟合比用22y k x b =+拟合的程度高,故12r r >;又因为此关系为负相关,1212,r r r r ∴->-<故选:C 4.B 【分析】由古典概型的特征可判断①;由回归直线方程的特征可判断②③;由独立性检验思想可判断④.【详解】①错误,古典概率中,每个个体被抽的概率都是一样的,都等于2002021;②正确由回归直线方程的特征可知回归直线方程y bx a =+$$$必经过样本中心点(),x y ;③错误,落在回归直线附近的样本点越多,则回归直线方程的拟合效果越好;④正确,当220.21K =,而()210.8280.001P K ≥≈,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系所以错误个数为2.故选:B.5.A 【分析】根据系统抽样的特征,结合所给编号求出第一组抽取商品编号,即可求解.【详解】由题意知,组距为120158=,设第一组抽取编号为k ,则第n 组抽取的编号为15(1)n k -+,样本中含有编号67的商品,即15(51)67k ⨯-+=,可得7k =,因为1577112⨯+=,即第8组中抽取商品的编号为112.故选:A 6.B 【分析】对茎叶图进行数据分析,分别计算极差、平均数、中位数、及平均增长率,依次判断四个选项.【详解】对于A ,甲的极差为42366-=,乙的极差为41347-=,所以“甲”的极差小于“乙”的极差,A 正确;对于B ,甲的平均数是1230(363737384042)66⨯+++++=,乙的平均数为1228(343638394041)66⨯+++++=,所以“甲”的平均值大于“乙”的平均值,B 错误;对于C ,甲的中位数是1(3738)37.52⨯+=,乙的中位数是1(3839)38.52⨯+=,所以,“甲”的中位数小于“乙”的中位数,C 正确;对于D ,设过去6年甲的平均增长率为x ,则()636142x +=,解得:1x =-,即过去61-;1-.因为42413634<,所以“甲”的平均增长率小于“乙”的平均增长率,D 正确.故选:B.7.D 【分析】根据表中数据,依次讨论各选项即可得答案.【详解】对于A 选项,高一年级和高二年级的平均分均为6分,故A 选项错误;对于B 选项,高一年级的中位数是6,高二年级的中位数是5,故B 选项错误;对于C 选项,高一年级的极差为4,高二年级的极差为3,故高一年级组数据的极差大于高二年级组数据的极差,故C 选项错误;对于D 选项,高一年成绩的方差为()()()()()2222221465666768625S ⎡⎤=-+-+-+-+-=⎣⎦,高二年级成绩的方差为()()()222213566696 2.45S ⎡⎤=-+-+-=⎣⎦,满足,故D 选项正确;故选:D 8.D 【分析】设2015年该校参加高考的人数为S ,则2018年该校参加高考的人数为1.5S ,观察柱状统计图,找出各数据,再利用各数量间的关系列式计算得到【详解】设2015年该校参加高考的人数为S ,则2018年该校参加高考的人数为1.5S.对于选项A :2015年一本达线人数为0.28S ,2018年一本达线人数为0.24×1.5S =0.36S ,可见一本达线人数增加了,故A 错误;对于选项B :2015年二本达线人数为0.32S ,2018年二本达线人数为0.4×1.5S =0.6S ,显然2018年二本达线人数不是增加了0.5倍,故B 错误;对于选项C :2015年和2018年艺体达线率没变,但是人数是不相同的,故C 错误;对于选项D :2015年不上线人数为0.32S ,2018年不上线人数为0.28×1.5S=0.42S ,不达线人数有所增加,故D 正确.故选:D 9.B 【分析】m 个12,,,n x x x 数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据122,2,,2n x x x ,根据平均数、中位数、方差、标准差的定义进行判断即可.【详解】m 个12,,,n x x x 数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据122,2,,2n x x x ,则由于平均数为所有数之和除以m ,故平均数变为2a ,故A 错;中位数为这组数从小到大排列后中间的那个数或中间两数和的平均数,由于每个数都变为原来2倍,所以中位数也变为原来的2倍,即2b ,故B 对;方差描述的是这组数的波动情况,12,,,n x x x 的方差为c ,则122,2,,2n x x x 的方差为224c c =2c =,故C,D 错;故选:B 【点睛】熟悉平均数、中位数、方差、标准差的概念,特别是一组数据扩大某个倍数或增加某个数值的情况下,平均数、中位数、方差、标准差的变化.10.D 【分析】将回归方程左右同时取对数得:ln 0.5y bx =-,看作回归直线的形式,由回归直线过样本中心点可构造方程求得b ,由此得到回归方程;将5x =代入回归方程即可求得结果.【详解】由0.5bx y e-=得:ln 0.5y bx =-,346ln ln ln ln 12340.544e e e e b ++++++∴=⋅-,解得: 1.6b =,∴回归方程为 1.60.5x y e -=,若5x =,则1580.52y e e -==.故选:D.【点睛】关键点点睛:本题考查非线性回归中的预估值的求解,解题关键是能够通过对指数型回归模型左右同时取对数,将其变为线性回归的形式来进行求解.11.B 【分析】①中,根据回归直线方程的特征,可判定是不正确;②中,根据相关系数的意义,可判定是是正确的;③中,根据方差的计算公式,可判定是正确的;④中,根据回归系数的含义,可判定是正确的.【详解】对于①中,回归直线ˆˆˆy bx a =+恒过样本点的中心(x y ,但不一定过一个样本点,所以不正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数||r 就越接近1,所以是正确的;对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5yx =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位,所以是正确的.故选:B.【点睛】本题主要考查了统计知识的相关概念及判定,其中解答中熟记回归直线方程的特征,回归系数的含义,相关系数的意义,以及方程的计算方法是解答的关键,属于基础题.12.D 【解析】根据上表数据可求得20.027 1.323k ≈<,再结合课本上的概率附表可知在此次调查中没有充分证据显示说谎与性别有关,故选D 13.A 【分析】根据相关系数的定义可知①错误;根据特称命题(又叫存在性命题)的否定可知②错误;根据真值表即可判断“p q ∧为真”是命题“p q ∨为真”的充分不必要条件,故③错误;由条件可得,(1)0,(1)0,f f '-=-=解得a=2,b=9或a=1,b=3,经检验,当a=1,b=3时,22()3633(1)0f x x x x '=++=+≥恒成立,此时()f x 没有极值点,故④错误。

高级统计师高级统计实务与案例解析考题试卷及答案

高级统计师高级统计实务与案例解析考题试卷及答案

高级统计师高级统计实务与案例解析考题试卷及答案P210第一题(10分)请简述相关解析与回归解析的区别和联系。

答:区别:1、两者研究的目的不同;一个是关系密切的程度和方向 ; 另一个是相关的具体形式,也就是数量变动关系;2、研究的方法不同:前者用散点图定性表示,或者用相关系数定量表示,后者是用回归方程表示的;3、结果不同:前者两个变量只能计算一个相关系数;后者则一个是自变量,一个是因变量.当然也可能只有一个方程;4、变量的地位不同:前者认为两个都是随机的,后者认为自变量是确定的,因变量是随机的.联系:有共同的研究对象,是相同的变量或事物;两者互补的,前者是后者的基础,后者是前者的进一步拓展。

P127第二题(10分)在某地实施一项抽样调查,根据以往经验,预计空户率为 5%,因拒访等原因造成的无回答率为 15%。

若要保证最终有效样本量能够达到 200户,最少应抽取多少样本户?答“设要抽取 X户,有 5%的空户率,则能抽上的只有(1-5%),无回答率为 15%,说明能回答的只有 1-15% ,X(1-5%)(1-15%)=200 X=247.2按照向上取整原则=248户.知识点:(1)可能由于空户率或无回答率,改变了内部差异的性质;(2)无回答误差:由于无回答现象的发生而导致调查获得的统计数据与社会经济现象的直实数据之间的差距就是无回答误差.(3)无回答是指由于种种原因不能从单位中获得研究所需要的有用的数据或记录.P102 第三题(15分)某建筑装饰工程公司年报上报从业人员劳动报酬 153.7万元。

某市统计局在例行执法检查时,经查阅有关单据、凭证、统计台帐,询问有关人员,认真进行核实,发现该企业全年共计支付:(1)职工工资 88.7万元;(2)职工年终奖、安全奖等各类奖金 12.6万元;(3)职工交通费补助 11.2万元;(4)职工洗理费、书报费等3.4万元;(5)职工独生子女费0.6万元;(6)职工岗位津贴 53.8万元;(7)职工食堂伙食补贴 20万元;(8)职工其它工资性补贴和津贴 2.1万元。

统计有关经典例题解析、及高考题50道,带答案

统计有关经典例题解析、及高考题50道,带答案

【经典例题】【例1】(2008广东).为了调查某厂工人生产某种产品的能力,随机抽 查了20位工人某天生产该产品的数量.产品数量的分组区间为[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的 人数是 . 【答案】13【解析】20(0.06510)13⨯⨯=,故答案为13.【例2】(2009山东)某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的 产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( ).A. 90B.75C. 60D.45【答案】A【解析】产品净重小于100克的概率为(0.050+0.100)×2=0.300, 已知样本中产品净重小于100克的个数是36,设样本容量为n , 则300.036=n,所以120=n ,净重大于或等于98克并且小于104克的产品的概率为(0.100+0.150+0.125)×2=0.75,所以样本中净重大于或等于98克并且小于104克的产品的个数是120×0.75=90.故选A.【例3】(2009上海)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生在规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”。

根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A. 甲地:总体均值为3,中位数为4B. 乙地:总体均值为1,总体方差大于0C. 丙地:中位数为2,众数为3D. 丁地:总体均值为2,总体方差为3 【答案】D【解析】根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A 中,中位数为4,可能存在大于7的数;同理,在选项C 中也有可能;选项B 中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D 中,根据方差公式,如果有大于7的数存在,那么方差不会为3,故答案选D.第8题图【例4】(2009湖北)下图是样本容量为200的频率分布直方图。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与统计案例A 级 基础一、选择题1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( )A .860B .720C .1 020D .1 0402.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A .13B .19C .20D .513.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^=mx +0.35,则预测2019年捐赠的现金大约是( )A.5万元C .5.25万元D .5.5万元4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5 B.5,5 C.3,7 D.5,75.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是()A.a=0.015,s21<s22B.a=0.15,s21>s22C.a=0.015,s21>s22D.a=0.15,s21<s22二、填空题6.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.7.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.8.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:分类女男总计喜爱402060不喜爱203050总计6050110________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,其中n (参考公式:K2=(a+b)(c+d)(a+c)(b+d)=a+b+c+d)三、解答题9.微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别”有关?10.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)频数1324926 5日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6) 频数15131016 5布直方图:(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表).B 级 能力提升11.对某两名高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如下折线图,下面是关于这两位同学的数学成绩分析.①甲同学的成绩折线图具有较好的对称性,故平均成绩为130分;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关;④乙同学连续九次测验成绩每一次均有明显进步. 其中正确的结论,有________(填写正确的序号).12.(2019·天一大联考)某机构为了了解不同年龄的人对一款智能家电的评价,随机选取了50名购买该家电的消费者,让他们根据实际使用体验进行评分.(1)设消费者的年龄为x ,对该款智能家电的评分为y .若根据统计数据,用最小二乘法得到y 关于x 的线性回归方程为y ^=1.2x +40,且年龄x 的方差为s 2x =14.4,评分y 的方差为s 2y =22.5.求y 与x 的相关系数r ,并据此判断对该款智能家电的评分与年龄的相关性强弱;(2)按照一定的标准,将50名消费者的年龄划分为“青年”和“中老年”,评分划分为“好评”和“差评”,整理得到如下数据,请判断是否有99%的把握认为对该智能家电的评价与年龄有关.分类 好评 差评 青年 8 16 中老年206附:线性回归直线y ^=b ^x +a ^的斜率b ^=;相关系数r = .独立性检验中的K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d .临界值表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A 级 基础一、选择题1.解析:依题意,分层抽样比为301 200=140.所以81=140(1 000+1 200+n ),解得n =1 040.答案:D2.解析:由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.所以样本中还有一位同学的编号为20号. 答案:C3.解析:由统计表格,知x -=4.5,y -=3.5, 所以3.5=4.5m +0.35,则m =0.7, 因此y ^=0.7x +0.35,当x =7时,y ^=0.7×7+0.35=5.25(万元), 故2019年捐赠的现金大约是5.25万元. 答案:C4.解析:由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y =5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x5=66,解得x =3.答案:A5.解析:由(0.020+0.010+0.030+a +0.025)×10=1,得a =0.015.根据频率分布直方图,乙中较稳定,则s 21>s 22.答案:C 二、填空题6.解析:x -=10×0.97+20×0.98+10×0.9910+20+10=0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98. 答案:0.987.解析:依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案:48.解析:根据列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(约有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99% 三、解答题9.解:(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时). (2)由已知得:2(0.04+a +0.14+2×0.12)=1, 解得a =0.08. 由题设条件得列联表男性 38 12 50 女性 30 20 50 总计6832100所以K 2=(a +b )(c +d )(a +c )(b +d )=100(38×20-30×12)250×50×68×32≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关. 10.解:(1)所求的频率分布直方图如下:(2)根据以上数据,该家庭使用节水龙头后,日用水量小于0.35 m 3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m 3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天的日用水量的平均数为x -1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天的日用水量的平均数为 x -2=150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3).B 级 能力提升11.解析:①甲同学的成绩折线图具有较好的对称性,最高130分,平均成绩低于130分,①错误;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内,②正确;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关,③正确;④乙同学在这连续九次测验中第四次、第七次成绩较上一次成绩有退步,故④不正确.答案:②③12.解:(1)相关系数r ===b ^·50s 2x 50s 2y=1.2×1215=0.96. 故对该款智能家电的评分与年龄的相关性较强.(2)由2×2列联表得K 2=50×(8×6-20×16)224×26×28×22≈9.624>6.635. 故有99%的把握认为对该智能家电的评价与年龄有关.。

相关文档
最新文档