统计与统计案例
高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.
到
的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从
到
的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.
则
认
为
生活中的统计学案例

生活中的统计学案例生活中的统计学案例无处不在,统计学作为一门应用广泛的学科,其实际应用涵盖了生活的方方面面。
从日常生活中的消费数据到医疗领域的疾病统计,从教育领域的学生成绩分析到经济领域的市场调查,统计学都扮演着不可或缺的角色。
下面,我们将通过几个生活中的具体案例,来展示统计学在实际生活中的应用。
首先,我们来看一个关于市场调查的案例。
某公司推出了一款新产品,想要了解消费者对该产品的满意度。
他们进行了一次市场调查,通过问卷调查的方式收集了大量数据。
在统计学的帮助下,他们可以对这些数据进行分析,得出消费者对产品的整体满意度,以及不同年龄、性别、地域等因素对满意度的影响。
通过统计学的分析,公司可以更好地了解消费者的需求,为产品的改进提供依据。
其次,我们来看一个关于医疗领域的案例。
某医院统计了一段时间内的疾病发病率数据,发现某种疾病的发病率呈上升趋势。
统计学的方法可以帮助医院分析这些数据,找出可能的病因和影响因素。
通过统计学的分析,医院可以及时采取相应的预防措施,有效控制疾病的传播。
再次,我们来看一个关于教育领域的案例。
某学校对学生的期末考试成绩进行了统计分析,发现数学成绩普遍较低。
通过统计学的方法,学校可以对学生的学习情况进行分析,找出存在的问题和不足之处。
同时,还可以通过统计学的方法,找出学习成绩较好的学生的学习方法和习惯,为其他学生提供学习的借鉴和指导。
最后,我们来看一个关于日常生活消费数据的案例。
某家庭通过统计每个月的生活消费数据,发现了一些意想不到的情况。
通过统计学的方法,他们可以对不同方面的消费进行分析,找出存在的问题和改进的空间。
通过统计学的分析,他们可以更好地理财,合理安排生活消费,提高生活质量。
通过以上几个生活中的统计学案例,我们可以看到统计学在实际生活中的重要作用。
无论是在市场调查、医疗领域、教育领域,还是在日常生活中的消费数据分析,统计学都可以为我们提供有力的支持和帮助。
因此,学习统计学,掌握统计学的方法和技巧,对我们的生活和工作都是非常有益的。
统计案例(精讲)(提升版)(原卷版)

8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
统计与统计案例(文科)教程文件

统计与统计案例(文科)统计与统计案例第一节随机抽样1.下面的抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验答案:D2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )答案:D3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50 B.40 C.25 D.20答案: C4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14答案:B5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.答案:46.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B.100C.180 D.300答案:C7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.答案:58.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=()A.54 B.90 C.45 D.126答案:B9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.答案:3010.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:180011.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.答案:40第二节用样本估计总体12.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案: D13.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.①直方图中的a=________;②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案:①3 ②6 00014.某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.答案:1515.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案:A16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:①分别估计该市的市民对甲、乙两部门评分的中位数; ②分别估计该市的市民对甲、乙两部门的评分高于90的概率; ③根据茎叶图分析该市的市民对甲、乙两部门的评价.答案:①由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. ②由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.③由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大. 17.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?答案:(1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×1=5(户).518.重庆市2013年各月的平均气温(℃)数据的茎叶图如下图,则这组数据的中位数是( )A.19 B.20 C.21.5 D.23答案:B19.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④答案:B20.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4A.甲 B.乙 C.丙 D.丁答案:C第三节变量间的相关关系、统计案例1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√ 2.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 解析:选C 由散点图知③④具有相关关系.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ,则a =( )x 0 1 3 4 y2.24.34.86.7A.3.25 B .2.6 C .解析:选B 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.4.若回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位,y ( )A .平均增加1.5个单位B .平均增加2个单位C .平均减少1.5个单位D .平均减少2个单位解析:选 C 因为回归直线方程为y ^=2-1.5x ,所以b ^=-1.5,则变量x 增加一个单位,y 平均减少1.5个单位.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.6.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案:D7.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案:B8.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案: C9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2010)+a ^=6.5(x -2010)+3.2, 即y ^=6.5(x -2010)+260.2.(*)(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).10.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.精品资料仅供学习与交流,如有侵权请联系网站删除 谢谢11看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[听前试做](1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。
应用统计案例大赛优秀案例

应用统计案例大赛优秀案例今天就给大家分享一个超有趣的应用统计案例大赛的优秀案例。
一、案例背景。
这个案例聚焦在校园里,你也知道,校园可是个充满活力和各种消费潜力的小社会呢。
现在奶茶在校园里那可是相当火爆,所以有个团队就盯上了这个现象,想要通过统计分析来搞清楚校园奶茶消费背后的门道。
二、数据收集。
他们可没少费功夫。
首先是问卷调查,在校园各个角落“逮”同学来填问卷。
问题设计得也很巧妙,像“你一周喝几次奶茶?”“你通常会选择什么价位的奶茶?”“你是因为什么原因选择某一家奶茶店(口味、品牌、距离还是促销活动)?”等等。
除了问卷调查,他们还跑到奶茶店门口去做实地观察,统计不同时间段的进店人数、购买奶茶的种类,甚至还记录了顾客等待的时间。
这就像在奶茶店周围安了好多双小眼睛,把各种数据都抓得死死的。
三、数据分析过程。
1. 描述性统计。
把收集来的数据进行初步整理,发现了一些很有意思的东西。
比如说,通过对问卷中“一周喝奶茶次数”的统计,发现大部分同学一周会喝2 3次奶茶。
这就像找到了校园奶茶消费的一个基本节奏。
而且,在价位选择上,10 15元这个区间的奶茶是最受欢迎的,这可能和同学们的零花钱预算有关呢。
2. 相关性分析。
然后他们就开始玩更高级的了。
做相关性分析的时候,发现离教学楼或者宿舍近的奶茶店,即使品牌不是那么知名,生意也还不错。
这说明距离对同学们选择奶茶店有着不小的影响。
而且,他们还发现,当一家奶茶店推出新口味的时候,如果能配合一些促销活动,销售量就会有明显的上升。
这就像是找到了打开奶茶销售更多的两把小钥匙——新口味和促销。
3. 聚类分析。
这个就更酷了。
他们根据同学们的消费习惯,把同学们分成了不同的类。
比如说,有“奶茶狂热型”,这类同学不管什么情况,每天都要喝奶茶,而且对价格不是特别敏感,只要好喝就行;还有“性价比追求者”,他们会在不同奶茶店之间比较价格和分量,总是选择最划算的那一款;还有“偶尔尝鲜型”,平时不怎么喝奶茶,但是看到新口味或者特别的包装就会忍不住去试试。
高考数学二轮复习专题突破—统计与统计案例(含解析)

高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
2021年高考数学(文)一轮复习讲义第11章高考专题突破六高考中的概率与统计统计案例

高考专题突破六高考中的概率与统计、统计案例统计与统计案例例1(2022·长沙市雅礼中学模拟)随着智能 的普及,使用 上网成为了人们日常生活的一局部,很多消费者对 流量的需求越来越大.某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了人口规模相当的4个城市采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x (单位:元/月)和购置总人数y (单位:万人)的关系如表:定价x (元/月) 20 30 50 60 年轻人(40岁以下) 10 15 7 8 中老年人(40岁以及40岁以上)20 15 3 2 购置总人数y (万人)30301010(1)计10元/月的流量包将有多少人购置(2)假设把50元/月以下(不包括50元)的流量包称为低价流量包,50元以上(包括50元)的流量包称为高价流量包,试运用独立性检验知识,填写下面列联表,并通过计算说明能否在犯错误的概率不超过0.01的前提下,认为购置人的年龄大小与流量包价格上下有关小于50元大于或等于50元总计 年轻人(40岁以下) 中老年人(40岁以及40岁以上)总计参考公式:y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=i =1n (x i -x )(y i -y )i =1n (x i -x )2,a ^=y -b ^x .K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:P (K 2≥k 0)0.100.050.0250.0100.0050.001解(1)x =20+30+50+604=40,y =30+30+10+104=20,b ^=i =1n (x i -x )(y i -y )2i =1n (x i -x )2=-20×10-10×10+10×(-10)+20×(-10)(-20)2+(-10)2+102+202=-0.6,a ^=y -b ^x =20-(-0.6)×40=44, 所以y 关于x 的回归方程是y ^=-0.6x +44,当x =10时,y =38,估计10元/月的流量包将有38万人购置. (2)K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=80×(25×5-35×15)60×20×40×40≈6.667,因为6.667>6.635,所以能在犯错误的概率不超过0.01的前提下,认为购置人的年龄大小与流量包价格上下有关. 思维升华统计与统计案例在解答题中考查时,以频率分布直方图、线性回归方程与独立性检验为重点,充分表达了数学核心素养——数据分析.跟踪训练1(2022·湖北省荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动〞的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光〞为口号的课外活动建议.为调查该校学生每周平均体育运动时间的情况,从高一、高二根底年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如下列图的频率分布直方图.(高一年级共有1200名学生)(1)据图估计该校学生每周平均体育运动时间.并估计高一年级每周平均体育运动时间缺乏4小时的人数;(2)规定每周平均体育运动时间不少于6小时记为“优秀〞,否那么为“非优秀〞,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成以下2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关.〞根底年级高三 总计 优秀 非优秀 总计300附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).参考数据:P (K 2≥k 0)0.100 0.050 0.010 0.005 k 02.7063.8416.6357.879解(1)该校学生每周平均体育运动时间为x =1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8,样本中高一年级每周平均体育运动时间缺乏4小时的人数为300×410×(0.025×2+0.100×2)=30.又样本中高一的人数有120,所以估计高一年级每周平均体育运动时间缺乏4小时的人数约为1200×30120=300.(2)列联表如下:根底年级 高三 总计 优秀 105 30 135 非优秀 105 60 165 总计21090300K 2=300×(105×60-105×30)2210×90×135×165=70099≈7.071, 因为7.071>6.635,所以有99%的把握认为“该校学生的每周平均体育运动时间是否优秀与年级有关〞.古典概型与统计的综合应用例2(2022·华中师大附中、实验中学、广雅中学、深圳中学四校联考) 汉字听写大会 不断创收视新高,为了防止“书写危机〞,弘扬传统文化,某市对全市10万名市民进行了汉字听写测试,现从某社区居民中随机抽取25名市民进行听写测试情况,发现被测试市民正确书写汉字的个数全部在160到184之间,将测试结果按如下方式分成六组:第一组[160,164),第二组[164,168),…,第六组[180,184],如图是按上述分组方法得到的频率分布直方图. (1)假设电视台记者要从抽取的市民中选1人进行采访,求被采访人恰好在第1组或第4组的概率;(2)第1组市民中男性有3名,组织方要从第1组中随机抽取2名市民组成弘扬传统文化宣传队,求至少有1名女性被选中的概率.解(1)被采访人恰好在第1组或第4组的频率为(0.05+0.02)×4=0.28, ∴估计被采访人恰好在第1组或第4组的概率为0.28. (2)第1组[160,164)的人数为0.05×4×25=5, ∴第1组中共有5名市民,那么其中女性市民共2名,记第1组中的3名男性市民分别为A ,B ,C,2名女性市民分别为x ,y ,从第1组中随机抽取2名市民组成宣传队,共有10个根本领件,列举如下:AB ,AC ,Ax ,Ay ,BC ,Bx ,By ,Cx ,Cy ,xy ,至少有1名女性Ax ,Ay ,Bx ,By ,Cx ,Cy ,xy ,共7个根本领件,∴从第1组中随机抽取2名市民组成弘扬传统文化宣传队,至少有1名女性的概率为710.思维升华古典概型与统计的综合题一般是先给出样本数据或样本数据的分布等,解题中首先要把数据分析清楚,明确频率可近似替代概率,抽象得到古典概型,把握根本领件的构成要素.跟踪训练2(2022·汉中模拟)槟榔原产于马来西亚,在中国主要分布在云南、海南及台湾等热带地区.槟榔是重要的中药材,在南方一些少数民族还将果实作为一种咀嚼嗜好品,但其被世界卫生组织国际癌症研究机构列为致癌物清单Ⅰ类致癌物.云南某民族中学为了解A ,B 两个少数民族班的学生咀嚼槟榔的情况,分别从这两个班中随机抽取5名学生进行调查,将他们平均每周咀嚼槟榔的颗数作为样本,绘制成如下列图的茎叶图(图中的茎表示十位数字,叶表示个位数字).(1)你能否估计哪个班的学生平均每周咀嚼槟榔的颗数较多(2)从A 班不超过19的样本数据中随机抽取一个数据记为a ,从B 班不超过21的样本数据中随机抽取一个数据记为b ,求a ≥b 的概率.解(1)A 班样本数据的平均值为15(9+11+14+20+31)=17,由此估计A 班学生平均每周咀嚼槟榔的颗数为17; B 班样本数据的平均值为15(11+12+21+25+26)=19,由此估计B 班学生平均每周咀嚼槟榔的颗数为19, 故估计B 班学生平均每周咀嚼槟榔的颗数较多.(2)A 班样本数据中不超过19的数据a 有3个,分别为9,11,14,B 班样本数据中不超过21的数据b 也有3个,分别为11,12,21.从A 班和B 班的样本数据中各随机抽取一个共有9种不同情况,分别为(9,11),(9,12),(9,21),(11,11),(11,12),(11,21),(14,11),(14,12),(14,21). 其中a ≥b 的情况有(11,11),(14,11),(14,12)3种, 故a ≥b 的概率P =39=13.古典概型与统计案例的综合应用例3(2022·河南八市重点高中联考)某县一中学的同学为了解本县成年人的交通平安意识情况,利用假期进行了一次全县成年人平安知识抽样调查.该县成年人中40%的人拥有驾驶证,先根据是否拥有驾驶证,用分层抽样的方法抽取了100名成年人,然后对这100人进行问卷调查,所得分数的频率分布直方图如下列图.规定分数在80以上(含80)的为“平安意识优秀〞.拥有驾驶证没有驾驶证总计 得分优秀 得分不优秀25 总计100(1)补全上面2×驶证〞有关(2)假设规定参加调查的100人中分数在70以上(含70)的为“平安意识优良〞,从参加调查的100人中根据平安意识是否优良,按分层抽样的方法抽出5人,再从5人中随机抽取3人,试求抽取的3人中恰有一人为“平安意识优良〞的概率. 附表及公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828解(1)列联表为K 2=100×(15×55-25×5)240×60×20×80=122596≈12.76>6.635, 所以有超过99%的把握认为“平安意识优秀与是否拥有驾驶证〞有关.(2)由频率分布直方图可求得70分以上(含70)的人数为100×(0.020+0.015+0.005)×10=40,所以按分层抽样的方法抽出5人时,“平安意识优良〞的有2人.记“平安意识优良〞的人分别为1,2,其余的3人分别为a ,b ,c ,从中随机抽取3人,根本领件有(1,2,a ),(1,2,b ),(1,2,c ),(1,a ,b ),(1,a ,c ),(1,b ,c ),(2,a ,b ),(2,a ,c ),(2,b ,c ),(a ,b ,c ),共10个,恰有一人为“平安意识优良〞的事件有6个,所以恰有一人为“平安意识优良〞的概率P =610=35.思维升华古典概型与统计案例相结合,要注意理解实际问题的意义,掌握独立性检验的计算公式及古典概型的根本领件的构成,才能有效地解决问题.跟踪训练3(2022·娄底期末)H 大学就业指导中心对该校毕业生就业情况进行跟踪调查,发现不同的学历对就业专业是否为所学专业有影响,就业指导中心从2022届的毕业生中,抽取了本科和研究生各50名,得到下表中的数据.(1)业生学历有关;(2)为了进一步分析和了解本科毕业生就业的问题,按分层抽样的原那么从本科毕业生中抽取一个容量为5的样本,要从5人中任选2人参加座谈,求被选取的2人中至少有1人就业为非所学专业的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解(1)由题意知,K 2=100(30×5-45×20)275×25×50×50=12>6.635,故能在犯错概率不超过0.01的前提下认为就业专业是否为所学专业与毕业生学历有关. (2)由题意知,所取样本中本科毕业生就业为所学专业的为3人,设为A ,B ,C ,非所学专业的为2人,设为a ,b .从5人中任选2人,其结果有(A ,B ),(A ,C ),(A ,a ),(A ,b ),(B ,C ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b ),共10种.记“至少有1人就业为非所学专业〞为事件S ,共有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b )7种情况,所以P (S )=710,即所求概率为710.例(12分)(2022·北京)改革开放以来,人们的支付方式发生巨大转变.近年来,移动支付已成为主要支付方式之一.为了解某校学生上个月A ,B 两种移动支付方式的使用情况,从全校所有的1000名学生中随机抽取了100人,发现样本中A ,B 两种支付方式都不使用的有5人,样本中仅使用A 和仅使用B 的学生的支付金额分布情况如下:(1)(2)从样本仅使用B 的学生中随机抽取1人,求该学生上个月支付金额大于2000元的概率; (3)上个月样本学生的支付方式在本月没有变化.现从样本仅使用B 的学生中随机抽查1人,发现他本月的支付金额大于2000元.结合(2)的结果,能否认为样本仅使用B 的学生中本月支付金额大于2000元的人数有变化说明理由. 标准解答解(1)由题意知,样本中仅使用A 的学生有27+3=30(人),仅使用B 的学生有24+1=25(人),A ,B 两种支付方式都不使用的学生有5人,故样本中A ,B 两种支付方式都使用的学生有100-30-25-5=40(人).[2分] 估计该校学生中上个月A ,B 两种支付方式都使用的人数为40100×1000=400.[4分](2)记事件C为“从样本仅使用B的学生中随机抽取1人,该学生上个月的支付金额大于2000元〞,=0.04,[8分]那么P(C)=125(3)记事件E为“从样本仅使用B的学生中随机抽查1人,该学生本月的支付金额大于2000元〞.假设样本仅使用B的学生中,本月支付金额大于2000元的人数没有变化,那么由(2)知,P(E)=0.04.[10分]答案例如1:可以认为有变化.理由如下:P(E)比较小,概率比较小的事件一般不容易发生.一旦发生,就有理由认为本月的支付金额大于2000元的人数发生了变化,所以可以认为有变化.[12分]答案例如2:无法确定有没有变化,理由如下:事件E是随机事件,P(E)比较小,一般不容易发生,但还是有可能发生的,所以无法确定有没有变化.[12分]第一步:审清题意,理清条件和结论,找到关键数量关系.第二步:找数量关系,把图表语言转化为数字,将图表中的数字转化为公式中的字母.第三步:建立解决方案,找准公式,根据图表数据代入公式计算数值.第四步:作出判断得结论,依据题意,借助数表作出正确判断.第五步:反思回忆,查看关键点、易错点和答题标准性.1.(2022·南宁适应性测试)某电子商务平台的管理员随机抽取了1000位上网购物者,并对其年龄(在10岁到69岁之间)进行了调查,统计情况如表所示.[30,40)(1)求a,b的值;(2)假设将年龄在[30,50)内的上网购物者定义为“消费主力军〞,其他年龄段内的上网购物者定义为“消费潜力军〞.现采用分层抽样的方式从参与调查的1000位上网购物者中抽取5人,再从这5人中抽取2人,求这2人中至少有一人是消费潜力军的概率.解(1)由题意得⎩⎪⎨⎪⎧a +b =500,ab =40000,a >b ,解得a =400,b =100.(2)由题意可知,在抽取的5人中,有3人是消费主力军,分别记为a 1,a 2,a 3,有2人是消费潜力军,分别记为b 1,b 2.记“这2人中至少有一人是消费潜力军〞为事件A .从这5人中抽取2人所有可能的情况为(a 1,a 2),(a 1,a 3),(a 1,b 1),(a 1,b 2),(a 2,a 3),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),共10种.符合事件A 的有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),共7种.故所求概率为P (A )=710.2.(2022·南阳一中模拟)某校在一次期末数学测试中,为统计学生的考试情况,从学校的2000名学生中随机抽取50名学生的考试成绩,被测学生成绩全部介于60分到140分之间(总分值150分),将统计结果按如下方式分成八组:第一组[60,70),第二组[70,80),…,第八组[130,140],如图是按上述分组方法得到的频率分布直方图的一局部. (1)求第七组的频率,并完成频率分布直方图;(2)估计该校的2000名学生这次考试成绩的平均分(可用区间中点值代替各组数据平均值); (3)假设从样本成绩属于第一组和第六组的所有学生中随机抽取2名,求他们的分差小于10分的概率.解(1)由频率分布直方图知第七组的频率f 7=1-(0.004+0.012+0.016+0.03+0.02+0.006+0.004)×10=0.08.频率分布直方图如图.(2)估计该校的2000名学生这次考试的平均成绩为(3)第六组有学生3人,分别记作A 1,A 2,A 3,第一组有学生2人,分别记作B 1,B 2,那么从中任取2人的所有根本领件为(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 1,A 2),(A 1,A 3),(A 2,A 3),(B 1,B 2),共10个.分差大于10分表示所选2人来自不同组,其根本领件有6个:(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),所以从中任意抽取2人,分差小于10分的概率P =410=25.3.(2022·内江模拟)基于移动网络技术的共享单车被称为“新四大创造〞之一,短时间内就风行全国,给人们带来新的出行体验,某共享单车运营公司的市场研究人员为了了解公司的经营状况,对公司最近6个月的市场占有率y %进行了统计,结果如下表:出y 关于x 的线性回归方程;如果不能,请说明理由;(2)根据调研数据,公司决定再采购一批单车扩大市场,从本钱1000元/辆的A 型车和800元/辆的B 型车中选购一种,两款单车使用寿命频数如下表:假设每辆单车的使用寿命都是整数年,用频率估计每辆车使用寿命的概率,以平均每辆单车所产生的利润的估计值为决策依据,如果你是公司负责人,会选择采购哪款车型 参考数据:i =16(x i -x )(y i -y )=35,i =16(x i -x )2=17.5,i =16(y i -y )2=76,1330≈36.5.参考公式:相关系数r =i =1n (x i -x )(y i -y )i =1n (x i -x )2i =1n (y i -y )2,b ^=i =1n (x i -x )(y i -y )i =1n (x i -x )2,a ^=y -b ^x .解(1)由表格中数据可得,x =3.5,y =16.∵r =i =1n (x i -x )(y i -y )i =1n (x i -x )2i =1n (y i -y )2=3517.5×76=351330≈0.96.∴y 与月份代码x 之间具有较强的相关关系,故可用线性回归模型拟合两变量之间的关系.b ^=i =1n (x i -x )(y i -y )i =1n (x i -x )2=3517.5=2. ∴a ^=y -b ^x =16-2×3.5=9, ∴关于x 的线性回归方程为y ^=2x +9. (2)这100辆A 款单车平均每辆车的利润为1100(-500×10+0×30+500×40+1 000×20)=350(元), 这100辆B 款单车平均每辆车的利润为1100(-300×15+200×40+700×35+1 200×10)=400(元), ∴用频率估计概率,A 款单车与B 款单车平均每辆的利润估计值分别为350元、400元,应采购B 款车型.4.(2022·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:指数,绘制了频率分布直方图,经过分析研究,决定从2022年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,假设11月份被限行的概率为0.05. (1)求频率分布直方图中m 的值;(2)假设按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K 2=(a +b )(c +b )(a +c )(b +d ),其中n =a +b +c +d .解(1)因为限行分单双号,王先生的车被限行的概率为0.05, 所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m )×50+0.1=1,解得m =0.003. (2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,那么空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4,空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的根本领件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个,记事件A 为“至少有一天空气质量是中度污染〞,那么事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个,故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K 2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.5.某公司方案购置1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购置这种零件作为备件,每个200元.在机器使用期间,如果备件缺乏再购置,那么每个500元.现需决策在购置机器时应同时购置几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图.记x 表示1台机器在三年使用期内需要更换的易损零件数,y 表示1台机器在购置易损零件上所需要的费用(单位:元),n 表示购机的同时购置的易损零件数. (1)假设n =19,求y 与x 的函数解析式;(2)假设要求“需更换的易损零件数不大于n 〞的频率不小于0.5,求n 的最小值;(3)假设这100台机器在购机的同时每台都购置19个易损零件,或每台都购置20个易损零件,分别计算这100台机器在购置易损零件上所需费用的平均数,以此作为决策依据,购置1台机器的同时应购置19个还是20个易损零件 解(1)当x ≤19时,y =3800;当x >19时,y =3800+500(x -19)=500x -5700. 所以y 与x 的函数解析式为y =⎩⎪⎨⎪⎧3800,x ≤19,500x -5700,x >19(x ∈N ). (2)由柱状图知,需要更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.(3)假设每台机器在购机同时都购置了19个易损零件,那么这100台机器中有70台购置易损零件的费用为3800,20台的费用为4300,10台的费用为4800,因此这100台机器在购置易损零件上所需费用的平均数为1100(3800×70+4300×20+4800×10)=4000; 假设每台机器在购机同时都购置20个易损零件,那么这100台机器中有90台在购置易损零件上的费用为4000,10台的费用为4500,因此这100台机器在购置易损零件上所需费用的平均数为1100×(4000×90+4500×10)=4050.比较两个平均数可知,购置1台机器的同时应购置19个易损零件.。
有趣的统计学案例

有趣的统计学案例
第一个案例是有关“猜猜看”的游戏。
在这个游戏中,一个人会想一个数字,然后其他人可以猜这个数字是多少。
我们可以用统计学的方法来分析这个游戏。
比如,我们可以计算所有猜测的平均值,然后和真实的数字进行比较,看看平均值是否接近真实值。
通过这个案例,我们可以了解到平均值在统计学中的重要性,以及如何利用平均值来估计未知的数值。
第二个案例是有关“点菜”的餐厅统计。
假设我们去一家餐厅吃饭,我们可以观察到不同菜品被点的频率。
通过统计每道菜被点的次数,我们可以得出哪些菜是最受欢迎的,哪些菜是不受欢迎的。
这个案例可以帮助我们了解如何利用统计学来分析消费者的偏好,以及如何根据统计结果来调整菜单和经营策略。
第三个案例是有关“天气预报”的统计分析。
天气预报是我们日常生活中经常关注的事情,而天气预报的准确性也是大家关心的问题。
我们可以通过统计方法来分析天气预报的准确性,比如计算实际天气和预报天气的差异,然后得出准确率和误差范围。
通过这个案例,我们可以了解到如何利用统计学的方法来评估和改进天气预报的准确性。
通过以上几个案例,我们可以看到统计学在日常生活中的应用和意义。
无论是游戏、餐厅还是天气预报,统计学都可以帮助我们理解和解释现象,从而更好地应对各种问题。
希望这些有趣的统计学案例能够激发你对统计学的兴趣,让你在日常生活中也能够运用统计学的知识来思考和解决问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与统计案例
一. 知识回顾: (一)抽样:
1.简单随机抽样
(1)定义:设一个总体含有N 个个体,从中_________抽取n 个个体作为样本(n ≤N),如果每次抽取时总体内的各个个体被抽到的机会都________,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样的方法:__________和____________.
2.系统抽样的步骤:假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体进行________;
(2)确定____________,对编号进行________.当N n (n 是样本容量)是整数时,取k =N
n
;
(3)在第1段用________________确定第一个个体编号l (l ≤k);
(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号________,再加k 得到第3个个体编号________,依次进行下去,直到获取整个样本. 3.分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:当总体是由____________________组成时,往往选用分层抽样. (二)用样本估计总体: 1.常用的统计图表
(1)频率分布直方图①小长方形的高=_____②频率=____③各小长方形的面积之和=_____ (2)茎叶图:在样本数据较少时,用茎叶图表示数据的效果较好. 2.用样本的数字特征估计总体的数字特征:
(1)在一组数据中,出现次数________的数据叫做这组数据的众数. (2)将一组数据按大小依次排列,把处在________位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数.
(3)如果有n 个数x 1,x 2,……,x n ,那么x =____________叫做这n 个数的平均数. (4)方差:s 2=_________________________(x n 是样本数据,n 是样本容量,x 是样本平均数). 二.典例分析:
例1.(1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14
(2)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 例2. (1)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,
第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( ) A .6 B .8 C .12 D .18
(2)PM 2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM 2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( ) A .甲 B .乙 C .甲乙相等 D .无法确定
课后作业:
1.某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为( ) A .15 B .16 C .17 D .18
2.已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A .200,20
B .100,20
C .200,10
D .100,10
3.某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为___万元.
4.设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a ,4 B .1+a, 4+a C .1 , 4
D .1, 4+a
5. 某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题: (1)求分数在[50,60]的频率及全班人数;
(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.
甲 乙 2 0.04 1 2 3 6 9 3 0.05 9 6 2 1 0.06 2 9 3 3 1 0.07 9 6 4 0.08 7
7
0.09
2
4
6
例1.(2) 200
课后作业:3. 10
5.解(1)分数在[50,60]的频率为0.008×10=0.08.
由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为
2
0.08=25.
(2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]
间的矩形的高为4
25÷10=0.016.。