高中数学选修2-3题型总结与强化训练:第九讲统计案例
高中数学苏教版选修2-3第3章《统计案例》(3-1)ppt课件

示的抽样数据:
Ⅱ 类1 类2
合计
类A a b Ⅰ
类B c d
a+b c+d
a+ b+ a+b+c 则χ2的计算公式是合χ2=计aa++bcb+c+c+ddda+adc-b+b+cd2d.
3.独立性检验的一般步骤
(1) 提 出 假 设 H0 : 两 个 研 究 对 象 没 有 关 系 ; (2) 根 据
积极支持教育改 不太赞成教育改 合
革
革
计
大学专
科
以上学
39
历
157
196
大学专 科
对于教育机构的研究项目,根据上述数据能否认为人具有大学专 科以上学历(包括专科)和对待教育改革的态度有关. 解 提出假设H0:人具有大学专科以上学历(包括专科)和对待教 育改革的态度没有关系. χ2=3921×963×9×19166×7-681×573×24292≈1.779, 因为1.779<3.841,所以我们没有充分的理由说人具有大学专科 以上学历(包括大学专科)和对待教育改革的态度有关.
② 根据自己预习时理解过的逻辑结构抓住老师的思路。老师讲课在多数情况下是根据教材本身的知识结构展开的,若把自己预习时所理解过的知识 逻辑结构与老师的讲解过程进行比较,便可以抓住老师的思路。
③ 根据老师的提示抓住老师的思路。老师在教学中经常有一些提示用语,如“请注意”、“我再重复一遍”、“这个问题的关键是····”等等,这些 用语往往体现了老师的思路。来自:学习方法网
当 H0 成立时,P(χ2>3.841)≈0.05,而 χ2≈6.201>3.841,所以我
们有 95%的把握认为休闲方式与性别有关.
(14 分)
高中数学(人教,选修2-3)第三章《统计案例》测试题A卷

98
D
那么 A= ________,B= ________, C=________, D= ________, E= ________. ()
A. 47 92 88 82 55B. 47 92 84 82 53C. 47 92 88 82 53 D . 45 92 88
82 53 9. 在建立两个变量 y 与 x 的回归模型中,分别选择了
果
2. 在研究吸烟与患肺癌的关系中,通过收集数据、 整理分析数据得 “吸烟与患肺癌有关”的
结论,并且有 99%以上的把握认为这个结论是成立的,则下列说法中正确的是
( ).
A. 100 个吸烟者中至少有 99 人患有肺癌
B. 1 个人吸烟,那么这人有 99%的概率患有肺癌
C.在 100 个吸烟者中可能一个患肺癌的人也没有
-----------------------------------------------------------------------------------------------------------------------
奋斗没有终点任何时候都是一个起点
高中数学选修 2-3 第三章《统计案例》测试题 A 卷
C. K2 是用来判断两个分类变量是否相关的随机变量,当
K2 的值很小时可以推断两类变量不
相关
D. K2 的观测值的计算公式是 K2=
n(ad bc)
( a b)(c d)(a c)(b d )
7. 某产品的广告费用 x 与销售额 y 的统计数据如下表:
广告费用 x( 万元 )
4
2
3
5
销售额 y( 万元 )
4 个不同模型,它们的相关指数
R2 如
高中数学(人教B版,选修2-3):第三章+统计案例(课件+同步练习+章末归纳总结+综合检测,7份)2

第三章知能基础测试时间120分钟,满分150分。
一、选择题(本大题共12个小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的.)1.下列说法正确的是( )A .相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义B .独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果在实际中也没有多大的实际意义C .相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的D .独立性检验如果得出的结论有99%的可信度就意味着这个结论一定是正确的 [答案] C[解析] 相关关系虽然是一种不确定关系,但是回归分析可以在某种程度上对变量的发展趋势进行预报,这种预报在尽量减小误差的条件下可以对生产与生活起到一定的指导作用,独立性检验对分类变量的检验也是不确定的,但是其结果也有一定的实际意义.故选C.2.设有一个回归方程为y ^=2-2.8x ^,则变量x 增加一个单位时( ) A .y 平均增加2.8个单位 B .y 平均增加2个单位 C .y 平均减少2.8个单位 D .y 平均减少2个单位 [答案] C[解析] 根据回归方程可知y 是关于x 的单调递减函数,并且由系数知,x 增加一个单位,相应的y 值平均减少2.8个单位.故选C.3.下表是某厂1~4月份用水量(单位:百吨)的一组数据:由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^=-0.7x +a ,则a 等于( )A .10.5B .5.15C .5.2D .5.25[答案] D[解析] x =2.5,y =3.5, ∵回归直线方程过定点(x ,y ),∴3.5=-0.7×2.5+a ,∴a =5.25.故选D.4.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的,他的研究结果是子代的平均高身向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归直线方程y ^=a ^+b ^x 中,b ^( )A .在(-1,0)内B .等于0C .在(0,1)内D .在[1,+∞)内[答案] C[解析] 子代平均身高向中心回归,b ^应为正的真分数.故选C.5.(2014·济南市模拟)为了解疾病A 是否与性别有关,在一医院随机地对入院50人进行了问卷调查得到了如下的列联表:请计算出统计量K 2下面的临界值表供参考:A.95% C .99.5% D .99.9%[答案] C[解析] 由公式得K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,故有1-0.005=99.5%的把握认为疾病A 与性别有关.6.如下表给出5组数据(x ,y ),为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉( )A.第2组 C .第3组 D .第5组[答案] C[解析] 通过散点图选择,画出散点图如图.应除去第3组,对应点是(-3,4).故选C.7.根据下面的列联表判断患肝病与嗜酒有关系的把握有( )A.90% C .97.5% D .99.9%[答案] D[解析] 由χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得其观测值χ=9965×(7775×49-2099×42)27817×2148×9874×91≈56.6>10.828.故有99.9%的把握认为患肝病与嗜酒有关系,答案选D.8.若A 与B 相互独立,且P (A )=0.8,P (B )=0.9,则P (A B +A B )=________. A .0.72 B .0.92 C .0.82 D .0.26[答案] D[解析] ∵A 与B 相互独立,∵A 与B 、A 与B 相互独立,A B 与A B 互斥. ∴P (A B +A B )=P (A )P (B )+P (A )P (B )=(1-0.8)×0.9+0.8×(1-0.9)=0.26.故选D.9.由一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )得到的回归直线方程y ^=bx +a ,那么下面说法不正确的是( )A .直线y ^=bx +a 必经过点(x ,y )B .直线y ^=bx +a 至少经过点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )中的一个点C .直线y ^=bx +a 的斜率为b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x2D .直线y ^=bx +a 和各点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )的偏差∑i =1n[y i -(bx i +a )]2是该坐标平面上所有直线中与这些点的偏差中最小的直线[答案] B10.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66%[答案] A[解析] 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.故选A.11.(2014·江西理,6)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A .成绩B .视力C .智商D .阅读量[答案] D[解析] A 中,χ2=52×(6×22-10×14)220×32×16×36=131440;B 中,χ2=52×(4×20-12×16)220×32×16×36=637360;C 中,χ2=52×(8×24-8×12)220×32×16×36=1310;D 中,χ2=52×(14×30-2×6)220×32×16×36=3757160.因此阅读量与性别相关的可能性最大,所以选D.12.2003年春季,我国部分地区SARS 流行,党和政府采取果断措施,防治结合,很快使病情得到控制.下表是某同学记载的5月1日至5月12日每天某市SARS 病患者治愈者数据,及根据这些数据绘制出的散点图.下列说法:①根据此散点图,可以判断日期与人数具有线性相关关系; ②根据此散点图,可以判断日期与人数具有一次函数关系; ③根据此散点图,可以判断日期与人数具有非线性相关关系. 其中正确的个数为( ) A .0个 B .1个 C .2个 D .3个[答案] B[解析] 只有①正确.故选B.二、填空题(本大题共4个小题,每小题4分,共16分,将正确答案填在题中横线上) 13.对于一条线性回归直线y ^=a +bx ,如果x =3时,对应的y 的估计值是17,当x =8时,对应的y 的估计值是22,那么,可以估计出回归直线方程是____________,根据回归直线方程判断当x =____________时,y 的估计值是38.[答案] y ^=x +14 24[解析] 首先把两组值代入回归直线方程得⎩⎪⎨⎪⎧ 3b +a =178b +a =22⇒⎩⎪⎨⎪⎧b =1,a =14.所以回归直线方程是 y ^=x +14.令x +14=38,可得x =24.14.对有关数据的分析可知,每一立方米混凝土的水泥用量x (单位:kg)与28天后混凝土的抗压度Y (单位:kg/cm 2)之间具有线性相关关系,其线性回归方程为y =0.30x +99.9.根据建设项目的需要,28天后混凝土的抗压度不得低于89.7kg/cm 2,每立方米混凝土的水泥用量最少应为________kg.(精确到0.1kg)[答案] 265.7 [解析] ∵y ≥89.7, ∴0.30x +9.99≥89.7 ∴x ≥265.7故水泥用量最少应为265.7kg.15.高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和及格统计人数后,得到如下列联表:班级与成绩列联表则χ2=________.(精确到[答案] 0.600 [解析] 由列联表得则χ2=90×(11×37-34×8)245×45×19×71≈0.600.16.在对两个变量x 、y 进行线性回归分析时有下列步骤: ①对所求出的回归方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图;如果根据可靠性要求能够作出变量x 、y 具有线性相关结论,则正确的操作顺序是____________. [答案] ②⑤④③①三、解答题(本大题共6个小题,共74分,解答应写出文字说明、证明过程或演算步骤) 17.(本题满分12分)高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试判断文科学生总成绩不好与数学成绩不好是否有关.[解析] 根据题意计算得 χ2=913(478×30-12×393)2490×423×871×42≈11.153>6.635.因此有99%的把握认为“文科学生总成绩不好与数学成绩不好有关系”.18.(本题满分12分)以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150m 2时的销售价格. [解析] (1)数据对应的散点图如下图所示:(2)x =15∑i =15x i =109,l xx =∑i =15 (x i -x )2=1 570,y =23.2,l xy =∑i =15(x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^,则b ^=l xx l xy =3081 570≈0.196 2,a ^=y -b ^x =1.816 6.故所求回归直线方程为y ^=0.196 2x +1.816 6. (3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).19.(本题满分12分)在研究一种新药对小白鼠的防治效果时,得到如下数据.[解析] 由公式χ2=339×(43×121-162×13)2205×134×56×283≈7.469.由于7.469>6.635,所以我们有99%的把握认为这种新药对小白鼠防治效果是有效的. 20.(本题满分12分)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件各中抽出了500件,量其内径尺寸,得结果如下表:甲厂(1)(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附:χ2=n (n 11n 22-n 12n 21n 1+n 2+n +1n +2,[解析] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)χ2=1000×(360×180-320×140)500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.21.(本题满分12分)(2014·新课标Ⅱ理,19)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(1)(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=ni =1 (t i -t )(y i -y )ni =1(t i -t )2,a ^=y -b ^t [解析] (1)∵t =1+2+…+77=4,y =2.9+3.3+3.6+4.4+4.8+5.2+5.97=4.3设回归方程为y =bt +a ,代入公式,经计算得 b =3×14+2+0.7+0+0.5+1.8+4.8(9+4+1)×2=1414×2=12.a =y -b t =4.3-12×2=2.3所以,y 关于t 的回归方程为y =0.5t +2.3.(2)∵b =12>0,∴2007年至2013年该区人均纯收入稳步增长,预计到2015年,该区人均纯收入y=0.5·9+2.3=6.8(千元)所以,预计到2015年,该区人均纯收入约6千8百元左右.22.(本题满分14分)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出Y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?(参考公式:b ^=∑n i =1x i y i -n x y ∑n i =1x 2i -n x 2)=∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2, a ^=y ^-b ^x )[解析] (1)设抽到相邻两个月的数据为事件A .因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的.其中,抽到相邻两个月的数据的情况有5种.所以P (A )=515=13. (2)由数据求得x =11,y =24,由公式求得b ^=187,再由a ^=y ^-b ^x =-307,所以Y 关于x 的线性回归方程为 y ^=187x -307. (3)当x =10时,y ^=1507,|1507-22|<2; 同样当x =6时,y ^=787,|787-12|<2, ∴该小组所得线性回归方程是理想的.。
高中数学选修2-3第三章课后习题解答

新课程标准数学选修2—3第三章课后习题解答第三章统计案例3.1回归分析的基本思想及其初步应用练习(P89)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:①寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.②分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,=+,没所以每个样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.有随机误差项,是严格的一次函数关系. 通过计算可得21习题3.1 (P89)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,(2)用t得ˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729yt =-. 残差计算结果见下表.GDP 值与年份线性拟合残差表2003年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系. 2、说明:本题的结果与具体的数据有关,所以答案不唯一. 3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =, 得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化. 因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 3.2独立性检验的基本思想及其初步应用练习(P97)(1)画等高条形图. 由图及表直观判断好像“成绩与班级有关系”.(2)因为2K 的观测值0.6536.63k ≈<,由教科书中表3—11知2( 6.635)0.01P K ≥≈,所以在犯错误的概率不超过0.01的前提下不能认为“成绩与班级有关系”. 说明:(1)教师在布置该题目时,应该明确要求学生们制作等高条形图,并从图形上判断两个分类变量之间是否有关系.(2)通过图形的直观感觉的结果可能会出现错误. (3)本题与例题不同,本题计算得到的2K 的观测值比6.635小,所以没有理由说明“成绩与班级有关系”. 独立性检验与反证法有类似的地方,在使用反证法证明结论时,在假设结论不成立的条件下,如果没有推出矛盾,并不能说明结论成立,也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾. 习题3.2 (P97)1、如果“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的观测值很大,则说明很可能“服药与患病之间有关系”. 由题目中所给数据计算得 6.109k ≈,而由表3-11,得2( 5.024)0.025P K ≥≈,而6.1090.025>,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 再由服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,则2K 的观测值应比较小. 如果2K 的观测值很大,则说明“性别与读营养说明之间有关系”. 按题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表3-11知2(7.879)0.005P K ≥≈,8.4167.879>,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”. 说明:如果问题为“性别与读营养说明之间有没有关系?”则下面表述同样正确:虽然2K 的观测值8.4167.879k ≈>,而2( 6.635)0.010P K ≥≈,所以在犯错误的概率不超过0.01的前提下认为“性别与读营养说明之间有关系”. 3、需要收集数据,所有没有统一答案.说明:第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同.说明:第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为-770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为-1120万人. 2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5y x =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系.说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、总偏差平方和21()ni i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()nii yy =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式222111ˆˆ()()()nn niii i i y y y yy y ===-=-+-∑∑∑表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和. 3、本题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
人教版高中数学选修1-2《统计案例:复习参考题》【可编辑全文】

(2)建立销售总额为解释变量,利润为预报变量的回归 模型. (3)计算R2,你认为这个模型能较好地刻画销售总额和 利润之间的关系吗?请说明理由.
利润y
销售总额x与利润y的散点图
5000
4500
4000
3500
3000
2500 y = 0.0256x + 1334.5
2000
1500
R²= 0.4572
知识回顾 回归分析的思想及初步应用
1.函数关系与相关关系的区别?
函数关系是一种确定性关系,而相关关系是 一种非确定性关系.
2. 若y与x呈线性相关关系,则 回归直线方程
为
,满足
知识回顾 回归分析的思想及初步应用
3.回归分析的步骤:
解释变量
确定研究对象
预报变量
散点图
观察数据点的分布
两个变量 非线性相关
不吸烟 a
b a+b
吸烟
c
d c+d
总计 a+c b+d n (2)假设两变量无关;
(3)利用公式计算Κ2的观察值k;
,其中
(4)看下表,k与临界值k0比较; 两者无关的概率
P(K2≥k0) 0.10 0.05 0.025 0.010 0.001
k0 2.706 3.841 5.024 6.635 10.828 两者有关 90% 95% 97.5% 99% 99.9% 的概率 (5)下结论:两种角度,如
1000
500
0
0 20000 40000 60000 80000 100000 120000 140000
销售总额x
这个模型的销售总额x 对于利润y变化的 贡献率为45.72%
高中数学人教A版选修2-3:阶段质量检测(三) 统计案例 Word版含解析

阶段质量检测(三) 统计案例(时间120分钟 满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( ) A .可以小于0 B .大于0 C .能等于0D .只能小于0解析:选A ∵b ^=0时,则r =0,这时不具有线性相关关系,但b ^可以大于0也可以小于0.2.每一吨铸铁成本y (元)与铸件废品率x %建立的回归方程y ^=56+8x ,下列说法正确的是( )A .废品率每增加1%,成本每吨增加64元B .废品率每增加1%,成本每吨增加8%C .废品率每增加1%,成本每吨增加8元D .如果废品率增加1%,则每吨成本为56元解析:选C 根据回归方程知y 是关于x 的单调增函数,并且由系数知x 每增加一个单位,y 平均增加8个单位.3.下表显示出样本中变量y 随变量x 变化的一组数据,由此判断它最可能是( )A .线性函数模型B .二次函数模型C .指数函数模型D .对数函数模型解析:选A 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.4.试验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1B . y ^=x +2 C .y ^=2x +1 D .y ^=x -1解析:选A 由题意发现,(x ,y )的四组值均满足y ^=x +1,故y ^=x +1为回归直线方程.5.下列关于等高条形图说法正确的是( ) A .等高条形图表示高度相对的条形图 B .等高条形图表示的是分类变量的频数 C .等高条形图表示的是分类变量的百分比 D .等高条形图表示的是分类变量的实际高度 解析:选C 由等高条形图的特点及性质进行判断.6.根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的散点图分析存在线性相关关系,求得其回归方程y ^=0.85x -85.7,则在样本点(165,57)处的残差为( )A .54.55B .2.45C .3.45D .111.55解析:选B 把x =165代入y ^=0.85x -85.7,得y =0.85×165-85.7=54.55,由57-54.55=2.45,故选B .7.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 解析:选C 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.8.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66%解析:选A将y=7.675代入回归方程,可计算得x≈9.262,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.262≈0.83≈83%,即约为83%.9.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行分组,如下表:则在犯错误的概率不超过__________的前提下认为吸烟量与年龄有关()A.0.001 B.0.01C.0.05 D.没有理由解析:选A K2=100×(50×25-10×15)265×35×60×40≈22.16>10.828,所以我们在犯错误的概率不超过0.001的前提下认为吸烟量与年龄有关.10.为了考察两个变量x和y之间的线性相关性,甲、乙两个同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线为l1和l2,已知在两人的试验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t,那么下列说法正确的是()A.直线l1和直线l2有交点(s,t)B.直线l1和直线l2相交,但交点未必是点(s,t)C.直线l1和直线l2由于斜率相等,所以必定平行D.直线l1和直线l2必定重合解析:选A l1与l2都过样本中心(x,y).11.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:对于以下数据,对同一样本能说明X 与Y 有关的可能性最大的一组为( ) A .a =9,b =8,c =7,d =6 B .a =9,b =7,c =6,d =8 C .a =8,b =6,c =9,d =7 D .a =6,b =7,c =8,d =9解析:选B 对于同一样本|ad -bc |越小,说明X 与Y 之间的关系越弱,|ad -bc |越大, 故检验知选B .12.两个分类变量X 和Y, 值域分别为{x 1,x 2}和{y 1,y 2}, 其样本频数分别是a =10, b =21, c +d =35. 若X 与Y 有关系的可信程度不小于97.5%, 则c 等于( )A .3B .4C .5D .6解析:选A 列2×2列联表如下:故K 2的观测值k =66×[10(35-c )-21c ]31×35×(10+c )(56-c )≥5.024. 把选项A, B, C, D 代入验证可知选A .二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上) 13.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要________h .解析:当x =600时,y ^=0.01×600+0.5=6.5. 答案:6.514.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),若e i 恒为0,则R 2为________.解析:e i 恒为0,说明随机误差总为0,于是y i =y ^,故R 2=1. 答案:115.下列是关于出生男婴与女婴调查的列联表那么A =______,B =______,C ______,D =________,E =________. 解析:∵45+E =98,∴E =53,∵E +35=C ,∴C =88,∵98+D =180,∴D =82, ∵A +35=D ,∴A =47,∵45+A =B ,∴B =92. 答案:47 92 88 82 5316.已知x ,y 之间的一组数据如表,对于表中数据,甲、乙两同学给出的拟合直线分别为l 1:y =13x +1与l 2:y =12x +12,利用最小二乘法判断拟合程度更好的直线是________.解析:用y =13x +1作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 1=⎝⎛⎭⎫1-432+(2-2)2+(3-3)2+⎝⎛⎭⎫4-1032+⎝⎛⎭⎫5-1132=73.用y =12x +12作为拟合直线时,所得y 的实际值与y 的估计值的差的平方和为:S 2=(1-1)2+(2-2)2+⎝⎛⎭⎫3-722+(4-4)2+⎝⎛⎭⎫5-922=12.因为S 2<S 1,故用直线l 2:y =12x +12,拟合程度更好.答案:y =12x +12三、解答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)对某校小学生进行心理障碍测试得如下列联表:(其中焦虑、说谎、懒惰都是心理障碍)试说明在这三种心理障碍中哪一种与性别关系最大?解:对于上述三种心理障碍分别构造三个随机变量K 21,K 22,K 23,由表中数据可得K 21=110×(5×60-25×20)230×80×25×85≈0.863,K 22=110×(10×70-20×10)230×80×20×90≈6.366,K 23=110×(15×30-15×50)230×80×65×45≈1.410.因为K 22的值最大,所以说谎与性别关系最大.18.(本小题满分12分)有人统计一个省的6个城市某一年的人均国内生产总值(人均GDP)x 和这一年各城市患白血病的儿童数量y ,其数据如下表所示:(1)画出散点图,并判断是否线性相关; (2)求y 与x 之间的回归方程. 解:(1)作散点图(如下图所示).由散点图可知y 与x 具有线性相关关系.(2)将数据代入公式,可得b ^≈23.253,a ^≈102.151. 故y 与x 之间的线性回归方程是y ^=23.253x +102.151.19.(本小题满分12分)某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):(1)求m ,n ;(2)能否在犯错误的概率不超过0.005的情况下认为教学方式与成绩有关系? 解:(1)m =45-15=30,n =50+50=100. (2)由表中的数据,得K 2的观测值为 k =100×(35×30-15×20)250×50×55×45≈9.091.因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系.20.(本小题满分12分)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:(1)根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产该种零件?请说明理由.解:(1)2×2列联表如下K 2=200×(50×40-60×50)2110×90×100×100≈2.02<2.706,所以没有理由认为选择不同的工艺与生产出一等品有关.(2)由题知运用甲工艺生产单件产品的利润X 的分布列为X 的数学期望为E (X )=30×0.5+20×0.3+15×0.2=24,X 的方差为D (X )=(30-24)2×0.5+(20-24)2×0.3+(15-24)2×0.2=39.乙工艺生产单件产品的利润Y 的分布列为Y 的数学期望为E (Y )=30×0.6+20×0.1+15×0.3=24.5,Y 的方差为D (Y )=(30-24.5)2×0.6+(20-24.5)2×0.1+(15-24.5)2×0.3=47.25. 由上述结果可以看出D (X )<D (Y ),即甲工艺波动小,虽然E (X )<E (Y ),但相差不大,所以以后选择甲工艺.21.(本小题满分12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样的方法从该地区调查了500位老年人,结果如下:附:K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)在犯错误的概率不超过0.01的前提下是否可认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?请说明理由.解:(1)调查的500位老人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为70500=14%.(2)随机变量K2的观测值k=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,因此,在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.(3)由(2)的结论知,该地区的老年人是否需要帮助与性别有关,并且从样本数据中能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并且采用分层抽样方法比采用简单随机抽样的方法更好.22.(本小题满分12分)某市为了对学生的数理(数学与物理)学习能力进行分析,从10 000名学生中随机抽出100位学生的数理综合学习能力等级分数(6分制)作为样本,分数频数分布如下表:(1)如果以能力等级分数大于4分作为良好的标准,从样本中任意抽取2名学生,求恰有1名学生为良好的概率.(2)统计方法中,同一组数据常用该组区间的中点值(例如区间(1,2]的中点值为1.5)作为代表:①据此,计算这100名学生数理学习能力等级分数的期望μ及标准差σ(精确到0.1);②若总体服从正态分布,以样本估计总体,估计该市这10 000名学生中数理学习能力等级在(1.9,4.1)范围内的人数.(3)从这10 000名学生中任意抽取5名同学,他们数学与物理单科学习能力等级分数如下表:①请画出上表数据的散点图;②请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^(附参考数据:129≈11.4).解:(1)样本中学生为良好的人数为20人.故从样本中任意抽取2名学生,则仅有1名学生为良好的概率为C 120×C 180C 2100=3299. (2)①总体数据的期望约为:μ=0.5×0.03+1.5×0.17+2.5×0.30+3.5×0.30+4.5×0.17+5.5×0.03=3.0,标准差σ=[(0.5-3)2×0.03+(1.5-3)2×0.17+(2.5-3)2×0.3+(3.5-3)2×0.3+(4.5-3)2×0.17+(5.5-3)2×0.03]12= 1.29≈1.1,②由于μ=3,σ=1.1当x ∈(1.9,4.1)时,即x ∈(μ-σ,μ+σ),故数理学习能力等级分数在(1.9,4.1)范围中的概率为0.682 6.数理习能力等级分数在(1.9,4.1)范围中的学生的人数约为10 000×0.682 6=6 826人.(3)①数据的散点图如图:②设线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y ∑i =15x 2i -5x2=1.1,a ^=y -b ^x =-0.4.故回归直线方程为y ^=1.1x -0.4.第11页共11页。
厦门市高中数学选修2-3第三章《统计案例》检测(包含答案解析)
一、选择题1.设(1+x)n =a 0+a 1x+…+a n x n ,若a 1+a 2+…+a n =63,则展开式中系数最大的项是( ) A .15x 2B .20x 3C .21x 3D .35x 32.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1表2表3表4A .成绩B .视力C .智商D .阅读量3.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==4.对两个分类变量A ,B 的下列说法中正确的个数为( ) ①A 与B 无关,即A 与B 互不影响; ②A 与B 关系越密切,则K 2的值就越大; ③K 2的大小是判定A 与B 是否相关的唯一依据 A .0 B .1 C .2 D .3 5.下列命题正确的个数是:( )①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越大;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为23; ④“0,0a b >>”是“2b aa b+≥”的充分不必要条件 A .1B .2C .3D .46.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bc K a c b d a d b c -++++,其中n a b c d =+++.20()P K k ≥0.100.050.01 0.0050k 2.7063.8416.6357.879已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们( )A .没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B .有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C .有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”7.近年来,由于大学生不理智消费导致财务方面的新闻层出不穷,无力偿还校园贷,跳楼自杀也偶有发生,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S 城某大学的10000名(其中男生6000名,女生4000名)在校本科生,按性别采用分层抽样的方式抽取了1000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计,通过整理得如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2000元的女生有150人.根据上述数据和频率分布直方图,判断下列说法正确的是( )参考数据与参考公式:003 1.732,sin150.258,sin7.50.1305=≈≈.A .月消费金额超过2000元的女生人数少于男生人数B .所调查的同学中月消费金额不超过500元的共有4人C .样本数据的中位数约为1750元D .在犯错的概率不超过0.1%的情况下认为月消费金额在2000元以上的大学生与性别有关 8.某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,男 女文科2 5理科 10 3参考公式和数据:22()()()()()n ad bc K a c b d a b c d -=++++,其中n a b c d =+++.20()P K k ≥0.25 0.15 0.10 0.05 0.025 0.010 0.0050k 1.323 2.072 2.706 3.841 5.024 6.635 7.879则以下判断正确的是A .至少有97.5%的把握认为学生选报文理科与性别有关B .至多有97.5%的把握认为学生选报文理科与性别有关C .至少有95%的把握认为学生选报文理科与性别有关D .至多有95%的把握认为学生选报文理科与性别有关9.某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系: x 2 4 5 6 8 y3040605070y 与x 的线性回归方程为 6.5175ˆ.y x =+,当广告支出5万元时,随机误差的效应(残差)为( ) A .40 B .20 C .30D .1010.为了普及环保知识,增强环保意识,随机抽取某大学30名学生参加环保知识测试,得分如图所示,若得分的中位数为m e ,众数为m 0,平均数为x -,则( )A .m e =m 0=x -B .m 0<x -<m e C .m e <m 0<x -D .m 0<m e <x -11.通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:性别与读营养说明列联表请问性别和读营养说明之间在多大程度上有关系 ()A.99%的可能性B.99.75%的可能性C.99.5%的可能性D.97.5%的可能性12.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,统计数据如下表附:经计算2 4.514K≈,现判断数学成绩与物理成绩有关系,则判断出错的概率不会超过A.0.5% B.1% C.2% D.5%二、填空题13.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的13,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,求男生至少有______人.k 3.841 6.63510.828PM是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,下图是14. 2.5PM监测点统计的数据(单位:毫克/每立方据某地某日早7点至晚8点甲、乙两个2.5米)列出的茎叶图,则甲、乙两地浓度的方差较小的是_________.15.已知方程是根据女大学生的身高预报她的体重的回归方程,其中的单位是,的单位是,那么针对某个体的残差是______.16.已知下列说法:①分类变量A与B的随机变量越大,说明“A与B有关系”的可信度越大;②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为,若,,,则.其中说法正确的为_____________.(填序号)17.在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y1110865由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归方程是:=-+,则a=__________.y x a3.218.某班运动队由足球运动员18人、篮球运动员12人、乒乓球运动员6人组成(每人只参加一项),现从这些运动员中抽取一个容量为n的样本,若分别采用系统抽样法和分层抽样法,则都不用剔除个体;当样本容量为n+1时,若采用系统抽样法,则需要剔除1个个体,那么样本容量n为________.19.已知x、y之间的一组数据如下:x0123y8264则线性回归方程ˆy a bx=+所表示的直线必经过点________.20.为了了解司机开车时礼让斑马线行人的情况,交警部门调查了100名机动车司机,得到以下统计数据:若以2χ为统计量进行独立性检验,则2χ的值是__________.(结果保留2位小数)参考公式()11221221 21212n n n n nn n n nχ++++-=三、解答题21.司机在开机动车时使用手机是违法行为,会存在严重的安全隐患,危及自己和他人的生命. 为了研究司机开车时使用手机的情况,交警部门调查了100名机动车司机,得到以下统计:在55名男性司机中,开车时使用手机的有40人,开车时不使用手机的有15人;在45名女性司机中,开车时使用手机的有20人,开车时不使用手机的有25人.(1)完成下面的22⨯列联表,并判断是否有99.5%的把握认为开车时使用手机与司机的性别有关;(2)以上述的样本数据来估计总体,现交警部门从道路上行驶的大量机动车中随机抽检3辆,记这3辆车中司机为男性且开车时使用手机的车辆数为X,若每次抽检的结果都相互独立,求X的分布列和数学期望()E X.参考公式与数据:参考数据:参考公式()()()()()22n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.22.为提高全民身体素质,加强体育运动意识,某校体育部从全校随机抽取了男生、女生各100人进行问卷调查,以了解学生参加体育运动的积极性是否与性别有关,得到如下列联表(单位:人):(1)根据以上数据,判断能否在犯错误的概率不超过10%的情况下认为该校参加体育运动的积极性与性别有关;(2)用频率估计概率,现从该校所有女生中随机抽取3人.记被抽取的3人中“偶尔运动或不运动”的人数为X ,求X 的分布列、期望()E X 和方差()D X .附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.2.07223.为了促进我国人口均衡发展,从2016年1月1日起,全国统一实施全面放开二孩政策,这也是为了重建大国人口观,重新认识人口价值、人口规律、人口问题,某研究机构为了了解人们对全面放开生育二孩政策的态度,随机调查了200人,得到的统计数据如下面的不完整的2×2列联表所示(单位:人):(1)完成2×2列联表,并求是否有90%的把握认为是否“支持生育二孩”与性别有关? (2)该研究机构从样本中筛选出4名男性和3名女性共7人作为代表,这7个代表中有2名男性和2名女性支持生育二孩现从这7名代表中任选3名男性和2名女性参加座谈会,记ξ为参加会议的支持生育二孩的人数,求ξ的分布列及数学期望()E ξ.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:24.某媒体对“男女延迟退休”这一公众关注的问题进行了民意调查,下表是在某单位调查后得到的数据(人数):(1)能否有90%以上的把握认为对这一问题的看法与性别有关? (2)进一步调查:①从赞同“男女延迟退休”的16人中选出3人进行陈述发言,求事件“男士和女士各至少有1人发言”的概率;②从反对“男女延迟退休”的9人中选出3人进行座谈,设选出的3人中女士人数为X ,求X 的分布列和数学期望.附:()21122122121212n n n n n n n n n χ++++-=25.某企业是否支持进军新的区域市场,在全体员工中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否有99%的把握认为“新员工和老员工是否支持进军新的区域市场有差异”;(2)已知在被调查的新员工中有6名来自市场部,其中2名支持进军新的区域市场,现在从这6人中随机抽取3人,设其中支持进军新的区域市场人数为随机变量X,求X的分布列和数学期望.附:()22()()()()n ac bdKa b a c b d c d-=++++26.为了了解某班学生喜欢数学是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表,已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为3 5 .(1)能否在犯错误的概率不超过0.005的前提下认为喜欢数学与性别有关?说明你的理由;()20P K k ≥ 0.150.100.050.025 0.010 0.005 0.001 0k 2.702 2.7063.8415.0246.6357.87910.828(2)现从女生中抽取2人进一步调查,设其中喜欢数学的女生人数为ξ,求ξ的分布列与期望.临界表供参考:(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【参考答案】***试卷处理标记,请不要删除一、选择题 1.B 解析:B 【解析】 令x=1,则(1+1)n =++…+=64.∴n=6.故(1+x)6的展开式中系数最大的项为T 4=x 3=20x 3.2.D解析:D 【分析】计算得到22322214χχχχ>>>,得到答案. 【详解】计算得到:222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯; 222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯ ; 222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯ ; 222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯;故22322214χχχχ>>>. 故选:D . 【点睛】本题考查了独立性检验,意在考查学生的计算能力和应用能力.3.D解析:D 【解析】【分析】根据公式()()()()()22n ad bcKa b c d a c b d-=++++,分别利用4个选项中所给数据求出2K的值,比较所求值的大小即可得结果.【详解】选项A:22160(535155)3204010502K⨯⨯-⨯==⨯⨯⨯,选项B:22260(5251515)152040204016K⨯⨯-⨯==⨯⨯⨯,选项C:22360(5201520)24204025357K⨯⨯-⨯==⨯⨯⨯,选项D:22 460(5101530)96 204035257K⨯⨯-⨯==⨯⨯⨯,可得222431K K K>>22K>,所以由选项D中的数据得到的2K值最大,说明X与Y有关系的可能性最大,故选D.【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2K越大两个变量有关的可能性越大这一性质.4.B解析:B【解析】【分析】根据独立性检验的思想,对题目中的命题进行分析、判断正误即可.【详解】对于①,对事件A与B无关时,说明两事件的影响较小,不是两个互不影响,①错误;对于②,事件A与B关系密切,说明事件A与B的相关性就越强,K2就越大,②正确;对于③,K2的大小不是判定事件A与B是否相关的唯一根据,判定两事件是否相关除了公式外;还可以用三维柱形图和二维条形图等方法来判定,③错误;故选:B.【点睛】本题考查了独立性检验思想的应用问题,属于基础题.K2值是用来判断两个变量相关的把握度的,不是用来判断两个变量是否相关的.5.C解析:C【解析】分析:根据独立性检验的性质可判断①;根据回归分析的基本原理可判断②;根据几何概型概率公式可判断③;根据不等式的性质可判断④.详解:①对于两个分类变量X与Y的随机变量2K的观测值k来说,k越小,判断“X与Y 有关系”的把握程度越小,①错误;②在相关关系中,若用211c xy c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好,②正确;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为1123103-=-,正确;④“0,0a b >>”可得到“2b a a b +≥”, “2b aa b+≥”时“0,0a b >>”不一定成立,所以“0,0a b >>”是“2b aa b+≥”的充分不必要条件,正确,即正确命题的个数是3,故选C. 点睛:本题主要通过对多个命题真假的判断,主要综合独立性检验、回归分析、几何概型概率公式、不等式的性质,属于中档题.这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.6.B解析:B 【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K 的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人, 又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人, 又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530) 4.762 3.8412109075225K ⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”, 故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问题的能力.7.D解析:D 【解析】分析:由题意首先求得a 的值,然后结合分层抽样的定义和独立性检验的结论逐一考查所给选项是否正确即可.详解:由直方图知,(0.004+0.013+0.014+a +0.027+0.039+0.08)×5=1,解得a =0.023, 故月消费金额超过2000元的大学生人数为(0.023+0.014+0.013)×5×1000=250人, 由分层抽样知,男生、女生抽样的人数分别为600人和400人, 由题知,月消费金额超过2000元的男生人数为100人,故A 选项错误; 月消费金额不超过500元的人数为0.004×5×1000=20人,故选项B 错误; 又由频率分布直方图知,当消费金额小于1750元时, 频率为(0.004+0.027+0.039)×5+0.08×5×12=0.55>0.5.选项C 错误; 由条件可以列出列联表:故K 2的观测值()()()()50010.8289n ad bc k a b c d a c b d -==>++++, 所以在犯错的概率不超过0.1%的情况下可以判断月消费金额在2000元以上的大学生与性别有关. 本题选择D 选项.点睛:解决频率分布直方图的问题,关键在于找出图中数据之间的联系.这些数据中,比较明显的有组距、频率组距,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×频率组距=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题.8.C解析:C由题易得22⨯列联表如下:则2K 的观测值为()22023510 4.432 3.841128713k ⨯⨯-⨯=≈>⨯⨯⨯,所以至少有95%的把握认为学生选报文理科与性别有关,故选:C .【解题必备】(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.即独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. (3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α, 然后查下表确定临界值0k ; ②利用公式()()()()()22n ad bc K a c b d a b c d -=++++,计算随机变量2K 的观测值k ;③如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.说明:通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.9.D解析:D 【解析】∵y 与x 的线性回归方程为 6.5175ˆ.y x =+ 当5x =时,ˆ50y=. 当广告支出5万元时,由表格得:60y = 故随机误差的效应(残差)为605010.-=10.D解析:D 【解析】由条形图知,30名学生的得分情况依次为2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分,中位数为第15,16个数(分别为5,6)的平均数,即m e =5.5,5出现的次数最多,故众数为m 0=5,平均数为x =130(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97,故m 0<m e <x . 故答案为D.点睛:这个题目考查的是条型分布直方表的应用,以及基本量:均值,平均数的考查;一般在这类图中平均数就是将数据加到一起除以数据的个数即可,在频率分布直方表中是取每个长方条的中点乘以相应的频率并相加即可.11.C解析:C 【详解】由题意可知16,28,20,8a b c d ====,44,28,36,36a b c d a c c d +=+=+=+=,72n a b c d =+++=,代入公式()()()()()22n ad bc K a b c d a c b d -=++++得()227216828208.4244283636K ⨯⨯-⨯=≈⨯⨯⨯,由于28.427.879K ≈>,我们就有0099.5的把握认为性别和读营养说明之间有关系,即性别和读营养说明之间有0099.5的可能是有关系的,故选C .12.D解析:D 【解析】23.841 4.514 6.635k <=<,则0.010.05P <<,出错概率不超过5%选D.二、填空题13.【分析】设男生人数为依题意填写列联表计算观测值列出不等式求出的取值范围再根据题意求出男生的人数【详解】设男生人数为由题意可得列联表如下: 喜欢韩剧 不喜欢韩剧 总计 男生 女生 总 解析:18【分析】设男生人数为x ,依题意填写列联表,计算观测值,列出不等式求出x 的取值范围,再根据题意求出男生的人数. 【详解】设男生人数为x ,由题意可得列联表如下:喜欢韩剧 不喜欢韩剧 总计男生6x 56x x女生29x 9x 3x 总计718x 718x 43x 若有的把握认为是否喜欢韩剧和性别有关,则 3.841k >,即2452()3636969 3.84171711931818x x x x x x k x x x x ⋅-⋅==>⋅⋅⋅, 解得12.697x >.因为各部分人数均为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有18人. 故答案为:18. 【点睛】本题考查独立性检验的应用,解题关键是列出列联表,然后进行计算,属于常考题.14.甲【解析】根据茎叶图中的数据可知甲地的数据都集中在006和007之间数据分布比较稳定而乙地的数据分布比较分散不如甲地数据集中故甲地的方差小故答案为甲解析:甲 【解析】根据茎叶图中的数据可知,甲地的数据都集中在0.06和0.07之间,数据分布比较稳定,而乙地的数据分布比较分散,不如甲地数据集中,故甲地的方差小,故答案为甲.15.【解析】试题分析:由回归直线方程可知当时所以针对个体的残差是考点:线性回归方程 解析:0.29-【解析】试题分析:由回归直线方程可知当160x =时,53.29y =,所以针对个体的残差是5353.290.29-=-.考点:线性回归方程.16.①②③【解析】①正确因为k2越大说明A 和B 有关系的把握性就越大;②正确因为y=cekx 那么lny=lncekx=kx+lnc 即z=kx+lnc=03x+4解得k=03lnc=4解得:k=03c=e4解析:①②③【解析】①正确,因为越大,说明“和有关系”的把握性就越大;②正确,因为,那么,即,解得,解得:所以正确;③在回归直线上,所以,解得:,所以正确,那么正确的有①②③.【点睛】本题是以命题形式考查了回归方程和独立性检验的相关知识,样本中心点必在回归直线上,独立性检验中越大,说明犯错误的概率越小,即认为两个变量有关的把握性就越大.17.40【解析】根据题意:解析:40【解析】根据题意:99.51010.511105x++++==,111086585y++++==,3.2y x a=-+, 3.210840a∴=⨯+=18.6【解析】n为18+12+6=36的正约数因为18:12:6=3:2:1所以n为6的倍数因此因为当样本容量为时若采用系统抽样法则需要剔除1个个体所以n+1为35的正约数因此解析:6【解析】n为18+12+6=36的正约数,因为18:12:6=3:2:1,所以n为6的倍数,因此6,12,18,24,30,36n=因为当样本容量为1n+时,若采用系统抽样法,则需要剔除1个个体,所以n+1为35的正约数,因此6n=19.(155)【解析】由题意可得:线性回归方程过样本中心点即线性回归方程所表示的直线必经过点(155)点睛:(1)正确理解计算的公式和准确的计算是求线性回归方程的关键(2)回归直线方程必过样本点中心解析:(1.5,5)【解析】由题意可得:01231.54x+++==,826454y+++==,线性回归方程过样本中心点,即线性回归方程ˆy a bx=+所表示的直线必经过点(1.5,5)点睛:(1)正确理解计算,b a的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y bx a=+必过样本点中心(),x y.20.【解析】分析:根据题意填写2×2列联表计算观测值对照临界值得出结论详解:填写2×2列联表如下:根据数表计算=≈825>7879所以有995的把握认为开车时使用手机与司机的性别有关;点睛:独立性检验的 解析:8.25【解析】分析:根据题意填写2×2列联表,计算观测值,对照临界值得出结论. 详解:填写2×2列联表,如下:根据数表,计算()()()()()22n ad bc a b c d a c b d -X =++++=()21004025201555456040⨯⨯-⨯⨯⨯⨯≈8.25>7.879,所以有99.5%的把握认为开车时使用手机与司机的性别有关;点睛:独立性检验的一般步骤:(I )根据样本数据制成22⨯列联表;(II )根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(III ) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)三、解答题21.(1)列联表见解析,有;(2)分布列见解析,1.2. 【分析】(1)根据已知数据即可得到列联表;计算出28.2497.879χ≈>,对比临界值表可得到结果;(2)由样本估计总体思想,可得到随机抽检1辆,司机为男性且开车使用手机的概率为25,可知235X B ⎛⎫⎪⎝⎭,,由二项分布概率公式可计算得到每个取值所对应的概率,从而得到分布列;由二项分布数学期望计算公式可得()E X . 【详解】(1)由已知数据可得22⨯列联表如下:开车时使用手机 开车时不使用手机合计男性司机人数 40 1555女性司机人数2025 45()2100402515208.2497.87960405545χ⨯⨯-⨯=≈⨯⨯⨯>∴有99.5%的把握认为开车时使用手机与司机的性别有关(2)随机抽检1辆,司机为男性且开车时使用手机的概率4021005p == 有题意可知:X 可取值是0,1,2,3,且235XB ⎛⎫ ⎪⎝⎭, ()03032327055125P X C ⎛⎫⎛⎫∴=== ⎪ ⎪⎝⎭⎝⎭;()12132354155125P X C ⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭; ()21232336255125P X C ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭;()333238355125P X C ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭ 则X 的分布列为:数学期望()3 1.25E X =⨯= 【点睛】本题考查独立性检验的应用、二项分布的分布列及数学期望的求解等知识,对学生的计算和求解能力有一定要求,属于常考题型.22.(1)不能在犯错误的概率不超过10%的情况下认为该校参加体育运动的积极性与性别有关;(2)分布列答案见解析,6()5E X =,18()25D X =. 【分析】(1)代入2K 即可得出结论;(2)X 服从二项分布,分别求出概率,即可得出X 的分布列,然后代入数据求出期望和方差即可. 【详解】(1)由列联表可知2200(70406030)2002.1981307010010091k ⨯⨯-⨯==≈⨯⨯⨯,因为2.198 2.706<,所以不能在犯错误的概率不超过10%的情况下认为该校参加体育运动的积极性与性别有关. (2)由题意可知2(3,)5XB ,X 的所有可能取值为0,1,2,3,033327(0)()5125P X C ===,1232354(1)()()55125P X C ==⨯=,2232336(2)()55125P X C ==⨯=,33328(3)()5125P X C ===. 所以X 的分布列为()355E X =⨯=,()3(1)5525D X =⨯⨯-=.【点睛】本题主要考查独立性检验原理以及利用二项分布求期望和方差.属于中档题. 23.(1)答案见解析,没有;(2)答案见解析,176. 【分析】(1)由表中的已知数据先补充列联表,再计算2K 与临界值2.706比较大小即可; (2))设参加座谈会的男性中支持生育二孩的人数为m ,女性中支持生育二孩的人数为n ,则m n ξ=+,且ξ的可能取值为2,3,4,利用离散型随机变量的取值求概率,画出分布列,求出数学期望即可. 【详解】(1)补充完整的2×2列联表如下:()()()()()()220070403060 2.198 2.70613070100100n ad bc K a b c d a c b d -⨯⨯-⨯==≈<++++⨯⨯⨯,所以没有90%的把握认为是否“支持生育二孩”与性别有关.(2)设参加座谈会的男性中支持生育二孩的人数为m ,女性中支持生育二孩的人数为n ,则m n ξ=+,且ξ的可能取值为2,3,4.()()121122213243121,13C C C C P P m n C C ξ======, ()()()2111122222122232324343132,11,22C C C C C C C P P m n P m n C C C C ξ====+===+=, 22222324131(4)(2,2)6C C C P P m n C C ξ======, 所以ξ的分布列为。
人教版A版高中数学选修2-3:第三章 统计案例 复习课件
4
xi2 14,
4
xi zi 0 2 8 15 25,
4
i 1
zi2 46,
2
4x 9,
i 1
i 1
4
2
4z 36,
b
i 1 4
xi zi 4x z
xi 2
2
4x
25 18 7 14 9 5
i 1
a z bx 3 7 1.5 9 , z 7 x 9
a
y
i 1
bx.
i 1
例1(安徽卷)某地最近十年粮食需求量逐年上升,下 表是部分统计数据:
年份
2002 2004 2006 2008 2010
需求量(万吨) 236 246 257 276 286
(1)利用所给数据求年需求量与年份之间的回归直线
方程 yˆ=bx a ;(2)利用(1)中所求出的直线方程预测该
yi--y
0
1
3 -4
4
(y y)2
R2
1
i 1 4
(y y)2
i 1
0.1923
1
(1.5)2 02
0.52 12
3.52 (2.5) 32 (4)2
2
回归直线方程是y x 5
R2 0.1923
2
相关指数越大,越 接近于1,模拟的拟 合效果越好;相关 指数越小,拟合的 效果越差!
x 0123 y 2 4 16 32
(1)画出散点图;(2)试建立y与x之间的回归方程.
解:(1)作出散点图如右图所示: 32
y 2c2xc1 ,
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试题(含答案解析)(1)
一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试(包含答案解析)(3)
一、选择题1.已知x 与y 之间的几组数据如下表: x 1 2 3 4 y1mn4参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑.上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 4.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01k k kP k C ξ-==5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .17.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A .有95%的把握认为两者无关B .约有95%的打鼾者患心脏病C .有99%的把握认为两者有关D .约有99%的打鼾者患心脏病8.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K =,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是( )A .90%B .95%C .97.5%D .99.5%12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.为了解某班学生喜爱打篮球是否与性别有关,对该班50名 学生进行了问卷调查, 得到了如下22⨯ 列联表喜爱打篮球 不喜爱打篮球 合计男生20 525 女生 10 1525合计30 2050则至少有_____的把握认为喜爱打篮球与性别有关(请用百分数表示). 17.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.)三、解答题21.第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii x x =-=∑, 52215176i i y y =-=∑,515151i ii x y xy =-=∑13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a =+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii ni i x y nx y bx nx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑22.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件,试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?23.2020年初,新型冠状病毒(2019-nCoV )肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为22.25.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,2σ近似为样本方差2s .(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有()*k k ∈N 个属于“长期潜伏”的概率是()g k ,当k 为何值时,()g k 取得最大值. 附:()()()()()22n ad bc a b c d a c b d χ-=++++若()2,N ξμσ则()0.6862P μσξμσ-<<+=.()220.9544P μσξμσ-<<+=,()330.9974P μσξμσ-<<+=.24.某地一所妇产科医院为了解婴儿性别与出生时间(白天或晚上)之间的联系,从该医院最近出生的200名婴儿获知如下数据:这200名婴儿中男婴的比例为55%,晚上出生的男婴比白天出生的男婴多75%,晚上出生的女婴人数与白天出生的男婴人数恰好相等. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99%的把握认为婴儿的性别与出生时间有关,说明你的理由.附:22()()()()()n ad bcKa b c d a c b d-=++++(n=a+b+c+d),参考数据:221999≈0.0368.25.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.26.“微粒贷”是腾讯旗下2015年9月开发上市的微众银行网货产品.腾讯公司为了了解“微粒贷”上市以来在C市的使用情况,统计了C市2015年至2019年使用了“微粒货”贷款的累计人数,统计数据如表所示:(1)已知变量x ,y 具有线性相关关系,求累计人数y (万人)关于年份代号x 的线性回归方程y bx a =+;并预测2020年使用“微粒贷“贷款的累计人数;(2)“微粒贷”用户拥有的贷款额度是根据用户的账户信用资质判定的,额度范围在500元至30万元不等,腾讯公司在统计使用人数的同时,对他们所拥有的贷款额度也作了相应的统计.我们把拥有货款额度在500元至5万元(不包括5万元)的人群称为“低额度贷款人群”,简称“A 类人群”;把拥有贷款额度在5万元及以上的人群称为“高额度贷款人群”,简称“B 类人群”.根据统计结果,随机抽取6人,其中A 类人群4人,B 类人群2人.现从这6人中任取3人,记随机变量ξ为A 类人群的人数,求ξ的分布列及其期望.参考公式:1122211()()()()nni iiii i nniii i x y nx y x x y y b xn x x x ====---==--∑∑∑∑, a y bx =-参考数据:5162i ii x y=≈∑【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()42222211.50.50.5 1.55i i x x =-=-+-++=∑ ,()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 4.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4).【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A.点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九讲 统计案例 【教材扫描】 一、回归分析的基本思想及其初步应用 【教材扫描】 1.回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归方程,并用回归方程进行预报. 2.线性回归模型
(1)在线性回归方程ˆˆˆyabx中,1122211()()ˆ()nniiiiiinniiiixxyyxynxybxxxnx,ˆaˆybx. (,)xy称为样本的中心. (2)线性回归模型ybxae,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
温馨提示:ˆb是回归直线的斜率的估计值,表示x每增加一个单位,y的平均增加单位数. 3.刻画回归效果的方式 方式方法 计算公式 刻画效果
2R
2R
2121ˆ()1()niiiniiyyyy
2R越接近1,表示回归的效果越好
残差图 ˆie称为相应于点(,)iixy的残差,ˆieˆiiyy 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.
残差平方和 21ˆ()niiiyy 残差平方和越小,模型的拟合效果越好 二、独立性检验的基本思想及其初步应用 1.与列联表相关的概念 (1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量. (2)列联表: ①列出的两个分类变量的频数表, 称为列联表. ②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: y1 y2 总计
x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0, 因此|ad-bc|越小, 关系越弱; |ad-bc|越大, 关系越强.
2.等高条形图 等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列表数据的频率特征. 3.独立性检验的基本思想 (1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量. 【知识运用】 题型一:概念辨析 【例1】有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示; ③通过回归方程ˆˆˆybxa可以估计观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验. 其中正确命题的个数是 A.1 B.2 C.3 D.4 【答案】C①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.
③解释的是回归方程ˆˆˆybxa的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系. 【变式】1.在对两个变量x,y进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(xi,yi),i=1,2,…,n; ③求线性回归方程; ④求相关系数; ⑤根据所搜集的数据绘制散点图. 如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( ) A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③① 解析:选D 对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释;故正确顺序是②⑤④③①, 故选D.
题型二 线性回归模型 【例2】一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据
如下表: 转速x(转/秒) 16 14 12 8 每小时生产缺损零件数y(件) 11 9 8 5 (1)作出散点图; (2)如果y与x线性相关,求出回归直线方程; (3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什么范围内?(结果保留整数)
附:线性回归方程ˆˆˆybxa中,1221ˆˆˆ,niiiniixynxybaybxxnx,其中,xy为样本平均值. 【解析】(1)根据表中的数据画出散点图如下图:
(2)由题中数据列表如下: i 1 2 3 4
xi 16 14 12 8
yi 11 9 8 5
xiyi 176 126 96 40
442
1112.5,8.25,660,438iiiiixyxxy
,
∴2438412.58.25ˆˆ0.73,8.250.7312.50.875660412.5ba, ∴0.73.85ˆ07yx. (3)令0.730.87510x,解得14.915x. 故机器的运转速度应控制在15转/秒内. 【方法归纳】1.求回归直线方程的一般步骤 (1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系. (2)当两变量具有线性相关关系时,求回归系数ˆˆab、
,写出回归直线方程.
【变式】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据 x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 y^=b^x+a^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)散点图如图:
(2)i=1nxiyi=6×2+8×3+10×5+12×6=158, x=6+8+10+124=9,y=2+3+5+64=4,
i=1
nx2i=62+82+102+122=344.
b^=158-4×9×4344-4×92=1420=0.7,a^=y-b^x=4-0.7×9=-2.3,
故线性回归方程为y^=0.7x-2.3. (3)由(2)中线性回归方程知,当x=9时,y^=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.
题型三:回归分析 类型一:线性回归分析 【例3-1】为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,
数据如下表所示: x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图,并求回归方程: (2)求相关指数R2,并判断模型的拟合效果; (3)进行残差分析. 【解析】(1)散点图如下图所示:
从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数. 因为1510152025(301)7.56x, 17.258.128.959.9010.911.89.4(87)6y,
6212275iix,611076.2iiixy.
计算,得ˆˆ0.183,6.285ba
.
所以所求回归方程为ˆ6.2850.183yx. (2)列表如下: ˆiiyy
0.05 0.005 0.08 0.045 0.04 0.025
iyy 2.24 1.37 0.54 0.41 1.41 2.31
6622
11ˆ()0.01318,()14.6781iiiiiyyyy
.
所以20.0131810.999114.6784R, 所以回归模型的拟合效果较好. (3)由表中数据可以看出残差点比较均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型. 【变式】1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为: x 14 16 18 20 22
y 12 10 7 5 3
求出y对x的回归直线方程,并说明拟合效果的程度.
解:x=15(14+16+18+20+22)=18,
y=15(12+10+7+5+3)=7.4.
i=1
5x2i=142+162+182+202+222=1 660,
i=1
5xiyi=14×12+16×10+18×7+20×5+22×3=620,
可得回归系数b^=i=15xiyi-5xyi=15x2i-5x2=620-5×18×7.41 660-5×182=-1.15. 所以a^=7.4+1.15×18=28.1所以回归直线方程:y^=-1.15x+28.1. 列出残差表:
yi-y^i 0 0.3 -0.4 -0.1 0.2
yi-y 4.6 2.6 -0.4 -2.4 -4.4
则i=15 (yi-y^i)2=0.3,i=15 (yi-y)2=53.2.
R2=1-i=15 ?yi-y^i?2i=15 ?yi-y?2≈0.994.所以回归模型的拟合效果很好.
类型二:非线性回归分析 【例3-2】在一次抽样调查中测得样本的5个样本点,数值如表:
x 0.25 0.5 1 2 4
y 16 12 5 2 1