回归分析、独立性检验

合集下载

正态分布、回归、独立性检验(教师)分析

正态分布、回归、独立性检验(教师)分析

正态分布、回归分析、独立性检验一、正态分布1.已知随机变量X 服从正态分布N(a,4),且P(X>1)=0.5,则实数a 的值为 ( ) A.1B.2C.3D.4【解题指南】画正态曲线图,由对称性得图象关于x=a 对称且P(X>a)=0.5,结合题意得到a 的值. 【解析】选A.随机变量X 服从正态分布N(a,4),所以曲线关于x=a 对称,且P(X>a)=0.5,由P(X>1)=0.5,可知μ=a=1.故选A. 2.(2014·广州高二检测)已知ξ~N(3,σ2),若P(ξ≤2)=0.2,则P(ξ≤4)等于 ( ) A.0.2B.0.3C.0.7D.0.8【解析】选D.根据正态曲线的特征:知对称轴为x=3,[来源:学+科+网Z+X+X+K] 所以P(ξ≤3)=0.5,则P(ξ≤2)=P(ξ>4)=0.2, 所以P(ξ≤4)=1-P(ξ>4)=1-0.2=0.8.3.随机变量ξ服从正态分布N(1,4),若P(2<ξ<3)=a,则P(ξ<-1)+P(1<ξ<2)= ( ) A.1−a 2B.12-a C.a+0.003aD.12+a【解析】选B.因为随机变量ξ服从正态分布N(1,4),所以正态曲线关于x=1对称,因为P(2<ξ<3)=a,所以P(-1<ξ<0)=a,P(1<ξ<2)=P(0<ξ<1),P(ξ<-1)+P(1<ξ<2)=12-a,故选B.4.已知随机变量X 服从正态分布N(3,1),且P(2≤X ≤4)=0.6826,则P(X>4)= ( ) A.0.158 8B.0.158 7C.0.158 6D.0.158 5【解析】选B.P(3≤X ≤4)=12P(2≤X ≤4)=0.3413,P(X>4)=0.5-P(3≤X ≤4)=0.5-0.3413=0.1587.5.设随机变量ξ服从正态分布N(μ,σ2),且二次方程x 2+4x+ξ=0无实数根的概率为12,则μ等于 ( ) A.1B.2C.4D.不能确定【解析】选C.因为方程x 2+4x+ξ=0无实数根的概率为12,由Δ=16-4ξ<0,得ξ>4, 即P(ξ>4)=12=1-P(ξ≤4),故P(ξ≤4)=12,所以μ=4.6. 设某地区某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,令ξ表示从中随机抽取的一名儿童的身高,则下列概率中最大的是()A.P(120<ξ<130)B.P(125<ξ<135)C.P(130<ξ<140)D.P(135<ξ<145)【解析】选C.因为某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,即ξ~N(135,100),所以在长度都是10的区间上,概率最大的应该是在对称轴两侧关于对称轴对称的区间,从四个选项可知C最大,故选C.7.设随机变量ξ服从正态分布N(0,1),则下列结论正确的是.①P(|ξ|<a)=P(ξ<a)+P(ξ>-a)(a>0);②P(|ξ|<a)=2P(ξ<a)-1(a>0);③P(|ξ|<a)=1-2P(ξ<a)(a>0);④P(|ξ|<a)=1-P(|ξ|>a)(a>0).【解析】因为P(|ξ|<a)=P(-a<ξ<a),所以①不正确;因为P(|ξ|<a)=P(-a<ξ<a)=P(ξ<a)-P(ξ<-a)=P(ξ<a)-P(ξ>a)=P(ξ<a)-(1-P(ξ<a))=2P(ξ<a)-1,所以②正确,③不正确;因为P(|ξ|<a)+P(|ξ|>a)=1,所以P(|ξ|<a)=1-P(|ξ|>a)(a>0),所以④正确.答案:②④8.在某次数学考试中,考生的成绩服从正态分布N(90,100),则考试成绩在110分以上的概率是. 【解析】因为考生的成绩X~N(90,100),所以正态曲线关于x=90对称,且标准差为10,根据3σ原则知P(70<x<110)=P(90-2×10<x<90+2×10)=0.9544,所以考试成绩X位于区间(70,110)上的概率为0.9544,则考试成绩在110分以上的概率是(1-0.9544)=0.0228.=129.某大型国有企业为10000名员工定制工作服,设员工的身高(单位:cm)服从正态分布N(173,52),则适合身高在163~183cm范围内员工穿的服装大约要定制套.【解析】因为员工的身高(单位:cm)服从正态分布N(173,52),即服从均值为173cm,方差为25的正态分布, 因为适合身高在163~183cm范围内取值即在(μ-2σ,μ+2σ)内取值,其概率为:95.44%,从而得出适合身高在163~183cm范围内员工穿的服装大约套数是:10000×95.44%=9544套.10.随机变量ξ服从正态分布N(1,σ2),已知P(ξ<0)=0.3,则P(ξ<2)等于()A.0.7B.0.6C.0.5D.0.3【解析】选A.根据图象的对称性知P(ξ>2)=P(ξ<0)=0.3,所以P(ξ<2)=1-P(ξ>2)=0.7.11.正态分布N (0,49)中,数值落在(-∞,-2)∪(2,+∞)内的概率是 ( )A.0.46B.0.997C.0.03D.0.0026[来源:]【解析】选D.由题意μ=0,σ=23,所以P(-2<X<2)=P (0−3×23<X <0+3×23)=0.9974, 所以P(X<-2)+P(X>2)=1-P(-2≤X ≤2)=1-0.9974=0.0026.故选D.12.某中学高考数学成绩近似地服从正态分布N(100,100),则此校数学成绩在80~120分的考生占总人数的百分比为 ( ) A.31.74%B.68.26%C.95.44%D.99.74%【解析】选C.设此校学生的数学成绩为X,随机变量X ~N(100,100),所以μ=100,σ2=100,即σ=10.则P(μ-2σ<X ≤μ+2σ)=95.44%.故选C.13.我校在模块考试中约有1000人参加考试,其数学考试成绩ξ~N(90,a 2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的35,则此次数学考试成绩不低于110分的学生人数约为 ( ) A.600B.400C.300D.200【解析】选D.由平均分为90,考试成绩在70分到110分之间的人数为600,则落在90分到110分之间的人数为300人,故数学考试成绩不低于110分的学生人数约为500-300=200.14.某个部件由三个元件按如图方式连接而成,元件1或元件2正常工作,且元件3正常工作,则部件正常工作,设三个电子元件的使用寿命(单位:小时)均服从正态分布N(1000,502),且各个元件能否正常工作相互独立,那么该部件的使用寿命超过1000小时的概率为 .【解析】三个电子元件的使用寿命均服从正态分布N(1000,502)得:三个电子元件的使用寿命超过1000小时的概率为p=12,超过1000小时时元件1或元件2正常工作的概率p 1=1-(1-p)2=34,那么该部件的使用寿命超过1000小时的概率为p 2=p 1×p=38. 二、回归分析1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是 ( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心点(x ̅,y ̅)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y 与x 具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(x ̅,y ̅),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm 时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20 B.40 C.60 D.80 【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a 的值.由表格得x ̅=18+13+10−14=10,y ̅=24+34+38+644=40,因为(x ̅,y ̅)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解析】(1)如图(2)由对照数据,计算得:∑i=14x i y i =66.5,∑i=1nx i 2=32+42+52+62=86,x ̅=4.5,y ̅=3.5,=66.5−4×4.5×3.586−4×4.52=66.5−6386−81=0.7,=y ̅-x ̅=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35. (3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨). 三、独立性检验1.下面是一个2×2列联表:则表中a,b 的值分别为 ( ) A.54,103B.64,103C.54,93D.64,93【解析】选A.由题意,a+40=94,40+63=b,所以a=54,b=103. 2.对于独立性检验,下列说法正确的是 ( )A.K 2独立性检验的统计假设是各事件之间相互独立B.K 2可以为负值C.K 2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”D.2×2列联表中的4个数据可以是任意正数 【解析】选A.由独立性检验的检验步骤可知A 正确;因为2×2列联表中的数据均为正整数,故K 2不可能为负值,排除B;因为K 2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D. 3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:为了判断休闲方式是否与性别有关,根据表中数据,得到K 2的观测值k ≈4.667,因为3.841≤k ≤6.635,所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为()A.1%B.99%C.5%D.95%选C.因为3.841≤k≤6.635,P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01,所以判断出错的可能性至多为5%.4.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见,2452名女性中有1200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率【解析】选C.由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.5.在列联表中,类1在类B中所占的比例为.【解析】因为由列联表可以看出类1在类B中有c个,而类B共有(c+d)个,所以类1在类B中所占的比例是c.c+d6.某厂家为调查一种新推出的产品的颜色接受程度是否与性别有关,数据如下表:根据表中的数据,得到k≈10.653,因为k≥7.879,所以产品的颜色接受程度与性别有关系,那么这种判断出错的可能性为.【解析】根据k≈10.653,对照临界值表可以得到,这种判断出错的可能性是0.005.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k≈4.844.则可以在犯错误的概率不超过 的前提下认为选修文科与性别有关系. 【解析】因为根据表中数据,得到K 2的观测值k ≈4.844>3.841.所以可以在犯错误的概率不超过0.05的前提下认为选修文科与性别有关系. 答案:0.058.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.【解析】(1)将2×2列联表中的数据代入计算公式, 得K 2的观测值k=100×(60×10−20×10)280×20×70×30=10021≈4.762,由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3),其中a i (i=1,2)表示喜欢甜品的学生,b j (j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的. 抽取3人,至多有1人喜欢甜品的事件为以下7个:(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3), 从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为710.。

第3讲变量间的相关关系、回归分析及独立性检验

第3讲变量间的相关关系、回归分析及独立性检验

1.两个变量的线性相关
(1)在散点图中,点散布在从左下角 到 右上角 的区域.对于两个
变量的这种相关关系,我们将它称为正相关.如果在散点图
中,点散布在从左上角 到右下角 的区域,两个变量的这种相关 关系称为负相关.
(2)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在 一条直线附近 个变量之间具有线性相关关系,这条直线叫做回归直线. ,就称这两
思维点拨:利用相关系数r进行线性相关检验(也可利用散点图).如果线性相 关,再求回归直线方程并加以判断.
因为r>0.5,所以y与x有很强的线性相关关系. (2) =0.728 6x-0.857 1. ≤10⇒0.728 6x-0.857 1≤10,
(3)要使
所以x≤14.901 3.
所以机器的转速应控制在14.901 3转/秒以下.
它在a,b,c,d 取不同值时,K2可能不同,而k是取定一组数a, b,c,d后的一个确定的值.
1.下列关系中,是相关关系的为(
)
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A.①② B.①③ C.②③ D.②④
判断两个变量正相关还是负相关,有三种方法: 1.利用散点图;
2.利用相关系数r的符号;当r>0时,正相关;r<0时,负相关;
3.在已知两变量线性相关时,也可以利用回归方程 =a+bx是增函数,两变量是正相关, 当b<0时, =a+bx是减函数, 两变量是负相关. =a+bx.当b>0时,
【例 1】 山东鲁洁棉业公司的科研人员在 7块并排、形状大小相同的试
=1.23×10+0.08=12.3+0.08=12.38(万元),即估计使用10

变量的相关性、回归分析、独立性检验

变量的相关性、回归分析、独立性检验
甲校 优秀 非优秀 总计 15 45 60 乙校 20 30 50 总计 35 75 110
复习目标
课前预习
高频考点
课时小结
2 110 × ( 15 × 30 - 20 × 45 ) K2的观测值k= ≈2.829>2.706, 60×50×35×75
故在犯错误的概率不超过0.10的前提下认为两个学校的数学 成绩有差异.
n
.
通过求 Q= [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法, 即求回归直线, 使得样本数据的点到它 的距离的平方和最小,这一方法叫作最小二乘法.
复习目标 课前预习 高频考点 课时小结
- x· y xiyi-n-
i =1
n
(5) 相关系数: r=
n 2 2 -2 xi -n- x y2 i -n y i=1 i=1
高频考点
课时小结
解析 (1)从甲校抽取 110× 1 000
1 200 1 200+1 000
=60(人),
从乙校抽取 110× 故 x=10,y=7.
1 200+1 000
=50(人),
复习目标
课前预习
高频考点
课时小结
1学成绩的优秀率为50×100%=40%. (3)表格填写如图,
甲校 优秀 非优秀 总计 乙校 总计
复习目标
课前预习
高频考点
课时小结
参考数据与公式:
2 n ( ad - bc ) 由列联表中数据计算K2= . (a+b)(c+d)(a+c)(b+d)
临界值表
P(K2≥k0) k0 0.10 0.05 0.010
2.706 3.841 6.635

高中数学 第2讲变量的相关性、回归分析及独立性检验

高中数学 第2讲变量的相关性、回归分析及独立性检验

第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。

4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。

回归分析与独立性检验

回归分析与独立性检验

建构数学
• 1.计算公式
相关系数

r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】1. 回归直线方程12(1)(2)1.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:(年龄岁)(脂肪含量)根据上表的数据得到如下的散点图.脂肪含量年龄岁)根据上表中的样本数据及其散点图.求.计算样本相关系数(精确到),并刻画它们的相关程度.若关于的线性回归方程为,求的值(精确到),并根据回归方程估计年龄为岁时人体的脂肪含量.附:参考数据:,,,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.(1)12(2)2.我市南澳县是广东唯一的海岛县,海区面积广阔,发展太平洋牡蛎养殖业具有得天独厚的优势,所产的“南澳牡蛎”是中国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买只该基地的“南澳牡蛎”,会买到质量小于的牡蛎的可能性有多大?年该基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量(万元)的数据如下:人工投入增量(人)年收益增量(万元)该基地为了预测人工投入增量为人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量做变换,令,则,且有,,,.年收益增量(万元)人工投入增量(万人)根据所给的统计量,求模型②中关于的回归方程(精确到).根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为人时的年收益增量.回归模型模型①模型②回归方程附:若随机变量,则,;样本的最小二乘估计分式为:,,另,刻画回归效果的相关指数.(1)(2)3.某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”,现统计了活动刚推出一周内每天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次,统计数据如下表所示:参考数据:设,,,.参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.根据散点图判断,在推广期内,扫码支付的人次关于活动推出天数的回归方程适合用来表示,求出该回归方程,并预测活动推出第天使用扫码支付的人次.推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式现金会员卡扫码比例商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受折优惠的概率为,享受折优惠的概率为,享受折优惠的概率为,现有一名顾客购买了元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少.(1)4.一个工厂在某年里连续个月每月产品的总成本(万元)与该月产量(万件)之间有如下一组数据:通过画散点图,发现可用线性回归模型拟合与的关系,请用相关系数加以说明.12(2)解答下列各题:建立月总成本与月产量之间的回归方程.通过建立的关于的回归方程,估计某月产量为万件时,此时产品的总成本为多少万元?(均精确到)附注:①参考数据:,,,,.②参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.(1)(2)(3)5.某单位共有名员工,他们某年的收入如下表:员工编号年薪(万元)求该单位员工当年年薪的平均值和中位数.从该单位中任取人,此人中年薪收入高于万的人数记为,求的分布列和期望.已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为万元,万元,万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.全民健身倡导全民做到每天参加一次以上的体育健身活动,旨在全面提高国民体质和健康水平.某部门在该市年发布的全民健身指数中,其中的“运动参与”的评分值进行了统计,制成如图所示的散点图:运动参与评分值年份代码:注:年份代码分别对应年份(1)(2)根据散点图,建立关于的回归方程.从该市的市民中随机抽取了容量为的样本,其中经常参加体育锻炼的人数为,以频率为概率,若从这名市民中随机抽取人,记其中“经常参加体育锻炼”的人数为,求的分布列和数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.(1)(2)7.某项科研活动共进行了次试验,其数据如表所示:特征量第次第次第次第次第次从次特征量的试验数据中随机地抽取两个数据,求至少有一个大于的概率.求特征量关于的线性回归方程;并预测当特征量为时特征量的值.(附:回归直线的斜率和截距的最小二乘法估计公式分别为,).8.某地区某农产品近几年的产量统计如表:年份年份代码年产量(万吨)(1)12(2)附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.根据表中数据,建立关于的线性回归方程.若近几年该农产品每千克的价格(单位:元)与年产量满足的函数关系式为,且每年该农产品都能售完.根据中所建立的回归方程预测该地区年该农产品的产量.当为何值时,销售额最大?(1)(2)9.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精确到).若莫斯科某餐厅销售的中国小龙虾的等级代码数值为,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对一组数据,,,,其回归直线的斜率和截距最小二乘估计分别为:,.参考数据:,.(1)(2)(3)10.某食品店为了了解气温对销售量的影响,随机记录了该店月份中天的日销售量(单位:千克)与该地当日最低气温(单位:)的数据,如表:求出与的回归方程.判断与之间是正相关还是负相关;若该地月份某天的最低气温为,请用所求回归方程预测该店当日的销售量.设该地月份的日最低气温,其中近似为样本平均数,近似为样本方差,求.附:①回归方程中,,.②,.若,则,.2. 独立性检验(1)(2)11.我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施,其中一项是为了减少燃油汽车对大气环境污染,从年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车,政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高,所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高,有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行,满分分,将分数按照,,,,分成组,得如下频率分布直方图.得分频数组距若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,得分不少于分为满意,根据提供的条件数据,完成下面的列联表,并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?满意不满意总计购买本市企业生产的新能源汽车户数 购买外地企业生产的新能源汽车户数总计以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元,但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元,则购买外地产的新能源汽车每台最多补贴多少万元?附:,其中.(1)1(2)12.大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备.某高中成功开设大学先修课程已有两年,共有人参与学习先修课程,这两年学习先修课程的学生都参加了高校的自主招生考试(满分分),结果如下表所示:分数人数参加自主招生获得通过的概率这两年学校共培养出优等生人,根据如图等高条形图,填写相应列联表,并根据列联表检验能否在犯错误的概率不超过的前提下认为学习先修课程与优等生有关系?非优等生优等生学习大学先修课程没有学习大学先修课程优等生非优等生总计学习大学先修课程 没有学习大学先修课程总计已知今年全校有名学生报名学习大学先修课程,并都参加了高校的自主招生考试,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.在今年参与大学先修课程学习的学生中任取一人,求他获得高校自主招生通过的概率.2某班有名学生参加了大学先修课程的学习,设获得高校自主招生通过的人数为,求的分布列,试估计今年全校参加大学先修课程学习的学生获得高校自主招生通过的人数.参考数据:参考公式:,其中.(1)(2)13.某企业原有甲、乙两条生产线,为了分析两条生产线的效果,先从两条生产线生产的大量产品中各抽取了件产品作为样本.检测一项质量指标值,该项指标值落在内的产品视为合格品,否则为不合格品.乙生产线样本的频数分布表质量指标合计频数质量指标值频率组距甲生产线样本的频率分布直方图根据甲生产线样本的频率分布直方图,以从样本中任意抽取一件产品且为合格品的频率近似代替从甲生产线生产的产品中任意抽取一件产品且为合格品的概率,估计从甲生产线生产的产品中任取件恰有件为合格品的概率.现在该企业为提高合格率欲只保留其中一条生产线.根据上述图表所提供的数据,完成下面的列联表,并判断是否有的把握认为该企业生产的这种产品的质量指标值与生产线有关.若有的把握,请从合格率的角度分析保留哪条生产线较好.甲生产线乙生产线合计合格品不合格品合计附:,.12(1)(2)14.某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷,整理分析及开座谈会三个阶段.在随机问卷阶段,,两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对至岁的人群,按比例随机抽取了份,进行了数据统计,具体情况如下表:组别年龄组统计结果组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车人人人人人人人人人人人人先用分层抽样的方法从上述人中按“年龄是否达到岁”抽出一个容量为人的样本,再用分层抽样的方法将“年龄达到岁”的被抽个体数分配到“经常使用单车”和“偶尔使用单车”中去.求这人中“年龄达到岁且偶尔使用单车”的人数.为听取对发展共享单车的建议,调查组专门组织所抽取的“年龄达到岁且偶尔使用单车”的人员召开座谈会,会后共有份礼品赠送给其中人,每人份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有人来自组,求组这人中得到礼品的人数的分布列和数学期望.从统计数据可直观得出“是否经常使用共享单车与年龄(记作岁)有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄应取还是?请通过比较的观测值的大小加以说明.参考公式:,其中.15.年,依托用户碎片化时间的娱乐需求,分享需求以及视频态的信息负载力,短视频快速崛起,与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.某读书抽样调查了非一线城市和一线城市各名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于分钟的用户记为“活跃用户”.(1)(2)(3)频率组距日使用时长分钟频率组距日使用时长分钟城市城市请填写以下列联表,并判断是否有的把握认为用户活跃与否与所在城市有关.活跃用户不活跃用户合计城市 城市合计以频率估计概率,从城市中任选名用户,从城市中任选名用户,设这名用户中活跃用户人数为,求的分布列和数学期望.该读书还统计了年个季度的用户使用时长(单位:百万小时),发现与季度()线性相关,得到回归直线为,已知这个季度的用户平均使用时长为百万小时,试以此回归方程估计年第一季度该读书用户使用时长约为多少百万小时.附:,其中.(1)16.在中国移动的赞助下,某大学就业部从该大学年已就业的、两个专业的大学本科毕业生中随机抽取了人进行月薪情况的问卷调查,经统计发现,他们的月薪收入在元到元之间,具体统计数据如下表:月薪(百元)人数将月薪不低于元的毕业生视为“高薪收入群体”,并将样本的频率视为总体的概率,已知该校届大学本科毕业生李阳参与了本次调查问卷,其月薪为元.请根据上述表格中的统计数据填写下面的列联表,并通过计算判断,是否能在犯错误的概率不超过的前提下认为“高薪收入群体”与所学专业有关?12(2) 非高薪收入群体高薪收入群体合计专业专业 合计经统计发现,该大学届的大学本科毕业生月薪(单位:百元)近似地服从正态分布,其中近似为样本平均数(每组数据取区间的中点值).若落在区间的左侧,则可认为该大学本科生属“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.试判断李阳是否属于“就业不理想”的学生.中国移动为这次参与调查大学本科毕业生制定了赠送话费的活动,赠送方式为:月薪低于的获赠两次随机话费,月薪不低于的获赠一次随机话费,每次赠送的话费及对应的概率分别为:赠送话费(单位:元)概率则李阳预期获得的话费为多少元?附:,其中,.(1)(2)17.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中,随机抽取了人,从美国某城市的高中生中随机抽取了人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:家占、朋友聚集的地方占、个人空间占.为了考察高中生的“恋家(在家里感到最幸福)”是否与国别有关,构建了如下列联表.在家里最幸福在其它场所幸福合计中国高中生美国高中生合计请将列联表补充完整;试判断能否有的把握认为“恋家”与否与国别有关.从中国高中生的学生中以“是否恋家”为标准采用分层抽样的方法,随机抽取了人,再从这人中随机抽取人.若所选名学生中的“恋家”人数为,求随机变量的分布列及期望.附:,其中.视力频率组距(1)不做操做操近视不近视是否做操是否近视(2)(3)18.眼保健操是一种眼睛的保健体操,主要是通过按摩眼部穴位,调整眼及头部的血液循环,调节肌肉,改善眼的疲劳,达到预防近视等眼部疾病的目的.某学校为了调查推广眼保健操对改善学生视力的效果,在应届高三的全体名学生中随机抽取了名学生进行视力检查,并得到如图的频率分布直方图.附:,若直方图中后三组的频数成等差数列,试估计全年级视力在以上的人数.为了研究学生的视力与眼保健操是否有关系,对年纪不做眼保健操和坚持做眼保健操的学生进行了调查,得到下表中数据,根据表中的数据,能否在犯错的概率不超过的前提下认为视力与眼保健操有关系?在中调查的名学生中,按照分层抽样在不近视的学生中抽取人,进一步调查他们良好的护眼习惯,在这人中任取人,记坚持做眼保健操的学生人数为,求的分布列和数学期望.19.为调查某地人群年龄与高血压的关系,用简单随机抽样方法从该地区年龄在岁的人群中抽取人测量血压,结果如下:高血压非高血压总计年龄到岁(1)(2)年龄到岁总计附参考公式及参考数据:计算表中的、、值;是否有的把握认为高血压与年龄有关?并说明理由.现从这名高血压患者中按年龄采用分层抽样的方法抽取人,再从这人中随机抽取人,求恰好一名患者年龄在到岁的概率.(1)(2)20.随着移动支付的普及,中国人的生活方式正悄然巨变,带智能手机,不带钱包出门还渐成为中国人的新习惯. 年我国移动支付增长迅猛,据统计,某支付平台年移动支付的笔数占总支付笔数的.从该支付平台 年的所有支付中任取笔,求移动支付笔数的期望和方差.现有名使用该支付平台的用户,其中 名是城市用户,名是农村用户,调查他们年个人移动支付的比例是否达到了,得到列联表如下:个人移动支付达到了个人移动支付达到了合计城市用户农村用户合计根据上表数据,问是否有的把握认为年个人移动支付比例达到了与该用户是城市用户还是农村用户有关?附:.(1)21.学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各名进行问卷调查,其中每天自主学习中国古典文学的时间超过小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:古文迷非古文迷合计男生女生合计根据表中数据能否判断有的把握认为“古文迷”与性别有关?(2)(3)现从调查的女生中按分层抽样的方法抽出人进行调查,求所抽取的人中“古文迷”和“非古文迷”的人数.现从()中所抽取的人中再随机抽取人进行调查,记这人中“古文迷”的人数为,求随机变量的分布列与数学期望.参考公式:,其中.参考数据:(1)(2)(3)22.每年的月日为世界读书日,为调查某高校学生(学生很多)的读书情况,随机抽取了男生,女生各人组成的一个样本,对他们的年阅读量(单位:本)进行了统计,分析得到了男生年阅读量的频率分布表和女生阅读量的频率分布直方图.男生年阅读量的频率分布表(年阅读量均在区间内):本/年频数根据女生的频率分布直方图估计该校女生年阅读量的中位数.在样本中,利用分层抽样的方法,从男生年与度量在,的两组里抽取人,再从这人中随机抽取人,求这一组中至少有人被抽中的概率.若年阅读量不小于本为阅读丰富,否则为阅读不丰富,依据上述样本研究阅读丰富与性别的关系,完成下列列联表,并判断是否有的把握认为月底丰富与性别有关.性别 阅读量丰富不丰富合计男 女 合计附:,其中.频率组距分数(1)(2)(3)23.为了调查学生数学学习的质量情况,某校从高二年级学生(其中男生与女生的人数之比为)中,采用分层抽样的方法抽取名学生依期中考试的数学成绩进行统计.根据数学的分数取得了这名同学的数据,按照以下区间分为八组:①,②,③,④,⑤,⑥,⑦,⑧得到频率分布直方图如图.已知抽取的学生中数学成绩少于分的人数为人.求的值及频率分布直方图中第④组矩形条的高度;如果把“学生数学成绩不低于分”作为是否达标的标准,对抽取的名学生,完成下列列联表:达标未达标合计男生女生合计据此资料,你是否认为“学生性别”与“数学成绩达标与否”有关?若从该校的高二年级学生中随机抽取人,记这人中成绩不低于分的学生人数为,求的分布列、数学期望和方差.附1:“ 列联表”的卡方统计量公式:附2:卡方 统计量的概率分布表:…………(1)12(2)24.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”遍布了一二线城市的大街小巷.为了解共享单车在.市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,得到下表(单位:人):经常使用偶尔或不用合计岁及以下岁以上合计根据以上数据,能否在犯错误的概率不超过的前提认为市使用共享单车情况与年龄有关?请回答下列问题:现从所抽取的岁以上的网民中,按“经常使用”与“偶尔或不用”这两种类型进行分层抽样抽取人,然后,再从这人中随机选出人赠送优惠券,求选出的人中至少有人经常使用共享单车的概率.将频率视为概率,从市所有参与调查的网民中随机抽取人赠送礼品,记其中经常使用共享单车的人数为,求的数学期望和方差.参考公式:,其中.参考数据:(1)(2)25.某调查机构对某校学生做了一个是否同意生“二孩”抽样调查,该调查机构从该校随机抽查了名不同性别的学生,调查统计他们是同意父母生“二孩”还是反对父母生“二孩”,现已得知人中同意父母生“二孩”占,统计情况如表:同意不同意合计男生 女生合计求,的值,根据以上数据,能否有的把握认为是否同意父母生“二孩”与性别有关?请说明理由.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。

相关文档
最新文档