2015高考数学总复习专题系列——统计.板块五.独立性检验.学生版
高考数学 专题 独立性检验复习课件

(2)根据列联表可以得出什么样的结论?对以后的复习有什么指 导意义?
解: (2)计算可知,午休的考生及格率为 P1=
80 4 = ,不午休的考生 180 9
65 13 的及格率为 P2= = ,则 P1>P2,因此,可以粗略判断午休与考生 200 40
考试及格有关系,并且午休的及格率高,所以在以后的复习中考生 应尽量适当午休,以保持最佳的学习状态.
即时训练1-2: 如表是一个2×2列联表:
y1 y2 总计
x1
x2 总计
a
8 b
21
25 46
73
33 110
则表中a,b处的值分别为( C ) (A)94,96 (B)52,50 (C)52,60 (D)54,52
题型二 利用等高条形图判断两个分类变量是否相关 【例2】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分 别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
方法技巧 利用列联表可以较好地看出两个分类变量是否具 有关系,如本题的午休与考试及格,类似地, 我们也可以用列联 表进行粗略估计吸烟与健康,读书年限与视力等变量间的关系.
即时训练1-1:班级与成绩2×2列联表:
优秀 甲班 乙班 10 7 不优秀 35 38 总计 45 p
总计
m
n
q
表中数据m,n,p,q的值应分别为( ) (A)70,73,45,188 (B)17,73,45,90 (C)73,17,45,90 (D)17,73,45,45 解析:由表中数据可知m,n,p,q的值分别为 17,73,45,90.故选B.
2×2列联表的定义 列出两个分类变量的 频数表 ,称为列联表。假设两个分类 变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表 (也称为2×2列联表)为
高考数学总复习考点知识与题型专题讲解72 列联表与独立性检验

高考数学总复习考点知识与题型专题讲解§9.4列联表与独立性检验考试要求1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解独立性检验及其应用.知识梳理1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.2.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:(2)计算随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.如表为5个常用的小概率值和相应的临界值.思考辨析判断下列结论是否正确(请在括号中打“√”或“×”)(1)2×2列联表中的数据是两个分类变量的频数.(√)(2)事件A和B的独立性检验无关,即两个事件互不影响.(×)(3)χ2的大小是判断事件A和B是否相关的统计量.(√)(4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.(×) 教材改编题1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是()A.均值B.方差C.独立性检验D.回归分析答案 C解析由题意可知,“爱玩网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.2.如表是2×2列联表,则表中a,b的值分别为()A.27,38 B.28,38C.27,37 D.28,37答案 A解析a=35-8=27,b=a+11=27+11=38.3.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.答案0.01解析因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.题型一列联表与χ2的计算例1(1)为了解某大学的学生是否喜欢体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:则a-b-c等于()A.7 B.8 C.9 D.10答案 C解析根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,补充完整2×2列联表为:∴a-b-c=52-21-22=9.(2)为加强素质教育,使学生各方面全面发展,某学校对学生文化课与体育课的成绩进行了调查统计,结果如表:在对体育课成绩与文化课成绩进行独立性检验时,根据以上数据可得到χ2的值为() A.1.255 B.38.214C.0.003 7 D.2.058答案 A解析χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=337×(57×43-16×221)2278×59×73×264≈1.255.思维升华2×2列联表是4行4列,计算时要准确无误,关键是对涉及的变量分清类别.跟踪训练1某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d=________.答案44解析由题意得a+b+d+6=50,所以a+b+d=50-6=44.题型二列联表与独立性检验例2(2022·全国甲卷改编)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司在甲、乙两城之间长途客车准点的概率;(2)能否根据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)根据表中数据,A家公司共有班次260个,准点班次有240个,设A家公司长途客车准点事件为M,则P(M)=240260=1213;B家公司共有班次240个,准点班次有210个,设B家公司长途客车准点事件为N,则P(N)=210 240=78.所以A家公司长途客车准点的概率为12 13;B家公司长途客车准点的概率为7 8.(2)列联表如下:零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.χ2=500×(240×30-210×20)2260×240×450×50≈3.205>2.706=x 0.1,根据小概率值α=0.1的独立性检验,推断H 0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 思维升华 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表.(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算.(3)比较χ2与临界值的大小关系,作统计推断.跟踪训练2 为了减少自身消费的碳排放,“绿色消费”等绿色生活方式渐成风尚.为获得不同年龄段的人对“绿色消费”意义的认知情况,某地研究机构将“90后与00后”作为A 组,将“70后与80后”作为B 组,并从A ,B 两组中各随机选取了100人进行问卷调查,整理数据后获得如下列联表: 单位:人附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .(1)若从样本内知晓“绿色消费”意义的120人中用比例分配的分层随机抽样方法随机抽取16人,问应在A 组、B 组中各抽取多少人?(2)能否依据小概率值α=0.001的独立性检验,分析对“绿色消费”意义的认知情况与年龄有关?解 (1)由题意知,在A 组中抽取的人数为16×75120=10.在B 组中抽取的人数为16×45120=6.(2)零假设为H 0:对“绿色消费”意义的认知情况与年龄无关. 由题意,得χ2=200×(75×55-25×45)2120×80×100×100=18.75>10.828=x 0.001,故依据小概率值α=0.001的独立性检验,推断H 0不成立,即认为对“绿色消费”意义的认知情况与年龄有关. 题型三 独立性检验的综合应用例3 体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进行动方案(2020-2030)》(下面简称“体育健康促进行动方案”)中明确提出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求.随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考中随机抽取1 000名学生,调查他们平均每天的体育运动情况以及本次月考的数学成绩情况,得到如表数据:约定:平均每天进行体育运动的时间不少于60分钟的为“运动达标”,数学成绩排在年级前50%以内(含50%)的为“数学成绩达标”. (1)求该中学高三年级本次月考数学成绩的65%分位数;(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组区间的中点值作代表);(3)请根据已知数据完成下列列联表,并根据小概率值α=0.001的独立性检验,分析“数学成绩达标”是否与“运动达标”相关.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(n =a +b +c +d ).解 (1)每组的频率依次为0.025,0.125,0.350,0.300,0.150,0.050,∵0.025+0.125+0.350=0.500<0.65,0.025+0.125+0.350+0.300=0.800>0.65, 且0.500+0.8002=0.65, 高三年级本次月考数学成绩的65%分位数位于[90,110)内,且为[90,110)的中点100, 该中学高三年级本次月考数学成绩的65%分位数为100. (2)该中学高三年级本次月考数学成绩的平均分x =0.025×40+0.125×60+0.350×80+0.300×100+0.150×120+0.050×140=91.50,估计该中学高三年级本次月考数学成绩的平均分为91.50分. (3)列联表如表所示:零假设为H 0:“数学成绩达标”与“运动达标”无关,χ2=1 000×(350×300-200×150)2550×450×500×500=1 00011≈90.9>10.828=x 0.001,∴根据小概率值α=0.001的独立性检验,推断H 0不成立,即认为“数学成绩达标”与“运动达标”有关.思维升华 独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.跟踪训练3 某网红奶茶品牌公司计划在W 市某区开设加盟分店,为了确定在该区开设分店的个数,该公司对该市已开设分店的5个区域的数据作了初步处理后得到下列表格,记x 表示在5个区域开设分店的个数,y 表示这x 个分店的年收入之和.(1)该公司经过初步判断,可用经验回归模型拟合y 与x 的关系,求y 关于x 的经验回归方程;(2)如果该公司最终决定在该区选择两个合适的地段各开设一个分店,根据市场调查得到如下统计数据,第一分店每天的顾客平均为30人,其中5人会购买该品牌奶茶,第二分店每天的顾客平均为80人,其中20人会购买该品牌奶茶.依据小概率值α=0.1的独立性检验,分析两个店的顾客下单率有无差异.参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ;χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),x 0.1=2.706.解 (1)由题意可得,x =2+3+4+5+65=4,y =2.5+3+4+4.5+65=4,∑i =15x i y i =2×2.5+3×3+4×4+5×4.5+6×6=88.5,∑i =15x 2i =22+32+42+52+62=90,设y 关于x 的经验回归方程为y ^=b ^x +a ^,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=88.5-5×4×490-5×42=0.85,a ^=y -b ^x =4-0.85×4=0.6,∴y 关于x 的经验回归方程为y ^=0.85x +0.6. (2)零假设为H 0:两个店的顾客下单率无差异,则 由题意可知2×2列联表如表所示:∴χ2=110×(25×20-5×60)230×80×85×25=4451≈0.863<2.706=x 0.1,∴根据小概率值α=0.1的独立性检验,没有充分证据推断H 0不成立,即两个店的顾客下单率没有差异.课时精练1.观察下列各图,其中两个分类变量x,y之间关系最强的是()答案 D解析观察等高堆积条形图易知D选项两个分类变量之间关系最强.2.下列关于独立性检验的说法正确的是()A.独立性检验是对两个变量是否具有线性相关关系的一种检验B.独立性检验可以100%确定两个变量之间是否具有某种关系C.利用χ2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关系时,则我们可以说在100个吸烟的人中,有99人患肺病D.对于独立性检验,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大答案 D解析对于A,独立性检验是通过卡方计算来判断两个变量存在关联的可能性的一种方法,并非检验二者是否是线性相关,故错误;对于B,独立性检验并不能100%确定两个变量相关,故错误;对于C,99%是指“抽烟”和“患肺病”存在关联的可能性,并非抽烟人中患肺病的发病率,故错误;对于D ,根据卡方计算的定义可知该选项正确.3.为了考察某种中成药预防流感的效果,抽样调查40人,得到如下数据:下表是χ2独立性检验中几个常用的小概率值和相应的临界值:根据表中数据,计算χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),若由此认为“该药物预防流感有效果”,则该结论出错的概率不超过( ) A .0.05 B .0.1 C .0.01 D .0.005 答案 A解析 由题意知,χ2=40×(2×12-8×18)210×30×20×20=4.8>3.841=x 0.05,由临界值表可知,认为“该药物预防流感有效果”,则该结论出错的概率不超过0.05. 4.(多选)(2022·郑州模拟)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的2×2列联表中,由列联表中的数据计算得χ2≈9.616.参照附表,下列结论正确的是( ) 附表:A.根据小概率值α=0.001的独立性检验,分析认为“药物有效”B.根据小概率值α=0.001的独立性检验,分析认为“药物无效”C.根据小概率值α=0.005的独立性检验,分析认为“药物有效”D.根据小概率值α=0.005的独立性检验,分析认为“药物无效”答案BC解析因为χ2≈9.616,所以7.879<χ2<10.828,所以根据小概率值α=0.001的独立性检验,分析认为“药物无效”.根据小概率值α=0.005的独立性检验,分析认为“药物有效”.5.(多选)(2023·南通模拟)根据分类变量x与y的观察数据,计算得到χ2=2.974,依据表中给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是()A.根据小概率值α=0.05的独立性检验,分析变量x与y相互独立B.根据小概率值α=0.05的独立性检验,分析变量x与y不相互独立C.变量x与y相互独立,这个结论犯错误的概率不超过0.1D.变量x与y不相互独立,这个结论犯错误的概率不超过0.1答案AD解析因为χ2=2.974>2.706,所以变量x与y不相互独立,这个结论犯错误的概率不超过0.1.6.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( )参考公式:χ2=n (ad -bc )2(a+b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:A.a =b =30 B .χ2≈12.667C .从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是35 D .根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响 答案 D解析 由题可知a =50-10=40,b =50-30=20,所以A 错误;χ2=100×(40×30-10×20)250×50×60×40≈16.667 >10.828=x 0.001,所以根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响,所以B 错误,D 正确;从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是40100=25,所以C 错误.7.如表是对于“喜欢运动”与性别是否有关的2×2列联表,依据表中的数据,得到χ2≈________(结果保留到小数点后3位).答案 4.722解析 χ2=85×(40×12-28×5)245×40×68×17≈4.722.8.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示:则χ2=________(精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验________该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持). 答案 0.538 支持解析由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,根据χ2=n(ad-bc)2(a+c)(c+d)(b+d)(a+b),计算可知χ2=74×(145-231)2(29+33)×(33+5)×(7+5)×(29+7)≈0.538<3.841=x0.05,所以没有充分证据认为学生在注意力的稳定性上与性别有关,即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.9.(2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的独立性检验能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120200=0.6.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量无差异, 根据题表中的数据可得χ2=400×(150×80-120×50)2200×200×270×130=40039≈10.256>6.635=x 0.01,所以依据小概率值α=0.01的独立性检验,推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.10.某花圃为提高某品种花苗质量,开展技术创新活动,A ,B 在实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.(1)求图中a 的值,并求综合评分的中位数;(2)填写下面的2×2列联表,并根据小概率值α=0.01的独立性检验,分析优质花苗与培育方法是否有关,请说明理由.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)由直方图的性质可知,0.005×10+0.010×10+0.025×10+10a +0.020×10=1, 解得a =0.040,因为(0.02+0.04)×10=0.6>0.5,所以中位数位于[80,90)内, 设中位数为x ,则有0.020×10+0.040×(90-x )=0.5,解得x =82.5. 故综合评分的中位数为82.5. (2)由(1)得优质花苗的频率为0.6, 所以样本中优质花苗的数量为60, 得如下列联表:零假设为H 0:优质花苗与培育方法无关,χ2=100×(20×10-30×40)260×40×50×50≈16.667>6.635=x 0.01,所以根据小概率值α=0.01的独立性检验,推断H 0不成立,即认为优质花苗与培育方法有关.11.在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下2×2列联表(部分数据缺失):计算可知,根据小概率值α=________的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”()附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.A.0.001 B.0.05C.0.01 D.0.005答案 B解析完善2×2列联表如下:零假设为H 0:“给基因编辑小鼠注射该种疫苗不能起到预防该病毒感染的效果”.因为χ2=100×(10×30-40×20)230×70×50×50≈4.762,3.841<4.762<6.635,所以根据小概率值α=0.05的独立性检验,推断H 0不成立,即认为“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”. 12.(多选)有两个分类变量X ,Y ,其列联表如表所示.其中a ,15-a 均为大于5的整数,若依据α=0.05的独立性检验可以认为X 与Y 有关,则a 的可能取值为( ) A .6 B .7 C .8 D .9 答案 CD解析 根据a >5且15-a >5,a ∈Z ,知a 可取6,7,8,9.由表中数据及题意,得χ2=65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2≥3.841=x 0.05,结合选项,知a 的可能取值为8,9.13.(多选)在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表:(单位:人),则( )A.a c <6d B .χ2<2.706C .依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关D .依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关 答案 BD解析 由题中列联表数据,知⎩⎪⎨⎪⎧ a +6=e ,15+b =28,a +15=c ,6+b =d ,e +28=46,c +d =46,解得⎩⎪⎨⎪⎧a =12,b =13,e =18,c =27,d =19.所以得到如下列联表:所以a c =1227=49>619=6d ,即A 错误;零假设为H 0:在恶劣天气的飞行航程中,是否晕机与性别无关,由列联表中的数据,得χ2=46×(12×13-6×15)218×28×19×27≈0.775<2.706=x 0.1,依据小概率值α=0.1的独立性检验,没有充分证据推断H 0不成立,因此可以认为H 0成立,即在恶劣天气的飞行航程中,是否晕机与性别无关,所以B ,D 正确,C 错误. 14.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a 的最小值为________.(其中a ≥40且a ∈N *)(参考数据:6.635≈2.58,10.828≈3.29)附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .答案 46解析 由题意可得χ2=100[a (a -30)-(50-a )(80-a )]250×50×80×20≥6.635,整理得(100a -4 000)2≥502×42×6.635,所以100a -4 000≥200× 6.635≈200×2.58=516或100a -4 000≤-200× 6.635≈-200×2.58=-516,解得a ≥45.16或a ≤34.84, 又因为a ≥40且a ∈N *, 所以a ≥46, 所以a 的最小值为46.。
高三独立性检验知识点总结

高三独立性检验知识点总结高三是每个学生都将经历的重要时刻,而对于理科生来说,数学是其中最关键的一门学科。
而在数学中,统计学更是高中数学中的重要组成部分。
在统计学中,独立性检验是一个非常重要的概念和方法,它用于判断两个变量之间是否存在相关性。
本文将对高三独立性检验的相关知识点进行总结。
首先,我们需要了解什么是独立性检验。
独立性检验是用于检验两个变量之间是否存在相关性的一种统计方法。
在进行独立性检验时,我们通常有两个变量,一个为自变量,另一个为因变量。
我们的目标是通过样本数据来判断自变量与因变量之间是否存在相关性。
如果两个变量之间存在相关性,我们可以得出结论说它们之间不是独立的;如果两个变量之间没有相关性,我们可以得出结论说它们之间是独立的。
在独立性检验中,我们常用的方法是卡方检验。
卡方检验是一种常用的统计方法,用于判断两个变量之间是否存在相关性。
在进行卡方检验时,我们通常会建立一个观察值和期望值的对比表格。
观察值是通过实际的样本数据得出的,而期望值则是通过某种假设或模型推算出来的。
通过比较观察值和期望值的差异,我们可以判断两个变量之间是否存在相关性。
独立性检验的核心思想是通过计算观察值和期望值的差异,并根据差异的显著性来判断两个变量之间的关系是否存在。
在卡方检验中,我们通常要计算一个统计量,称为卡方值。
卡方值越大,说明观察值和期望值的差异越大,从而说明两个变量之间的相关性越强。
而卡方值的显著性则需要进行假设检验,通常使用显著性水平来进行判断。
如果卡方值小于显著性水平,则我们可以得出结论说两个变量之间不存在相关性;如果卡方值大于显著性水平,则我们可以得出结论说两个变量之间存在相关性。
在进行独立性检验时,我们还需要注意一些常见的误区和注意事项。
首先,样本容量要足够大。
只有样本容量足够大时,我们才能够得到可靠的统计推断。
其次,变量的取值要具有一定的多样性。
如果变量的取值过于集中,样本数据的信息就会不足,从而影响独立性检验的结果。
2015届高考数学一轮总复习 10-3相关关系、回归分析与独立性检验

2015届高考数学一轮总复习 10-3相关关系、回归分析与独立性检验基础巩固强化一、选择题1.(文)(2013·长春调研)已知x ,y 的取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A .1.30 B .1.45 C .1.65 D .1.80 [答案] B[解析] 依题意得,x -=16×(0+1+4+5+6+8)=4,y -=16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x -,y -),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B.(理)(2013·衡阳联考)已知x 与y 之间的一组数据:已求得y 关于x 的线性回归方程y =2.1x +0.85,则m 的值为( ) A .1B .0.85C .0.7D .0.5 [答案] D[解析] ∵x -=1.5,代入y ^=2.1x +0.85中得,y -=4, ∴14(m +3+5.5+7)=4,∴m =0.5. 2.(2012·东北三校模拟)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( )A .0.1%B .1%C .99%D .99.9%附:[答案] [解析] 由题意得,从给出的附表中可得P (χ2≥6.635)=0.010,又7.069∈(6.635,10.828),所以有99%的把握性认为学生性别与支持该活动有关系,故选C.3.(2012·新课标全国,3)在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C.12D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系. 4.(文)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元[答案] B[解析] 此题必须明确回归直线方程过定点(x ,y ).易求得x =3.5,y =42,则将(3.5,42)代入y ^=b ^x +a ^中得:42=9.4×3.5+a ^,即a ^=9.1,则y =9.4x +9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5万元.(理)(2013·辽宁六校联考)某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得回归直线方程y =b x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( )A .48个B .49个C .50个D .51个 [答案] B[解析] 由题意知x -=17.5,y -=39,代入回归直线方程得a ^=109,109-15×4=49,故选B. 5.(文)(2013·福州模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程为y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性相关系数r 和相关指数R 2都是描述线性相关强度的量,r 和R 2越大,相关强度越强. ④在一个2×2列联表中,计算得χ2=13.079,则有99%的把握确认这两个变量间有关系. 其中错误..的个数是( ) A .0 B .1 C .2D .3本题可以参考独立性检验临界值表:[答案] [解析] 方差反映的是波动大小的量,故①正确;②中由于-5<0,故应是负相关,当x 每增加1个单位时,y 平均减少5个单位,∴②错误;相关系数r 是描述线性相关强度的量,|r |越接近于1,相关性越强,在线性相关的两个变量的回归直线方程中,R 2是描述回归效果的量,R 2越大,模型的拟合效果越好,故③错误;④显然正确.(理)(2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg [答案] D[解析] D 项中身高为170cm 时,体重“约为”58.79,而不是“确定”,回归方程只能作出“估计”,而非确定“线性”关系.6.下面是一个2×2的列联表则表中a 、b A .44,54 B .52,46 C .54,46 D .52,54 [答案] B[解析] 由a +21=73得,a =52, 由54+b =100得,b =46,故选B. 二、填空题7.(2013·唐山统一考试)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50cm 时,肱骨长度的估计值为________cm.[答案] 56.19[解析] y ^=1.197×50-3.66=56.19(cm).8.(2013·广东梅州一模)在2012年8月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:y ^=-3.2x +40,且m +n =20,则其中的n =________.[答案] 10[解析] x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n 5,线性回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2(8+m 5)+40,即3.2m +n =42,又∵m +n =20,即⎩⎪⎨⎪⎧ 3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.9.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20min 从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量χ2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是________. [答案] ②③ 三、解答题10.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩:(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议.[解析] (1)x -=100+-12-17+17-8+8+127=100;y -=100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =17x i y i -7x -y-∑i =17x 2i -7x -2=497994≈0.5, a ^=y --b ^x -=100-0.5×100=50, ∴回归直线方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.能力拓展提升一、选择题11.(文)(2013·合肥检测)由数据(x 1,y 1),(x 2,y 2),…,(x 10,y 10)求得线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件[答案] B[解析] x 0,y 0为这10组数据的平均值,又因为回归直线y ^=b ^x +a ^必过样本中心点(x -,y -),因此(x 0,y 0)一定满足线性回归方程,但坐标满足线性回归方程的点不一定是(x -,y -).(理)(2013·福建)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′[答案] C[解析] 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×(72)2=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 12.(2013·河北模拟)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[答案] A[解析] 由相关系数的定义以及散点图所表达的含义,可知r 2<r 4<0<r 3<r 1,故选A. 二、填空题13.(2013·乌鲁木齐第一次诊断)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归直线方程y ^=0.67x +54.9.表中一个数据模糊不清,经推断,该数据的值为______. [答案] 68[解析] 设模糊不清部分的数据为m , x -=10+20+30+40+505=30,由y ^=0.67x +54.9过点(x -,y -)得,y -=0.67×30+54.9=75, 所以62+m +75+81+895=75,m =68.三、解答题14.(文)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b =∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a =y --b x -) [解析](1)散点图如右图.(2)由表中数据得∑i =14x i y i =52.5,x -=3.5,y -=3.5,∑i =14x 2i =54,∴b =0.7.∴a =1.05.∴y ^=0.7x +1.05.回归直线如图所示.(3)将x =10代入回归直线方程得,y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时.(理)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只实验动物进行血检,得到如下资料:记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s )内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠.参考公式:样本数据x 1,x 2,…,x n 的标准差: S =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x -为样本平均数. [解析] (1)y -=3.9,s ≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物.记从六只动物中选取两只为事件A .所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P (A )=615=25.(2)对于2、3、4、5号动物,x -=4.5,y -=3.925, 代入y ^=0.17x +a 得a =3.16.(3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s ≈0.31小,故(2)中回归方程可靠.15.(文)(2013·海口调研)某中学研究性学习小组,为了考查高中学生的作文水平与爱看课外书的关系,在本校高三年级随机调查了50名学生.调查结果表明:在爱看课外书的25人中有18人作文水平好,另7人作文水平一般;在不爱看课外书的25人中有6人作文水平好,另19人作文水平一般.(1)试根据以上数据完成以下2×2列联表,并运用独立性检验思想,指出有多大把握认为中学生的作文水平与爱看课外书有关系?高中学生的作文水平与爱看课外书的2×2列联表(2)名爱看课外书且作文水平一般的学生也分别编号为1、2、3、4、5,从这两组学生中各任选1人进行学习交流,求被选取的两名学生的编号之和为3的倍数或4的倍数的概率.附表:K 2(或χ2)=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解析] (1)2×2列联表如下:因为K 2(或χ2)=50×(18×19-6×7)25×25×24×26=15013≈11.538>10.828.由表知,P (K 2或χ2≥10.828)≈0.001.故有99.9%的把握认为中学生的作文水平与爱看课外书有关系.(2)设“被选取的两名学生的编号之和为3的倍数”为事件A ,“被选取的两名学生的编号之和为4的倍数”为事件B .因为事件A 所包含的基本事件为:(1,2),(1,5),(2,1),(2,4),(3,3),(4,2),(4,5),(5,1),(5,4),共9个,基本事件总数为5×5=25.所以P (A )=925.因为事件B 所包含的基本事件为:(1,3),(2,2),(3,1),(3,5),(4,4),(5,3),共6个. 所以P (B )=625.因为事件A 、B 互斥, 所以P (A ∪B )=P (A )+P (B )=925+625=35. 故被选取的两名学生的编号之和为3的倍数或4的倍数的概率是35.(理)(2013·福建泉州一模)甲、乙两台机床生产同一型号零件.记生产的零件的尺寸为t (cm),相关行业质检部门规定:若t ∈(2.9,3.1],则该零件为优等品;若t ∈(2.8,2.9]∪(3.1,3.2],则该零件为中等品;其余零件为次品.现分别从甲、乙机床生产的零件中各随机抽取50件,经质量检测得到下表数据:试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由.参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).参考数据:[解析]则有E (X )=3×0.8+1×0.14所以,甲机床生产一件零件的利润的数学期望为2.48元.(2)由表中数据可知:甲机床优等品40个,非优等品10个;乙机床优等品30个,非优等品20个.制作2×2列联表如下:计算K 2的观测值k =100(40×20-30×10)50×50×70×30=10021≈4.762.考察参考数据并注意到3.841<4.762<5.024,可知:对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”.考纲要求1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,了解回归分析的基本思想、方法及其简单应用.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 补充说明 1.散点图将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:①画散点图,②求回归直线方程,③用回归直线方程作预报.3.回归直线:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.4.相关指数R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,R 2越接近于1,模型的拟合效果越好.备选习题1.(2013·福建厦门质检)某雷达测速区规定:凡车速大于或等于80km/h 的汽车视为“超速”,并将受到处罚.如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有()A .20辆B .40辆C .60辆D .80辆 [答案] A[解析] 时速大于或等于80km/h 的汽车频率为0.01×10=0.1,故被处罚的汽车有0.1×200=20(辆),故选A.2.有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )附表:A.列联表中c B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” [答案] C[解析] 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.3.(2013·衡水中学六模)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机调查了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.点对‘楼市限购令’的态度有差异”;人中不赞成“楼市限购令”人数至多1人的概率.K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解析] (1)2×2列联表k=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635.所以没有99%的把握认为月收入以5500为分界点对“楼市限购令”的态度有差异.(2)从月收入在[15,25),[25,35)的被调查人中各随机选取1人,共有50种取法,其中恰有两人都不赞成“楼市限购令”共有2种取法,所以至多1人不赞成“楼市限购令”共有48种方法,所以P=4850=2425.。
统计.板块五.独立性检验.学生版

一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法: ⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法. ②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法. ⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设N k n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++- ,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样. ⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点: ⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样. ⑸简单随机抽样的每个个体入样的可能性均为n N.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取N k n=;若N n不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差; ②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组; ④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤: ①将数据分为“茎”、“叶”两部分; ②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++- .五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n = ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n n n n ,,,4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n = ,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -= ,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()nii i Q ya bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆnii i n ii xy nxybxnx==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有: ①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b,的计算公式为 1122211()()()()nnii ii i i nniii i xx y y xy n x y bxx xn x ====---==--∑∑∑∑ ,ˆˆay bx =-,其中11nii x x n==∑,11nii y y n ==∑由此得到的直线ˆˆya bx =+ 就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii iixx y y x yn x yr ---==∑∑6.相关系数r 的性质:⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222ii i i i i i iQ ya bx ya y nab x y ab x bx =--=-+-++∑∑∑∑∑∑22222()2i iii i ina a b x y b xb x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >, 因此当2()2i i i ib x y y b x a nn--=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2iiiix y a xb x-=∑∑∑时取最小值.解得:12221()()()nii ii i n iii xy nxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-,其中1iy y n=∑,1ix x n=∑是样本平均数.9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ; ④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明: ⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. ⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系. ⑶这里的r是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握典例分析性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动. ⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc Ka b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2m m ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2()K ()()()()n ad bc a b c d a c b d -=++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.智康高中数学.板块五.独立性检验.题库 11附:()()2211221221212120.050.013.841p k n n n n n n n n n kχχ++++- = 6.635≥,。
2015届高考数学二轮专题板块案例分析:统计.板块五.独立性检验 (北师大版)

板块五.独立性检验题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大 认为作业量不大 总计男生 189 27 女生 815 23 总计 2624 50 则学生的性别与作业量的大小有关系的把握大约为( ) A .99% B .95% C . 90% D .无充分根据【例8】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?喝过酒没喝过酒总计男生77 404 481女生16 122 138总计93 526 619【例9】在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服58 40 98注射64 31 95合计122 71 193【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32 101 133不得病61 213 274合计93 314 407根据以上数据,请问种子经过处理跟是否生病有关?。
专题一、独立性检验题型归纳

专题一、独立性检验题型一、独立事件的判断1、独立事件的定义:对于两个事件A 、B ,如果有P(AB)=P(A)P(B)就称事件A 与B 互相独 立,简称A 与B 独立.2、当事件A 与B 独立时,事件A 与B 、A 与B 、A 与B 也独立.【例1】从一副52X 扑克牌(不含大小王)中,任意抽一X 出来,设事件A :“抽到黑桃”, B:“抽到皇后Q ”,试用P(AB)=P(A)·P(B)验证事件A 与B 及A 与B 是否独立?【变式1】设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A不发生的概率相同,则事件A 发生的概率P(A)是( )A 、29B 、118C 、13D 、23【变式2】掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A 、A 与B 相互独立 B 、P(AB)=P(A)·P(B)C 、A 与B 不相互独立D 、P(AB)=14【变式3】坛子中放有3个白球,2个黑球,从中进行不放回地摸球,用A 表示第一次摸到 白球,B 表示第二次摸到白球,则A 与B 是( )A 、互斥事件B 、相互独立事件C 、对立事件D 、不相互独立事件【变式4】假设生男孩和生女孩是等可能的,设事件A 为“一个家庭中既有男孩,又有女孩”,事件B 为“一个家庭中最多有一个女孩”.某一家庭有三个小孩,则事 件A 与B 是否独立?【变式5】(1)甲、乙两名射手同时向一目标射击,设事件A :“甲击中目标”,事件B : “乙击中目标”,则事件A 与事件B ( )A 、相互独立但不互斥B 、互斥但不相互独立C 、相互独立且互斥D 、既不相互独立也不互斥(2)掷一颗骰子一次,设事件A :“出现偶数点”,事件B :“出现3点或6点”, 则事件A ,B 的关系是( )A 、互斥但不相互独立B 、相互独立但不互斥C 、互斥且相互独立D 、既不相互独立也不互斥题型二、独立性检验1、2×2列联表判断两个事件A 、B 是否有关,我们可以把A 发生、A 不发生(A )、B 发生、B 不发生(B )注意:(1)作独立性检验时,要求2×2列联表中的4个数据都要大于等于5。
高中数学独立性检验

结论的可靠 程度如何?
通过数据和图表分析,得到结论是: 吸烟与患呼吸道病有关
H0: 吸烟 和患呼吸道疾病没有关系
完整版课件ppt
12
3、计算 2
吸烟与患呼吸道疾病关系列联表
吸烟 不吸烟
总计
患病
n11 n21
n 1
不患病
n12
n 22
n2
吸烟的人中患病的比例:
不吸烟的人中患病的比例:
n 11 n 1
不吸烟
吸烟
完整版课件ppt
患病 比例
患患病肺癌 不不患患病肺癌
不患病 比例
7
初步结论:
问题1:吸烟与不吸烟,患病的可能性的大小是 否有差异?
吸烟者和不吸烟者患呼吸道疾病的可能性存在差 异,吸烟者患呼吸道疾病的可能性大
问题2:差异大到什么程度才能作出“吸烟与患病有 关”的判断?
问题3:能否用数量刻画出“有关”的程度?
250 200 150 100
50 0
不患患肺病癌 患患病肺癌
吸烟 不吸烟
三维柱 状图
不吸烟 吸烟
完整版课件ppt
5
2) 通过图形直观判断
350 300 250 200 150 100
50 0 不吸烟
吸烟
完整版课件ppt
二维条 形图
患肺病癌 不患患肺病癌
6
3)通过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
吸烟 37
183 220
不吸烟 21
274 295
总计 58
通过公式计算
457 515
2 n(n11n12n12n21)2
n1n2n1n2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法: ⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法. ②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法. ⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样. ⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点: ⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组; ④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤: ①将数据分为“茎”、“叶”两部分; ②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当23.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:状态B 状态B 合计 状态A 11n 12n 1n + 状态A21n 22n 2n +1n +2n +n如果有调查得来的四个数据11122122n n n n ,,,,并希望根据这样的4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆya bx =+,称为变量Y 对变量x 的回归直线方程,其中ab ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆy a bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式: 1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有: ①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynx yb xx xn x ====---==--∑∑∑∑,ˆˆay bx =-,其中11n i i x x n ==∑,11ni i y y n==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---=∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系; ②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ; ④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明: ⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. ⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系. ⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握典例分析性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大 认为作业量不大 总计男生 189 27 女生 815 23 总计 2624 50 则学生的性别与作业量的大小有关系的把握大约为( ) A .99% B .95% C . 90% D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?喝过酒 没喝过酒 总计男生77 404 481 女生16 122 138 总计93 526 619【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服58 40 98注射64 31 95合计122 71 193【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32 101 133不得病61 213 274合计93 314 407根据以上数据,请问种子经过处理跟是否生病有关?【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?有效无效合计复方江剪刀草184 61 245胆黄片91 9 100合计275 70 345【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动. ⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?物理优秀 化学优秀 总分优秀 数学优秀 228 225 267 数学非优秀14315699【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表: 甲厂:分组 [29.86,29.90)[29.90,29.94) [29.9429.98),[29.9830.02),[30.0230.06),[30.0630.10),[30.1030.14),频数12 63 86 182 92 614乙厂:分组 [29.86,29.90) [29.90,29.94) [29.9429.98), [29.9830.02), [30.0230.06), [30.0630.10), [30.1030.14),频数29 71 85 159 76 6218 ⑴试分别估计两个分厂生产的零件的优质品率; ⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:()()2211221221212120.050.013.841p kn n n n nn n n n kχχ++++- =6.635≥,11。