3.1独立性检验

合集下载

第3章 3.1 独立性检验

第3章 3.1 独立性检验

第3章 3.1 独立性检验3.1独立性检验1.了解独立性检验的概念,会判断独立性检验事件.2.能列出2×2列联表,会求χ2(卡方统计量的值).3.能够利用临界值,作出正确的判断.(重点)4.应用独立性检验分析实际问题.(难点)[基础·初探]教材整理12×2列联表的意义阅读教材P91~P94“例1”以上部分,完成下列问题一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据:Ⅱ类1类2合计Ⅰ类A a b a+b类B c d c+d合计a+c b+d a+b+c+d列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.下面是一个2×2列联表:y1y2合计x1 a 2173x282533合计 b 46则表中a,b【解析】∵a+21=73,∴a=52.又b=a+8=52+8=60.【答案】52,60教材整理2独立性检验阅读教材P93~P94“例1”以上部分完成下列各题.预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]绘制2×2列联表在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.【精彩点拨】分成两类,找出不同类情况下的两个数据再列表.【自主解答】作2×2列联表如下:喜欢甜食不喜欢甜食合计男117413530女492178670合计609591 1 200 12.表中排成两行两列的数据是调查得来的结果.3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.[再练一题]1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.【解】体育迷非体育迷合计男451560女 30 10 40 合计7525100利用χ2值进行独立性检验某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:阳性例数阴性例数合计 新防护服 5 70 75 旧防护服 10 18 28 合计1588103【精彩点拨】 通过有关数据的计算,作出相应的判断.【自主解答】 提出假设H 0:新防护服对预防皮肤炎没有明显效果. 根据列联表中的数据可求得 χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.根据2×2列联表,利用公式n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2的值,再与临界值比较,作出判断.[再练一题]2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?【解】 提出假设H 0:男性病人的秃顶与患心脏病没有关系. 根据题中所给数据得到如下2×2列联表:患心脏病 未患心脏病合计 秃顶214175389不秃顶 451 597 1 048 合计6657721 437根据列联表中的数据可以求得χ2=1 437×(214×597-175×451)2389×1 048×665×772≈16.373.因为当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.[探究共研型]独立性检验的综合应用探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗? 【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P (χ2≥6.635)≈0.01和P (χ2≥7.879)≈0.005,哪种说法是正确的?【提示】 两种说法均正确.P (χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P (χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?【精彩点拨】 解答本题可先列出2×2列联表,然后具体分析. 【自主解答】 (1)2×2列联表如下:合格品数 次品数 合计 甲在生产现场 982 8 990 甲不在生产现场493 17 510 合计1 475251 500程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.(2)由2×2列联表中数据,计算得到χ2的观测值为 χ2=1 500×(982×17-493×8)2990×510×1 475×25≈13.097>10.828,因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.判断两个变量是否有关的三种方法[再练一题]3.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2列联表补充完整;晚上 白天 合计 男婴 女婴 合计系?【解】 (1)晚上 白天 合计 男婴 24 31 55 女婴 8 26 34 合计325789(2)χ2=89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P (χ2≥2.706)≈0.10.因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.[构建·体系]1.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.【解析】由公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)中所有值变为原来的2倍,得(χ2)′=2n(2a·2d-2b·2c)2(2a+2b)(2c+2d)(2a+2c)(2b+2d)=2χ2,故χ2也变为原来的2倍.【答案】 22.下列说法正确的是________.(填序号)①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.【解析】对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.【答案】②3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有__________的把握认为选修文科与性别有关.【答案】95%4.在2×2列联表中,两个比值aa+b与________相差越大,两个分类变量有关系的可能性越大. 【导学号:29440066】【解析】根据2×2列联表可知,比值aa+b与cc+d相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.【答案】c c+d5.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020 合计7030100品的饮食习惯方面有差异”.【解】将2×2列联表中的数据代入公式计算,得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)280×20×70×30=10021≈4.762.因为 4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.我还有这些不足:(1)(2)我的课下提升方案:(1)(2)。

§3.1 独立性检验

§3.1  独立性检验

学案57 §3.1 独立性检验一 基本内容1、 2×2列联表:统计被调查者的两种状态,每种状态又分两种情况的调查结果表.(例如:对于性别变量,其取值为男和女两种),这种变量的不同值表示个体所属的不同类别,像这类变量称为分类变量.2、独立性检验为了研究事件X 与Y统计中有一个有用的(读做“卡方”)统计量,它的表达式是:))()()(()(2d b c a d c b a bc ad n K ++++-=,经过对统计量分布的研究,已经得到了两个临界值:3.841与6.635。

当根据具体的数据算出的k> 时,有95%的把握说事件A 与B 有关; 当k> 时,有99%的把握说事件A 与B 有关; 当k ≤ 时,认为事件A 与B 是无关的. 二、例题分析例1、把一颗质地均匀的骰子任意掷一次,设事件A :“掷出的点数小于4”,B :“掷出1点或6点”,试验证事件A 与B 及A 与B是否独立.例2 为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查如下:试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?三 、巩固练习1、为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算992=χ,根据这一数据,下列说法正确的是( )A 有99%的人认为该栏目优秀B 有99%的人认为栏目是否优秀与改革有关系C 有99%的把握认为栏目是否优秀与改革有关系D 以上说法都不正确 2、 在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是,A 、若635.62>χ,则我们有99%的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B 、由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关系时,我们可以说某人吸烟,那么他有99%的可能患有肺癌C 、从统计量中求出有95%的把握认为吸烟与患肺癌有关系,是指有5%的可能性使得判断出现错误D .以上三种说法都不正确3、在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如下表.问:该种血清能否起到预防感冒的作用?4、为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如下表. 根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?。

3.1独立性检验

3.1独立性检验
一:分类变量的概念: 变量的不同“值”表示个体所属的不同类别,像这样 的变量称为分类变量.
在日常生活中,我们常常关心两个分类变量之间是否 有关系:
在统计学中,独立性检验就是检验两个分类变量是否 有关系的一种统计方法。
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
总计 a+b c+d a+b+c+d
假设H0:吸烟和患病之间没有关系 用A表示不吸烟,B表示不患病
应有 ad bc.
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于
上述分析,我们构造一个随机变量
7817 2148 9874 91
怎样判断K2的观测值k是大还是小呢?

这仅需要确定一个正数 k0 ,当 k k大。此时相应于 k 0 的判断规则为:
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
在H0成立的情况下,统计学家估算出如下的概率: P(K 2 6.635) 0.01
即有99%的把握认为“秃顶患心脏病有关”。
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信没有发现
反对H0 的充分证据。

三段式学案3 :3.1独立性检验

三段式学案3 :3.1独立性检验

独立性检验【学习目标】通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题。

【学习过程】问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人) 吸烟与肺癌列联表 患肺癌 不患肺癌 总计 吸烟 49 2099 2148 不吸烟 42 7775 7817 总计9198749965那么吸烟是否对患肺癌有影响? 直观上来判断:在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______% 由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.但,这种“差异”有多大呢?能够有一个评判的标准呢?我们可以通过以下的统计分析回答这个问题。

独立性检验:1、把上表中数字用字母代替,得到如下用字母表示的列联表:吸烟与肺癌列联表 不患肺癌 患肺癌 总计 吸烟 a b a+b 不吸烟 c d c+d 总计 a+cb+da+b+c+d2、假设H :吸烟与患肺癌没有关系那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即: ______________________________________________________因此:bcad -越小说明吸烟与患肺癌之间的关系______.反之,则_____3、计算2K为了使不同样本变量的数据有统一的评测标准,构造一个随机变量2K =_________________________________________________________其中_______________=n 为样本容量. 从而,若H 成立,即“吸烟与患肺癌没有关系”,则2K 应该_______,反之,2K 应该___________。

上题2K =56.632.这个值到底能告诉我们什么?能从中得到什么结论? 4、查表P (K2>k0) 0.50 0.40 0.25 0.15 0.10 k0 0.4550.7081.3232.0722.706P (K2>k0) 0.05 0.025 0.010 0.005 0.001 k03.8415.0246.6357.87910.828上题中2K =56.632>10.828,所以001.0)828.10(2=>K P 该数据表明了在假设H 成立的情况下,2K 的值大于10.828的概率非常小,为0.001,是一个小概率事件。

3-1独立性检验

3-1独立性检验

是否有关? 解 根据题目所给的数据作出如下的列联表:
色盲 不色盲 合计
男 38 442
480
女 6 514
520
合计 44 956
1 000
根据列联表中所给的数据可得
n1514, n11+n12=480,n21+n22=520, n11+n21=44,n12+n22=956,n=1 000,
代入公式 χ2=nnn111+nn222+-n+n11n2n+2212, 得 χ2=1 00408×0×385×205×144-4×6×9546422≈27.139, 由于 χ2=27.139>6.635, 所以我们有 99%的把握认为性别与患色盲有关系.
例2.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的 情况如下表所示,根据此资料你是否认为在恶劣气候飞行中男 性比女性更任意晕机?
2.列联表
判断两个事件 A、B 是否有关,我们可以把 A 发生、A 不发生
( A )、B 发生、B 不发生( B )的数据列成以下表格
B
B
合计
A
n 11
n12
n 1+
A
n21
n22
n 2+
合计
n +1
n +2
n
这个表格称为 2×2 列联表.
如果 A,B 无关,那么n11与n1+·n+1应该很接近,n22与n2+·n+2应
2
n
n11n22 n12n21
2
n1n 2n1n2
P(χ2≥x0) 事件A 0.05 有95%的把握认 0.01
x0 与B无关 3.841 为A与B有关 6.635
99%的把握认为
A与B有关
例 1 在调查的 480 名男士中有 38 名患有色盲,520 名女士中

学案9:3.1 独立性检验

学案9:3.1 独立性检验

3.1独立性检验学习目标1.了解分类变量、2×2列联表、随机变量χ2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)基础·初探教材整理独立性检验1.卡方统计量χ2=n(n11n22-n12n21)2n1+n2+n+1n+2,用χ2的大小可以决定是否拒绝原来的统计假设H0.如果算出的χ2值,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了.2.两个临界值(1)当根据具体的数据算出的χ2>3.841时,有的把握说事件A与B有关;(2)当χ2>6.635时,有的把握说事件A与B有关,当χ2≤3.841时,认为事件A与B是______的.预习自测1.判断(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.( )(2)独立性检验的方法就是反证法.( )(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.( )2.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关3.若由一个2×2列联表中的数据计算得χ2=4.013,那么有__________的把握认为两个变量之间有关系.合作探究类型1 用2×2列联表分析两变量间的关系例1在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用n11n1+与n21n2+判断二者是否有关系.名师指导1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.2.作2×2列联表时,关键是对涉及的变量分清类别.跟踪训练1.上例中条件不变,尝试用|n11n22-n12n21|的大小判断饮食习惯与年龄是否有关.类型2 由χ2进行独立性检验例2某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则我们能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系?名师指导1.独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足n 11n 22-n 12n 21≈0,因此|n 11n 22-n 12n 21|越小,关系越弱;|n 11n 22-n 12n 21|越大,关系越强. 2.独立性检验的具体做法(1)根据实际问题的需要确定允许推断“事件A 与B 有关系”犯错误的概率的上界α,然后查表确定临界值k 0. (2)利用公式χ2=n (n 11n 22-n 12n 221)n 1+n 2+n +1n +2计算随机变量χ2.(3)如果χ2≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:根据以上数据判断 探究共研型探究点 独立性检验的综合应用探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P (χ2≥6.635)≈0.01和P (χ2≥7.879)≈0.005,哪种说法是正确的?例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.名师指导1.检验两个变量是否相互独立,主要依据是利用χ2=n(n11n22-n12n21)2n1+n2+n+1n+2公式计算χ2的值,再利用该值与3.841,6.635两个值进行比较作出判断.2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.跟踪训练3.若两个分类变量x和y的列联表为:则x与y之间有关系的概率约为课堂检测1.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”()A.χ2=2.700B.χ2=2.710C.χ2=3.765D.χ2=5.0142.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:经计算得χ2=110×(40×30-60×50×60×50≈7.8.则正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为两个变量有关系犯错误的概率不超过________.4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是________.5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人. (1)将下面的2×2列联表补充完整;(2)参考答案基础·初探教材整理 独立性检验 1.较大 2. (1) 95%(2)99% 无关 预习自测 1. (1)× (2)× (3)√2.【答案】 B 【解析】χ2=407×(32×213-61×101)293×314×133×274≈0.164<0.455,即没有充足的理由认为种子是否经过处理跟生病有关. 3.【答案】 95%【解析】 查阅χ2表知有95%的把握认为两个变量之间有关系. 合作探究类型1 用2×2列联表分析两变量间的关系 例1 解:饮食习惯与年龄2×2列联表如下:n 11n 1+=4364≈0.67, n 21n 2+=2760=0.45. 显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系. 跟踪训练1.解:将本例2×2列联表中的数据代入可得|n 11n 22-n 12n 21|=|43×33-21×27|=852. 相差较大,可在某种程度上认为饮食习惯与年龄有关系. 类型2 由χ2进行独立性检验例2 解:(1)根据已知数据列出数学与物理优秀的2×2列联表如下:∴b =360-228=代入公式可得χ2≈270.114.(2)按照上述方法列出数学与化学优秀的2×2列联表如下:代入公式可得χ2综上,由于χ2的观测值都大于10.828,因此说明都能在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学优秀有关系. 跟踪训练 2. 解:由公式得χ2=540(60×200-260×20)2320×220×80×460≈9.638.∵9.638>6.635,∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.探究共研型探究点 独立性检验的综合应用探究1 【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.探究2 【提示】 两种说法均正确.P (χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P (χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.例3 解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好. 跟踪训练 3.【答案】 0.99【解析】 χ2=(5+15+40+10)(5×10-40×15)2(5+15)(40+10)(5+40)(15+10)≈18.822. ∵18.822>6.635,∴x 与y 之间有关系的概率约为1-0.01=0.99. 课堂检测 1.【答案】 D【解析】 ∵5.014>3.841,故D 正确. 2.【答案】 C【解析】 根据独立性检验的思想方法,正确选项为C. 3.【答案】 0.01【解析】 如果χ2>6.635时,认为“两变量有关系”犯错误的概率不超过0.01. 4.【答案】 男正教授,女正教授,男副教授,女副教授【解析】 由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数. 5.解:(1)(2)由所给数据计算χ2 χ2=89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P (χ2≥2.706)≈0.10.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.。

课件3:3.1 独立性检验

课件3:3.1 独立性检验

试想会得出什么结论吧。我们说有95%(或99%)的 把握说事件A与事件B有关,是指推断犯错误的可能性 为5%(或1%),这也是常常说成是“有95%(或 99%)的概率”,其含义是一样的。
解:由公式
2 339 (4312116213)2 7.469
205134 56 283
因为7.469>6.635,所以我们有99%的把握说:50岁以
推断“Ⅰ和Ⅱ有关系”的步骤为: 第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,比对两个临界值,作出判断.
例2: 对196个接受心脏搭桥手术的病人和196个接受血 管清障手术的病人进行3年跟踪研究,调查他们是否又 发作过心脏病,调查结果如下表所示:
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
(1)假设:患病与吸烟没有关系.
若将表中“观测值”用字母表示,则得下列2×2列联 表:
吸烟A
不吸烟 A
合计
患病(B)
n11 n21 n+1
未患病
BA
(B)
n12 n22 n+2
合计
n1+ n2+ n
近似的判断方法:
设n=n11+n21+n12+n22,如果H0成立,则在吸烟的人中 患病的比例与不吸烟的人中患病的比例应差不多,由

3.1独立性检验

3.1独立性检验

§3.1独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.自主预习知识点一分类变量及2×2列联表(1)分类变量变量的不同“值”表示个体所属的,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的,称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{}和{},其样本频数列联表(也称为2×2列联表)为下表.y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d知识点二等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否,常用等高条形图展示列联表数据的特征.2.如果通过直接计算或等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间.知识点三独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定.(2)利用公式计算随机变量K2的.(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”.判断正误1.列联表中的数据是两个分类变量的频数.()2.事件A与B的独立性检验无关,即两个事件互不影响.()3.K2的大小是判断事件A与B是否相关的统计量.()题型探究类型一等高条形图的应用例1为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?跟踪训练1某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.类型二独立性检验例2某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.跟踪训练2为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球合计男生6女生10合计48已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;当堂检测1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数B.方差C.回归分析D.独立性检验2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是()4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是()A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.总成绩好总成绩不好总计数学成绩好20 a 25数学成绩不好101525总计 b c 50(1)计算a,b,c的值;(2)在犯错误的概率不超过0.005的前提下,文科学生总成绩不好与数学成绩不好有关系吗?课后作业课本P97练习栏习题 3.2第1,2题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1假设检验
高二数学 选修2-3
2013-7-31 郑平正 制作
第三章
统计案例
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
用A表示不吸烟,
用B表示不患肺癌,
则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,
即假设H0等价于 P(AB)=P(A)P(B).
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
a a+b a+c ≈ × 其中n = a + b + c + d为样本容量,即 n n n
2
P(χ≥x0) 0.50 0.40 0.25 0.15
0.10
0.05 0.025 0.010 0.005 0.001
x0
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
为考察高中生的性别与是否喜欢数学课程之间的关系,在某城 市的某校高中生中随机抽取300名学生,得到如下联表: 联表 性别与喜欢数学课程列联表 喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计 72 228 300 由表中数据计算K2 的观测值k 4.513.在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么?
使用血清 未使用血清
合计
258 216
474
242 284
526
2
500 500
1000
解:设H0:感冒与使用该血清没有关系。
1000258 284 242 216 2 7.075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
19358 31 64 40 1.3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 k 0;
(2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值;
(3)如果 k k0 ,就以 (1 P( K k0 )) 100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶;而另外772名不是因为患心脏病而住院 的男性病人中有175人秃顶。分别利用图形和独立性 检验方法判断秃顶与患心脏病是否有关系?你所得的 结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计 秃顶 214 175 389 不秃顶 451 597 1048 总计 665 772 1437 根据列联表中的数据,得到: 1437 (214 597 175 451)2 2 K 16.373 6.635. 389 1048 665 772
临界值表
P(K 2 k0 ) 0.50
0.40 0.708
其中n a b c d 为样本容量。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
k0
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
2013-7-31 郑平正 制作
• 某医疗机构为了了解患肺癌与吸烟是 否有关,进行了一次抽样调查,共调查了 9965个成年人,其中吸烟者2148人,不吸烟 者7817 人,调查结果是:吸烟的2148 人 中49人患肺癌, 2099人不患肺癌;不吸 烟的7817人中42人患肺癌, 7775人不患 肺癌。
0.455
K 2 10.828
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关 90%把握认为A与B有关
K 2 6.635
K 2.706
2
10%把握认为A与B无关
K 2 2.706
2013-7-31
没有充分的依据显示A与B有关,但也不能显示A与B无关
判断“吸烟与患肺癌没有关系”出错的概率为0.01。
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0 :Ⅰ和Ⅱ没有关系;
K 2的值; (2)根据2× 2列表与公式计算
(3)查对临界值,作出判断。
由于抽样的随机性,由样本得到的推断 2 有可能正确,也有可能错误。利用 K 进 行独立性检验,可以对推断的正确性的概 率作出估计,样本量n越大,估计越准确。
二维条 形图
通过图形直观判断 患肺癌 比例
患肺癌 不患肺癌
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
不患肺癌 比例
通过数据和图表分析,容易直观 得到结论是:吸烟与患肺癌有关
结论的可靠 程度如何?
这需要用统计概率观点来考察这个问题。
现在想要知道能够以多大的把握认为 “吸烟与患肺癌有关”,为此先假设: H0:吸烟与患肺癌没有关系.
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事 件A和B发生的频数。由于频率接近于概率,所以在H0成立的条 件下应该有 P(A) a + b , P(B) a + c , P(AB) a . n n n
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
例2:为研究不同的给药方式(口服与注射)和药的效 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 果(有效与无效)是否有关,进行了相应的抽样调查, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 调查的结果列在表中,根据所选择的193个病人的数 据,能否作出药的效果和给药方式有关的结论? 口服 注射 合计 有效 58 64 122 无效 40 31 71

根据这些数据能否断定:患肺癌与 吸烟有关?
探究
列联表分析(单位:人)
吸烟与肺癌列联表
不患肺癌 患肺癌
列联表
总计
不吸烟
吸烟 总计
7775
2099 9874
42
49 91
7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
通过图形直观判断
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
9965(7775 49 42 2099) k 56.632 7817 2148 9874 91
2
2013-7-31 郑平正 制作 那么这个值到底能告诉我们什么呢?
(2)
独立性检验
n(ad bc) 2 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )

P(χ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
而我们所得到的K2 的观测值k 4.513超过3.841,这就意味着 “性别与是否喜欢数学课程之间有关系”这一结论错误的可能 性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程 之间有关系”.
例3:气管炎是一种常见的呼吸道疾病,医药研究人 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 员对两种中草药治疗慢性气管炎的疗效进行对比, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 所得数据如表所示,问:它们的疗效有无差异?2013-7-31Fra bibliotek独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
n(ad bc) K , (1) (a b)(c d )(a c)(b d )
2 2
其中n a b c d 为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
2
合计 245 100 345
相关文档
最新文档