列联表检验
新高考数学复习考点知识讲解11---列联表与独立性检验

新高考数学复习考点知识讲解列联表与独立性检验1、简单随机抽样得到了X 和Y 的抽样数据列联表2、基于小概率值α的检验规则是:当αχx ≥2时,我们就推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α当αχx <2时,我们没有充分证据推断0H 不成立,可以认为X 和Y 独立这种利用2χ的取值推断分类变量X 和Y 是否独立的方法称为2χ独立性检验,读作“卡方独立性检验”,简称独立性检验3、应用独立性检验解决实际问题大致应包括以下几个主要环节: (1)提出零假设0H :X 和Y 相互独立,并给出在问题中的解释; (2)根据抽样数据整理出2×2列联表,计算2χ的值,并与临界值αx 比较 (3)根据检验规则得出推断结论(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律题型一 变量关系例 1 为了判断两个分类变量X 、Y 是否有关系,应用独立性检验的方法算得2K 的观测值为5,则下列说法中正确的是( ) A .有95%的把握认为“X 和Y 有关系” B .有95%的把握认为“X 和Y 没有关系” C .有99%的把握认为“X 和Y 有关系” D .有99%的把握认为“X 和Y 没有关系” 【答案】A 【分析】利用2K 的观测值与临界值进行比较得解. 【详解】因为2( 3.841)0.050P K =≥,5 3.841>,所以有95%的把握认为“X 和Y 有关系”. 故选:A若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.知识典例巩固练习()20P K k ≥ 0.500.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%【答案】A 【分析】由2 3.841K >可对照临界值表得到结果. 【详解】2 4.013 3.841K =>,∴有()10.05100%95%-⨯=的把握认为两个变量有关系. 故选:A.题型二 列联表例 2 如表是一个2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计x 1 a21 73x 2 22 25 47合计 b 46 120A .94,72B .52,50C .52,74D .74,52【答案】C 【分析】根据表中数据简单计算即可. 【详解】a =73-21=52,b =a +22=52+22=74. 故选:C.下面是一个22⨯列联表:1y 2y总计 1x35 a 70 2x15 1530 总计 50b100其中,a b 处填的值分别为_______. 【答案】35,50. 【分析】由列联表易得结果. 【详解】由3570a +=,得35a =,15a b +=,得50b =.巩固练习故答案为:35,50.题型三 独立性检验应用例 3 2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类智慧的胜利,也有许多人持反对意见,有网友为此在某大学进行了调查,参加调查的共80位学生,调查数据的22⨯列联表如下所示: 持反对意见 赟同 总计男40 女 5总计2580(1)①请将列联表补充完整;②请根据表中数据判断,能否有的99.9%把握认为是否持反对意见与性别有关; (2)若表中持反对意见的5个女学生中,3个是大三学生,2个是大四学生.现从这5个学生中随机选2个学生进行进一步调查,求这2个学生是同一年级的概率.附参考公式及数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.40 0.25 0.10 0.010 0.005 0.001 0k7.879 1.3232.7066.6357.87910.828【答案】(1)①列联表见解析,②有99.9%的把握认为是否持反对意见与性别有关;(2)25.【分析】()1①由已知数据得出列联表;②由题可知,计算2K 的观测值013.09110.828k ≈>,可得出结论;()2记3个大三学生分别为,123,,,2A A A 个大四学生分别为12,B B 、运用列举法列出所有事件,由古典概率公式可得答案. 【详解】()1①②由题可知,2K 的观测值2080203552013.09110.828404055(25)k ⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为是否持反对意见与性别有关.()2记3个大三学生分别为,123,,,2A A A 个大四学生分别为12,B B 、则从中抽取2个的基本事件有:1213231213112223212,,,,,,,,,A A A A A A AB A B A B A B A B A B B B ,共10个,其中抽取的2人是同一年级的基本事件有12132312,,,A A A A A A B B 共4个, 则这2个学生是同一年级的概率为42105P ==.这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存,或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值.在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期,因此我们应该注意做好良好的防护措施和隔离措施.某研究团队统计了某地区10000名患者的相关信息,得到如表表格: 潜伏期(天)(]0,2(]2,4(]4,6(]6,8(]8,10 (]10,12 (]12,14人数6001900300025001600250150(1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从10000名患者中抽取200人进行研究,完成下面的2×2列联表,并判断能否在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关?潜伏期8≤天潜伏期8>天总计 60岁以上(含60岁)150 60岁以下 30 总计200(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立.为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有巩固练习可能是多少?附:()()()()()22n ad bcKa b c d a c b d-=++++.【答案】(1)表格见解析,能;(2)16名.【分析】(1)由表中数据可知,求得潜伏期大于8天的人数,列出2×2列联表,利用公式求得2K的值,结合附表,即可得到结论;(2)求得该地区10000名患者中潜伏期不超过8天的人数,求得潜伏期不超过8天的概率,进而抽取的20名患者中潜伏期不超过8天的人数.【详解】(1)由表中数据可知,潜伏期大于8天的人数为16002501502004010000++⨯=人,补充完整的2×2列联表如下,所以()2220013*********.66710.8281505016040K ⨯⨯-⨯=≈>⨯⨯⨯, 故能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关.(2)该地区10000名患者中潜伏期不超过8天的人数为6001900300025008000+++=名,将频率视为概率,潜伏期不超过8天的概率为80004100005=, 所以抽取的20名患者中潜伏期不超过8天的人数最有可能是420165⨯=名.1、为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得x 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )A .0.1%B .1%C .99%D .99.9%【答案】C 【分析】由x 2=7.01>6.635,对照临界值表求解即可.巩固提升【详解】易知x2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.故选:C2、某班主任对全班50名学生进行了作业量的评价调查,所得数据如表所示:则认为作业量的大小与学生的性别有关的犯错误的概率不超过()A.0.01 B.0.05C.0.10 D.无充分证据【答案】B【分析】计算2K,再进行判断.【详解】因为2250(181598)5.059 3.84127232624K⨯⨯-⨯=≈>⨯⨯⨯,又()2 3.8410.05P K≥=所以认为作业量的大小与学生的性别有关的犯错误的概率不超过0.05. 故选:B3、(多选)有关独立性检验的四个命题,其中正确的是()A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大B.对分类变量X与Y的随机变量2K的观测值k来说,k越小,“X与Y有关系”的可信程度越小C.从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病D.从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关【答案】ABD【分析】根据独立性检验的原理与知识,对选项中的命题判断正误即可.【详解】选项A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,则2K观测值越大,两个变量有关系的可能性越大,所以选项A正确;选项B,根据2K的观测值k越小,原假设“X与Y没关系”成立的可能性越大,则“X与Y有关系”的可信度越小,所以选项B正确;选项C,从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不表示某人秃顶他有95%的可能患有心脏病,所以选项C不正确;选项D,从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,是独立性检验的解释,所以选项D正确.故选:ABD.4、为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (x 2≥3.841)≈0.05,P (x 2≥6.635)≈0.01.根据表中数据,得到x 2=250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844,则认为选修文科与性别有关系出错的概率约为________.【答案】0.05 【分析】直接根据表中数据计算的x 2值与P (x 2≥3.841)≈0.05比较判断,即得结果. 【详解】因为x 2≈4.844>3.841,而P (x 2≥3.841)≈0.05,故认为选修文科与性别有关系出错的概率约为0.05. 故答案为:0.05.5、调查者通过询问72名男、女大学生在购买食品时是否看营养说明得到的数据如下表所示:大学生的性别和是否看营养说明之间___(填“有”或“没有”)关系.【答案】有【分析】由表中的数据直接计算卡方,从而可得结论【详解】解:因为22722820168)=8.4167.879 44283636χ⨯⨯-⨯≈>⨯⨯⨯(,所以有的把握认为大学生性别与购买食品时是否看营养说明之间有关,故答案为:有6、某高校《统计》课程的教师随机调查了选该课的一些学生情况,具体数据如下表: 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到k=2 50(1320-107) 23272030⨯⨯⨯⨯⨯⨯=4.844>3.841,所以有_____的把握判定主修统计专业与性别有关系.附:【答案】95%【分析】根据独立性检验的基本思想,因为2K的观测值k=4.844>3.841,参考临界值表即可得出【详解】根据表格数据得2K的观测值k=250(1320-107)23272030⨯⨯⨯⨯⨯⨯≈4.844 3.841>,所以有95%的把握判定主修统计专业与性别有关系.故答案为:95%.7、某学生对其30名亲属的饮食习惯进行了一次调查,依据统计所得数据可得到如下的22⨯列联表:根据以上列联表中的数据,可得2K 的观测值k =__________,__________(填“有”或“没有”)99%的把握认为其亲属的饮食习惯与年龄有关.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【答案】10 有 【分析】根据列联表,求得a b c d ,,,的值,利用公式,求得2K 的值,结合附表,即可得到结论. 【详解】由列联表可得20a =,10b =,12c =,4d =,可得2230(8128)10 6.63512182010K ⨯-==>⨯⨯⨯, 所以有99%的把握认为其亲属的饮食习惯与年龄有关. 故答案为:10;有.8、2017年3月27日,一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.游泳作为一项重要的求生技能和运动项目受到很多人的喜爱.其实,已有不少高校将游泳列为必修内容.某中学为了解2018届高三学生的性别和喜爱游泳是否有关,对100名高三学生进行了问卷调查,得到如下列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表补充完整;(2)判断是否有99.9%的把握认为喜欢游泳与性别有关.附:x2=2()()()()()n ad bca b c d a c b d-++++【答案】(1)表格见解析;(2)有. 【分析】(1)根据概率补全列联表即可;(2)计算2x,再进行判断即可.【详解】(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为3 5所以喜欢游泳的学生人数为3 100605⨯=.其中女生有20人,男生有40人,列联表补充如下:(2)因为22100(40302010)16.6710.82860405050x⨯⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为喜欢游泳与性别有关.9、某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是12 25.(1)求a,b,c,d的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【答案】(1)6a =,19b =,24c =,26d =;(2)有. 【分析】(1)由抽到积极参加班级工作的学生的概率是1225,可求出c 的值,然后根据表中的数据可求出,,a b d 的值;(2)直接利用22()()()()()n ad bc K a b c d a c b d -=++++公式求解,然后根临界值表判断即可【详解】解:(1)积极参加班级工作的学生有c 人,总人数为50, 由抽到积极参加班级工作的学生的概率1125025c P ==, 解得24c =,所以6a =.所以2525619b a =-=-=,50502426d c =-=-=.(2)由列联表知,2250(181967)11.53825252426K ⨯⨯-⨯=≈⨯⨯⨯, 由11.53810.828>,可得有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系.。
医学统计学列联表检验

解读结果
分析结果
根据计算出的统计量及其他相关信息, 对结果进行分析。
VS
解释结果
解释分析结果,得出结论,并提出建议或 展望。
03
列联表检验的注意事项
数据的完整性
完整性
在进行列联表检验之前,需要确保数据集中的每个变量都有完整的观测值,避免出现缺 失数据或遗漏的情况。
处理缺失数据
如果存在缺失数据,可以采用插补、删除或其它适当的处理方法来处理,但应谨慎处理, 避免引入偏差或误导。
03 检验效能受到数据分布的影响:数据分布情况也 会影响检验效能,例如在极端分布情况下。
06
列联表检验的发展趋势与展 望
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量庞大、 维度高、复杂度增加,传统的列联表 检验方法面临处理能力和分析准确性 的挑战。
机遇
大数据提供了丰富的数据资源,为列 联表检验提供了更广泛的应用场景和 更深入的探索空间,有助于发现更多 隐藏在数据中的关联和规律。
05
列联表检验的局限性
数据来源的局限性
样本量不足
在某些情况下,由于样本量较小,列联表检验可能无 法得出可靠的结论。
数据质量不高
数据可能存在误差、遗漏或异常值,影响检验结果的 准确性。
数据采集方法不科学
数据采集方法可能存在偏差,导致数据不具有代表性 或存在偏倚。
分类变量的主观性
分类界限不明确
某些分类变量的界限可能模糊不清,导致分 类出现偏差。
02
Fisher's exact test
适用于小样本或低频数据,通过 计算概率来评估变量之间的关系。
03
似然比检验
用于比较两个分类变量的关联强 度,通过比较不同模型拟合优度 来评估变量之间的关系。
列联表资料的X2检验

(五)、交叉分类2*2表的关联分析
1、 X2检验 2、列联系数r
(六)、2*2配对资料的关联性分析
1、 X2检验 注意与配对资料的四格表X2 检验(McNemar检验)不一样,是四格表 资料X2检验基本的公式
2、列联系数r
(七总体率(或构成比)
之间有无差别;两种属性的关联性(计
数资料的相关性分析)
• 4、方法:
⑴、专用公式。每一格的T值均>5且n>40;
P104,式(7-1);P105,式(7-4)
⑵、校正公式。有一格的T值<5且n>40;
P106,式(7-5);P106,式(7-6) ⑶、确切概率法。T<1或n<40时不计算X2值
(一)列联表资料的X2检验
列联表是按两种属性分类的一种频 数数据表。(表内数据为实际频数) 分类:交叉分类表
多组分类表
• 交叉分类:是以一个总体抽样后,按两种属性搭配 的类确定其个体数目而得。它需检验的是两种属性 是否独立(即计数资料的相关性或关联性)
• 多组分类:从多个总体(可视为属性X)分别抽样 后,按另一类属性Y的类确定其个体数目而得。它 需检验的是各总体按同一属性Y的类的分布概率是 否相同。
1、 X2检验 2、列联系数r
(八) 多个样本率比较的X2分割法
1、用途:当多个样本率比较的行*列表X2检验, 推论结论为拒绝,接受时,只能认为各总体之 间总的来说有差别,需要对每两个总体率之间 有无差别作出判断。其分析方法之一就是X2分 割法。
2、基本思想:
将2*k表(X2)分割成多个独立的四格表(X2) (其原理是X2分布 的可加性),并进行两两比 较。要求必须重新规定检验水准,其目的是为 保证检验假设中的第一类错误α 的概率不变
R语言--列联表检验和相关性检验

P198,使用该函数计算 Pearson拟合优度χ2检验
5.5 列联表检验
例5.26 在一次社会调查中,以问卷方式共调查了901人的月收入及对工作的满意程度,其中有收入A分为:小于 3000元、3000~7500元、7500~12000元及超过12000元4档。对工作的满意程度B分为:很不满意、较不满意、基本 满意和很满意4档。调查表用4x4列联表表示,如表5.10所示。试分析工资收入与对工作的满意度是否有关。
假设检验简介
3. 基本思想:反证法思想
为了检验一个“假设”是否成立,就先假定这个“假设”是成立的, 而看由此会产生的效果。如果导致一个不合理现象出现,就表明原先 的“假设”不成立,就拒绝这个“假设”;如果由此没有导致不合理 现象的发生,则不能拒绝原“假设”。
该方法又区别于纯数学中的反证法。这里所谓的“不合理”,并不是形式逻辑 中的绝对矛盾,而是基于人们实践中广泛采用的一个原则:小概率事件在一次 观察中可以认为基本上不会发生。
原假设/零假设(记为H0):作为检验的对象的假设。 备择假设(记为H1):与原假设对立的假设。
参数性假设检验:总体分布已知,通过样本检验 2. 方法
关于未知参数的某个检验。
用t.test()函数作 t 检验 用var.test()函数作 F 检验 用prop.text()函数作二项分布的近似检验
非参数性假设检验:总体分布未知时的检验问题。
H0:ρXY=0,H0:ρXY≠0
5.6 相关性检验
例5.32 对于20个随机选取的黄麻个体植株,记录青植株重量Y与它们的干植株重量X。设 二元总体(X,Y)服从二维正态分布,其观测数据如表5.17所示。试分析青植株重量与干植 株重量是否有相关性。
列联表与独立性检验 课件

n
n
反之,当这些量的取值较大时,就可以推断 H0 不成立.
显然,分别考虑③中的四个差的绝对值很困难. 我们需要找到一个既 合理又能够计算分布的统计量,来推断 H0 是否成立. 这里,我们将四个 差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
2
a
(a
b) (a n
c)
2
(a b)(a c)
下表给出了独立性检验中5个常用的小概率值和相应的临界值.
α
0.1 0.05 0.01 0.005 0.001
xα
2.706 3.841 6.635 7.879 10.828
例如,对于小概率值 α 0.05 3.841 时,我们认为 X 和 Y 不独立,该推断犯错误的 概率不超过0.05;
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以 通过一个与 H0 相矛盾的小概率事件来实现. 在假定 H0 的条件下,对于有 放回简单随机抽样,当样本容量 n 充分大时,统计学家得到了 2 的近似 分布.
忽略 2 的实际分布与该近似分布的误差后,对于任何小概率值 α,可
以找到相应的正实数 xα,使得下面关系成立:
率分别为 33 0.7674 和 10 0.2326 ;乙校学生中数学成绩不优秀和数学
43
43
成绩优秀的频率分别为 38 0.8444 和 7 0.1556 .依据频率稳定于概率
45
45
的原理,我们可以推断,如果从甲校和乙校各随机选取一名学生,那么甲
校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此可以
(2)当 2 x 0.05 3.841 时,我们认为 X 和 Y 独立.
认为两校学生的数学成绩优秀率存在差异.
列联表的独立性检验

拒绝域形式Q2 c.
因为ˆi
ni n
,ˆ j
n j n
.
r
Q2
s
nij
nin j n
2
r
s
2
nnij nin j
i1 j1
nin j
i1 j1
nnin j
如果H0成立,Qn2渐近服从自由度为(r -1() s -1)
的 2分布.
例1 随机抽取某校男生35名,女生31,进行
体育达标考核,结果如下表 问体育达标水平是
2.5 列联表的独立检验
一、二维r 列s联表
设A, B为两个定性变量,A有r个不同水平(A1,A2 , Ar ),
B有s个不同水平(B1,B2 , Bs ).观测n次, 各水平组合(Ai ,Bj )
出现频数为nij. 列表如下: 二维 r s 列联表
s
令:ni nij j 1
A
B B1,
B2 ,
著的差异.
即有 n11 n21
n1 n2+
如果p1 p2, 表示有属性A的个体中有属性B的比例高
即
n11 n1
n21 n2+
如果p1 p2,表示有属性A的个体中有属性B的比例低
即
n11 n21
n1 n2+
四表格的检验问题, 即属性A和B的独立性检验问题有
(1) H0 : p1=p2, H1 : p1 p2 (2) H0 : p1=p2, H1 : p1 p2 (3) H0 : p1=p2, H1 : p1 p2
X-squared = 0.0057, df = 1, p-value = 0.9397 因此在0.05显著性水平下,接受原假设.
列联表与独立性检验-高考数学复习

目录
高中总复习·数学
5. (2024·南通模拟)已知变量 X , Y ,由它们的样本数据计算得到
χ2≈4.328,χ2的部分临界值表如下:
α
0.10
0.05
0.025
0.010
0.005
xα
2.706
3.841
5.024
6.635
7.879
则最大有
95% 的把握说变量 X , Y 有关系(填百分数).
工作,会务组选聘了50名记者担任对外翻译工作,下表为“性别与
会俄语”的2×2列联表,则 a - b + d =
性别
28 .
是否会俄语
会俄语
不会俄语
男
a
b
女
6
d
合计
18
合计
20
50
目录
高中总复习·数学
解析:由2×2列联表得 a +6=18,所以 a =12,因为 a + b =20,所
以 b =8,因为6+ d =30,所以 d =24,所以 a - b + d =12-8+24
饮用水
是否得病
合计
得病
不得病
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
目录
高中总复习·数学
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由;
解:零假设为 H 0:这种传染病与饮用水的卫生程度无关.
2
830×
(
52×218−466×94
)
12 =
≈54.21>10.828= x 0.001,
列联表和卡方检验的定义及应用

列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。
列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。
本文将介绍列联表和卡方检验的定义、原理和应用。
一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。
它通常由两个或多个分类变量和个体数(或频数)组成。
例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。
1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。
它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。
列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。
二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。
它基于一个假设:假设两个变量之间不存在显著的关联性。
如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。
2.2 卡方检验的原理卡方检验的原理很简单。
它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。
卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。
2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。
第一,建立研究假设。
我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。
如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。
第二,计算卡方值。
我们需要计算出卡方值。
从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。
将这些差异加起来,并用期望值的总和除以卡方值。
如果卡方值越大,则差异越大,两个变量之间的关系也越显著。
通常,我们需要将卡方值与指定的显著性水平进行比较。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不吸烟者的患癌率 9.7% 吸烟者的患癌率 21.0%
健康
Total
分析:给出了2×2列联表,其中表中给出了实际观测值和理论值。
C h i -S q u a r e Te s t s Value 7.469b 6.674 7.925 df Asymp. Sig. (2-sided) .006 .010 .005 Exact Sig. (2-sided) Exact Sig. (1-sided)
结果输出和讨论:
C a s e P r o c e s s in g S u m m ar y Valid N Percent 339 100.0% Cases Missing N Percent 0 .0% Total N Percent 339 100.0%
结果 * 吸烟情况
分析:处理记录缺失值情况报告,可见所有数据均是有效值。
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
N (| O11O22 O12 O21 | 0.5 N ) 2 O1O2O1O2
df=1
(3) N<40或理论频数小于1,不能使用卡方检验,应使用Fisher精确 检验, 称为四格表确切概率法。
列联表的原假设是两个变量X和Y相互独立,计算卡方统 计量,当此统计量很大时否定原假设。
疗法
(3)列联表分析
菜单 “Analyze”|“Descriptive Statistics”|“Crosstabs ”命令
将“结果[result]” 点入“Row(s)” 框,将“吸烟情 况[smoke]”点 入“Cloumn(s)” 框。
点击“Statistics” 钮。
【Statistics钮】 用于定义所需计 算的统计量。
R ,C
2 Oij
2102 262 2 1 1.921 0.05 (3) 7.815 499 340 499 46
df=(2-1)(4-1)=3,单侧概率P>0.05,
不能以α=0.05水准的单侧检验拒绝H0,
总体率的差异无统计意义,不能认为患鼻咽癌与血型不独立。
Nominal by Nominal Contingency Coefficient N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
C h i -S q u a r e Te s t s Value 7.469b 6.674 7.925 df Asymp. Sig. (2-sided) .006 .010 .005 Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square 1 Continuity Correctiona 1 Likelihood Ratio 1 Fisher's Exact Test .007 .004 N of Valid Cases 339 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.14.
2 2 若 (df ) 拒绝 H 0
注意:上述 检验适用于双向无序的 表(df≠1) 分组标志无数量大小和先后顺序之分。 分析的目的是考察两个属性之间是否独立。
疗效 好转 显效
26 388 15 25
疗法 中 医
痊愈
68 737
无效
3 5
合计
112 1155
西 医
注:1.双向无序列联表计算卡方统计量常用单侧检验。 2.若R×C列联表中理论频数出现小于1,或理论频数 出现小于5的格数超过总格数1/5时,必须增大样本例数; 或把理论频数太小的行,列与性质相近的邻行,列合并;
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 96 未愈
合计
78 126 204
“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40
2 2 N ( O O O O ) 204(32 50 46 76) 2 11 22 12 21 7.1969 O1O2O1O2 78 126 108 96
分析:由于最小理论值为22.14,N=339>40,所以选用普通的卡方 检验。
2 7.469, P 0.006 0.05
所以有理由拒绝吸烟与患病是独立的原假设,即认为 吸烟与患支气管炎是有关的。
S y m m et r i c M e as u r e s Value .147 339 Approx. Sig. .006
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
Eij Oi. O. j N
2 R ,C O ij 2 N 1 i , j 1 Oi O j
df ( R 1)(C 1)
保存为:“吸烟与慢性支气管炎的关系.sav”
(2).个案加权
在SPSS系统中,列联表的输入多采用频数表格的方式, 如果要对此类数据进行卡方分析等,必须采用个案加权 (weight by cases)进行数据处理后才能使用相关的统 计方法。
菜单 “Data” | “Weight Cases”命令
点击“Weight Cases by单选框”,选中“Freqency ”: 选入“频数[count]”。单击OK钮
2 . 四格表独立性检验
例1:某医院收得乙型脑炎重症病人204例,随机分成两 组,分别用同样的中草药方剂治疗,但其中一组加一定 量的人工牛黄,每个病人根据治疗方法和治疗效果进 行分类,得出如下表格:
疗效 治愈 32 76 108 未愈 46 50 96
疗法
合计
不加牛黄 加牛黄 合计
78 126 204
2 2 0.01 (1) 6.6349
H0 ()
统计结论:“疗法”与“疗效”不独立(即两组治愈率不 同) 专业结论:加人工牛黄组疗效高于不加人工牛黄组的疗效。
4.2 Crosstabs 过程 例: 调查339名50岁以上的人的吸烟习惯与患慢性气管 炎病的数据而建立如下列联表,试探讨吸烟与患慢性气 管炎之间的关系。 组别 患病组 健康组 不吸烟 13
给出了4种检验方法的结论。其中, 1)Pearson Chi-Square 即常用的卡方检验 (N≥40,理论频数≥5) 2)Continuity Correction 连续性校正的卡方值 (N≥40,理论频数小于5(但≥1)) 3)Likelihood Ratio 似然比卡方检验 4)Fisher's Exact Test : Fisher's确切概率法 (N<40或理论频数小于1)
Pearson Chi-Square 1 Continuity Correctiona 1 Likelihood Ratio 1 Fisher's Exact Test .007 .004 N of Valid Cases 339 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 22.14.
疗法
合计
不加牛黄 加牛黄 合计
78 126 204
列联表:观测数据按两个或更多属性(定性变量)分类 时所列出的频数表。
R×C列联表:分类频数排成R行C列的列联表。 2×2表:二行二列的列联表,又称四格表 。 列联表分析:使用列联表进行分类资料的检验。
※双向无序
单向有序 列联表
双向有序且属性不同 双向有序且属性相同
双向无序四格表
(1) N≥40,理论频数≥5
2
2,2
(Oij Eij ) 2 Eij
i , j 1
N (O11O22 O12 O21 ) 2 O1O2O1O2
2
(2)N≥40,理论频数小于5(但≥1),用校正卡方统计量
2
i , j 1
2, 2
(| Oij Eij | 0.5) 2 Eij
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
点击“Chi-square复 2 值 选框”,计算 选择“Nominal”里 的“Contingency Coefficient”计算 Pearson列联相关 系数。 点击“continue”钮回 到上一对话框
点击”Cells”按钮
【Cells按钮】:用于 定义列联表单元格中 需要计算的指标。
勾选“Counts复选框组 中的输出实际观察数 “Observed”和理论数 “Expected” 选择“Percentages”里 的“column”计算列百分 比。点击“Continue”按 钮返回上一层对话框 。 点击”OK”按钮