卡方检验1

合集下载

卡方检验名词解释

卡方检验名词解释
卡方检验属于非参数检验，由于非参检验不存在具体参数和总体正态分布的假设，所以有时被称为自由分布检验。

参数和非参数检验最明显的区别是它们使用数据的类型。

非参检验通常将被试分类，如民主党和共和党，这些分类涉及名义量表或顺序量表，无法计算平均数和方差。

卡方检验分为拟合度的卡方检验和卡方独立性检验。

我们用几个例子来区分这两种卡方检验：
•对于可口可乐公司的两个领导品牌，大多数美国人喜欢哪一种？•公司采用了新的网页页面B，相较于旧版页面A，网民更喜欢哪一种页面？
以上两个例子属于拟合度的卡方检验，原因在于它们都是有关总体比例的问题。

我们只是将个体分类，并想知道每个类别中的总体比例。

它检验的内容仅涉及一个因素多项分类的计数资料，检验的是单一变量在多项分类中实际观察次数分布与某理论次数是否有显著差异。

拟合度的卡方检验定义：
主要使用样本数据检验总体分布形态或比例的假说。

测验决定所获得的的样本比例与虚无假设中的总体比例的拟合程度如何。

拟合度的卡方检验又叫最佳拟合度的卡方检验，为何取名“最佳拟合”？这是因为最佳拟合度的卡方检验的目的是比较数据（实际频数）与虚无假设。

确定数据如何拟合虚无假设指定的分布，因此取名“最佳拟合”。

关于拟合度的卡方检验有一些翻译上的区别，其实表达的是一个意思：
拟合度的卡方检验=卡方拟合优度检验=最佳拟合度卡方检验
以下统称：卡方拟合优度检验
卡方统计的公式：卡方卡方=χ2=Σ(fo−fe)2fe
公式中O代表observation，即实际频数；E代表Expectation，即期望频数。

卡方检验解读

卡方检验解读
卡方检验是一种统计检验，它用于比较实际观察到的数据和理论预期的数据之间的差异。

它主要用于检查两个或多个分类变量之间的关系。

它测量样本中不同类别的观察数量和理论预期数量之间的差异。

卡方检验的结果可以用来评估两个变量之间是否存在关联，以及这种关联是否显著。

如果观察的值与理论预期的值相同，则拒绝原假设，即两个变量之间没有关联；如果观察的值与理论预期的值不同，则接受备择假设，即两个变量之间存在关联。

卡方检验(1)

表11.1 甲、乙两药治疗小儿上消化道出血的效果
2 检验的基本公式:
2 (AT)2 T
从基本公式可以看出，统计量值反映了实际频数和
2
理论频数的吻合程度。
2 值与什么有关？ 1.与A与T的差别/吻合程度有关。 2.与格子数，严格地说是自由度有关。
由 2 统计量的公式(11.2)可以看出，( A T )2 0
问题1:本例资料类型?(此表称为?) 问题2:本例设计类型? 问题3: 研究目的是什么? 问题4: 用什么方法解决?
第十一章 2 检验
卡方检验是英国统计学家K. Pearson于1900年提出的，以卡方分布和拟合优度为理论依据，一种用途较广的假设检验方法。
英国生物计量学派 Karl Pearson(1857-1936) 现代统计学之父
问题1: 研究目的是什么? 问题2: 用什么方法解决?
例11.1 某研究者欲比较甲、乙两药治疗小儿上消化道
出血的效果，将90名患儿随机分为两组，一组采用甲药治疗，另一组采用乙药治疗，一个疗程后观察结果，见表11.1。问两药治疗小儿上消化道出血的有效率是否有差别？
表11.1 甲、乙两药治疗小儿上消化道出血的效果
若H0成立，则理论上：
甲药组有效人数为：T11
4567 90
33.5
甲药组无效人数为：
乙药组有效人数为：
T12
452311.5 90 67
T21
45 90
33.5
乙药组无效人数为：
T22
452311.5 90
T nRnC n
T nRnC n
n R 为相应行的合计
n C 为相应列的合计
n 为总例数。
2 检验的基本公式:

卡方检验

表1 男女比例的差异检验
由表1可得，男女生人数在比例上存在着显著差异，表现在男生人数明显小于女生人数。

表2 文理科的差异检验
文科理科 χ 2 p 32
29
21.82
<.001
由表2可得，文理科在人数比例上存在着显著差异，表现在文科人数明显多余理科人数。

表3 吸烟与患癌症死亡原因间的差异检验
是否吸烟
是否 χ
2
p 癌症死亡原因
因吸烟 6 4 1.82
0.18
其他
3
7
由表3可得，癌症的死亡原因与是否吸烟无明显差异。

表4 学生课外活动调查结果活动内容体育文娱阅读 χ2 p 性别
男 21 11 23 8.32
.016
女
6
7
29
由表4可得，男女生人数在课外活动内容上存在着显著差异。

表5 男女生在学业水平人数上的比例差异
学生成绩中等以上中等以下 χ2 p 性别
男 23 17 0.02
.887
女
28
22
由表5可得，男女生人数在学习成绩上不存在显著差异。

表6 三种意见上的人数差异不同意见同意不置可否不同意 χ2 p 人数
24
12
12
6
.05
由表6可得，持这三种意见的人在人数上存在着显著差异。

表7 男女生人数在升学比例上的差异检验
由表7可得，男女生升学比例与该校长的经验不存在着显著差异。

男生人数女生人数 χ2 p 13
52
23.40
<.001。

卡方检验实例1

463人手术患者，预测并发症人数为169位，实际并发症人数201位，该如何用卡方检验判断有无统计学意义？是配对X2检验吗？该如何将数据列表？如何用Spss得出结果呢？方法一：把数据转化成四格表，然后你就明白了。

然后用卡方检验。

发病不发病实际（fo）201 262 共463人期望(fe) 169 294 共463人X2=4.789由于df=1,查表得，P<0.05显著，说明这个预测是具有统计学意义的。

方法二：用spss做，是列联表分析。

数据录入格式为：建立两个变量，变量1是实际和期望，实际用数据1表示，那期望就用数据2表示；变量2是发病情况，发病用1表示，不发病用2表示，也就是说，你的变量1中应该数据463个1，然后输入463个2，变量2中，先输入201个1，再输入262个2，再输入169个1，再输入294个2，建议你用EXCL来数据方便的多。

直接可以复制。

数据录入完成后，点analyze-descriptive statistics-crosstabs-把变量1选到rows里，把变量2选到column里，然后点击下面的statistics，打开对话框，勾选chi-squares，然后点continue，再点ok，出来结果的第3个表就是你要的卡方检验，第一行第一个数是卡方值，后面是自由度，然后是P值。

我算过了，卡方值应该是4.609，df=1，P值=0.032，P<0.05，所以显著。

预测是有统计学意义的。

如果按照你叙述的来看，其实是按照“teng7925 |”这位说的去做，只不过在SPSS输入数据的时候，不需要按照他说的那样，只需要设计三个变量，第一个变量输入：1 1 2 2；第二个变量输入：1 2 1 2；第三个变量输入：201 262 169 294。

输入完，按照他说的步骤，可以得到他说的同样的结果，得到的结果说明预测与实际的发症人数有显著差异。

但是我仔细想了下，你书上说的思路可能不是上面那种想法。

卡方检验的原理

卡方检验的原理卡方检验是一种用于检验两个分类变量之间是否存在相关性的统计方法。

它的原理是通过比较实际观察值和期望理论值之间的差异来判断两个变量之间的相关性程度。

在进行卡方检验时，我们首先需要构建一个列联表，然后根据列联表中的数据计算出卡方值，最后根据卡方值来判断两个变量之间的相关性程度。

首先，我们来看一下列联表的构建。

列联表是由两个分类变量的交叉分类频数构成的二维表格。

表格的行表示一个分类变量的各个分类，表格的列表示另一个分类变量的各个分类，交叉点上的数字表示对应分类组合的频数。

构建列联表的目的是为了清晰地展现两个变量之间的关系，为后续的卡方检验提供数据基础。

接下来，我们需要计算卡方值。

卡方值的计算公式为，χ²=Σ((O-E)²/E)，其中，Σ表示求和，O表示观察频数，E表示期望频数。

在计算卡方值时，我们需要先计算出期望频数，然后将观察频数和期望频数的差异进行平方，并除以期望频数，最后将所有分类组合的差异平方和除以期望频数的总和就得到了卡方值。

最后，我们根据卡方值来判断两个变量之间的相关性程度。

在进行判断时，我们需要参考自由度和显著性水平。

自由度的计算公式为，df=(r-1)(c-1)，其中，r表示行数，c表示列数。

在一般情况下，我们可以查找卡方分布表来确定显著性水平下的临界值，然后比较计算出的卡方值和临界值的大小关系，从而判断两个变量之间的相关性程度。

总的来说，卡方检验是一种用于检验两个分类变量之间相关性的统计方法，它通过比较实际观察值和期望理论值之间的差异来判断两个变量之间的相关性程度。

在进行卡方检验时，我们需要构建列联表，计算卡方值，并根据卡方值来判断两个变量之间的相关性程度。

通过卡方检验，我们可以更加清晰地了解两个变量之间的关系，为进一步的分析和决策提供依据。

SPSS进行卡方检验具体操作(一)

Likelihood Ratio
34 . 487
4
. 00 0
Linea r-by-Line ar A ssociat ion
17 . 092
1
. 00 0
N of Valid Cases
139
a. 1 cells (10.0%) hav e expected count less than 5. The minimum ex pected count is 3.69.
样品大米地瓜粉豆浆虾皮酸菜
五种食品的真菌检验结果
未生长真菌生长真菌
合计
17
13
30
1
29
30
6
24
30
1
18
19
2
28
30
检出率（%） 43.3 96.7 80.0 94.7 93.3
SPSS数据格式
SPSS操作
数据加权处理 dataweight case
weight case by : 例数 OK
SPSS结果
Chi-Square Te sts
McNemar Test
Va lu e
Ex act Sig. (2-sided)
. 02 1a
N of Valid Cases
28
a. Binomial distribution used.
利用二项分布原理, 计算双侧精确概率P=0.021, 可认为两种培养基阳性率有差异, 甲培养基阳性率较高。
认为正常人和慢性支气管炎病人痰液此类白细胞的检查结果不相同。
谢谢观看！ 2020
SPSS数据格式
SPSS操作：两个率比较的2检验
Analyze descriptive crosstables row: group columns: affect statistics: chi-square OK

二项分布_卡方检验1

二项分布
二项分布的概念

二项分布是一种重要的离散型分布，也称为伯努利分布，是用来描述二分类变量得两种观察结果的出现规律的一种离散型分布。
常用于总体率的估计和两样本率的比较
等。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种结果，如有效或无效、阴性或阳性。已知发生某一结果（如阳性）的概率为π，此概率对于每一个个体是相同的；其对立结果（阴性）发生的概率为1-π，各单位的观察结果相互独立，则从该总体中随机抽取 n 例，其中恰有 X 例是某一结果（阳性）的概率为：

2 ARC （A T ) 2 ＝＝n ( 1) T n R nC 2

ν=（R-1）（C-1）
R×C表资料的2检验的注意事项
R×C表资料2检验中，如假设检验的结果拒绝H0，只能认为各总体率或总体构成比不全相等，但不能说明它们彼此之间都有差别，要解决这个问题必须通过2分割进行率或构成比的多重比较。对行×列表资料进行检验时，一般认为不能有 1/5以上的格子的理论频数小于5，也不能有任何一个格子的理论频数小于1，否则很容易导致分析结果出现偏性。如果出现这种情况，可采取以下解决方法：
0.0 0 5 10 15 20 25
2 检验
2检验是一种用途非常广泛的以2分布
为理论依据的假设检验方法，主要用于：
– 两个或多个总体率或构成比的比较； – 两个分类变量之间的关联分析； – 频数分布资料的拟和优度检验等。
2 检验的基本思想

实际频数和理论频数差异的大小可以用 2 值的大小来说明，当样本量n和各个按检验假设计算的理 ) 论频数T都足够大时，比如n≥40，T≥5，（A T值近 T 似于2分布，n越大，近似程度越好。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2(331041039)218634.10
7243143114
(四)四格表资料检验的校正公式
c2
( AT 0.5)2 T
(|ad-bc|-n)2n
c2
=
2
(a+b)(c+d)(a+c)(b+d)
2 分布是一连续型分布，而四格
表资料属离散型分布，由此计算得的
2统计量的抽样分布亦呈离散性质。为改善 2统计量分布的连续性，则进行
检验统计量 2 值反映了实际频数与理论频数的吻合程度。
若检验假设H0:π1=π2成立，四个格子的实际频数A 与理论频数T 相差不应该很大，即统计量
不应该很大。如果值2 很大，即相对应的P 值很小，
若 P，则反过来推断A与T相差太大，超出了抽样误差允许的范围，从而怀疑H0的正确性，继而拒绝H0，接受其对立假设H1，即π1≠π2 。
卡方检验1
（1） 2 分布是一种连续型分布：按分布的密度函数可给出自由度=1，2，3，……的一簇分布曲线（图6-10）。
（2） 2 分布的一个基本性质是可加性：如果两个独立的
随机变量 X1 和 X2 分别服从自由度 ν1 和 ν2 的分布，
即
X1~
21, X2~
a c ac (92) ab cd n
TaT11(ab)n (ac) (93)
TcT21(cd)n (ac) (94)
b d bd (95) ab cd n
TbT 12(ab)n (bd) (96) TdT22(cd)n (bd) (97)
理论频数由下式求得：
TRC
nR nC n
式中，TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
2
2
，那么它们的和（ X1+X2 ）服从自由度
（ ν1+ν2 ）的分 2 布，即 (X1 X～2)
。 2 1 2
（ 3）2界值：当确定后， 2 分布曲线下右侧尾部的面积为时，横轴上相应的 2值，记作 2, (见附表8)。 2值愈大， P值愈小；反之， 2 值愈小， P值愈大。
本例资料经整理成表9-1形式，即有两个处理组，每个处理组的例数由发生数和未发生数两部分组成。表内有33、39、10、 104 四个基本数据，其余数据均由此四个数据推算出来的，故称四格表资料。
处理组发生数未发生数合计
甲
a
b
a+b
乙
c
d
c+d
合计 a+c b+d
n
表9-2 四格表资料的基本形式
由公式（9-1）还可以看出：值2 的大小还取决于 ( A T ) 2
个数的多少（严格地说是自由度ν的大小）。由于各
(
A
T
T
)2
T
皆是正值，故自由度ν愈大， 2 值也会愈大；所以只有考虑
了自由度ν的影响，值2 才能正确地反映实际频数A和理论频
数T 的吻合程度。
检 2验的自由度取决于可以自由取值的格子
2(3316.6)2(3955.4)2(1026.4)2(10487.6)2
16.6
55.4
Байду номын сангаас
26.4
87.6
16.42(161.6551.4261.4871.6)34.32
2(9990.48)2(513.52)2(7583.52)2(2112.48)2
90.48
13.52
83.52
12.48
12.86
目的：推断两个总体率（构成比）是否有差别（和u检验等价）
要求：两样本的两分类个体数排列成四格表资料
一、两独立样本率检验（一）两独立样本率资料的四格表形式
例9-1 为研究肿瘤标志物癌胚抗原（CEA）对
肺癌的诊断价值，随机抽取72例确诊为肺癌的患者为肺癌组，114例接受健康体检的非肺癌患者为对照组。用CEA对其进行检测，结果呈阳性反应者病例组中33例，对照组中10例。问两组人群的 CEA阳性率有无差异？
基本思想：可通过 2 检验的基本公式
来理解。
2 (A T )2, (行数 - 1 )(列数 1 )
T
式中，A为实际频数（actual frequency）， T为理论频数（theoretical frequency）。
理论频数是T 根据检验设
率来估计而定的。
H0:1，且2用合并
表9-1 CEA对两组人群的诊断结果*
分组阳性
阴性合计
肺癌组 33（ 16.6） 39（ 55.4） 72
对照组 10（ 26.4） 104（ 87.6） 114
合计
43
143
186
阳性率（ % ） 45.8 8.8 23.1
* 括号内为理论频数。
（二） 2 检验的基本思想
连续性校正。
四格表资料 2 检验公式选择条件：
n40, T5，不校正的理论或专用公
式； n40, 1T5，校正公式；
n40或 T1，直接计算概率。
2 连续性校正仅用于 1的四格表资料，当 2
0.5
0.4
0.3
f ( 2 ) 0.2
0.1
1
6
10
0 0 2 4 6 8 10 12 14 16
2
对给出的不同检验水平与自由度
取值时， 2 分布单侧尾部面积的界
值
2
,
，它满足条件
P(22,) 01
根据的定义，当自由度 1 时， 2
分布的界值为标准正态分布界值的
平方。
第一节 2× 2 表 2 检验
(2 1 )2 ( 1 )1
以 = 1 查附表 8 的 2 界值表得 P 0 . 005 。按 0 . 05
检验水准拒绝 H0，接受
H
，
1
肺
癌
患
者
癌
胚
抗
原
的
阳性率显著高于健康人，提示可能具有临床诊断价
值。
四格表资料检验的专用公式
2
(adbc)2n
(ab)(ac)(bd)(cd)
数目，而不是样本含量n。四格表资料只有
两行两列，=1，即在周边合计数固定的情况
下，4个基本数据当中只有一个可以自由取
值。
（三）假设检验
（1）建立检验假设，确定检验水平。
H0:π1=π2 H1:π1≠π2
α=0.05。
（2）求检验统计量值
T 1 1 7 2 4 3 /1 8 6 1 6 .6 ， T 1 2 7 2 1 6 .6 5 5 .4 T 2 1 4 3 1 6 .6 2 6 .4 ， T 2 2 1 1 4 2 6 .4 8 7 .6 。