卡方检验

第7章卡方检验

卡方检验(Chi-square test) stat9@https://www.360docs.net/doc/a9985140.html,

检验(Chi-square test)是现代统计学的创始人 K. Pearson 提出的一种具有广泛用途的统计方法。该检验可用于两个及多个率（或者构成比）之间的比较，分类资料的关联度分析，拟合优度检验等。 2

一、卡方检验的基本思想首先介绍一个抽样分布：卡方分布 ?属连续型分布 ?可加性是其基本性质 ?唯一参数，即自由度

(1) 自由度为1的χ2 分布若Z N ~(,),01则Z 2 的分布称为自由度为1的χ2分布. (Chi-square distribution),记为χ()12或χ2 1(). 图形: 0246810 0.0 0.1 0.2 0.3 2 2 2 0.05(1)0.05/2 2 2 2 0.01(1) 0.01/2 3.84(1.96)6.63(2.5758)Z Z χχ ======

(2) νZ Z Z ,...,,21互相独立,均服从N (,)01, 则22221...νZ Z Z +++的分布称自由度为　ν的χ2 分布, 记为χν()2或)(2νχ,或简记为χ2 . ● 图形: ● 自由度ν很大时,2 () νχ近似地服从正态分布.有 2()2 (),22Z ννχνχννν -=服从均数为，方差为的正态分布

0.0 0.10.20.3 0.40.50 3 6 912 1518 ?¨·??μ ×Y ·?×?óé?è￡?1 ×?óé?è￡?2×?óé?è￡?3×?óé?è￡?6 2 /) 12/(2 2 22 )2/(21 )(χνχνχ--??? ? ??Γ= e f 3.84 7.81 12.59 P ＝0.05的临界值 χ2分布（Chi-square distribution ）

SPSS非参数检验之一卡方检验资料讲解

S P S S非参数检验之一卡方检验

SPSS 中非参数检验之一：总体分布的卡方（Chi-square ）检验在得到一批样本数据后，人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。这可以通过绘制样本数据直方图的方法来进行粗略的判断。如果需要进行比较准确的判断，则需要使用非参数检验的方法。其中总体分布的卡方检验（也记为χ2检验）就是一种比较好的方法。一、定义总体分布的卡方检验适用于配合度检验，是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。它的零假设H0：样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。总体分布的卡方检验的原理是：如果从一个随机变量尤中随机抽取若干个观察样本，这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布，这个多项分布当k 趋于无穷时，就近似服从X 的总体分布。因此，假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数，并依据下面的公式计算统计量Q () 2 1 k i i i i O E Q E =-=∑ 其中，Oi 表示观察频数；Ei 表示期望频数或理论频数。可见Q 值越大，表示观察频数和理论频数越不接近；Q 值越小，说明观察频数和理论频数越接近。SPSS 将自动计算Q 统计量，由于Q 统计量服从K-1个自由度的X 平方分布，因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平，则应拒绝零假设H0，认为样本来自的总体分布形态与期望分布或理论分布存在显著差异；如果相伴概率值

卡方检验法

第八章记数数据统计法—卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、……。有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取样的代表性。我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明，实际观察次数（f o）与理论次数（f e），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这是卡方检验的原始公式，其中当f e越大（f e≥5）,近似得越好。显然f o与f e相差越大，卡方值就越大；f o与f e相差越小，卡方值就越小；因此它能够用来表示f o与f e相差的程度。根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况：

卡方检验及校正卡方检验的计算

2X 检验或卡方检验和校正卡方检验的计算私立广厦学校郭捷思在教育学量的研究中，各种各样的统计方法已经被广泛的应用，特别是由于统计软件（如：SPSS ）的不断成熟，给教育研究者提供了多种量的研究方法。但是，这并不是无论什么量的研究都要通过统计软件来实现，也不是所有量的研究一定要运用统计软件才能快捷，简便的实现。本文将教给大家几种简便的方法来实现卡方检验。 2X 检验（chi-square test ）或称卡方检验方法可以根据样本数据，推断总体分布与期望分布或某一理论分布是否存在显著差异，是一种吻合性检验，通常适于对有多项分类值的总体分布的分析。它的零假设是样本来自的总体分布与期望分布或某一理论分布无显著差异。根据卡方检验基本思想的理论依据，对变量总体分布的检验就可以从对各个观察频数的分析入手。为检验实际分布与理论分布（期望分布）之间是否存在显著差异，可采用卡方检验统计量。典型的卡方统计量是pearson 卡方，其基本公式为： ∑=-=k i o i e i o i f f f X 12)( 式中k 为子集个数，o f 为观察频数，e f 为期望频数，2X 服从k —1个自由度的卡方分布。如果2X 值较大，则说明观测频数分布与期望频数分布差距较大；反之，如果2X 值较小，

则说明观测频数分布与期望频数分布较接近。我们将通过代入数据运算这条公式，计算出2X 统计量的观测值，并依据卡方分布表计算观测值对应的概率p 值。下面，将通过几个实际例子来探究如何进行卡方检验。一、四格表资料的卡方检验例1：某学校分别运用传统教学和多媒体教学在两个平行班的数学课上进行试验，目的为了检测两种教学方法对学生的成绩影响是否有差异。本实验把学生的成绩划分为优秀人数（80分以上）和非优秀人数。表1：两种教学方法学生成绩优秀率的比较表内这四个数据（斜体）是整个表中的基本资料，其余数据均由此推算出来；这四格资料表就专称四格表（fourfold table ），或称2行2列表（2×2 contingency table ）从该资料算出的；两种教学的优秀率分别为40%和68.6%，两者的差别可能是抽样误差所致，亦可能是两种教学效果确有所不同。这里可通过卡方检验来区别其差异有无统计学意义，检验步骤：组别优秀人数非优秀人数合计优秀率（%）传统教学班 20 30 50 40 多媒体教学班 35 16 51 68.6 合计 55 46 101 52.5

卡方检验习题说课讲解

卡方检验习题

2 χ检验练习题一、最佳选择题 1．四格表的周边合计不变时，如果实际频数有变化，则理论频数（）。 A．增大 B．减小 C．不变 D．不确定 E．随a格子实际频数增减而增减 2．有97份血液标本，将每份标本一分为二，分别用血凝试验法和ELISA 法对轮状病毒进行诊断，诊断符合情况见下表，欲比较何种诊断方法的诊断符合率较高，用（）统计方法？两种诊断方法的诊断结果血凝试验法 ELISA法合计符合不符合符合74 8 82 不符合14 1 15 合计88 9 97 A．连续性校正2χ检验 B．非连续性校正2χ检验 C．确切概率法 D．配对2χ检验（McNemar检验） E．拟合优度2χ检验 3．做5个样本率的χ2检验，每组样本量均为50，其自由度为（）。 A 249 B 246 C 1 D 4 E 9 4．对四格表资料做2χ检验时，如果将四格表的行与列对调，则对调前后的（）。 A．校正2χ值不等 B．非校正2χ值不等 C．确切概率检验的P值不等 D．非校正2χ值相等

E．非校正2χ值可能相等，也可能不等二、问答题 1．简述2χ检验的基本思想。 2．四格表2χ检验有哪两种类型？各自在运用上有何注意事项？ 3．什么情况下使用Fisher确切概率检验两个率的差别？ 4．在回顾性研究和前瞻性研究的四格表中，各自如何定义优势比？三、计算题 1．前列腺癌患者121名中，82名接受电切术治疗，术后有合并症者11人；39名接受开放手术治疗，术后有合并症者1人。试分析两种手术的合并症发生率有无差异？ 2．苏格兰西南部两个地区献血人员的血型记录见下表，问两地的血型分布是否相同？两地献血人员的血型分布地区血型合计A B O AB Eskdale 33 6 56 5 100 Annandale 54 14 52 5 125 合计87 20 108 10 225 3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象，将其分为4 组，每组 100例，分别给予不同的镇痛处理，观察的镇痛效果见下表，问4种镇痛方法的效果有无差异？ 4种镇痛方法的效果比较镇痛方法例数有效率（%）颈麻100 41 注药100 94 置栓100 89 对照100 27

卡方检验模型验证方法

卡方检验模型验证方法模型参数的验证方法主要使用卡方拟合度检验( Chi-square Goodness-of-fit Test )结合最大似然估计( Maximum Likelihood Estimation )，并且使用QQ图（Quantile-Quantile Plot）证明验证结果。具体的说，就是先假定采集的样本数据符合某一分布，通过最大似然估计方法估计出该分布的参数，然后代入并用卡方检验计算相对于该分布的偏差。实践中我们对于一组样本数据，计算所有常见分布的偏差值，选取偏差最小的分布做为该样本的拟合结果。另外，从QQ图直观上看，该分布做为拟合结果描绘出的曲线必须近似为接近参考线的直线（见3.3），否则我们就将数据拆分为多个部分进行分段的拟合（如对终端请求包大小的拟合）。 1.1 卡方拟合度检验卡方检验是一种大样本假设检验法，用于检验随机事件中提出的样本数据是否符合某一给定分布。它需要较大量的样本数据及已知的待检验概率分布函数。 1.1.1 卡方检验原理对于一个服从二项分布的随机变量Y服从Binomial( n, p) ,均值为,方差。由中心极限定理，符合标准正态分布N (0, 1)，所以服从自由度为1的卡方分布。设服从Binomial( n, p1 ), , , 则有所以同理对于k个随机变量，均值分别为，在数据拟合时，先对数据分组，每组数据的实际个数即为随机变量

，，，则数据拟合即为判断是否符合分布，该卡方分布的自由度为k-1-nep（k为随机变量个数，nep为估计参数的个数）。 1.1.2 卡方检验步骤：假定样本服从某一给定分布。根据样本数据用最大似然法估计分布的密度函数参数。设定置信度，对n个样本数据排序。把排序后的数据分成k组，确定每组的上下限,（上下限确定方法不同对验证能力有影响，每组数据不少于5个），为了方便起见，本项目中采用平均划分分组间隔，即使为常数，对于所有的成立。计算每组数据实际个数，第i组实际个数为。计算每组数据期望个数，第i组期望个数为：连续：，其中F(x)为待验证的概率分布函数，离散：。计算。理论上说如果，则数据符合分布函数为F(x)的分布，其中，nep为估计的参数的个数。但是由于实际采集的数据并非完全地符合某一分布，总存在一定的偏差，计算出的值并不满足这个条件，所以我们使用的拟合标准为采用卡方估计值最小的分布作为验证结果。

卡方检验法

记数数据统计法—卡方检验法在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、……。有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取样的代表性。我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明，实际观察次数（f o）与理论次数（f e），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这是卡方检验的原始公式，其中当f e越大（f e≥5）,近似得越好。显然f o与f e相差越大，卡方值就越大；f o与f e相差越小，卡方值就越小；因此它能够用来表示f o与f e相差的程度。根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况：卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题，这里的观测次数是根据样本数据得多的实计数，理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

关于高中数学教材中卡方检验公式的解释

关于高中数学教材中卡方检验公式的解释统计案例教学中如何让思路来得自然一些王文彬 (江西省抚州市第一中学 344000) 2统计案例的教学内容主要有三项:线性回归、线性相关与独立性检验(检验).笔者在,教学中发现(所使用的教材是北师大版《高中数学选修教材2-3》)，回归方程、相关系数公 2式与检验公式得出的思路在某些地方显得不自然，有突兀之感(人教版教材的这些内容与, 北师大版相近).如何让这些知识来得更自然一些，值得我们作进一步的探讨. 1.线性回归方程为了说明问题，不妨将教材(指北师大版教材，下同)有关内容摘录如下: 设有个样本点，并设其线性回归方程为.这个(,),(,),(,)xyxyxy？nnyabx,，1122nn 点与回归直线的“距离”平方和为 n2 ? Qabyabx(,)(),,,,ii,1i 引入以下记号 nnn22，，，不难知道， lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1iinnnn ，，从而 ()0xxxnx,,,,()0yyyny,,,,,,,,iiii,,11,,11iiii n2，， ? Qabyyyabxbxx(,)()()(),,，,，,,,,,ii，，,1i22llxyxy2，， ? ()(),,，,，，,,？lnyabxlbyyxx，，llxxxx lxy显然当且时，取最小值. 0b,,Qab(,)yabx,，,()0lxx

由此可得出的计算公式，由此可求出线性回归方程. ab, 在这里，教材通过求的最小值而得出的值，总体思路是比较自然的，但为 Qab(,)ab, 什么要将?改写成?，其中的原因却不易说清.为此我们可作如下改进: 22对于含有两个变量的函数，应通过配方将其化成形如“(常数)”Qab(,)( )( )C，，的式子，这样，只要令两个括号都为零即可求出的最小值以及的值. Qab(,)ab, n2222事实上， Qabyabxaybxyabx(,)(+222),，,,，,iiiiii,1i nnnnn2222 ,，,,， ynabxaybxyabx+222,,,,,iiiiii,,,,,11111iiiiinnnn222(常数) ,，,，,，naabxaybxbxyC222,,,,1iiiii,,,,1111iiiinn222,，,，,， nanabxnaybxbxyC222,,1iii,,11ii nn222 ,，,，,，naabxaybxbxyC(22)2,,1iii,,11ii 1 nn222，， naaybxbxbxyC2()2,,,，,，,,1iii，，,,11iinn22222，，naaybxybxnybxbxbxyC2()()()2,,,，,,,，,，,,1iii，，,,11ii nn22222，，(常数) naybxbxnxbxynxyC()()2(),,,，,,,，,,2iii，，,,11ii2n，， xynxy),,iin,,22222,i1，，(常数) ,,naybxxnxbC()(),,,，,,，,i3n，，22,,,i1xnx,,i,,,i1，， n22显然，如果有(可用数学归纳法证明)，令两个中括号都为零即可得出xnx,,0,i,1i 的计算公式了. ab,

统计方法卡方检验

卡方统计量卡方检验用途：可以对两个率或构成比以及多个率或构成比间的差异做统计学检验第一节. 四格表资料的χ2检验例8.1 为了解铅中毒病人是否有尿棕色素增加现象，分别对病人组和对照组的尿液作尿棕色素定性检查，结果见表8.1，问铅中毒病人和对照人群的尿棕色素阳性率有无差别? 表8.1 两组人群尿棕色素阳性率比较组别阳性数阴性数合计阳性率% 病人29(18.74) 7(17.26) 36 80.56 对照9(19.26)28(17.74) 37 24.32 合计38 35 73 52.05 卡方检验的基本思想表1中29、7、9、28是构成四格表资料的四个基本格子的数字，其余行合计和列合计以及总的合计都可以根据该四个数字推算出来，故该类资料被称为四格表资料四格表卡方检验的步骤以例8.1为例 1.建立假设： H0：π1 = π2 H1：π1≠π2 α＝0.05 四格表的四格子里的数字是实际数，在表1中四个数字旁边括号中的四个数字为理论数，其含义是当无效假设成立的时候，理论上两组人群各有多少阳性和阴性的人数。若H0：π1＝π2成立→p1＝p2＝p 即假设两组间阳性率无差别，阳性率都是等于合计的52.05%，那么铅中毒病人36人，则理论上有 36 ╳52.05%=18.74人为阳性；对照组37人，则理论上有 37 ╳52.05%=19.26人为阳性。故每个实际数所对应的理论数算法是，该实际数对应的行和乘列和再除以总的N样本含量。即TRC=nR nC / n 2.计算理论数第1行1列: T11＝36×38/73= 18.74 依次类推T12 = 17.26 T21 = 19.26 T22 = 17.74 四格表中理论数的两大特征：（1）理论频数表的构成相同，即不但各行构成比相同，而且各列构成比也相同；（2）各个基本格子实际数与理论数的差别（绝对值）相同。一、卡方检验基本公式

医学统计学公式总结

医学统计学公式总结(总6页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面，使用请直接删除

一资料的描述性统计（一）算术均数(mean) （1）简单算术平均值定义公式为（直接法）：（2）利用频数表计算均数（加权法）：（二）方差（即标准差的平方）（三）变异系数二参数估计与参考值范围（一）均数的标准误（二）样本率的标准误（p 为样本率）（三）T 分布（u 为总体均数）（四）总体均数的区间估计（一般要求计算95%或99%的可信区间）（五)总体率的区间估计（六)参考值范围估计双侧1-a 参考值范围：s u x a 2/± 单侧1-a 参考值范围： s u x a ->或s u x a +< （可信区间计算是用标准误，参考值范围计算用标准差，百分位数法大家自己看书）三 T 检验与方差分析 n x n x x x x x n ∑= ++++= 321∑ ∑=++++++++= f fx f f f f x f x f x f x f x k k k 3213322111 )(22 --= ∑ n x x s 222()/1x x n s n -=-∑∑ %100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ -=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

（一）T 检验（1）单样本T 检验检验假设：（假设样本来自均数为0u 的正态总体）统计量t 值的计算：（2）配对T 检验检验假设：统计量t 值的计算：（d 为两组数据的差值，Sd 为差值的标准差）（3）两样本T 检验检验假设：统计量t 值的计算：其中两样本方差齐性检验（即为两样本方差的比值）（二）单因素方差分析 SS MS F SS MS νν= =B B B W W W （1）完全随机设计资料的方差分析这里（T 即为该组数据之和） 0μμ=：H 1,/0 0-=-=-=n n s x s x t x νμμ0210==-μμμ：H d d t s μ-== 1-=n ν210μμ=：H 21)()(2121x x s x x t ----=μμ2 21-+=n n ν? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内组间总ννν+=2()/C x N =∑ij j T x = ∑

卡方检验

第十二章假设测定I V：卡方测定（The Chi Square Test）壹、本单元目标 1、举例说明卡方测定适用的情况。 2、解释双变项交叉表（bivariate table）的结构，以及如何将独立性（independence）的概念应用到交叉表的期待次数（expected frequencies）与观察次数（observed frequencies）之间的关系上。 3、说明如何将假设测定的逻辑运用在交叉表的分析上。 4、以五个假设测定的步骤说明卡方测定，以及正确的解释测定的结果。 5、说明卡方测定的限制，以及统计显著性与实质重要性的差异。贰、简介本章要介绍的Chi Square (χ2) test（卡方测定）大概是社会科学研究中，最常看到的一种假设测定方法。这是因为此测定方法相当容易符合假设测定第一个步骤─基本假定设定─的要求。此测定方法是两个名目尺度变项间之假设测定的方法。因此在level of measurement 的要求方面是最基本的nominal level of measurement。这名目尺度变项不限于是二分的，也可适用在其它尺度测量的变项上。而χ2test 也是一种无参数的测定，因此在基本假定部分，我们无须知道母群体之分配特性（distribution-free）。χ2之抽样分配是一种已知之理论分配，就叫χ2分配。（所谓Chi Square是χ这个希腊字母的发音加上「平方（square）」的英文）。这种可以相当容易符合基本假定要求的无参数测定方法，可以让我们在做拒绝虚无假设的决策时，比较有信心。这是因为做假设测定时，如果在基本假定设定（测定的第一个步骤）中的任一要求或虚无假设（测定的第二个步骤）是错误时，我们就可拒绝虚无假设。但在无参数测定方法的情况下，我们比较容易符合基本假定的要求，因此可专注在判断虚无假设是否为错误，决策的结果也比较有信心。参、双变项交叉表卡方测定的进行要用到双变项交叉表。此交叉表同时呈现出两个不同变项间次数分配的情况。因此，双变项交叉表可用来探索这两个变项间是否有明显的关系存在。例如，以下是表示性别与教育程度间关系的一个双变项的交叉表：

记数数据统计法卡方检验法.

记数数据统计法卡方检验法第八章记数数据统计法一卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。例如，性别分男女，职业分为公务员、教师、工人、......... , 教师职称又分为教授、副教授、……。有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用：拟

合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取样的代表性。我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。

第八章卡方检验#(精选.)

第八章 2 χ 检验一、教学大纲要求（一）掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。（1）四格表2χ检验公式的应用条件；（2）不满足应用条件时的解决办法；（3）配对四格表的2 χ检验。 3. 行?列表的2 χ检验。（二）熟悉内容频数分布拟合优度的2 χ检验。（三）了解内容 1．2 χ分布的图形。 2．四格表的确切概率法。二、教学内容精要 (一) 2 χ检验的用途 2χ检验（Chi-square test ）用途较广，主要用途如下： 1．推断两个率及多个总体率或总体构成比之间有无差别 2．两种属性或两个变量之间有无关联性 3．频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1．2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H （比如0H ：21ππ=）成立的条件下，实际频数与理论频数相差不应该很大，即2 χ值不应该很大，若实际计算出的2 χ值较大，超过了设定的检验水准所对应的界值，则有理由怀疑0H 的真实性，从而拒绝0H ，接受H 1（比如1H ：21ππ≠）。 2．基本公式：()∑ -= T T A 2 2 χ，A 为实际频数（Actual Frequency ）,T 为理论频数（Theoretical Frequency ）。四格表2 χ检验的专用公式正是由此公式推导出来的，用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1．率的抽样误差与标准误样本率与总体率之间存在抽样误差，其度量方法： n p ) 1(ππσ-= ，π为总体率，或 (8-1) n p p S p ) 1(-= ， p 为样本率； (8-2) 2．总体率的可信区间当n 足够大，且p 和1-p 均不太小，p 的抽样分布逼近正态分布。

卡方检验

作业2 卡方测验（一）1.资料：P144习题7.4。 2.数据说明：大麦杂交F2代芒性状表型有钩芒、长芒、短芒三种，测验三种性状是否符合9:3:4比例。 3.结果。 FREQ 过程检验 gouxing 频数百分比百分比 --------------------------------------- 钩芒 348 56.13 56.25 长芒 115 18.55 18.75 短芒 157 25.32 25.00 指定比例的卡方检验 ------------------------- 卡方 0.0409 自由度 2 渐近的 Pr >卡方 0.9798 精确的 Pr >= 卡方 0.9797 样本大小 = 620 4.分析。 H0:三种性状符合9:3:4；H A：不符合。显著水平：α=0.05 υ=2 χ20.05,2=5.99＞χ2.因此接受无效假设，无显著差异。 5．程序代码。 optionps=32767ls=255nocenter; data xiti7_4; x 'F:'; x 'cd "F:\"'; infile 'xiti7_4.csv' dsd; inputgouxing$ zhushu; run; procfreq data=xiti7_4 order=data; weightzhushu; tablesgouxing/nocumtestp=(56.2518.7525);/*ratio of 9:3:4*/ exactpchi; run; （二）1.资料：P144习题7.6。

2.数据说明：某杂交组F2得到四种表型，B_C_，B_cc，bbC_，bbcc。判断四种表型实际观察次数是否符合9:3:3:1的比例，判断是连锁遗传还是独立遗传。 3.结果。 FREQ 过程检验 biaoxing 频数百分比百分比 ---------------------------------------- B-C- 132 58.41 56.25 B-cc 42 18.58 18.75 bbC- 38 16.81 18.75 bbcc 14 6.19 6.25 指定比例的卡方检验 ------------------------- 卡方 0.6431 自由度 3 渐近的 Pr >卡方 0.8865 精确的 Pr >= 卡方 0.8915 样本大小 = 226 4．分析。 H0:四种表型符合9:3:3:1；H A：不符合。显著水平：α=0.05 υ=3 χ20.05,3=7.815＞χ2.因此接受无效假设，无显著差异。 5.程序代码。 optionps=32767 ls=255 nocenter; data xiti7_6; filenamedatafile 'F:\xiti7_6.csv'; infiledatafilefirstobs=9 dsd; lengthbiaoxing $4; inputbiaoxing $ guanchacishu; run; proc freq data=xiti7_6 order=data; weightguanchacishu; tablesbiaoxing / nocumtestp=(56.25 18.75 18.75 6.25);/*ratio of 9:3:3:1*/ exactpchi; run;