SAS卡方检验(正式)

合集下载

SPSS非参数检验之一卡方检验

SPSS非参数检验之一卡方检验一、卡方检验的概念和原理卡方检验是一种常用的非参数检验方法，用于检验两个或多个分类变量之间的关联性。

它利用实际观察频数与理论频数之间的差异，来判断两个变量是否独立。

卡方检验的原理基于卡方分布，在理论上，如果两个变量是独立的，那么它们的观测频数应该等于理论频数。

卡方检验通过计算卡方值来度量观察频数与理论频数之间的差异程度，进而判断两个变量是否独立。

卡方值的计算公式为：卡方值=Σ(（观察频数-理论频数）²/理论频数）其中，观察频数为实际观察到的频数，理论频数为理论上计算得到的频数。

二、卡方检验的步骤卡方检验的步骤包括以下几个方面：1.建立假设：首先需要建立原假设和备择假设。

原假设（H0）是两个变量之间独立，备择假设（H1）是两个变量之间存在关联。

2.计算理论频数：根据原假设和已知数据，计算出各组的理论频数。

3.计算卡方值：利用卡方值的计算公式，计算观察频数与理论频数之间的差异。

4.计算自由度：自由度的计算公式为自由度=(行数-1)*(列数-1)。

5.查表或计算P值：根据卡方值和自由度，在卡方分布表中查找对应的临界值，或者利用计算机软件计算P值。

6.判断结果：判断P值与显著性水平的关系，如果P值小于显著性水平，则拒绝原假设，认为两个变量存在关联；如果P值大于显著性水平，则接受原假设，认为两个变量是独立的。

三、卡方检验在SPSS中的应用在SPSS软件中，进行卡方检验的操作相对简单。

下面以一个具体的案例来说明：假设我们有一份数据，包括了男性和女性在健康习惯（吸烟和不吸烟）方面的调查结果。

我们想要检验性别与吸烟习惯之间是否存在关联。

1.打开SPSS软件，导入数据。

2.选择"分析"菜单，点击"拟合度优度检验"。

3.在弹出的对话框中，将两个变量（性别和吸烟习惯）拖入"因子"栏目中。

4.点击"统计"按钮，勾选"卡方拟合度"。

SAS002卡方检验全章+总结

思路：计数资料→独立四格表→n≥40 且有 T 在[1,5)之间→连续校正卡方或 Fisher 精确概率程序： data A;
2 / 14
input r c f @@; cards; 1 1 46 1 2 6 2 1 18 2 2 8 ; proc freq; tables r*c/chisq nopercent nocol expected; weight f; run;
5 / 14
结果： H0：两种检测方法结果无差别。S=7.1429；p=0.0075；p＜0.05，拒绝 H0。（样本阳性率比较，免疫荧光检测结果阳性率更高），故可以认为两种检测方法检测结果不同，免疫荧光法的阳性检测率更高。注意：kappa 为一致性检验 0‐0.4 一致性差；0.4‐0.75 一致性一般；0.75‐1 一致性好。一致性越高则两种处理间的差异就越小。 4.R*C 表——双向无序——样本率比较——基本卡方+两两比较例 7‐6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效，资料见表 7‐8。问三种疗法的有效率有无差别？表 7‐8 三种疗法有效率的比较有效率疗法有效无效合计（%）物理疗法组药物治疗组外用膏药组合计 199 164 118 481 7 18 26 51 206 182 144 532 96.60 90.11 81.94 90.41
结果： H0：两组新生儿 HBV 的总体感染率无差别。Fisher 精确概率双侧检验 p=0.1210；p≥0.05，不拒绝 H0。尚不能认为预防注射与非预防注射的新生儿 HBV 的感染率不等。
4 / 14
3.配对四格表——利用 bc 的卡方检验（McNemar's Test）例 7‐3 某实验室分别用乳胶凝集法和免疫荧光法对 58 名可疑系统红斑狼疮患者血清中抗核抗体进行测定，结果见表 7‐3。问两种方法的检测结果有无差别？表 7‐3 两种方法的检测结果免疫荧光法乳胶凝集法＋－ 12（ b） 11（ a） c 33（ d ） 2（） 13 45 合计

卡方检验

对治疗流鼻涕的效果，与对照药B（胆麻片组）
对比，其效果如下
Data hu41; Input center treat $ response $ count@@; Cards; 1 A Y 12 1 A N 18 1 B Y 15 1 B N 15 2 A Y 31 2 A N 9 2 B Y 34 2 B N 6 3 A Y 16 3 A N 14 3 B Y 15 3 B N 15 ; Proc freq order=data; Weight count; Tables center*treat*response/chisq CMH; Run;
C，列因素为D。
统计分析选项
◆CHISQ
确概率。
χ2检验,对于2×2表，给出Fisher精
◆AGREE 进行配对χ2检验。
◆EXACT 对大于2×2列联表计算Fisher精确
概率。同时也给出CHISQ选项的全部统计量。
◆TREND 进行趋势卡方检验
例4.1：
在三所医院中考察某感冒药A（江剪刀草组）
并在选项中指定所要计算的统计量。
列联表的构成:
只有一个因素，将该因素的变量名作为表达式；两个或以上因素，各因素之间以星号“*”相连。两个以上因素，将排在最后的两个变量作为列联表的行和列，而其它排在前面的因素则作为分层因素对待。比如表达式 A*B*C*D，SAS 绘制出 k（等于 A、
B两因素水平数的乘积）个交叉表，表格的行因素为
FREQ过程基本格式：
PROC FREQ [ 选项 ];
TABLES 请求式/[选项]; 指定行变量和列变量 WEIGHT <变量名>; 指定频数变量名 BY <变量名列> ] ; 按变量名列分组统计 RUN；

sas卡方检验编程语句课件

nocol; weight count; run;
学习交流PPT
17
结果
学习交流PPT
18
本例各格子期望值均大于5，选用Chi-Square的2 统计量及其显著水平，即2=17.907，P=0.0001，按 =0.05的检验水准拒受H0，认为三地花生黄曲霉素B1污染率有差别。
学习交流PPT
19
学习交流PPT
13
例2 某省三地区花生黄曲霉素B1污染率比较
地区未污染污染合计污染率（%）
甲 6 23
乙 30 14
丙
8
3
29 79.3 44 31.8 11 27.3
合计 44 40
84 47.6
学习交流PPT
14
程序1：一般输入方法
data ex2; input r c count@@; cards; 1 1 6 1 2 23 2 1 30 2 2 14 3 1 8 3 2 3 ;
Run;
此法适用于b+c<=40的时候，使用公式编辑法计学习交算流PPT2统计量及对应的P值。 24
学习交流PPT
25
此部分结果是普通四格表2检验的结果，
不适于配对2检验使学习交用流PP。T
26
1960年Cohen等提出用Kappa值作为评价判断的一致性程度的指标。当两个诊断完全一致时，Kappa值为1。当观测一致率大于期望一致率时，Kappa值为正数，且 Kappa值越大，说明一致性越好。当观察一致率小于期望一致率时，Kappa值为负数，这种情况一般来说比较少见。根据边缘概率的计算，Kappa值的范围值应在-1~1之间。 Kappa≥0.75两者一致性较好；0.75>Kappa≥0.4两者一致性一般；Kappa<0.4两者一致性较差。

13.1.2 四格表卡方检验的SAS程序_SAS统计分析与应用从入门到精通_[共4页]

220 SAS 统计分析与应用从入门到精通为方便起见，通过四栺表的基本数据即实际数（a ，b ，c ，d ）直接计算，此时行合计可写为（a+b ）和（c+d ），列合计写为（a+c ）和（b+d ），以a 、b 、c 、d 改写计算理论数代入χ2公式，化简后得到四栺表专用公式如下：22()()()()()ad bc a b c d a c b d χ-=++++ 同理，代入连续性校正χ2公式，可得到校正的专用公式如下：22(/2)()()()()ad bc n na b c d a c b d χ--=++++13.1.2 四格表卡方检验的SAS 程序在SAS/STAT 模块中，FREQ 、TABULATE 和SUMMARY 等过程可用于分类资料的统计描述，其中FREQ 过程兼具统计描述和统计推断的功能，可对分类变量计算频数分布，产生从一维到n 维的频数表和列联表；对于二维表，可迚行χ2检验；对于三维表，可作Mentel-Hanszel 分层分析。

FREQ 过程是SAS 用于分析分类资料的一个常用过程。

下面介绍FREQ 过程的语句及其栺式。

FREQ 过程的语句基本栺式如下：Proc freq data= order= ;Table 分类变量*分类变量/ <Ooptions>;Weight 变量;Run;各语句选项说明如下。

DATA ＝数据集：觃定PROC FREQ 语句使用的数据集。

ORDER ＝FREQ ，按频数递减顺序排列；ORDER ＝DATA ，按数据集中出现的顺序排列；ORDER＝INTERNAL ，按内部值排列(缺省)；ORDER ＝FORMATTED ，按外部栺式值排列。

Table 语句指定构成表栺的变量和表栺结构。

表栺的结构由变量个数和变量排列顺序决定，一个table 语句允许列出多个表栺结构。

PROC FREQ 过程中可以有多条TABLES 语句，TABLES 语句后面可接多个表栺请求式，每个请求式可包含仸何数量的变量，从而得到所需的表栺。

SPSS学习系列24. 卡方检验

24. 卡方检验卡方检验，是针对无序分类变量的一种非参数检验，其理论依据是：实际观察频数f 0与理论频数f e （又称期望频数）之差的平方再除以理论频数所得的统计量，近似服从2χ分布，即）（n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异，二者差异越小，2χ值越小。

卡方检验要求：（1）分类相互排斥，互不包容；（2）观察值相互独立；（3）样本容量不宜太小，理论频数≥5，否则需要进行校正（合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值）。

卡方校正公式为：∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途：（1）检验某连续变量的数据是否服从某种分布（拟合优度检验）；（2）检验某分类变量各类的出现概率是否等于指定概率；（3）检验两个分类变量是否相互独立（关联性检验）；（4）检验控制某几个分类因素之后，其余两个分类变量是否相互独立；（5）检验两种方法的结果是否一致，例如两种方法对同一批人进行诊断，其结果是否一致。

（一）检验单样本某水平概率是否等于某指定概率一、单样本案例例如，检验彩票中奖号码的分布是否服从均匀分布（概率=某常值）；检验某产品市场份额是否比以前更大；检验某疾病的发病率是否比以前降低。

有数据文件：检验“性别”的男女比例是否相同（各占1/2）。

1. 【分析】——【非参数检验】——【单样本】，打开“单样本非参数检验”窗口，【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面，勾选“使用定制字段分配”，将变量“性别”选入【检验字段】框；注意：变量“性别”的度量标准必须改为“名义”类型。

3. 【设置】界面，选择“自定义检验”，勾选“比较观察可能性和假设可能性（卡方检验）”；4. 点【选项】，打开“卡方检验选项”子窗口，本例要检验男女概率都=0.5，勾选“所有类别概率相等”；注：若有类别概率不等，需要勾选“自定义期望概率”，在其表中设置各类别水平及相应概率。

SAS的卡方检验(正式)

概述
• 前面已介绍了两个率比较的检验，在观察例数不够大或拟对多个率进行比较时，检验就不适宜了，因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。 • 卡方检验是用途很广的一种假设检验方法，这里我们主要学习它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
四格表卡方检验的SAS程序
• DATA＝数据集：规定PROC FREQ语句使用的数据集； • ORDER＝FREQ，按频数递减顺序排列；ORDER＝ DATA，按数据集中出现的顺序排列；ORDER＝ INTERNAL，按内部值排列(缺省)；ORDER＝ FORMATTED，按外部格式值排列； • Table语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定，一个table语句允许列出多个表格结构。PROC FREQ过程中可有多条TABLES 语句，TABLES语句后可接多个表格请求式，每个请求式可包含任何数量的变量，从而得到所需的BLES语句缺省，则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时，若需某变量的一维频数，FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比；若需二维频数表，FREQ产生交叉分组列表，即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。 • 请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中，如： • TABLES A*(B C)；等价于TABLES A*B A*C； • TABLES (A-C)*D；等价于TABLES A*D B*D C*D；
四格表卡方检验的SAS程序
• EXPECTED给出期望频数。 • DEVIATION给出每格的实际频数与期望频数的差值。 • CELLCHISQ给出每格对总c2的贡献，即计算每格的(实际频数-期望频数)2/期望频数。 • CUMCOL给出累积列百分数。 • NOFREQ不给出列联表中的格频数。 • NOPERCENT不给出列联表中的格百分数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

四格表卡方检验的SAS程序
• 如果TABLES语句缺省，则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时，若需某变量的一维频数，FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比；若需二维频数表，FREQ产生交叉分组列表，即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。
• FREQ过程的语句基本格式如下： Proc freq data= order= ; Table 分类变量*分类变量/ <Ooptions>; Weight 变量; Run;
四格表卡方检验的SAS程序
• DATA＝数据集：规定PROC FREQ语句使用的数据集； • ORDER＝FREQ，按频数递减顺序排列；ORDER＝

四格表卡方检验的SAS程序
• MEASURES对每层的二维表计算一系列关联指标及相应的标准误，包括Pearson和Spearman相关系数，以及 Gamma和Kendall系数等。对于2×2表，还给出常用的危险度指标及其标准误。
• CMH 给出Cochran-Mantel-Haenszel统计量，可检验在调整了TABLES语句中其它变量后，行变量与列变量之间的关联程度。对于2×2表，FREQ过程给出相对危险度估计及其可信区间，还给出各层关联度指标是否齐性的 Breslow检验。
据集。如果TABLES语句中不止一个请求式，数据集的内容相应于TABLES语句中最后一个请求。 • CHISQ对每层作c2检验，包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标包括Phi系数、列联系数和Cramer’s V。对于2×2 表，给出Fisher精确概率。 • AGREE 进行配对c 2检验。 • EXACT 对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。
概述
• 前面已介绍了两个率比较的检验，在观察例数不够大或拟对多个率进行比较时，检验就不适宜了，因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。
• 卡方检验是用途很广的一种假设检验方法，这里我们主要学习它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
SAS
卡方检验
华中科技大学公卫学院流行病与卫生统计系
学习目标
• 掌握四格表普通卡方检验和配对卡方检验方法以及相应的 SAS程序；
• 了解FREQ过程语句格式； • 熟悉R×C表资料的分类类型以及相应的统计检验方法； • 掌握双向无序R×C表资料检验以及SAS程序； • 掌握单向有序R×C表资料检验以及SAS程序； • 掌握趋势卡方检验方法以及SAS程序； • 掌握分层R×C表的分析以及SAS程序；
• ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。
• ALPHA＝p给出检验水准。缺省为0.05。
四格表卡方检验的SAS程序
• EXPECTED给出期望频数。 • DEVIATION给出每格的实际频数与期望频
数的差值。 • CELLCHISQ给出每格对总c2的贡献，即
计算每格的(实际频数-期望频数)2/期望频数。 • CUMCOL给出累积列百分数。 • NOFREQ不给出列联表中的格频数。 • NOPERCENT不给出列联表中的格百分数。
四格表卡方检验的SAS程序
• NOROW不给出列联表中各格的行百分数。 • NOCOL不给出列联表中各格的列百分数。 • NOCUM不给出频数表的累积频数和累积百分数。 • NOPRINT不给出表格，但给出CHISQ、MEASURES或
• 当表中只有２个定性指标时，称为２维列联表；有３个或３个以上定性指标时，称为多维列联表。常用R、C表示２维列联表的行数和列数，并称为R×C表；当R=C=２时，称为２×２表（或四格表）。２×２表看起来很简单，但根据资料所具备的条件有许多不同的处理方法。
四格表卡方检验的SAS程序
• 在SAS/STAT模块中FREQ、TABULATE和SUMMARY 等过程可用于分类资料的统计描述，其中FREQ过程兼具统计描述和统计推断的功能，对分类变量计算频数分布，产生从一维到n维的频数表和列联表；对于二维表，可进行2检验，对于三维表，可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本节将先向大家介绍FREQ过程的语句及其格式。
DATA，按数据集中出现的顺序排列；ORDER＝ INTERNAL，按内部值排列(缺省)；ORDER＝ FORMATTED，按外部格式值排列； • Table语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定，一个table语句允许列出多个表格结构。PROC FREQ过程中可有多条TABLES 语句，TABLES语句后可接多个表格请求式，每个请求式可包含任何数量的变量，从而得到所需的表格。
四格表资料
• 定性指标分为有序的（如：疗效分为“治愈、显效、好转、无效、死亡”）和名义的（如：血型分为“O、A、B、 AB”型）２类，对于每１个受试者来说，有序指标的观测结果只能是该有序指标若干等级中的１级（如某人的疗效为“显效”）；名义指标的观测结果只能是该名义指标若干标志中的１个（如某人的血型为Ｂ型），显然，无法像处理定量指标那样去直接分析定性指标，故这类资料常被整理成列联表的形式后再进行分析。
• 请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中，如：
• TABLES A*(B C)；等价于TABLES A*B A*C； • TABLES (A-C)*D；等价于TABLES A*D B*D C*D；
四格表卡方检验的SAS程序
• 下列选项可用于TABLES语句中“/”的后面： • OUT＝数据集：建立一个包含变量值和频数计数的输出数