如何在SAS中实现R×C列联表的两两比较

合集下载

多个样本及其两两比较的秩和检验SAS程序

多个样本及其两两比较的秩和检验SAS程序

多个样本及其两两比较的秩和检验SAS程序多个样本及其两两比较的秩和检验SAS程序广东医学院预防医学教研室(524023)丁元林孔丹莉秩和检验是医学实践中较为常用的一大类非参数统计方法,目前国内几本较具权威性SAS专著11,22,均介绍了秩和检验的一些SAS程序,宇氏132也作了进一步的探讨和总结,但对于不同资料类型和特征的多个样本比较的秩和检验SAS程序阐述得不够全面,而且几乎未涉及到两两比较的SAS程序,但实际工作者往往对两两比较的结果更为感兴趣。

为此,本文结合实例,根据常见类型资料的特点,给出了多个样本及其两两比较的秩和检验SAS程序。

11成组设计的原始数据多个样本及其两两比较这种类型资料一般为成组设计的定量资料,但各个样本的总体呈偏态分布或方差不齐,且未整理成其他形式(如频数表),检验其总体分布是否相同的常用秩和检验方法是Kruska-l Wallis法,在SAS软件中实现的过程步有以下三种:NPAR1WAY过程、FREQ 过程以及RANK和ANOVA两过程的结合。

各个样本两两比较一般可通过RANK和ANOVA两过程的结合,采用M EANS语句来实现。

对文献142第139页表1中的数据进行Kruska-l Wallis检验及两两比较的SAS程序如下: /*以下为建立数据库*/data dy1;do group=1to3;input x@@;output;end;cards;918016014101211211910162102121310 214215141031121814184113111516510 3171516519319211671441624101316710;/*以下为调用F REQ过程*/proc fr eq;t ables group*x/scores=rank cmh2noprint;/*以下为调用N PAR1WAY过程*/proc npar1way w ilcoxon;class group;v ar x;/*以下为调用RA NK过程*/proc rank data=dy1out=a;v ar x;ranks r;/*以下为调用A NOV A过程*/proc anova;class group;model r=group;means group/lsd;r un;以上程序中调用FREQ过程产生的第二个CMH 统计量、NPAR1WAY过程产生的卡方统计量以及ANOVA过程产生的R2与T 总之积,即为为Kruska-l Wallis检验结果。

多个样本及其两两比较的秩和检验SAS程序

多个样本及其两两比较的秩和检验SAS程序

/ / !以下为调用 3 N 5 O 过程! ; & ’ ! $ ’ & @ + # @ # + >’ ( @ # ) A ; B " ’ ! C AB / / !以下为调用 5 4 8 9 过程! ; & ’ ! & # . C+ # @ # # ’ ( @ B ) ; P # & E ; B " ’ ! C AB ; & # . C $ & / / !以下为调用 : ; < 过程! ; & ’ ! " *+ # @ # B ) % ; ! " # $ $ @ & , # @ B " ’ ! C / ; * ’ + , " & @ & , # @ B " ’ ! C $ $ > / ; " $ * , # . $ @ & , # @ $ @ + , & & + 2 K K ) ; & ( .
!
以上程序中调用 8 6 9 : 过程产生的第二个 T =U 统计 量、 4 5 " 6 ( 2" 7 过程产生的卡方统计量以及
$与 即为为 * " 4 ; < " 过程产生的 6 " + , . / 0 1 总 之积, 检验结果。 过程步中的 规定 2 / 0 0 3 " 4 ; < " = 9 "#43; (R / 3 0 I B G B F D D AR ; I 0 / + B , C D ; S / + G / / !以下为调用 6 " 4 * 过程! ; + B I + / F .? / @ / E ? (B , @ E / D A ; ; S / + G + / F . + / / !以下为调用 " 4 ; < " 过程! 万方数据 ; + B I / F B S / D

R×C列联表资料的统计分析

R×C列联表资料的统计分析
方法选择
定量变量:年龄、红细胞
二值变量:性别(男、女)
多值名义变量:药物类型(A、B、C)、血型 (A、B、AB、O)
多值有序变量:疗效(痊愈、显效、好转、无 效)、临床诊断(Ⅰ级、Ⅱ级、Ⅲ级)、CT诊断 (Ⅰ级、Ⅱ级、Ⅲ级)
双向无序的RC表
药物 类型 A B C 血型: A 8 7 10
胆汁质
13 15 9
抑郁质
7 10 8
粘液质
14 13 15
二、双向无序RC表的统计分析
第一步,建立检验假设。
H0: 3个专业学生的气质类型构成(频数分布) 相同 H1: 3个专业学生的气质类型构成(频数分布) 不全相同 a0.05。
二、双向无序RC表的统计分析
第二步,计算检验统计量。

2
二、双向无序RC表的统计分析
原因变量为二值变量,结果变量为多值 名义变量的2C表
表 12 满族与回族居民血型的频数分布 民族 满族 回族 合计 例数 血型:A 442 369 811 B 483 384 867 O 416 487 903 AB 172 115 287 合计 1513 1355 2868
双向有序且属性不同RC表的统计方法
对于双向有序且属性不同的RC表资料应根据具 体的分析目来确定分析方法:
第一个分析目的,只关心各组结果变量取值之间的差别是
否具有统计学意义,此时,原因变量的有序性就变得无关 紧要了,可将此时的“双向有序RC列联表资料”视为 “结果变量为有序变量的单向有序RC列联表资料”,可 以选用的统计分析方法有秩和检验、Ridit分析和有序变 量的logistic回归分析
双向有序且属性不同RC表的统计方法
第四个分析目的,希望考察各行上的频数分布 是否相同,此时,将此资料视为双向无序的 RC列联表资料,可根据资料具备的前提条件, 2 选用一般 检验或 Fisher精确检验。若P<0.05, 不能认为两有序变量之间有相关关系,而只能 认为各行上的频数分布不同

【宝典】R×C列联表(分类数据)的统计分析方法选择与SPSS实现

【宝典】R×C列联表(分类数据)的统计分析方法选择与SPSS实现

【宝典】R×C列联表(分类数据)的统计分析方法选择与SPSS实现分类资料在医学统计中很常见,有些统计学书上称为计数资料,比如(有效、无效),(发病、不发病),(男、女),血型(A、B、O、AB)等等。

分类资料一般根据频数整理成列联表的形式,一般的列联表多是二维的(也称行列表,或R×C列联表,高维列联表下次讨论),列联表根据变量是否有序可以分为双向无序、单项有序、双向有序列联表,统计方法是不同的,分析如下:一、双向无序列联表(一)成组四格表是指行、列变量均为无序的列联表,例如要研究吸烟和肺癌之间的关系,行变量为是否吸烟:吸烟、不吸烟,列变量为肺癌发病:发病,不发病,如下表:发生肺癌未发生肺癌吸烟a b不吸烟 c d对于这种数据,我们的统计目的是分析行列变量的独立性,即:肺癌发病是否与吸烟有关,可选用的方法有以下两种:1、Pearson卡方检验:基于卡方分布,H0为行、列变量相互独立,SPSS中“分析->描述性统计->交叉表”可实现。

四格表使用条件:专用公式①样本总数大于40;②各个单元格理论值均大于5。

校正公式:①样本总数大于40;②理论值1<T<5;Fisher确切概率法:①样本总数小于40,或T<1,无需选择,软件自动计算成组四格表Fisher。

2、Fisher精确概率:基于超几何分布,当数据不满足Pearson卡方检验时使用。

SPSS 中“分析->描述性统计->交叉表”可实现。

注意SPSS仅提供了2×2表的精确概率,需要计算R×C列联表的精确概率,可以选择精确按钮中的蒙特卡罗近似法实现。

(一)成组R×C表(双向无序)A型B型O型AB型A地区 a b c dB地区 e f j hC地区i j k l1.Pearson卡方检验条件:不能有任何一个格子的理论频数T<1,同时1<T<5的格子数不能超过总格子数的1/5.如若不符合:可以增加研究样本量(通常少用);对理论频数较小的行或者列进行合并或者删除;采用R×C表的Fisher确切概率法(通常采用蒙特卡洛近似法)2.R×C表Fisher确切概率法操作:分析—描述—交叉表—设置好行列变量—点击精确—选择蒙特卡洛。

r语言 三组间两两比较方法

r语言 三组间两两比较方法

在R语言中,有多种方法可以进行三组间的两两比较。

以下是一些常见的方法:1. t检验(pairwise.t.test):当数据满足正态性和方差齐性假设时,可以使用t检验来进行两两比较。

该函数会对每对组进行t检验,计算出每对之间的差异显著性水平和置信区间。

```Rpairwise.t.test(data$group, data$value, p.adjust.method = "bonferroni")```2. 方差分析(ANOVA):如果数据不满足t检验的假设条件,可以使用方差分析来进行两两比较。

可以使用ANOVA函数进行方差分析,然后使用posthoc函数进行多重比较。

```Rmodel <- aov(value ~ group, data = data)posthoc <- TukeyHSD(model)```3. 非参数检验(Kruskal-Wallis检验):当数据不满足正态性和方差齐性假设时,可以使用非参数方法进行两两比较,如Kruskal-Wallis检验。

可以使用kruskal.test函数进行Kruskal-Wallis检验,然后使用pairwise.wilcox.test函数进行多重比较。

```Rkruskal.test(value ~ group, data = data)pairwise.wilcox.test(data$value, data$group, p.adjust.method = "bonferroni")```这些方法都可以用于进行三组间的两两比较,具体应该根据数据的性质和实验设计来选择合适的方法。

在进行多重比较时,通常需要考虑到多重比较校正以控制错误率。

常见的多重比较校正方法包括Bonferroni校正、Holm校正等。

RC列联表资料的统计分析与SAS软件实现

RC列联表资料的统计分析与SAS软件实现

一、调查问卷数据导入SPSS中。数据导入后,可以在SPSS主界面的 数据视图中查看数据。
二、进行列联表分析
1、打开列联表分析对话框
1、打开列联表分析对话框
在SPSS主菜单中,选择“分析”>“表”>“列联表”。这将打开列联表分析 对话框。
2、选择变量
2、选择变量
3、SAS实现
在这个示例中,mydata是包含RC列联表资料的数据集名称,var1和var2是需 要进行卡方检验的两个分类变量。chisq选项告诉PROC FREQ过程执行卡方检验。 运行这个过程后,将会生成一个包含卡方统计量、自由度和p值的输出表。
3、SAS实现
案例分析 为了更好地说明RC列联表资料的统计分析和SAS软件实现,让我们以一个实际 案例为例。在这个案例中,我们有一份包含两个分类变量的RC列联表资料,目的 是检验这两个变量之间的关联性。我们将分别使用Excel和SAS进行分析。
2、统计方法
2、统计方法
对于RC列联表资料,常用的统计方法包括卡方检验、Fisher精确检验、对数 似然比检验等。这些方法可以用来检验两个分类变量之间的独立性,以及判断某 种关联的存在性。根据分析目的和数据特点,选择合适的统计方法是非常重要的。
3、SAS实现
3、SAS实现
在SAS软件中,可以使用PROC FREQ和PROC LOGISTIC等过程来对RC列联表资 料进行统计分析。PROC FREQ过程可以用来进行频数统计和独立性检验,而PROC LOGISTIC过程则可以用来进行关联性分析和效应估计。下面是一个使用PROC FREQ进行卡方检验的示例代码:
三、解读结果
1、频率表
1、频率表
频率表展示了每个变量的单独频率以及不同变量组合的频率。通过查看频率 表,可以了解不同变量之间的关系。

(仅供参考)如何在SAS中实现R×C列联表的两两比较

(仅供参考)如何在SAS中实现R×C列联表的两两比较

A14-如何在SAS中实现R×C列联表的两两比较内容来自网络,侵删在分析R×C列联表时,在卡方检验有统计意义的情况下常常需要做进一步的多重比较。

可以采用的方法为1)卡方分割(具体见本人另外一篇文章《R×C行列表卡方值分割的概念及运用》)将原表卡方值分割成独立的子卡方值,分割后的子卡方值和对应的自由度相加会和原表的卡方值和自由度相等。

2)或者采用彼此之间非独立的两两比较。

但是两两比较的卡方值和对应的自由度相加不会等于原表卡方值和自由度,所以此类比较不能称为卡方分割法。

尽管后者更为灵活但需要调整多重比较的次数以避免增加第一类错误。

本文将具体讲解如何在SAS中实现R×C列联表的两两比较。

1.研究数据-血型和疾病类型假定某医学课题想研究血型(O,A,B)和疾病类型(Peptic Ulcer, Gastric Cancer,Control)是否相互关联, 具体临床数据见表1。

表1:血型和疾病类型行列表Disease TypeBloodType Peptic Ulcer(I)-1 Gastric Cancer(II)-2 Control(III)-3 Total O-1983(14.024)383(4.9139)2892(1.4159)4258A-2679(9.0743)416(4.5484)2625(0.679)3720B-3134(4.6663)84(0.2695)570(0.9519)788Totals17968836087N=87662.初步分析我们先用SAS/PROC FREQ 和PROC CORRESP 先对数据做初步的分析,来判断行列变量之间的关系。

CELLCHI2 选项是计算按公式2-1计算每个单元格在总体值的组成。

2χij ijijji E OE C 2,)(-=(2-1)proc freq data=paper14;weight count;table r*c/chisq cellchi2nopercent;run;proc corresp data=paper14;weight count;les r, c;tabrun;表2 – 卡方检验结果Table of r by cr cFrequencyCell Chi-SquareRow PctCol Pct 123Total198314.02423.0954.733834.91398.9943.3728921.415967.9247.51425826799.074318.2537.814164.548411.1847.1126250.67970.5643.12372031344.666317.017.46840.269510.669.515700.951972.349.36788Total 179688360878766 Statistics for Table of r by cStatistic DF Value Prob ------------------------------------------------------ Chi-Square 4 40.5434 <.0001 Likelihood Ratio Chi-Square 4 40.6401 <.0001 Mantel-Haenszel Chi-Square 1 21.0035 <.0001 Sample Size = 8766从表2中可以看出第1行(血型O)的卡方检验分值在所有行中所占比重最高((14.024+4.9139+1.4159)/40.5434≈50%);第1列(Peptic Ulcer(I))的卡方检验分值在所有列中所占比重最高((14.024+9.0743+4.6663)/40.5434≈68.5%)。

如何用SAS软件正确分析生物医学科研资料XX. R × C列联表资料的统计分析与SAS软件实现(三)

如何用SAS软件正确分析生物医学科研资料XX. R × C列联表资料的统计分析与SAS软件实现(三)

如何用SAS软件正确分析生物医学科研资料XX. R × C列联表资料的统计分析与SAS软件实现(三)王琪;胡良平;柳伟伟【摘要】生物统计学是生物学领域科学研究和实际工作中必不可少的工具,在分子生物学迅速发展的今天,生物统计学更显示出了它的重要性。

实验设计与数据统计分析是现代生物学的基石,是生物学研究者检验假说、寻找模式、建立生物学理论的有利工具,也是生物学研究者探索微观和宏观生物世界的必备基础知识。

对于每天甚至是每时每刻涌现的大量的、以天文数字计量的分子遗传数据,必须借助统计学知识加以分析处理,才能从中获得有意义的信息。

“生物多样性数据分析”是开展生物多样性研究的一个重要方面,数据分析能力的高低极大地影响着我们对各种生态学现象认识的深度和广度。

现在,电子计算机的普及使得生物统计分析过程大大简化,生物统计分析软件包的普及将生物统计学从统计学家的书本里解放了出来,简化了生物统计分析过程,使之成为生物学研究者的常用工具。

本刊特邀军事医学科学院生物医学统计学咨询中心主任胡良平教授,以“如何用 SAS 软件正确分析生物医学科研资料”为题,撰写系列统计学讲座,希望该系列讲座能对生物医学科研工作者有所帮助。

【期刊名称】《中国医药生物技术》【年(卷),期】2012(000)006【总页数】3页(P469-471)【作者】王琪;胡良平;柳伟伟【作者单位】100850 北京,军事医学科学院生物医学统计学咨询中心;100850 北京,军事医学科学院生物医学统计学咨询中心;100850 北京,军事医学科学院生物医学统计学咨询中心【正文语种】中文XX. R × C列联表资料的统计分析与SAS软件实现(三)编者按生物统计学是生物学领域科学研究和实际工作中必不可少的工具,在分子生物学迅速发展的今天,生物统计学更显示出了它的重要性。

实验设计与数据统计分析是现代生物学的基石,是生物学研究者检验假说、寻找模式、建立生物学理论的有利工具,也是生物学研究者探索微观和宏观生物世界的必备基础知识。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A14-如何在SAS中实现R×C列联表的两两比较内容来自网络,侵删在分析R×C列联表时,在卡方检验有统计意义的情况下常常需要做进一步的多重比较。

可以采用的方法为1)卡方分割(具体见本人另外一篇文章《R×C行列表卡方值分割的概念及运用》)将原表卡方值分割成独立的子卡方值,分割后的子卡方值和对应的自由度相加会和原表的卡方值和自由度相等。

2)或者采用彼此之间非独立的两两比较。

但是两两比较的卡方值和对应的自由度相加不会等于原表卡方值和自由度,所以此类比较不能称为卡方分割法。

尽管后者更为灵活但需要调整多重比较的次数以避免增加第一类错误。

本文将具体讲解如何在SAS中实现R×C列联表的两两比较。

1.研究数据-血型和疾病类型假定某医学课题想研究血型(O,A,B)和疾病类型(Peptic Ulcer, Gastric Cancer,Control)是否相互关联, 具体临床数据见表1。

表1:血型和疾病类型行列表Disease TypeBloodType Peptic Ulcer(I)-1 Gastric Cancer(II)-2 Control(III)-3 Total O-1983(14.024)383(4.9139)2892(1.4159)4258A-2679(9.0743)416(4.5484)2625(0.679)3720B-3134(4.6663)84(0.2695)570(0.9519)788Totals17968836087N=87662.初步分析我们先用SAS/PROC FREQ 和PROC CORRESP 先对数据做初步的分析,来判断行列变量之间的关系。

CELLCHI2 选项是计算按公式2-1计算每个单元格在总体值的组成。

2χij ijijji E OE C 2,)(-=(2-1)proc freq data=paper14;weight count;table r*c/chisq cellchi2nopercent;run;proc corresp data=paper14;weight count;les r, c;tabrun;表2 – 卡方检验结果Table of r by cr cFrequencyCell Chi-SquareRow PctCol Pct 123Total198314.02423.0954.733834.91398.9943.3728921.415967.9247.51425826799.074318.2537.814164.548411.1847.1126250.67970.5643.12372031344.666317.017.46840.269510.669.515700.951972.349.36788Total 179688360878766 Statistics for Table of r by cStatistic DF Value Prob ------------------------------------------------------ Chi-Square 4 40.5434 <.0001 Likelihood Ratio Chi-Square 4 40.6401 <.0001 Mantel-Haenszel Chi-Square 1 21.0035 <.0001 Sample Size = 8766从表2中可以看出第1行(血型O)的卡方检验分值在所有行中所占比重最高((14.024+4.9139+1.4159)/40.5434≈50%);第1列(Peptic Ulcer(I))的卡方检验分值在所有列中所占比重最高((14.024+9.0743+4.6663)/40.5434≈68.5%)。

这表明第1行和第1列与其他行列相比有显著不同。

同时,在图1中行1和列1很明显地远离其他行列。

这说明了表1中的行列表行变量(血型)和列变量(疾病类型)并非相互独立(Pearson 检验的P 值<0.0001)。

2χ那么如何运用统计检验来说明血型O 和Peptic Ulcer(I)与其他组存在有统计意义的区别?下面讨论如何运用两两比较来回答这个问题。

3. 在SAS PROC FREQ 中实现两两比较具体做法是:1) 从R×C 行列表中行变量中任取两不同的行和原行列表的列变量组成新的2×C 子行列表,共有⎪⎪次。

分别计算各子表的2χ值。

⎭⎫⎝⎛2R2) 从R×C 行列表中列变量中任取两不同的列和原行列表的行变量组成新的R×2子行列表,共有⎪⎪次。

分别计算各子表的2χ值。

⎭⎫⎝⎛2C3) 最后作根据比较次数做Bonferroni adjustment 。

a)如果只做行变量之间的比较,共⎪⎪次; b)如果只做列变量之间的比较,共 ⎪⎪次;c)如果都做比较,则⎪⎪⎭+次;⎭⎫⎝⎛2R ⎭⎫ ⎝⎛2C ⎫ ⎝⎛2R ⎪⎪⎭⎫⎝⎛2C表1-血型和疾病类型数据的两两比较的SAS 程序如下:proc freq data =paper14; where r in (1,2); weight count; table r*c/chisq ; run ;proc freq data =paper14; where r in (1,3); weight count; table r*c/chisq ; run ;proc freq data =paper14; where r in (2,3); weight count; table r*c/chisq ; run ;proc freq data =paper14; weight count;where c in (1,2); table r*c/chisq ; run ;proc freq data =paper14; weight count;where c in (1,3); table r*c/chisq ; run ;proc freq data =paper14; weight count;where c in (2,3); table r*c/chisq ; run ;6 个子表对应的卡方检验,原P-值,Bonferroni法矫正后的P-值如下:Obs comparison DF Value Raw_P1 12 33.7632 <.00012 2 2 14.9892 0.00063 3 2 1.0091 0.60384 4 2 30.5817 <.00015 5 2 29.6973 <.00016 6 2 5.6361 0.0597Test Raw Bonferroni1 <.0001 <.00012 0.0006 0.00333 0.6038 1.00004 <.0001 <.00015 <.0001 <.00016 0.0597 0.3583即使对原P-值进行保守的Bonferroni法矫正后,检验1,2和4,5都保持了统计意义。

这说明血型O与其他两个行组及Peptic Ulcer(I)与其他两个列组均存在有统计意义的差别。

4.在SAS PROC GENMOD中实现两两比较作为一个有意义的补充,我们也可以在log-linear模型下对行列变量进行上述的两两比较。

不过所得出的卡方为likelihood ratio Chi-square而不是Pearson Chi-square。

原表PROC FREQ 输出的LR卡方检验的结果如下:Obs comparison DF Value Raw_P1 12 33.9019 <.00012 2 2 15.6836 0.00043 3 2 1.0179 0.60114 4 2 30.6379 <.00015 5 2 29.7964 <.00016 6 2 5.6387 0.0596SAS/PROC GENMOD的程序和结果如下:proc genmod data=paper14;class r c;model count=r c r*c / dist=poisson type3;contrast"comparision1: O vs A across Cancer Type"r*c 1 -10 -110,r*c 10 -1 -101;contrast"comparison2: O vs B across Cancer Type"r*c 1 -10000 -110,r*c 10 -1000 -101;contrast"comparison3: A vs B across Cancer Type"r*c 0001 -10 -110,r*c 00010 -1 -101;contrast"comparision4: Peptic Ulcer vs Gastric Cancer across Blood type"r*c 1 -10 -110000 ,r*c 1 -10000 -110 ;contrast"comparision5: Peptic Ulcer vs Control across Blood type"r*c 10 -1 -101000,r*c 10 -1000 -101;contrast"comparison6: Gastric Cancer vs Control Group across Blood type"r*c 01 -10 -11000,r*c 01 -10000 -11;run;Contrast ResultsChi-Contrast DF Square Pr > ChiSq comparision1: O vs A across Cancer Type 2 33.90 <.0001 comparison2: O vs B across Cancer Type 2 15.68 0.0004 comparison3: A vs B across Cancer Type 2 1.02 0.6011 comparision4: Peptic Ulcer vs Gastric Cancer across Blood type 2 30.64 <.0001comparision5: Peptic Ulcer vs Control across Blood type 2 29.80 <.0001 comparison6: Gastric Cancer vs Control Group across Blood type 2 5.64 0.0596SAS/PROC FREQ 和 SAS/PROC GENMOD 的结果一致。

相关文档
最新文档