第5章列联表分析与对数线性模型

合集下载

对数线性模型

对于分类数据的分析，最简单也是最广泛使用的是卡方检验，但卡方检验在处理分类数据时，有两个局限：1.卡方检验只能简单描述变量间的相关关系，而无法分析出具体的因果关系或变量间相互作用（效应）大小2.卡方检验通常用于2*2列联表，而对于高维列联表，则无法系统的评价变量间的关系，而对数线性模型则是分析高维列联表的常用方法。

基于以上问题，我们除了可以使用Logistic模型之外，还可以使用对数线性模型进行分析。

对数线性模型的结构类似于方差分析，思想也和方差分析一样，不同的是方差分析用于连续变量，而对数线性模型用于分类变量。

在方差分析中，观测值y 的变异由各因素的主效应、各因素之间的交互效应、随机误差三者之和组成。

而对于分类变量也可以采用这种方法进行分解，只不过此时的观测值y为频数而不是实际的观测值，最终观测值变异的组成也不是相加关系，而是乘积关系。

以两个分类变量α、β为例:M ij代表第i行第j列的频数αi代表变量α的主效应βj代表变量β的主效应(αβ)ij代表变量αβ的交互作用εij代表随机误差分类数据的频数分布一般分为多项式分布、二项式分布、泊松分布，取值在0—+∞之间，因此等式两边都取其对数ln，这样可以使期望频数取值在-∞—+∞，这就是所谓的对数线性模型。

模型的独立参数和自由度：独立参数个数=分类数-限制条件数数据提供的信息量=列联表中网格的数量模型自由度=信息量-独立参数个数对数线性模型的一个假设前提是：每个分类变量各水平的效应之和等于0========================================== ===对数线性模型的统计检验：对数线性模型的假设检验都是基于Pearson卡方检验和似然比卡方检验L2，当样本规模较大时，这两个统计值很接近，但似然比卡方更加稳健1.对模型的整体检验也就是拟合优度检验，两种卡方的零假设是：检验模型的频数估计与观测频数无差异，也就是拟合度良好2.分层效应检验类似于逐步回归的筛选自变量，分层效应检验就是逐步筛选交互作用，每剔除一种交互作用，就检验一次，主要是：某一阶及更高阶所有交互作用项的集体检验，检验是否显著表明这一阶及更高阶中是否至少有一项分类的效应是有意义的。

列联表的对数线性模型

列联表的对数线性模型理堑/壁窭对数线性模型■孙凤一,问题的提出我们在进行属性数据处理时,常常运用列联表反映变量之间的联合分布.当列联表中包含个变时,被称作二维列联表;列联表中包含二个变量时,则被称作二维列联表.__维或高维列联表亦可称作多维列联表.无论是简单的列联表还足复杂的列联表,其中所自'频数之间分布的关联都町以分解为两种效应:一种反映了变量自身的频数分布影响,称之为卞效应;另一种反映变量之间关联所产牛的效应,称之为交互效应.对于两个属性变节构成的频数列联表是一张二维列联表,其主效应有两个,交效应只有一个.当变最数增加时,交互的维数就会增加,相当于多张=维列联表;同样当变鼍中的分类数增加时,每一张■维列联表也会变大.但是不论变_早=数怎样增加或变最中的分类数怎样增加,仍然町以将整个频数分布分解为主效臆和交互效应,只不过两类效麻各自的项数有所增加而已,尤其是交钉效应的项数会增加得更快.常规频数表统计方法通常只分析I埘个变量之间的联系,如受教育程度与生活满意度的列联表,我们以直接从列联表的分布中读取主效应和交互效应.然而,进行多个变世的属性分析时,常规统汁力法就尢法把握变量之间的关系了在实际研究中,研究者通常采用一次H分析两个变量之问的交且表,经过多个两交互分析,氽图}=I}拼接成多个分类变量之I1_lJ复杂关系的帑体.尽管这种做法d土能得到?些信息,然而止如多个简单同IJ]并能代替多元回归一样,这种缺乏综合性的分析方式足不可能以多个个另IJ分析叠加出整怵的多尤联系的.特别足由于整个频数分布被分成多张二维交互表,只能大致分析每一张二维交互表的主效幢祠】交且效应,更多变量之i'nI的联合交互效应(或岛阶交q作)将无法分析,然而,正是联合交1f.效嘘才真正反映变世之川的关联.IJ(】g—linear模犁是一种有效处理列联丧信息I的统汁t万法,令文运用耍例埘该方法的由此uJ推算:譬,和俭怯及常用F1J=点(2)的模型形式作一讨论.IH二,L.gliar模型式(2)意味着任何单元格中的预期l诎立性检验频数是由之相关的边际次数决定的.首先以一个例子来理解议.logli一倘若HO为真,则表中的条件次数应是模型的基本要素.表1是英国19721预期次数(1),但表中的实际次数却是f.年的职业流动表,其中行变黄为父亲的这里我们把全部的"f-F"相加起来,取平职业,列变量为儿子的职业.通过职业流方和,以避免正负值相互抵f肖的问题.×动表我们町以J,解一个社会职业上下流越大,原似设正确的可能性越小,也即在动的渠道是甭通畅,这也是考察礼会运I总体中RC越uf能是相关的,反之1行机制足否正常的重要指标..I则反是.我们以R表示行变量(父亲的职2.1oglinear模型的参数估计业),C表示列变量(儿子的职).R的以组频数作为因变错,行和列的分下标为i,j:1,2…I;C的下标为j'j_l,2J类作虚拟自变龟所建立的回归模型即为…J.通常R代表解释变请,C代表结果jxII数线性回归模型,亦称泊松回力'程:1变量.c.代表第i行第J列的观察频数FlIlog(Fii)13o+13Rt+13R+.''+B4c4代表预期频数.所谓预期次数足指存总埘数线性模型有一套专用符号系j体If1两个变情没有关系的前提下,表l统,上式可以表示为:中每单元格所应有的次数10g(F?)=h+h,"++(3)独性检验统汁量为X2,对于二变其中Fii代表预期频数,i=1,2,……,节总体来随,原假没是R-L.iC不相关;;j=1,2,……J.是总均值,是行边缘备择假设足R与C相关,公式如下:l(r0wmargina1)效应,是列边缘(∞l一一,,umnmargina1)效应,"是行列交互作x''(1)用,交可作用反映的是行与列之间的相自由度df_(I-1I)fJ一11关.其巾f是实际7欠数,F是预期次数.{如何反映行边缘效应和列边缘效应{倘若R与c确实是不相关的,则由.个l及其交互作用呢?首先需要对变量进行i 随机样本中所得的条件次数,理应显示『虚拟化处理n对于对数线性模型,常常采Rc足不相关的;也就是说F和F.用0总合限制,办称为方差编码,如B1十所占的比例膻该相同,而I.12l和F所占p2=O,则p1-B2.如:的比例也卡H同n邮:∑.hill-∑,.∑,∑.lIl:oF::—;f+.n{"有(卜1)个参数;有卜1个参:岛:!数;,有(I一1)x(J-1)个参数f+-nf.z这样我ffJ就可以运用(3)I毫一——j:兰些堕查……——式仙汁"变,列变量交_———十]—_『T—_一F]作用对分组频数的影响.———_r-]—_『—厂—]…i]丽fI:州_,j_姒H.lJ.IJ々!i238Il59『59I36f13l505从表2可以发现,I一0g一2r『J铷f34If456J313I】9622f1328linear模与线性回归模:}领"引.j").61}60j有很大的不川,突出表现为fjif术i261i499l【们l33i26875649g2234776"iI'-I冈变IIHI运:农I1I1l;Ii6uI"}'】甜～止互二叵『]亘工j_互工:工:堕曼r果变量,这意味着结果变贳和数据来坪于李沛~(20o01J《社会研究的统计应用》,社会科学文献解释变同时出现在loglin—df版社,I)32522缱纠楗镶表2英国1972年职业流动方差编码分组频率父职业子职业I{lR2R3R4ClC2C3C4jll1lJIJUl【JUlJ34l2l0l0(JlOl1O3373l00l0lO002614l0(】OllO00645l—1一l—l—JlO0015912l0O00l0045622Ol00Ol005lO320Ol0Ol0fJ49942OO0l0l009852—l—l一l—l0l005913l000O0l03l3230l0000l0l06l3300l0()Ol0959430O0l(】0l02l153一l—l一l—l0【】lO36l4l000O00ll96240l00O00l6023400lO000l93544OO0I00Ol23454一1—I一l—l000ll315ll0nll—1—l22250OO0—l—l—1一1433500lf】—l—l一ll3345000l—l—l—l—ll6955一l一l一l—l—l—l一1—l ear模型中,这就使得研究者能够从模型参数推断出■者之问的关系;Loglinear 模型经常包含许多参数,研究者可将其分为有意义和无意义的参数,在实际应用中,大量有意义的参数都是变量有交互作用的参数.如何解释参数的影响作用呢?我们需要借助发生比率来反映.发生比率是指交]彳去同两行}l'不㈣列的比率之比如层白领之子和_尢技术监领之子成为上层[j领或无技术蓝领之发生比率是:0-暑=2?.6836/935fI/…如果单就交互表言,横向或纵向可分比受制r行列合汁之分布,不其町比性.如表1单看代上层白领的流入率,会发现其很多来自蓝领背景;但从行合计可看到,这是由于父代蓝领远多f白领之故.以上的发生比是运用观察值计算出来的,而理沦或模型的发,卜比则需耍用交互作用参数箅出,例如0={l_:一:cpfl】:+44"一『4:一r)(4)程(4)是饱和模型,即观察频数与期望频数完全一样,观察和理论的发尘比相等.们对非饱干『I模噩!』言,沦的发生比有着更蕈耍的作用.可以说,对数线性分析的主要用途在于检验和清除经验发牛比中的杂音.除饱和模型外,还有许多非饱和模型.这里介绍常见的几种:(1)独模型由假定交互作用为0得到:Log(Fi.)=+.+(5)即当衍变量列变量独立时,类别频数只取决于行合汁与列_△计的分布(■者的乘积).(2)准独立模型(quasi—independence) Log(1',i.J=+."+."+8(6)其中{j是埘角线各类的参数.我们观察表2的英田职业流动数据,可以发现对角线的单元格的数值是比较大的,这数值反映了"继承"的特点,人们希将这种特征分离出束,进一步讨论其中所包含的信息,因此假定除了丰对角线以外的行变量和硎变摄是独立的,我们称其为准独立模3.参数估计与拟台优废枪验l,oglinear模型的参数估汁足非线性模,这类模犁进行参数估汁的最好力法足檄大似然估计运用极大似然估汁法的核心是需要lr解样奉的分布特征我们这里时论的列联表建模,主要集中在二:J_!j!分布,泊松分布和多项式分布23统计%决策,;理论{…一2006年第12期(总第227期)埘数线性模型的统汁检验包括两种主要检验:(1)埘于假设模的整休检验;(2)单个参数估计的检验.对于假设模型的整体拟合优度检验包括对数似然比f÷力'和皮尔逊卡方检验.对数似然比卡方检验崽想是指对数线性模型常以饱和模型的对数似然比为基准,计算埘数似然比,衡量非饱和模型的拟合优度(或劣度).加入用Is表示饱和模础的似然,IIr表示非饱和模型的似然,那么对数似然比卡方就足:lJ(F=-21.g():2(∑∑Fiilog(F=-21Fii(1i7(p)og()=2(l((p)L.i;Ij=IU 当交叉表的数据不稀疏(审格少HT-均组频最好不小于7),这个统汁量符合卡方分布.自由度是交叉表的分组数减参数数目.如此定义的对数似然比,反映模型与数据的差距,当然越小越好.单个参数估汁的检验,有单项效应检验和单个参数估汁的检验.项敏应检验反映的足如果从模型中撤销…个效应以后时似然比的影响,称为偏关联检验(to.slsofPARTIAIassocia—tions)埘r单个参数估计的榆验我们用标准正态分布检验z.(作者单位/清华大学社会学系)(责任编辑/李友平)。

08列联表及对数线性模型

下面就是SPSS计算机对于这个问题的输出
Chi-Square Tests Value 20.456a 21.190 20.713 20.290
b
df 2 2 1
Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases
•研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。 •这需要形式上的检验
二维列联表的检验
• 下面表是把该例的三维表简化成只有收入和观点的二维表(这是SPSS自动转化的:Analyze-Descriptive StatisticsCrosstabs-…..).
(多项分布)对数线性模型
• 注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的, • 只有事先固定一个参数值(比如 1=0),或者设定类似于Si=0这样的约束，才可能估计出各个的值。 • 没有约束，这些参数是估计不出来的。
（多项分布）对数线性模型
• 二维列联表的更完全的对数线性模型为
二维列联表的检验
• 聪明的同学必然会问，既然有精确检验为什么还要用近似的2检验呢？ • 这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的2统计量。而列联表的有关检验也和2检验联系起来了。
具体运算：先加权，加权之后，按照次序选 Analyze－Descriptive Statistics－Crosstabs。在打开的对话框中，把opinion和income分别选入 Row（行）和Column（列）；至于哪个放入行或哪个放入列是没有关系的。如果要Fisher精确检验则可以点Exact，另外在 Statistics中选择Chi-square，以得到2检验结果。最后点击OK之后，就得到有关Pearson 2统计量、似然比2统计量以及Fisher统计量的输出了(这里的Sig就是p-值)。

对数线性模型

此模型包括主效应、因素A与B的交互作用，称为饱和模型(saturated model)。
如果模型中的交互项为0，则模型为
此模型称为不饱和模型(unsaturated model)或简约模型(reduced model)。
在对数线性模型中，通过交互效应项反映各因素是否有关及其效应大小。
•对数线性模型不区分各因素为因变量和自变量，综合考虑
通过迭代法估计一组参数（0， 1 ， 2 ….. m），使L达到最大。
4.模型及自变量的统计检验（1）模型检验（拟合优度检验）：当P>0.05，说明可以
接受拟合的模型。
•似然比检验（the likelihood ratio test）
•Pearson卡方检验
评价模型拟和的好坏：大多数单元格的标准化残差或调整残差的绝对值小于2。
四种独立性间的关系
•若A、B、C相互独立，则一定有A与B、C联合独立，B与A、
C联合独立，且C与A、B联合独立。
•若C与A、B联合独立，则一定有C与A、C与B边际独立，并有给定A，C与B条件独立；给定B，C与A条件独立。 •注意：若A、B条件独立，则不一定有A、B边际独立；A、 B边际独立；也不一定有A、B条件独立。
结论：
生育史与工作姿势无关，与是否子宫后倾也无关，但工作姿势(是坐姿还是立姿)与子宫是否后倾有关，不过这种关系不受生育史状态影响(即有、无生育史并不影响工作姿势与子宫后倾的关系)。
变量间的四种独立性
• 边际独立(marginally independent)：不考虑 A的影响下，
X与Y对给定Z条件独立，此资料属于条件独立模型（XZ，YZ）。
ORXY=(7/42)/(76/849)=1.86

对数线性模型

B
25
2、统计量
似然卡方比，根据相关计算，看原假设是否成立。贝叶斯信息标准，不同模型而言越小的BIC越好。
B
26
3、对数线性模型的统计检验
四种主要检验： 1、对于假设模型的整体检验； 2、分层效应的检验； 3、单项效应的检验； 4、单个参数估计的检验。
B
27
对数线性模型的统计检验
1、对于假设模型的整体检验采用似然比卡方检验（likelihood-ratio chi-square test，标
B
17
通过上组式子，我们可以计算出线性模型等式右侧的所有参数值。 A因素效应是行平均值与总平均值之差 B因素效应是列平均值与总平均值之差交互效应计算结果表示在除去所有其他分布效应之后两个因素之间
的净关联。
B
18
常数项只受样本规模和交互单元数的影响；
主效应项反映的是各因素内部类别频数分布的特征，是在总平均频数基础上的“补差”；
B
31
对数线性模型的统计检验
举例说明：
由图可知，自由度变为1，L2由0增大到10.284，显著性水平α为0.01（P）（拒绝原假设），说明简略模型和饱和模型存在十分显著的差异，即拟合程度受到很大影响。
显著=不能剔除该交互因素在因素很多的复杂饱和模型中，通过此方法删减多个不显著效应项来形成简略模型。
极大似然估计所要解决的问题是：选择参数Ɵ，使已知数据在某种意义下最可能出现。某种意义指的是似然函数最大，此处似然函数就是概率密度函数。也就是经常提到的“模型已知，参数未定”。
B
22
二者的区别就是，后者需要知道概率密度函数。最小二乘法要的是求出最优的那个参数，而极大似然要求出概率最大（最可能出现的）参数。举个例子，生活中我们一个着眼最合理是哪一个，一个着眼于最可能的是哪一个（极大似然法）当总体服从正态分布时，二者是一样的。

对数线性模型

对数线性模型的统计检验
案例
二阶以上 (简略模型)
一阶以上
一阶二阶
对数线性模型的统计检验
分层检验提供了模型L2的分解。
第一种分层检验中，一阶及以上所有效应都从模型中删除，就会使简略模型的L2增加到13.142，而第二种分层检验告诉我们，这个L2的增量是一阶效应L2 2.858与二阶效应L2 10.284之和。
2、比数比
比数比是对数线性模型的基础，而比数比又是由比数计算而来。那么什么叫做比数呢？比数是一个事件发生的概率与其不发生概率之比,测量了一个事件发生的可能性。这个数值越高说明结果2相对于结果1发生的可能性就越高。
Fij代表某模型fij的期望值，令πij 代表与单元格（i , j）有关的期望概率上表可转化为
对数线性模型的统计检验
公式：
其中
为估计交互频数。
原假设：检验模型的频数估计与观测频数无差异，也可以理解为检验模型和饱和模型无差异。（无关假设）
对数线性模型的统计检验
饱和对数线性模型可以完美无缺的再现观测频数，因此不需要对饱和模型进行整体性检验。
DF等于0，意味着所检验的模型与饱和模型之间的效应项目没有差别。

6、对数线性模型的缺点
对数线性模型更强调的是变量之间的交互效应，它不能直接将因变量用自变量的函数表示出来。
对数线性模型抽象复杂，特别是高维模型，不如线性回归模型易理解
二、对数线性模型的基本原理
1、与方差分析相关的
在多元方差分析中，以二元方差为例：每一个观测值 yij=µ +Ai的效果+Bj的效果+(AB)ij交互作用+Ɛij
通过上组式子，我们可以计算出线性模型等式右侧的所有参数值。 A因素效应是行平均值与总平均值之差 B因素效应是列平均值与总平均值之差交互效应计算结果表示在除去所有其他分布效应之后两个因素之间的净关联。

列联表

在R软件中，用x=read.table("f:/hepbook/data/change2.txt",header=T)和y=xtabs(Freq~.,data=x)输入数据和变换数据格式。用library(MASS)激活软件包MASS。对于模型使用a=loglm(~Age+Edu,y)建立对数线性模型，并把结果赋予变元a，由pchisq(a$pea,a$df,low=F)和pchisq(a$lrt,a$df,low=F)得到两个检验统计量的p值（a$pea和a$lrt分别为统计量的值，而a$df为自由度）；由a$para可得各个系数。假定想考察有交互项的模型则可用a=loglm(~Age*Edu+Change,y)建立对数线性模型(这时，除了截距之外，对于主效应有3＋3＋3＝9 个参数，对于交互效应有3×3＝9个参数)，其它的模型依次类推。
注 • 二维列联表的Pearson c2检验是关于两个分类变量是否相关的检验。但是对于两个连续变量之间的检验则需要另外和Pearson相关系数有关的检验。 • 这里的检验是关于二维列联表的。对于高维列联表，需要使用下面要介绍的对数线性模型来研究。
注
注
• 实际上，各种软件不仅仅输出输出Pearson c2检验统计量的值和相关的p值，也输出似然比检验 (likelihood ratio test或lrt)统计量的值和相关的p 值。这两个检验是渐近等价的。它们近似地有相同自由度的c2分布。列联表除了 Pearson和似然比检验（有近似的 c2 分布）之外，还有一种精确检验，称为Fisher检验（如果列联表距阵为y可以在R中用 fisher.test(y) 施行）。但由于 Fisher 检验使用超几何分布，计算量很大，在总频数大的时候，或者计算机内存不够时，则无法计算。

【IBM-SPSS课件】对数线性模型

▪ （3）圖18-9所示為單元格計數與殘差結果，圖中包括觀測計數、預期計數、殘差、標準化殘差、調整殘差與偏差。其中調整殘差被多數學者認為進行殘差判斷的較好指標，當調整殘差的絕對值小於2時，認為殘差分佈符合正態分佈，此處調整殘差絕對值均大於3，因此殘差分佈不符合正態，結論與擬合度檢驗相互佐證。
▪ （4）圖18-29所示為單元計數與殘差分析，結果可見調整殘差絕對值均小於2，效果較好。
▪ （4）圖18-30所示為參數估計，此處給出各種可能的參數估計值。
模型選擇過程
▪ 對於列聯表資料，變數間的複雜關係事先通常並不知曉，我們往往需要對各變數關係做一探索性分析，以尋求建立最佳的模型，模型選擇過程就可以幫助我們在眾多模型中選出最佳的對數線性模型。
▪ （4）單擊“選項”按鈕，彈出圖18-4所示的“ 常規對數線性分析-選項”對話框，選擇頻數、殘差、設計矩陣、估計，其他默認，單擊“繼續”返回。
▪ （5）單元計數分佈選項：此處選擇“泊松”。
▪ 2．主要結果解讀
▪ （1）圖18-16所示為模型數據資訊與收斂資訊，結果解釋同前。
▪ （2）圖18-17所示為模型擬合度檢驗結果，結果可見似然比檢驗值為1.946，P=0.584， Pearson卡方檢驗為1.732，P=0.630，均大於 0.05，模型擬合效果較好。
▪ （3）其他結果，看法與前面一樣，此處不贅。
▪THE END
▪ （2）圖18-27所示為模型擬合優度檢驗資訊，結果可見似然比檢驗值為6.414，P=0.378， Pearson卡方檢驗值為5.640，P=0.465，均大於0.05，說明擬合效果較為理想。採用主效應分
析就可以很好解釋結果中的變異，理論不必繼續採用飽和效應模型。

对数线性模型共17页word资料

对数线性模型第一节 General过程9.1.1 主要功能9.1.2 实例操作第二节 Hierarchical过程9.2.1 主要功能9.2.2 实例操作第三节 Logit过程9.3.1 主要功能9.3.2 实例操作对数线性模型是用于离散型数据或整理成列联表格式的计数资料的统计分析工具。

在对数线性模型中，所有用作的分类的因素均为独立变量，列联表各单元中的例数为应变量。

对于列联表资料，通常作χ 2 检验，但χ 2 检验无法系统地评价变量间的联系，也无法估计变量间相互作用的大小，而对数线性模型是处理这些问题的最佳方法。

第一节 General过程9.1.1 主要功能调用该过程可对一个或多个二维列联表资料进行非层次对数线性分析。

它只能拟合全饱和模型，即分类变量各自效应及其相互间效应均包含在对数线性模型中。

返回目录返回全书目录9.1.2 实例操作[例9-1]在住院病人中，研究其受教育程度与对保健服务满意程度的关系，资料整理成按一般情形作χ检验，结果显示不同受教育程度的住院病人其对保健服务满意程度无差别。

但从百分比分析中可见，随受教育程度的提高，满意程度有下降的趋势；且我们还想了解受教育程度与满意程度有无交互作用和交互作用的大小。

对此，必须采用对数线性模型加以分析。

9.1.2.1 数据准备激活数据管理窗口，定义变量名：实际观察频数的变量名为freq，受教育程度和满意程度作为行、列分类变量（即独立变量），变量名分别为educ、care。

输入原始数据，结果如图9.1所示。

如同第四章Crosstab过程中所述，为使列联表的频数有效，应选Data菜单的Weight Cases...项，弹出Weight Cases对话框（图9.2），激活Weight cases by项，从变量列表中选freq点击钮使之进入Frequency Variable框，点击OK钮即可。

图9.1 原始数据的输入图9.2 频数的加权定义9.1.2.2 统计分析激活Statistics菜单选Loglinear中的General...项，弹出General Loglinear Analysis对话框（图9.3）。

对数线性模型分析(精)

自变量之间的交互效应就很繁杂，可能需要
建立很多哑变量。
16
3、对数线性模型：可以直接分析各种类型的分类变量，对于名义变量，也不需要事先建立哑变
量，可以直接分析变量的主效应和交互效应。对
数线性模型不仅可以解决卡方分析中常遇到的高
维列联表的“压缩”问题，又可以解决logistic回
归分析中多个自变量的交互效应问题。
不如线性回归模型易理解。
22
建议：
1）在变量类别较少，特别是二类的情况下，
建议还是用logistic回归分析。
2）在变量较多或变量水平较多的情况下，可
以先用对数线性模型分析主效应和交互效
应，对没有统计意义的变量或水平作适当
的维数或水平的压缩，将数据简化后再用
logistic回归分析拟合模型。
23
【例2】四家医院对同一病症采用四种不同手术，手术后病人出现并发症，其严重性分成三级。数据例在下表中。
3
第一节对数线性模型的基本概念
一、频数分布：
1、列联表 (contingency table)
2、维数 (dimension)
3、行(row)、列(column)、层(layer)变量
4、格子频数 (cell frequency)
4
第二节对数线性模型
二维对数线性模型：
总均值
主效应A 主效应B
24
其中，变量HP 表示医院(hospital：1,2,3,4) ，变量 TRT 表示手术处理方法(treatment：A,B,C,D) ，变量SEV表示术后并发症的严重程度(severity：0= 没有，1=轻度，2=中度) ，变量WT表示频数。
25
【SAS程序】 data eg9_3； input hp trt $ sev wt @@ ； cards； 1 A 0 23 1 A 1 7 1 A 2 2 …… 4 D 0 13 4 D 1 6 4 D 2 4 run； proc catmod； weight wt； model hp*trt*sev=_response_/oneway； loglin hp|trt hp|sev trt|sev ； run；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第5章列联表分析与对数线性模型实验5-1 列联表分析一、列联表若总体中的个体可按两个属性A与B分类，A有r个等级，B有c个等级，从总体中抽取大小为N的样本，每种属性的样本数如下表所示：称上表为r×c列联表。

当r=2=c时，称上表为2×2列联表或四格表。

本节仅涉及四格表检验。

例1 对肺癌患者和对照组的调查结果：问是否患肺癌与是否吸烟独立与否？例2 1976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下，问是否存在种族歧视与审判不公？二、实验内容数据来源：wushujiance.sav某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。

其中高温和低温季节各观测12次，数据有24个观测样本，有两个属性变量degree 和test，degree有1（高温季节）和2（低温季节）两个等级；test有1（+）和2（-）两个等级。

问：两个季节的伤寒菌检出率有无差别？数据如下图所示：意为：Degree1(高温) 2（低温）合计 test1（检出）17 8 2（没有检出） 115 16合计121224设A ：高温季节；A ：低温季节；B ：检出；B ：没有检出。

记)|(1A B P p =，2p =)|(A B P 此处欲检验0H ：21p p =1H ↔：21p p ≠检验统计量：Pearson 卡方统计量=21212211222112)(++++-=n n n n n n n n n χ～）（12χ （渐进）称此检验为卡方检验。

此外，可以证明：卡方检验等价于独立性检验（A 属性与B 属性独立），即：0H ：21p p =1H ↔：21p p ≠等价于0H ：j i ij p p p ⋅⋅=1H ↔：j i ij p p p ••≠，.2,1,=j i其中nn p ij ij =，nn p i i +•=，n n p j j +•=，.2,1,=j i实验过程：（1）打开数据文件；（2）分析->描述统计->交叉表；相依系数：其数值在0～1之间，但不能达到1，是行变量和列变量相关性的度量指标。

Phi和Cramer变量：也可以刻画相关性。

Lambda：取“1”时表明自变量完全预测因变量，取“0”时表示预测完全没有效果。

不定性系数：表示用一个变量来预测其他变量时降低错误的比例。

输出结果：[数据集1] K:\SPSS教程\sample\Chap05\wushuijiance.sav季节* 检验结果交叉制表检验结果合计阳性阴性季节高温计数 1 11 12期望的计数 4.0 8.0 12.0季节中的 % 8.3% 91.7% 100.0%检验结果中的 % 12.5% 68.8% 50.0%总数的 % 4.2% 45.8% 50.0%残差-3.0 3.0标准残差-1.5 1.1调整残差-2.6 2.6低温计数7 5 12期望的计数 4.0 8.0 12.0季节中的 % 58.3% 41.7% 100.0%检验结果中的 % 87.5% 31.3% 50.0%总数的 % 29.2% 20.8% 50.0%残差 3.0 -3.0标准残差 1.5 -1.1调整残差 2.6 -2.6合计计数 8 16 24 期望的计数8.0 16.0 24.0 季节中的 % 33.3% 66.7% 100.0% 检验结果中的 % 100.0% 100.0% 100.0% 总数的 %33.3%66.7%100.0%卡方检验值 df渐进 Sig. (双侧) 精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方 6.750a1 .009 连续校正b4.688 1 .030 似然比7.3681.007Fisher 的精确检验.027.014线性和线性组合 6.4691.011有效案例中的 N24a. 2 单元格(50.0%) 的期望计数少于 5。

最小期望计数为 4.00。

b. 仅对 2x2 表计算上表的sig 值均小于0.05，说明高低温两组检出率有显著差别。

季节* 检验结果交叉制表计数检验结果合计阳性阴性高温 1 11 12季节低温7 5 12合计8 16 24直接分析列联表的方法（加权个案）若无个案，直接分析下表检验结果合计阳性阴性高温 1 11 12季节低温7 5 12合计8 16 24本例的完成方法：在SPSS中，定义数据为：要让SPSS识别列联表，必须加权个案：输出结果：交叉表[数据集0] C:\Documents and Settings\wangkun\桌面\未标题1.sav案例处理摘要案例有效的缺失合计N 百分比N 百分比N 百分比气温 * 检出24 100.0% 0 0.0% 24 100.0%气温* 检出交叉制表计数检出合计阴性高温低温 5 7 12气温高温11 1 12合计16 8 24卡方检验值df 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) Pearson 卡方 6.750a 1 .009连续校正b 4.688 1 .030似然比7.368 1 .007Fisher 的精确检验.027 .014 线性和线性组合 6.469 1 .011有效案例中的 N 24a. 2 单元格(50.0%) 的期望计数少于 5。

最小期望计数为 4.00。

b. 仅对 2x2 表计算可以看到上表中由于sig值小于0.05，所以认为高温和低温检出率有显著差别。

实验5-2 对数线性模型一、对数线性模型2×2维交叉列联表对应概率表为：其中nn p ij ij =将概率取对数：ij ij p ln =η⎪⎪⎭⎫ ⎝⎛=⋅⋅⋅⋅j i ij ji p p p p p ln ji ij j i p p p p p ⋅⋅⋅⋅++=ln ln ln ，2,1,=j i将上式视为：()ij j i ij AB B A ++=η 接下来引入方差分析模型这是一个有交互效应的双因素方差分析数学模型。

二、实验内容数据来源：qiguanyan.sav实验过程：（1）打开数据（2）分析—>对数线性模型—>常规输出结果数据信息N案例有效 4 缺失0 加权有效206单元格定义的单元格 4 结构中的无效单元0 采样无效单元0类别吸烟状况 2治疗效果 2收敛信息a,b最大迭代次数20收敛容限度.00100最终最大绝对差值.00150最终最大相对差值.00071c迭代次数 5a. 模型：泊松b. 设计:常量 + smoke * effect +smoke + effectc. 由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

迭代历史b,c迭代对数似然估计参数常量[smoke = 0] *[effect = 0] [smoke = 0] *[effect = 1][smoke = 1] *[effect = 0]0 613.859 3.9512 .0000 .0000 .00001 660.457 4.3070 -1.1923 -.8462 .61542 670.940 4.2569 -1.7649 -.9639 .41193 671.603 4.2556 -2.0603 -.9783 .37504 671.617 4.2556 -2.1140 -.9785 .37435 671.617a 4.2556 -2.1155 -.9785 .3743 未显示冗余的参数。

这些参数的值在所有迭代中均为零。

a. 由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

b. 模型：泊松c. 设计:常量 + smoke * effect + smoke + effect拟合度检验a,b值df Sig.似然比.000 0 . Pearson 卡方检验.000 0 .a. 模型：泊松b. 设计:常量 + smoke * effect + smoke + effect常量 4.256 .119 35.732 .000 4.022 4.489 [smoke = 0] * [effect = 0] -2.116 .363 -5.830 .000 -2.827 -1.404 [smoke = 0] * [effect = 1] -.978 .228 -4.294 .000 -1.425 -.532 [smoke = 1] * [effect = 0] .374 .155 2.419 .016 .071 .678 [smoke = 1] * [effect = 1] 0a. . . . . [smoke = 0] 0a. . . . . [smoke = 1] 0a. . . . . [effect = 0] 0a. . . . . [effect = 1] 0a. . . . .a. 此参数为冗余参数，因此将被设为零。

b. 模型：泊松c. 设计:常量 + smoke * effect + smoke + effect参数估计的相关性a,b,c常量[smoke = 0] *[effect = 0] [smoke = 0] *[effect = 1][smoke = 1] *[effect = 0]常量 1 -.328 -.523 -.770 [smoke = 0] * [effect = 0] -.328 1 .172 .253 [smoke = 0] * [effect = 1] -.523 .172 1 .402 [smoke = 1] * [effect = 0] -.770 .253 .402 1a. 模型：泊松b. 设计:常量 + smoke * effect + smoke + effectc. 未显示冗余的参数。

参数估计的协方差a,b,c常量[smoke = 0] *[effect = 0] [smoke = 0] *[effect = 1][smoke = 1] *[effect = 0]常量.014 -.014 -.014 -.014 [smoke = 0] * [effect = 0] -.014 .132 .014 .014 [smoke = 0] * [effect = 1] -.014 .014 .052 .014 [smoke = 1] * [effect = 0] -.014 .014 .014 .024a. 模型：泊松b. 设计:常量 + smoke * effect + smoke + effectc. 未显示冗余的参数。

三、任意r×c列联表分析（对数线性模型）如：数据来源：qiguanyan.sav意为：吸烟不吸烟行和有效70 26 96无效102 8 110列和172 34 206 下面要检验吸烟和治疗效果是否独立？实验过程：定义范围输出结果：层次对数线性分析附注创建的输出19-JUN-2016 09:20:10 注释输入数据M:\2015-2016学年下学期\20131101+统计软件与应用\自编讲义\sample\Chap05\qiguanyan.sav活动的数据集数据集1过滤器<none>权重频数拆分文件<none>工作数据文件中的 N 行 4缺失值处理缺失的定义用户自定义缺失值被视为缺失。