简介定性资料的统计分析-定性资料的统计分析

合集下载

医学统计学-3-定性资料统计描述

医学统计学-3-定性资料统计描述

解决办法
分层比较 率的标准化法 多元统计分析方法
相对数比较时应注意其可比性(二)
在同一地区不同时期资料的相对数比较时,还 应注意其条件有无变化。 例如,不同时期的发病率比较时,应注意不同 时期疾病的登记制度、诊断水平以及平均人口 数的变化。
5、样本率或构成比进行比较时应作假设检验 由于样本率或构成比是样本指标,同样存 在着抽样误差。 在实际工作中,不能根据样本率或构成比 等相对数的数值大小轻易作出结论,应进 行样本率或构成比差异比较的假设检验。
一、相对数的概念
Question:
通过调查得到某年甲地区的小学生中流脑 发病63例,乙地区的小学生中流脑发病35 例。能否认为甲地流脑的发病严重程度高 于乙地? 绝对数63例和35例表示甲地发病比乙地多 28例,能否说明两地发病的严重程度呢?
假设甲地有小学生50051人,乙地有小学生 14338人,求出两地的发病率: 甲地发病率: 63/50051=1.26‰ 乙地发病率: 35/14388=2.44‰ 乙地区的发病率是甲地区的两倍多。 以上两个发病率为通过绝对数求得的相对 数,用来表示事物出现的频率或强度,便 于比较。
分类资料的统计描述
用率、构成比和相对比等指标来对分类资 料进行统计描述。 由两个有联系的指标之比组成,统称为相 对数。 常用相对数包括率、构成比和相对比。
二、常用相对数
1、率(rate)
又称频率指标。 某现象实际发生数与可能发生总数之比。 说明某现象发生的频率与强度:
某时期内实际发生某现象的观察单位数 率= ×比例基数(K) 同时期可能发生该现象的观察单位总数
三、标准组的选择
标准组应选择有代表性的、较稳定的、来自数 量较大的人群的指标作为标准。
例如世界的、全国的、全省的、本地区的或本 单位历年累计的数据等;

定性资料的统计描述

定性资料的统计描述


(二)强度型指标
例:某企业2003年有2839名职工,该企业每年都对 职工进行体检,这一年新发生高血压病人5 例,2003年的高血压发病率为多少?
(三)相对比型指标

概念:任何两个相关联的指标A,B之比。 计算公式: 口学中的出生性别比例: 男性人口/女性人口= 19456/18340 = 1.06, 即每出生1个女婴,就有1.06个男婴出生。
分母的近似计算
假定当年每位去世者平均活了半年,每位出生 者也平均活了半年,则有: 当年全人口存活的总人年数=年初人口数×1年-去世 人数×0.5+出生人数×0.5 或 当年全人口存活的总人年数=年终人口数×1年 +去世人数×0.5—出生人数×0.5
上面两个等式相加,便有 当年全人口存活的总人年数=(年初人口数+年终人 口数)/2×1年=当年平均人口数×1年 或 当年全人口存活的总人年数=当年年中人口数 × 1年
构成比的特点
1、各构成部分的相对数之和为100%;
2、构成比的各构成部分之间存在着相互影响。
二、常用的相对数指标
用频率分布全面反映一个定性变量外,有时也可 用其他相对数指标从某个侧面来描述定性变量。 常用相对数指标大致有三种类型: 频率;强度;相对比
(一)频率型指标


频率型指标:最常见,表示某现象发生 的频率大小。 计算公式:
2、A、B也可以是相对数,如甲、乙两地的恶性肿瘤死亡率
分别是89.2/10万和65.1/10万,
则甲地恶性肿瘤死亡率是乙地的89.2/65.1=1.37(倍)。
3、A、B 可以是性质相同的两个指标,如上例甲、乙两地恶 性肿瘤死亡率相比,
也可以是性质不同的两个指标,如某医院每张病床配备的
医生人数: 368名医生/2800个床位=0.13

9-定性资料的统计分析(1)

9-定性资料的统计分析(1)

二、配对四格表的确切概率法


在配对四格表资料中,当b+c≤20时,因配 对四格表2检验近似程度较差,易导致分析 的偏性。此时,同样需要用确切概率法来 计算。 方法与四格表确切概率法有区别,利用二 项分布原理。
例、用两种检验方法对某食品作沙门氏菌 检验,结果如下表,试用配对四格表的确 切概率法比较两种方法的阳性结果是否有 差别。
0 .0 0 2 0 5 6
0 .0 0 0 0 7 1
本例|A-T|等于1.9655。
H 0: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 相 等 ; H 1: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 不 等 。 = 0 .0 5
计 算 大 于 等 于 现 有 差 别 的 所 有 组 合 的 概 率 P:

长期来,对理论频数太小有三种处理办法:

1、最好增加样本例数以增大理论频数; 2、删去上述理论频数太小的行或列; 3、将太小理论频数所在行或列的实际频数与性 质相近的邻行或邻列的频数合并,使重新计算 的理论频数增大。

一般认为,后两种方法可能会损失信息, 也会损害样本的随机性,故不作为常规方 法。
部位 左半球 右半球 合计 良性 1 3 ( 1 1 .0 3 4 5 ) 7 ( 8 .9 6 5 5 ) 20 恶性 3 ( 4 .9 6 5 5 ) 6 ( 4 .0 3 4 5 ) 9 合计 16 13 29 恶 性 肿 瘤 占 百 分 比 (% ) 1 8 .7 5 4 6 .1 5
每个格子的|A-T|均等于1.9655
X
n1
n2
双 侧 u 0 .0 1 = 2 .5 8 , u > u 0 .0 1 , P < 0 .0 1 , 故 按 = 0 .0 5 水 准 拒 绝 H 0 , 接 受 H 1, 差 异 有 统 计 学 意 义 , 可 认 为 工 艺 改 革前后车间空气中粉尘浓度有差别,改革后粉尘浓度降低。

第五讲 定性资料的统计分析

第五讲  定性资料的统计分析
2
行×列ቤተ መጻሕፍቲ ባይዱ资料的 χ 检验
2
四格表资料卡方检验
进行比较, 一定是两组进行比较,实验结果是两个对 立的结果。 四格表资料表格
_____________________________________ + 合计 _____________________________________ a b a+b 第一组 c d c+d _____________________________ a+b b+d a+b+c+d 合计 ______________________________________ 第二组
A χ = n(Σ −1) nRnC
2
2
ν = (行数−1)(列数−1)
配对设计资料的两样本检验
配对设计是医学研究中常用的设计方法之一, 配对设计是医学研究中常用的设计方法之一, 配对研究常用于比较两种检验方法 二分类结果资料的配对研究常用于比较两种检验方法、 二分类结果资料的配对研究常用于比较两种检验方法、 两种培养方法、两种提取方法等的差别。 两种培养方法、两种提取方法等的差别。 配对四格表资料表格 甲种属性
用药史 曾服该药 未服该药 合计 不敏感 180 73 253 敏感 215 106 321 合计 395 179 574 耐药率( ) 耐药率(%) 45.57 40.78 44.08
Public health school, Xuzhou medical college
建立数据文件
Dose 表示服该药情况 1 2 Sensi 表示敏感情况 1 2 Weight 表示相应的频数 表示不敏感 表示敏感 表示曾服该药 表示未曾服该药

医学统计学定性资料的统计分析-χ2检验

医学统计学定性资料的统计分析-χ2检验

29 41
48.28 39.02

H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2

计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20

. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。

卫生统计学-潘海燕 卫统5 定性资料的统计描述

卫生统计学-潘海燕 卫统5  定性资料的统计描述
相对比是两个有关的指标之比,用以描 述两者的对比水平。两个指标可以是绝对 数、相对数或平均数;可以性质相同,也 可以性质不同。
相对比 乙 甲指 指(或 标 标 10% 0 )
定性资料
22
常用的相对比指标有三种 对比指标:指两个同类事物某种指标(绝对数、两个率或其他同
类指标)的比, 如:性别比=男性/女性 表示意义:男性是女性人数的多少倍? 关系指标:指两个有关的、但非同类事物的数量的比,如: 医
事物内部各部分所占的比重。常以百分数表 示。
构成比 同一 某事 一物 组各 成组 部 观 成 分 察 部 数 观 单 分 察 位 的 单 1总 0% 位 0数
定性资料
18
常用相对数及其应用
【例5-4】某地2019年与2000年5种传染病新发病例数如 表5-2。计算各种疾病病例数所占的比重。
表5-2 某地1990年与2019年5种传染病的新发病例数
11
1、率(rate)
报道:糖尿病严重影响个人生活质量,目前 全球慢性病死亡率排行中糖尿病已经跃居第 二,1979年我国成年人患病率为0.6%,1994 年增为2.5%,2019年剧增至3.2%,目前我 国已经有糖尿病患者3000多万人。
定性资料
12
常用相对数及其应用
1.率( Rate)
指某现象实际发生数与可能发生某现象总 数之比,说明某种现象发生的频率或强度, 又称频率指标。
护人员/病床数 表示意义:一个医护人员可以管几张病床?或者说一张病床
对应多少医护人员? 计划完成指标:说明计划完成的程度
实际完成数/计划完成数,施工队工程完成数?
定性资料
23
常用相对数及其应用
例 对某大学学生吸烟状况进行调查,结果显示 该校男性大学生吸烟率为35.12%,女性大学生 吸烟率为1.58%,则该校男女学生吸烟率之比为 35.12%:1.58%=22.23

定性数据统计分析概要课件

定性数据统计分析概要课件
对应分析原理
通过降维技术,将行变量与列变量在同一低维空间中表示,以便直观揭示行变量 与列变量间的结构关系。
应用场景
适用于有多个分类变量且变量间存在关联性的情况,如市场调研中的品牌与消费 者特征关系分析、生物学中的物种与环境因子关系分析等。
多维尺度分析原理及应用场景
多维尺度分析原理
通过保持原始数据点间的距离关系,在低维空间中重新排列 数据点,以便揭示数据的潜在结构。
适用于研究公众意见、消费行 为、市场需求等领域。
文本分析法
优点
能够深入挖掘文本中的信息,发现其中的 规律和趋势,同时可以进行大规模的分析。
定义
文本分析法是通过对研究对象产生 的文本进行分析,了解其观点、态 度、情感等,收集相关数据和信息
的方法。
A
B
C
D
应用场景
适用于研究社交媒体言论、新闻报道、广 告文案等领域。
相对频率
计算交叉表中各单元格的相对频率, 以百分比形式表示,便于比较。
卡方检验原理及应用场景
卡方检验原理
基于实际观测频数与期望频数之间的差异,判断两个定性变量是否独立。
应用场景
适用于分析两个定性变量之间的关系,如不同性别对某品牌产品的偏好程度。
04
定性数据探索性统计分析 方法
对应分析原理及应用场景
定义:定性数据也称为分类数据 或品质数据,是说明事物性质、 规定事物类别的非数值型数据, 表现为互不相容的类别或属性。
数据的取值是离散的,且一般无 顺序。
数据之间具有独立性,一个数据 的取值不影响另一个数据的取值。
定性数据统计分析意义
了解数据的分布特征
通过统计定性数据的频数分布,可以了解不同类别或属性数据的 分布情况,从而对数据有一个整体的把握。

定性资料的统计描述

定性资料的统计描述
22
1. 直接法
选择人口数作标准
P' NiPi N
选择人口构成比作标准
P'
Ni N
Pi
Ni:标准年龄别 人口数
Pi:实际年龄别 ××率
N:标准人口总数
23
选择治疗人数之和作标准
直接法计算标准化治愈率(%)
病型
(1) 普通型 重型 合计
标准治 疗人数 (Ni) (2)
400 400 800(N)
38
6.已知男性的钩虫感染率高于女性。欲比较甲、乙两乡居 民的钩虫总感染率,但甲乡人口女多于男,而乙乡男多 于女,适当的比较方法是( )。
A.分性别进行比较 B.两个率比较的2检验 C.不具可比性,不能比较 D.对性别进行标准化后再比较 E.作两个总率差别的假设检验
39
7.要比较甲乙两厂某工种工人某种职业病患病率的高低, 采取标准化法的原理是( )。
p' 427 100% 53.4% 47.5% 800
24
2. 间接法(以死亡率为例)
选择年龄别死亡率作标准
P' P r P SMR n i Pi
P: 标准总死亡率 ΣniPi: 预期总死亡数
r: 实际总死亡数
r/ΣniPi (SMR) :
ni: 实际组别人口数 标准化死亡比(Standard
n i Pi
(6)=(2)(5) 51 145 115 42 353
27
原发性骨质疏松症标准化患病比SPR
城市
实际患病人数 预期患病人数
322 305
1.05
农村
实际患病人数 预期患病人数
335 353
0.95
原发性骨质疏松症标准化患病率 p’
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

简介定性资料的统计分析:定性资料的统计分析第十二章简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。

§12.1定性变量数量化前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。

若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。

如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。

数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。

例如定性变量是性别,记为X,如此赋值:当性别为女⎧1,当性别为男⎧1,X=⎨或X=⎨⎩0,当性别为女⎩0,当性别为男如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。

例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:当天气晴⎧(0,0),⎪(X1,X2)=⎨(1,0),当天气阴⎪(0,1),当天气雨⎩例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1,X2,X3,X4)来表示,如此赋值:甲类地区⎧(0,0,0,0),⎪乙类地区⎪(1,0,0,0),⎪(X1,X2,X3,X4)=⎨(0,1,0,0),丙类地区⎪(0,0,1,0),丁类地区⎪⎪戊类地区⎩(0,0,0,1),综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:⎧(0,0,0,,0),第一类⎪第二类⎪(1,0,0,,0),⎪第三类⎪(0,1,0,,0),(X1,X2,,Xk-1)=⎨第四类⎪(0,0,1,,0),⎪⎪⎪第K类⎩(0,0,0,,1),以上K个类的次序可以交换。

对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:⎧(0,0,0,0),取甲类⎪取乙类⎪(1,0,0,0),(X1,X2,X3,X4)=⎨取丙类⎪(0,1,0,0),⎪(0,0,1,0),取丁类⎩易知,如此赋值将使X1+X2+X3+X4=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。

定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。

§12.2列联表主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。

1列联表的概念列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。

先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B 表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下:研讨患肺癌是否与吸烟有关?这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A 分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的(AiBj)取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。

一般2×2列联表形式如下:其中nij(i,j=1,2)表示第i行Ai和第j列Bj的样品出现的频数,一般nij可取任意非负整数。

这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为r⨯c 表(r和c可以不等)有如下形式:如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。

在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。

如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。

2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验:H0:pij=pi.p.j其中pij表示A为i、B为j的样品概率,pi.和p.j是相应的边缘概率,当独立性成立时,理论频数为:npij=npi.p.j其中n=22∑∑ni=1j=1ij实际频数为:nij运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。

用估计量nnˆ.j=.j代替pi.和p.j。

基实际频数与理论频数有差异,这时可用其差值的大小ˆi.=i.,ppnn来度量两个变量相关程度。

相差愈大,表明H0为真的可能性愈小,即A与B无关的可能性愈小。

相反差值愈小,即二愈接近,H0为真的可能性愈大,A与B之间相关的可能性愈小。

为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给2出皮尔逊的拟合优度x统计量为:2x=2∑∑i=1=∑∑i=12⎛nn⎫nij-ni.j.⎪2nn⎪⎝⎭nn.jj=1ni.nn2nn-nn2iji..jnnni..jj=12()它的极限分布是自由度为1的x2分布,根据给定的显著性水平a,查x2分布表得到临界值λa。

若x2≥λa则拒绝H0,表示A与B之间不独立,存在相关,若x2H0,表明A与B之间独立,不存在相关。

将前面的例子作x2检验:计算(106⨯60-63⨯92)2(106⨯32-43⨯92)2x=+106⨯63⨯92106⨯43⨯92(106⨯3-63⨯14)2(106⨯11-43⨯14)2++106⨯63⨯14106⨯43⨯14(6360-5796)2(3392-3956)2=+[1**********]6(318-882)2(1166-602)2++9349263812=0.75857+0.5775+4.98489+3.40239=9.663602取显著性水平a=0.05,自由度为1,查x2分布表,临界值λa=3.84。

显然x2=9.663603.84,表明在5%的显著性水平上,拒绝H0即说明吸烟与肺癌不独立,而是存在相关的。

如果列联表中变量间存在相关,那么如何度量变量间的相关程度?又如何从一个变量去预测另一变量呢?解决这类总是还有很多方法,已超出本书范围,不再详述,有兴趣的读者可查阅这方面的参考书。

§12.3对数线性模型如前所述,列联表能够反映定性变量之间的关系,但能否像定量变量那样建立起数学模型如方差分析模型、回归分析模型等以便进一步描述定性变量之间的复杂关系呢?对数线性模型和Logistic回归模型就是解决这一问题的极为有效的方法,它们从不同角度出发导出不同的处理方法。

对数线性模型,近十年来是国外实际工作者常用的方法,它的主要优点是可以把方差分析和线性模型的一些方法系数地移植过来,在概念和理解上均可进行对比,对数线性模型能够估计模型中各个参数,而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。

下面即将看到这些结论。

1模型对数线性模型又分为很多种类型,常用的模型有:饱和模型(当变量间相互不独立时),非饱和型(变量间相互独立),谱系模型(包含高阶效应)等。

下面从2×2的频数表与概率表出发,推导对数线性模型:(频数表)(概率表)将概率取对数后进行分解处理,使处理后的变量有较好的数学、统计的性质。

⎛pij⎫⎪μij=lnpij=lnpi.p.jpi.p.j⎪⎝⎭pij=lnpi.+lnp.j+lnpi.p.j记Ai=lnpi.,Bj=lnp.j,(AB)ij=ln由上式可写成pijpi.p.jμij=Ai+Bj+(AB)iji,j=1.2显然上式的结构类似于两因子有交互作用,各因子均为二水平的方差分析模型,于是令μi.=∑μij,μ.j=∑μij,μ=∑∑μijj=1i=1i=1j=12222然后再进行平均,对i,j=1,2i.=μi.,.j=μ.j..=μ..记121212αi=μi.-μ..βj=j.-..λij=μij-i.-.j+..则有关系式:⎧⎪⎪μij=..+αi+βj+λij⎪22⎪i,j=1,2⎨且αi=0,βj=0,j=1⎪i=1⎪22⎪λ=λ=0⎪i=1ijj=1ij⎩可见通过上边分解处理,可以完全化成与方差分析模型有同样的结构,因此借助于方差分析的术语,上式中μ..表示“总平均效益”,αi表示A属性的“主效应”,βj表示B属性∑∑的“主效应”,λij表示,A,B的“交互作用效应”,直观可以理解当交互作用效应为0,即等价于A、B独立。

上式模型称为对数线性模型的饱和模型,当λij=0时,称为非饱和模型。

n.jni.ˆp=,.j,这时就可以看nnn到对数线性模型是将列联表上每个单元的频数作为因变量,表上所有变量作为自变量,建立各个自变量的效应与每个单元频数的对应之间的函数关系。

因而可以用它分析列联表上的各个变量的关系。

主效应αi或βj若大于0,表明效应为正;若小于0,表明效应为负。

αi 是ˆij=在实际应用时概率可用其估计量代替,即pˆi.=,p第一个变量的第i个水平对总平均效应μ..的增减量;βj是第二个变量的第j个水平对总平均效应μ..的增减量,λij代表变量1和变量2在各自的第i个水平和第j个水平之间交互作用效应,是其交互作用对总平均效应的增减量。

若λijnij1i.=2∑1μij=2j=1n∑j=12(lnnijn)…第i行频数对数的平均1μ.j=∑1μij=2i=1nn∑i=12(lnnijn)…第j列频数对数的平均11μ..=μ..=44∑∑i=11μij=4j=12∑∑(lnij22nijn)…各个观测值对数的总平均即总平均效应对本章前面的例子,按上述模型估计各效应参数。

各单元的频数对数表:计算:α1=1.-..=2.5964-2.5141=0.0823α2=2.-..=2.4318-2.5141=-0.0823β1=.1-..=3.2800-2.5141=0.7659β2=.2-..=1.7482-2.5141=-0.7659主效应估计值:计算:λ12=μ12-1.-.2+..=1.0986-2.5964-1.7482+2.5141=3.6127-4.3426=-0.7319λ21=μ21-μ2.-μ.1+μ..=2.4657-2.4318-3.2800+2.5141=4.9798-5.7188=-0.7320λ11=μ11-1.-.1+..=4.0943-2.5964-3.2800+2.5141=6.6083-0.8319=0.8319λ22=μ22-2.-.2+..=2.3979-2.4318-1.7482+2.5141=4.9120.1800=0.7320变量间交互作用效应估计值:λ11=0.8319λ12=-0.7399λ22=0.7320λ21=-0.7317主效应大于0,表明效应为正,如α1=0.08320是因为患肺癌比未患肺癌的人多;主效应小于0,表明效应为负,如β2=-0.76599§12.4Logistic回归对数线性模型是将列联表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic回归模型是将概率比取对数后,再时行参数化而获得的。

相关文档
最新文档