多元统计分析第十章-属性数据的统计分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10章 属性数据的统计分析
列联表的独立性分析
10.1.1实例
列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。
例 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。
表10-1 商场调查数据
那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。
例 下表给出了一个假设的某大学毕业生的专业M (文科、理工科),性别G 及毕业后工作的收入
I (高、低)为变量的三维列联表,结果如表10-2所示。
表10-2 大学毕业生调查牙刷
则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。
10.1.2 定性变量与列联表
对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用C B A ,,表示定性变量,用k j i C B A ,,表示相应的水平。假设有n 个随机实验的结果按照两个变量A 和B 分类,A 取值为r A A A ,,21,B 取值为s B B B ,,21,将变量A 和B 的各种情况的组合用一张s r ⨯列联表表示,称s r ⨯列联表,如表8-3所示。其中ij n 表示A 取i A 及B 取j B 的频数。
∑∑===r i s
j ij
n n
11
,其中:
表示各行之和,,2,1,1
.r i n n s
j ij i ==∑=
∑∑∑=======r
i i s
j j r
i ij j n n n s j n n 1
.
1
.1...,,,2,1,表示各列之和
表10-3 变量频数表
体表,但这样通常用起来不方便,所以一般是采用象例的方式把三维列联表给出。
10.1.3 二维s r ⨯列联表的独立性检验
二维s r ⨯列联表的两个变量A 和B 可视为离散型随机变量,取值分别r A A A ,,21和s B B B ,,21,以ij p 表示A 取i A 及B 取j B 的概率,通常称为格子概率,以j i p p ..,分别表示A 和B 的边缘概率。则对于二维s r ⨯列联表,变量A 和B 的联合及边缘分布列如表10-4所示。
其中
.,,2,1,;
,,2,1,1
.1
.s j p p r i p p r
i ij j s
j ij i ====∑∑==
这时检验变量A 和B 是否独立等价于检验假设
不成立。
上式中至少对某组成立,及对一切j i H s j r p p p H j i ij ,:1i 1:1..0≤≤≤≤=
如果0H 为真,则在n 次观测中事件},{j i B B A A ==发生的理论频数为
.,2,1;,,2,1,
..s j r i p np np j i ij ===
当n 较大时,理论频数j i p np ..与表10-3中相应的观测频数ij n 的差异对r i ,2,1=,s j ,2,1=均不应很大,为此,我们用
∑∑
==-=r i s
j j
i j i ij p np p np n Q 11
..2
..2)( ()
来描述理论频数与相应的观测频数的总差异量。当0H 为真时,2
Q 的值应较小,所以,当2
Q 的值显著偏大时,就拒绝0H ,也就是认为A 和B 不独立。
但是在实际中,由于j i p p ..,均未知,则我们采用相应的观测概率
n
n p
n
n p
j j i i ....ˆ,ˆ==
分别作为概率j i p p ..和的估计(s j r i ,,2,1;,,2,1 ==)。这样,将概率j i p p ..和的估计代入(),则可以得到2χPearson
统计量:
∑∑
==-=r i s
j j
i j i ij n n n n nn Q 11
..2
..2
)( (10. 2)
理论上可以证明,当0H 为真时,2
Q 渐近服从自由度为2
)1)(1(χ的--s r 分布,一般的要求5..>n
n n j i ,即每个单
元格的频数不少于5。如果2χPearson
值过大,或p 值很小,则拒绝原假设,认为行变量和列变量存在关联。这
种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。
例(续例)根据例题所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(),则就可以得到相应的2Q 值,利用2
Q 渐近服从自由度为2
)1)(1(χ的--s r 分布,就可以根据2
χ分布表查出是否在水平α下拒绝原假设,我们看看如何利用SAS 语言来解决这样的问题。
为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS 语言中关于列联表检验的语言PROC FREQ 来求出2χPearson
值,则如下所示:
data client; do i=1 to 3; do j=1 to 3; input f@@; output;