第4章 二维列联表
高中数学 第四章 典型统计案例 4.3 列联表独立性分析案例课件 湘教版选修1-2

解 将问题中的数据写成2×2列联表:
服用该药品 不服用该药品
合计
患A疾病 5 18 23
不患A疾病 100 400 500
合计 105 418 523
将上述数据代入公式χ2=
nad-bc2 a+bc+da+cb+d
中,计算
可得χ2≈0.041 4,因为0.0414<3.841,故没有充分理由认为 该保健药品对预防A疾病有效.
预习测评 1.若事件 A 与事件 B 相互独立,则下列各式不正确的是
( ). A.P( A B )=P( A )+P( B ) B.P( A B)=P( A )P(B) C.P(A B )=P(A)P( B ) D.P(AB)=P(A)P(B)
答案 A
2.在一个2×2列联表中,由其数据计算得χ2=13.097,则其
[正解] B
纠错心得 本题是利用χ2公式求出χ2的值,再利用与临界值 的大小关系来判断假设是否成立,解题时应注意准确代数与 计算,不可错用公式,要准确进行比较与判断.
4.3 列联表独立性分析案例
【课标要求】 1.通过典型案例的探究,了解独立性检验(只要求2×2列联
表)的基本思想、方法及其简单应用. 2.本节的重点和难点是独立性检验的思想、方法及其初步
应用.
自学导引
1.在 2×2 列联表中,χ2 统计量的计算公式为
nad-bc2
a+bc+da+cb+d
χ2=
,
n= a+b+c+d .
两个变量间有关系的可能性为
( ).
A.99%
B.95%
C.90%
D.无关系
解析 因为χ2=13.097,13.097>6.635,所以两个变量间有
关系的可能性为99%.
第4章二维列联表

一致性的检验
• 一般认为,计算的Kappa小于0时,属于偶然一致, 即期望一致率大于观测一致率; • 只有在Kappa大于0时,才进行一致性检验; • 在计算kappa系数的方差基础上,可以构造检验统 计量:
U D( ) ~ N (0,1)
• 经计算,例4.3的kappa=0.361,kappa的标准误 =0.0844,故U=4.277 • 很明显,原假设不成立,即不是偶然一致。
• 在保持边缘和不变的前提下,解出期望频数。 • 有的情况下期望频数的极大似然估计难以直接得 到,需要通过迭代算法求解。 • 迭代算法就是在保持边缘和不变时,寻找 i j 放 入不完备列联表的非空格中,也就是满足以上方 程组成立。
迭代估计法
p1 j p1 prj pr p1 j p1 prj pr p j
• 如果A与B独立,则对任意i都与j无关
pi1 p1 pic pi1 p c p1 pic pi p c
独立性与齐性
• 此时,称属性A与B有齐性关系。 • 齐性关系描述了Ai类中Bj的条件概率完全相 同,或在Bj 类中Ai的条件概率完全相同。 • 因此,对于二维列联表属性A与B相互独立, 等价于二者之间有齐性关系。 • 需要指出的是,在四格表中相互独立等价 于不相关,可以用相关系数描述二者的关 联程度。但在二维列联表中则不能使用。
• 当TA=TB=TAB时,说明每一行、每一列只有一个 非零值; • 当从左上角到右下角的对角线元素外的其余元素 都等于0时,为完全正相合; • 当从右上角到左下角的对角线元素外的其余元素 都等于0时,为完全负相合;
Gamma系数
• 除肯德尔的τ外,相合性度量还有伽马系数 Gamma: GH
第4章 二维列联表

相合性的度量与检验
τ相关系数基本思路:
认为二维列联表均可定义为有序表; 对有序变量的赋值可以确定由小到大的顺序关 系,但不影响相合关系的度量;最简单的赋值 方法就是令 x i, i 1,, r y j , j 1,, c 在二维表中,
x i 1 r 数据对 , 如数据对 有n11对, 有nrc 对 y j 1 c
该系数取值范围在[-1,1],常用于2×c或者r×2的 列联表,前者适用于列属性依赖于行属性的情况, 后者适用于行属性依赖于列属性的情况。 三个系数的比较:
B1 B2 B3 B4 B5 A1 * * * 0 0 A2 0 0 * * *
B1 B2 B3 B4 B5 A1 * * * 0 0 A2 0 0 0 * *
i j
i 1 i 1
ij
n(n 1) C G H TA TB TAB 2
2 n
相合性的度量与检验
从τ系数的计算公式可知,在属性A与B正相 合时,G 比较大而H 比较小;反之在A与B 负相合时, G 比较小而H 比较大。因此, (G-H)的方向决定了相合性的方向。 在存在同分对的情况下,需要对相合性的 度量进行修正。
其中(xi ,yi )、(x j ,y j )为数据对的等级或顺序
相合性的度量与检验
同分对可以有三种类型
因此有,
属性A方向的同分对,即行等级或顺序相同的 r 数据对,记为TA ;TA Cn2 i 1 属性B方向的同分对,即列等级或顺序相同的 c 数据对,记为TB ;TB Cn2 i 1 属性A与B的同分对,即行顺序与列顺序相等的 r c 数据对,记为TAB ;TAB Cn2
二维表

1.数据模型有三种:层次模型、网状模型、关系模型2.关系型数据库三种基本操作:选择操作、投影操作、联接操作3.结构化程序设计三种结构:顺序结构、选择结构(分支)、循环(重复)结构物理联接:1.定义:是对两个表按相同的公共字段进行联接,联接后生成一个新的表。
2.格式:JOIN WITH <非当前工作区别名>TO <新表>[范围][FOR<条件表达式>表1.公共字段=表2.公共字段][FIEL <字段名表>].. 3.功能:(1)两个表按相同的公共字段进行物理联接,联接后生成一个新的表。
(2)两个表进行联接时,必须有公共字段。
(3)联接的结果放入一个新表中。
要想看到联接的结果,必须打开联接后的新表。
(4)联接的方法是:首先把主表指针指向第一条记录,然后在子表的N条记录中进行查找,如果找到满足相同条件的记录,就把结果放入新表中,接着子表指针继续下移,按相同的条件继续查找,方法同上。
当把子表中的N条记录查找完后,主表指针下移到第二条记录,按照上述方法在子表的N条记录中重新查找。
方法同上。
这样当主表有M条记录,子表有N条记录,查找的过程将执行M*N次。
第二部分常用的命令一、格式:命令动词 [范围][字段名表][for<条件>] [其它…]二、几个重要的概念:1.指针:指向表中的某一条记录,通过记录号实现。
2.刚打开的表文件,指针指向表文件的第一记录。
3.绝对定位:(1)第N条记录:NGOTO NGO RECO NGO NDISP(2)顶部Go topGo top 与Go 1不是总一样,在索引文件中。
(3)底部Go bottGo bott 与go n(最后一条记录)不是总一样,在索引文件中不一样。
4.相对移动(1) SKIP向下移一条记录SKIP 1(2) SKIP +(-)N不包括当前记录,向下(上)移N条,而不是记录号向下(上)数N个。
5.几个常用的函数BOF()、文件首EOF()、文件尾RECC()、当前表中实际的记录个数RECN()当前的记录号必考的18个字:数据模型种类:层次、网状、关系关系型三种基本操作:选择、投影、联接结构化程序设计三种结构:顺序、选择、循环VF的工作方式有两种:交互方式(命令方式、菜单方式和向导方式)、程序方式1、s=1+2+3+..+100分别用5种不同的方法编写.2、从键盘任意输入10个不同的数,求这 10个不同数的和.3、S=1+(1+2)+(1+2+3)+(1+2+3+4)+...+(1+2+3+ (10)4、S=1!+2!+3!+ (10)5、S=2!+4!+6!+8!+10!6、S=1-2+3-4+5-6+7-87、打开成绩表,用循环的方法求出成绩表中总分的和。
二维表

性质
性质
关系模型采用二维表来表是有限的——元组个数有限性; (2)二维表中元组均不相同——元组的唯一性; (3)二维表中元组的次序可以任意交换——元组的次序无关性; (4)二维表中元组的分量是不可分割的基本数据项——元组分量的原子性; (5)二维表中属性名各不相同——属性名唯一性; (6)二维表中属性与次序无关,可任意交换——属性的次序无关性; (7)二维表属性的分量具有与该属性相同的值域——分量值域的统一性。
关键字
关键字
在一个关系中有这样一个或几个字段,它(们)的值可以唯一地标识一条记录,称之为关键字(Key)。例 如,在学生关系中,学号就是关键字。
关系模式对关系的描述称为关系模式,其格式为: 关系名(属性名1,属性名2,…,属性名n) 一个关系模式对应一个关系的结构,它是命名的属性集合。
生活中
生活中
二维表
数据结构
01 基本介绍
03 生活中
目录
02 关键字 04 性质
基本信息
二维表,数据结构,是一个关系名,意思是指关系模型中,数据结构的表示方法。
基本介绍
基本介绍
二维表名就是关系名。表中的第一行通常称为属性名,表中的每一个元组和属性都是不可再分的,且元组的 次序是无关紧要的。
常用的关系术语如下: 记录二维表中每一行称为一个记录,或称为一个元组。 字段二维表中每一列称为一个字段,或称为一个属性。 域一组具有相同数据类型的值。例如:自然数就是一个域
谢谢观看
二维表在生活中的应用广泛,例如成绩单、工资表、人员花名册、价格表、物料清单等
excel就是一个二维表,功能强大!!!
二维表就是由行列组成的,知道行号列号就可以确定一个表中的数据,这是二维表的特点。在关系数据库中, 存放在数据库中的数据的逻辑结构以二维表为主.
基本数学模型-列联表

M :被告是白人 M :被告是黑人
S :被告被判处死刑 S :被告未被判处死刑 P(S | M ) 19 0.119
160 P(S | M ) 17 0.102
166
独立性检验 2 0.22105
4
Simpson悖论
被告人 种族
被害人 种族
判决情况 死刑 非死刑
总计
V :被害人是白人 V :被害人是黑人
Kendall
Ammon
(1907-1983) (1842-1916)
Ammon, O. G., Zur Anthropologie der Badener
英国统计学家 德国人类学家
(On the anthropology of the people of Baden), 1899
Kendall, M. G., The Advanced Theory of Statistics, 1945
1
二维列联表
• 假设 n 个个体可根据两个属性进行分类,属性 A
有 r 类 A1, A2, , Ar,属性 B 有 c 类 B1, B2, , Bc。既属 于 Ai 类又属于B j类的个体有 nij 个。nij可显示在一张 二维列联表(contingency table)中
B1 A1 n11
Ar nr1
运筹与统计
列联表
头发与眼睛
• 头发颜色与眼睛颜色是否相关
头发 眼睛
浅色
棕
黑
红 总计
蓝 1768 807 189 47 2811
灰或绿 946 1387 746 53 3132
棕 115 438 288 16 857 Maurice George Otto Georg
王静龙定性数据分析第四章二维列联表答案

回答
非常满意 比较满意 比较不满意 不满意
提出的问题 你满意吗 你不满意吗 139 128 82 69 12 20 10 23
• 问:这两种提问方式对被调查者回答问题有没有影响?
第3题
• H0:这两种提问方式对被调查者回答问题无影响的 • H1:这两种提问方式对被调查者回答问题有影响
2
n n 1 / 2 TA n n 1 / 2 TB 正相合
(2)相合性的检验
GH
0.4245 0
H0:A(年龄)和B(冠状动脉硬化的程度)相互独立 H1:A和B正相合
第5题
2
n n n n ( z) 1942119
• 年龄越大的人,冠状动脉硬化的程度是否有越重的趋势? • (取水平 =0.05 )
第5题
• (1) 相合性的度量 G 15880 H 4324
4
TA
i 1
ni ni 1 2
10070
TB
j 1
4
n j n j 1 2
12442
= D(nij)
E ( )
2 i j
r
c
D(nij ) ni n j / n
( n r 1) c 1 n 1
• 9、假设二维
r r 概率方表为:
B1 … …
Br p1r
合计 p1+
A1
p11
Ar
合计
pr+ n
pr1 p+1
„ „
prr p+r
D(q1 ) 2 (1 q2 )
二维表_精品文档

二维表什么是二维表?二维表,又称为表格,是一种常见的数据结构,用于存储和组织数据。
二维表由行和列组成,其中每行代表一个记录,每列代表一个字段。
二维表可以看作是一张由行和列交叉形成的网格,每个交叉点处存储着特定的数据。
二维表的结构二维表通常由一行作为表头和多行作为数据组成。
表头包含了字段名称,用于描述每一列的数据类型或含义。
而数据行则包含了实际的数据。
一个简单的二维表示例如下所示:ID Name Age Gender1 Alice 25 Female2 Bob 30 Male3 Carol 35 Female在这个例子中,表头包含了四个字段:ID、Name、Age和Gender。
数据行则表示了三个人的信息,包括ID、用户名、年龄和性别。
二维表的特点二维表具有以下几个特点:1.行和列的关系:二维表可以看作是行和列的交叉点,每个交叉点处存储着具体的数据。
2.可扩展性:二维表可以随着需要增加行和列,以适应数据的变化。
3.数据的一致性:每个字段在表头中都有明确定义,确保了数据在同一列中具有一致的数据类型或含义。
4.查询和排序:通过对二维表进行查询和排序操作,可以方便地获取特定的数据。
5.关系和连接:多个二维表之间可以通过共同的字段进行关联和连接,以便于获取更加复杂的数据。
二维表的应用二维表广泛应用于各个领域,包括但不限于:•数据库管理系统:二维表是关系型数据库的基本概念之一,用于存储和管理大量的结构化数据。
•电子表格软件:电子表格软件使用二维表的形式来展示和计算数据,如Microsoft Excel、Google Sheets等。
•数据分析和报表:二维表可以用于存储数据,进行数据分析和生成报表,帮助用户更好地理解和利用数据。
•Web开发:二维表作为后端数据的存储形式,可以被 Web 开发中的数据库或其他数据存储工具所使用。
总结二维表是一种常见的数据结构,用于组织和存储数据。
它由行和列组成,表头包含了字段名称,数据行包含了具体的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不完备列联表的检验
对拟独立的不完备列联表的ML估计后,需要进行 拟独立性检验;同时,考虑不完备子集的拟独立 性也是研究完备表的一种方法。
原假设应为:
H0 : 存在i (i 1, , r)和 j ( j 1, , c),使得mij i j
对独立性的期望频数定义公式可以通过取对数将 乘法转换为加法,即:
ln mij ln i ln j
这就是对数线性模型(第7章)。
不完备列联表
当某些nij=0时,称这些格为空格;有空格的列联 表称为不完备的列联表。
对于一般完备列联表讨论独立性,对不完备列联 表讨论拟独立性。
属性A方向的同分对,即行等级或顺序相同的 r
数据对,记为TA
;TA
C2 ni
属性B方向的同分对,即i1 列等级或顺序相同的 c
数据对,记为TB
; TB
C2 n j
属性A与B的同分对,即i行1 顺序与列顺序相等的
数据对,记为TAB ;TAB r
c
C2 nij
相合性的度量与检验
在四格表中,用来判断属性A与B关联情况 (相合性检验)的统计量U、χ2均包含一个 共同因子:
n11n22-n12n21>0时,四格表正相合; n11n22-n12n21<0时,四格表负相合;
有序属性数据相合关系的度量:
Pearson的矩相关系数 Spearman的等级相关系数 Kendall的τ相关系数——使用最多
对不完备列联表中元素的估计,可以在假定完全 随机泊松分布的基础上,得到似然方程组:
ii ni , i 1, , r j j n j , j 1, , c
在保持边缘和不变的前提下,解出期望频数。 有的情况下期望频数的极大似然估计难以直接得
到,需要通过迭代算法求解。 迭代算法就是在保持边缘和不变时,寻找 i j放入
检验统计量为:
2
(nij mˆ ij )2 ~ 2 ((r 1)(c 1) m)
(i, j )S
mˆ ij
G2
2
(i, j )S
nij
ln
mˆ ij nij
二维列联表的独立性检验
二维列联表独立性检验实质上是带参数的 分类数据的检验问题。
二维列联表的独立性检验
【例4.1】为了解男性和女性对三种啤酒的偏 好差异分别调查了1353个男性和636个女性, 结果见表:
问男性与女性对啤酒的偏好是否有显著差异。
二维列联表的独立性检验
通过计算检验统计量的值得到:
mˆ i(j2)
mˆ i(j1)
mˆ i(j1)
n j
{i:(i, j )S}
迭代估计法
4、将第二次迭代得到的值作为初始估计,重复前面的 步骤2和步骤3;
5、直至相邻两次迭代得到的估计仅有比较小的差别, 最后得到的迭代估计就是期望频数的极大似然估计。
以上步骤可以在表格上完成,每次估计所有非空 格的迭代值,直到精度符合要求即可。
因此有, i1 i1
Cn2
n(n 1) 2
G
H
TA
TB
TAB
相合性的度量与检验
从τ系数的计算公式可知,在属性A与B正相 合时,G 比较大而H 比较小;反之在A与B 负相合时, G 比较小而H 比较大。因此, (G-H)的方向决定了相合性的方向。
在存在同分对的情况下,需要对相合性的 度量进行修正。
其中,mij为期望频数(证明见P96)。 主要用来描述完全随机泊松分布变量的抽样方式
下,属性A与B的相互独立问题,即:
nij ~ P(mij ) P(i j )
完全随机泊松分布情况下,属性A与B独立性检验 与带参数的分类数据检验完全相同。
独立性的期望频数定义
公式 mij i 可j 以理解为: 在A和B相互独立时, i 和 j是与 mij 有关的两 个量。 由 nij ~ P(mij )可知,E(nij ) mij i j ,因此,可 以认为 i 和 j分别是属性A和B的效应。
当从左上角到右下角的对角线元素外的其余元素 都等于0时,为完全正相合;
当从右上角到左下角的对角线元素外的其余元素 都等于0时,为完全负相合;
Gamma系数
除肯德尔的τ外,相合性度量还有伽马系数 Gamma: G H
GH
伽马的取值在[-1,1]之间,越接近1说明越趋向正 相合,越接近-1说明为负相关。
很明显,原假设不成立,即不是偶然一致。
独立性的期望频数定义
对于二维表,独立性的定义除基本的联合概率等 于边缘概率乘积的方法外,还可以用期望频数。
若存在 i (i 1, , r)和 j ( j 1, ,, c)使任意的 i 和 j 都有:mij i j ,则称属性A和B相互独立。
独立性与齐性
如果对任意的i和j,都有:pi j pi p j,则称 属性A与B独立。
如果A与B独立,则对任意j都与i无关
p1 j p1
prj p1 j pr p1
prj pr
p j
如果A与B独立,则对任意i都与j无关
pi1 p1
pic pi1 pc p1
相合性的度量与检验
τ相关系数基本思路:
认为二维列联表均可定义为有序表; 对有序变量的赋值可以确定由小到大的顺序关
系,但不影响相合关系的度量;最简单的赋值 方法就是令 x i,i 1, , r
y j, j 1, , c
在二维表中,
数据对
x y
一致性的检验
一般认为,计算的Kappa小于0时,属于偶然一致, 即期望一致率大于观测一致率;
只有在Kappa大于0时,才进行一致性检验;
在计算kappa系数的方差基础上,可以构造检验统
计量:
U ~ N (0,1) D( )
经计算,例4.3的kappa=0.361,kappa的标准误 =0.0844,故U=4.277
相合性的度量与检验
相合性用来描述属性变量之间的相关情况,包括 关联的方向和强度。
二维列联表根据属性的类型分为三类:
双向无序列联表 一向无序、一向有序列联表 双向有序列联表
实际上即使无序也可以定义为有序,或假设有序。 这样,相合关系有两类:
正相合:属性A大的个体,属性B也往往较大; 负相合:属性A大的个体,属性B往往较小;
i j
,
如数据对11
有n11对, cr
有nrc
对
相合性的度量与检验
在不考虑同分对的情况下,τ系数以数据对中同 序对与异序对的差为分子,以样本容量n可能 形成的总数据对数为分母;即
ns nd Cn2
2 n(n 1) (ns
nd )
其中:在二维表的任意两个单元格之间,若:
2 90.685,p P( 2 (2) 90.685) 0 G2 90.065,p P( 2 (2) 90.065) 0
说明男性与女性对啤酒的偏好有显著差异 可见,独立性问题的讨论仅仅是说明属性A
与B有无关系,或是否相互独立,但不能给 出关系的方向与强弱。
果见表:
问:他们的检验结果是否一致?
一致性的度量
在二维列联表的相合性度量中,当除从左上角到 右下角的对角线元素外其余都为0时,两种属性完 全正相合。
在方表中,一致性可以理解为:从左上角到右下 角的对角线元素表示结果一致,其值越大,表示 一致性越高。因此,q1 可以反映一致性的大小, 称为观测一致率:
令 z G H,于是有:
U z N (0,1)
(z)
2
U2
z2 2 (z)
2 (1)
由于其标准误计算较为复杂,通常使用统
计软件进行计算。
方表的一致性检验
二维表中当r=c时,形成方表。 方表有一致性检验问题。 【例4.3】两位检验员分别对72件产品进行检验的结
GH
[n(n 1) / 2 TA][n(n 1) / 2 TB ]
相合性的度量与检验
τ系数的取值范围为[-1,1]之间
当H=0,且TA=TB=TAB时,完全正相合;
当r=c时,τ=1;
当G=0,且TA=TB=TAB时,完全负相合;
当r=c时, τ=-1;
当TA=TB=TAB时,说明每一行、每一列只有一个非 零值;
不完备列联表的非空格中,也就是满足以上方程 组成立。
迭代估计法
迭代算法的步骤:
1、令非空格上的期望频数估计的初始值为1,
mˆ i(j0) 1, (i, j) S
2、调整该估计值,令:
mˆ i(j1)
mˆ i(j0)
mˆ i(j0)
ni
{ j:(i, j )S}
3、继续调整以上估计值,令:
q1 (n11 n22 nrr ) / n
但这一度量值存在平均值为正的缺陷,由Cohen 于1960年提出了Kappa系数。
一致性度量
一致性的检验
Kappa 系数中的π0就是q1 , πe是π0的期望或均值,
称为期望一致率,即两次试验结果由于偶然机会所 造成的一致率; 当方表中左上到右下对角线以外元素均为0时, Kappa 系数达到最大值1,即完全一致;当完全不 一致时, Kappa 等于0; Kappa 系数的取值在[0,1]之间; Kappa <0.4时,认为一致性较差; Kappa >0.8时,认为一致性较好; 0.4>Kappa <0.8时,认为一致性一般。