医学统计学 定性资料的分析
合集下载
医学统计学5定性资料的统计描述--

• 乙地标准 化死亡率
p 1763 1000 17.63% 100,000 1000
表5-7 按公式(5.5)用直接法计算标准化死亡率(‰)
年龄组
(岁) (1)
0~ 5~ 20~ 40~ 60~ 合计
标准人口构成 比
(Ni/N) (2)
0.141
甲地
乙地
原死亡率pi (3)
分配死亡率 (Ni/N)pi
统计指标。
一、率
• 率(rate)又称频率指标,是某现象实 际发生的观察单位数与可能发生该现象 的观察单位总数之比,用以说明某现象 发生的频率或强度。计算公式为:
率
发生某现象的观察单位 数 可能发生某现象的观察 单位总数
K
式中:K为比例基数,常以百分率(%)、千分率(‰)、 万分率(1/万)、十万分率(1/10万)表示,原则上使计 算结果至少保留1~2位整数。但在医学资料中某些指标的 比例基数是固定的。
• 2.关系指标:指两个有关的、但非同类 事物的数量的比。
• 3.计划完成指标:说明计划完成的程度 ,常用实际数达到计划数的百分之几或 几倍表示。
表5-1 1993~1998年某地损伤与中毒病死率(%)与构成比(%)
年度 发病人数 病死人数 病死率
(1) (2) (3) (4)
1993 584
8
1.37
(4)=(2) (3)
原死亡率pi (5)
分配死亡率 (Ni/N)pi
(6)=(2) (5)
57.2
8.07
72.9
10.28
0.188
3.6
0.68
4.6
0.86
0.543
5.3
2.88
7.2
医学统计学-3-定性资料统计描述

解决办法
分层比较 率的标准化法 多元统计分析方法
相对数比较时应注意其可比性(二)
在同一地区不同时期资料的相对数比较时,还 应注意其条件有无变化。 例如,不同时期的发病率比较时,应注意不同 时期疾病的登记制度、诊断水平以及平均人口 数的变化。
5、样本率或构成比进行比较时应作假设检验 由于样本率或构成比是样本指标,同样存 在着抽样误差。 在实际工作中,不能根据样本率或构成比 等相对数的数值大小轻易作出结论,应进 行样本率或构成比差异比较的假设检验。
一、相对数的概念
Question:
通过调查得到某年甲地区的小学生中流脑 发病63例,乙地区的小学生中流脑发病35 例。能否认为甲地流脑的发病严重程度高 于乙地? 绝对数63例和35例表示甲地发病比乙地多 28例,能否说明两地发病的严重程度呢?
假设甲地有小学生50051人,乙地有小学生 14338人,求出两地的发病率: 甲地发病率: 63/50051=1.26‰ 乙地发病率: 35/14388=2.44‰ 乙地区的发病率是甲地区的两倍多。 以上两个发病率为通过绝对数求得的相对 数,用来表示事物出现的频率或强度,便 于比较。
分类资料的统计描述
用率、构成比和相对比等指标来对分类资 料进行统计描述。 由两个有联系的指标之比组成,统称为相 对数。 常用相对数包括率、构成比和相对比。
二、常用相对数
1、率(rate)
又称频率指标。 某现象实际发生数与可能发生总数之比。 说明某现象发生的频率与强度:
某时期内实际发生某现象的观察单位数 率= ×比例基数(K) 同时期可能发生该现象的观察单位总数
三、标准组的选择
标准组应选择有代表性的、较稳定的、来自数 量较大的人群的指标作为标准。
例如世界的、全国的、全省的、本地区的或本 单位历年累计的数据等;
医学统计学等级资料分析

7
资料仅供参考,不当之处,请联系改正。
8.2 两样本比较的秩和检验
检验假设
H0 :A、B两组等级分布相同; H1 :A、B两组等级分布不同(相互偏离)。 =0.05。
8
资料仅供参考,不当之处,请联系改正。
基本思想
如果H0 成立,即两组分布位置相同, 则A组的实
际秩和应接近理论秩和n1(N+1)/2; (B组的实际秩和应接近理论秩和n2(N+1)/2)。
P<0.01,按 =0.05水准,拒绝H0 ,接受H1,差异有统计学
意义。可认为复方猪胆胶囊治疗老年性慢性支气管炎喘息型 与单纯型的疗效有差别。
18
资料仅供参考,不当之处,请联系改正。
8.3 多组比较的秩和检验
Kruskal-Wallis法 先对所有数据编秩;
求秩和T
计算 H 统计量; 查 H 界值表,或2界值表,界定 P 值; 作出结论。
1 2 4.5 4.5 4.5 8.5
B组:
+ ++ ++ ++ +++ +++
6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
5
资料仅供参考,不当之处,请联系改正。
秩和
A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5
资料仅供参考,不当之处,请联系改正。
8.2 两样本比较的秩和检验
检验假设
H0 :A、B两组等级分布相同; H1 :A、B两组等级分布不同(相互偏离)。 =0.05。
8
资料仅供参考,不当之处,请联系改正。
基本思想
如果H0 成立,即两组分布位置相同, 则A组的实
际秩和应接近理论秩和n1(N+1)/2; (B组的实际秩和应接近理论秩和n2(N+1)/2)。
P<0.01,按 =0.05水准,拒绝H0 ,接受H1,差异有统计学
意义。可认为复方猪胆胶囊治疗老年性慢性支气管炎喘息型 与单纯型的疗效有差别。
18
资料仅供参考,不当之处,请联系改正。
8.3 多组比较的秩和检验
Kruskal-Wallis法 先对所有数据编秩;
求秩和T
计算 H 统计量; 查 H 界值表,或2界值表,界定 P 值; 作出结论。
1 2 4.5 4.5 4.5 8.5
B组:
+ ++ ++ ++ +++ +++
6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
5
资料仅供参考,不当之处,请联系改正。
秩和
A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5
医学研究生医学统计学定性资料的统计描述

百分比(%) 33.33 20.00 13.33 26.67 6.67 100.00
针刺合谷治疗胃痛的效果
疗效 治愈
例数 59
百分 比
(%)
60.82
有效
23
23.71
无效
15
合计
97
15.46
100.0 0
治愈 有效 无效
二、定性资料的描述指标 ——相对数(Relative number)
相对数:两个有联系的指标(数值)之比
相对比 A B
A和B可以是绝对数、平均数,也可以是相对数 A和B的量纲可以相同,也可以不同 A和B彼此分离,互不重叠或包含
如:人口出生性别比;每千人口的医生数、每千 人口的病床数、每医生的门诊工作量、变异系 数等。
人口出生性别比国际上一般以每出生100个女
性人口相对应出生的男性人口的数值来表示。 一般在102~107之间。
频率型指标
某 病 病 死 率 = 同 同 年 年 某 患 病 该 死 病 亡 总 人 数 数 100 %频率型指标
发病率(incidence rate,IR)表示一定时期 内,在可能发生某病的一定人群中新发生某病 的强度。
患病率(prevalence rate, PR)又称为现患 率,指某时点上受检人数中现患某种疾病的频 率,患病率分为时点患病率(point prevalence rate)和期间患病率(period prevalence rate)。
医学研究生医学统计学定性资 料的统计描述
相关概念
定性资料是指将观察单位按照某种属性或类
别进行分组,然后计数各组的观察单位个数 所收集的资料。
根据变量类别之间是否有顺序、等级、大小 关系,分为无序分类变量资料和有序分类变 量资料。
医学统计学课件:02_统计描述(定量定性)

中位数(median,M)
将一组观察值从小到大按顺序排列,居于中心位置 的数值。在全部观察值中有半数的值比M大,另有半数 的值比M小。 适用于当大部分观测值比较集中,少数观测值偏向 一侧时;或资料分布情况不清楚时;或数据的最大值
(最小值)无准确测量数据时。如传染病的潜伏期。任
何分布的定量数据均可用中位数描述其分布的集中趋势, 使用范围广。
2003年4月22日全国SARS发病人数频数表
发病地区 北京 山西 广东 河北 内蒙 天津 广西 其他省市 频数 105 16 14 6 3 2 1 0 频率/% 71.4 10.9 9.5 4.1 2.0 1.4 0.7 0.0 累积频数 105 121 135 141 144 146 14移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
f i lg X i f1 lg X 1 f 2 lg X 2 f n lg X n 1 lg G lg f f i i
1
频数表资料的几何均数
抗体滴度 ⑴
人数,f ⑵
滴度倒数,X ⑶
lgX ⑷
f· lgX ⑸
累积频率/%
71.4 82.3 91.8 95.9 98.0 99.3 100.0 100.0
合计
147
100.0
某药物疗效的频数表
治疗效果 治愈 频数 65 频率/% 43.3 累积频数 65
医学统计学定性资料的统计分析-χ2检验

29 41
48.28 39.02
H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2
计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20
. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。
定性资料的统计描述

25
三、相对比
相对比是互不包含的两个有联系指标之比。 对比的两个指标可以性质相同,也可以性质 不同。 公式为:相对比型指标=A指标 / B指标
注意:在计算相对比中,甲、乙两个指标可 以是绝对数,也可以是相对数或平均数,可 以有不同的量纲,但是互不包含。
27
例: 某年某医院出生婴儿中,男性婴儿为 370人, 女性婴儿为358人,则出生婴儿的 性别比为多少? 性别比为:370 / 358 ×100﹪=103﹪ 说明该医院年每出生100名女婴儿,就有103 名男婴儿出生。
30
2.相对危险度(relative risk,RR)表示在两种相同 条件下某疾病发生的概率之比。即暴露组发病率 与非暴露组发病率的比值。 某地某年男性吸烟和非吸烟的冠心病死亡资料 分组 死亡人数 观察人年数 死亡率 (1/10万人年) 43248 10673 240.5 112.4
吸烟组 104 非吸烟组 12
36
某医院某年住院病人中胃癌患者占5%,则() A 5%是强度指标 B 5%是频率指标 C 5%是相对比指标 D 5%说明胃癌在住院病人 中的比重
37
2.使用相对数时分母不宜过小 某药物 甲治疗100人,50人有效,有效 率为50﹪。药物乙治疗5人,3人有效, 我们能否说乙药有效率为60 ﹪?能否说 乙药比甲药治疗效果好。
9
分娩方式 顺产 助产 顺产 顺产 顺产 剖宫产 顺产 剖宫产 顺产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
年龄 18 20 22 24 26 28 30 32 34 36 38 40 合计 工人 2 9 28 50 50 34 11 14 4 2 3 0 207 管理人员 0 2 7 34 43 35 14 2 2 1 1 0 141 农民 0 6 10 28 25 10 11 3 5 1 1 2 102 商业服务 0 10 24 52 45 34 22 14 3 4 0 0 208
《医学统计学》第四章定性资料的统计描述

1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3
否
265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听
率
某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 C
( A T 0.5) T
2
2
( a d b c n / 2) n (a b)(c d )(a c)(b d )
39/73
例7.3 比较单用甘磷酰芥(单纯化疗组)与复合使用争光霉
素、环磷酰胺等药(复合化疗组)对淋巴系统肿瘤的疗效, 问两组患者总体的完全缓解率有无差别
在H0成立的条件下,即两样本来自同一总体,
则可以用合计的存活率 73.3%(即96/131)作为
总体存活率的点估计;用合计的死亡率 26.7%
(即35/131)作为总体死亡率的点估计;
25/73
表 3 131 例乳腺癌患者按 H0 计算的理论频数 H0 假设下的 5 年 处理 存活数 死亡数 合 计 存活率(%) 联合治疗 34.44 12.56 47 73.3 单纯治疗 合 计 61.56 96 22.44 35 84 131 73.3 73.3
u
0.679 0.830 0.733 (1 0.733)(1/ 47 1/ 84)
P>0.05,按=0.05水准,不拒绝H0,差别无统计学 意义。故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
1.874 u0.05 1.96
17/73
7.2.2 两样本率比较的2检验
联合治疗 单纯治疗 合 计
19/73
1.四格表(fourfold table)
概念:表1 中间阴影部分的四个数据为基本数据,
其余数据均由此四个数据派生出来,故称此种
资料为四格表(fourfold table)资料。
目的:四格表资料比较的是两种处理的效果。
特点:每种处理只产生两种相互对立的结果,
治疗组 单纯化疗 复合化疗 合 计
表 7.3 两组化疗的缓解率比较 缓解 未缓解 合计 2(4.68) 14(11.32) 16 10(7.32) 15(17.68) 25 12 29 41
缓解率(%) 16.67 48.28 39.02
40/73
H0:1=2; H1:12。 =0.05。 本例a 格的理论频数最小,T11=1216/41=4.68<5,
由 2界值表查得 20.05,1 = 3.84 ,即理论上
如果H0成立,则2有95%的可能 在0~3.84
之间,2 >3.84的可能性只有0.05,是一小概
率事件。
32/73
本例 2 =3.52 < 3.84 得P > 0.05。
按 = 0.05水准不拒绝H0,差别无统计学意义。 故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
33/73
基本思想概括
若H0成立,则四个格子的实际频数A与理 论频数T之差异纯系抽样误差所致,故一
般不会很大,2值也就不会很大;在一次随 机试验中,出现大的 2 值的概率P 是很小的。
34/73
因此,若根据实际样本资料求得一个很 小的P,且P≤ (检验水准),根据小概率 原理,就有理由怀疑H0的真实性,因而 拒绝它;若P>,则没有理由拒绝H0
n1=84, X2=57, p2=67.9% n2=47, X2=39, p2=83.0%
n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5,
pc= (X1+X2)/(n1+n2)=(39+57)/(47+84)=0.733
16/73
H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。 = 0.05。 用正态近似检验,检验统计量u为:
13/73
7.2.1 两样本率比较的u 检验
如果n较小,则可以用校正的u检验
X 1 0.5 X 2 0.5 X 1 0.5 X 2 0.5 n1 n2 n1 n2 uC s p1 p2 1 1 pc (1 pc )( ) n1 n2 而当n很小时(比如n≤40时),用确切概率法
22/73
第二步:确定检验水准
= 0.05 (双侧检验)
23/73
第三步:计算检验统计量
2
2 (A T) T
式中: A 为实际频数(actual frequency)
T 为理论频数(theoretical frequency)
24/73
要计算 2 统计量,必须先计算H0条件下 的理论频数T :
2 2 2
29/73
第四步:确定 P 值,下结论
由于四格表资料为双边固定形式,即
假设行合计与列合计均固定,所以四 格表的自由度ν=1
30/73
表2 处理组 甲 乙 合计
四格表资料的基本形式 发生数 a c a+c
a+1 c-1
未发生数 b b-1 d d+1 b+d
合计 a+b c+d n
31/73
处0.1~17.8即为阳性率95%可信区间.
7/73
二、定性资料的假设检验
样本率与总体率的比较 两样本率的比较 多个率的比较 构成比的比较 配对设计两样本率的比较 两事件数的比较
定性资料假设检验的正确应用
8
7.1 样本率与总体率的比较
例7.1 据临床经验,一般的胃溃疡病患者有 20%会出现胃出血症状。某医院观察了304例
95%可信限为:9.20%±1.96×2.41% 即该地人群的乙型肝炎表面抗原阳性率的95%可 信区间为:4.48%~13.92%。
6/73
2.查表法
例4.5 有人调查29名非吸毒妇女,出狱时 有1名HIV(人免疫缺陷病毒)阳性,求阳性 率95%可信区间?
直接查附表6.2,在行n=29, 列x=1交叉
12/73
7.2.1 两样本率比较的u 检验
条件:当n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5时, 采用正态近似法,其中: pc=(X1+X2)/(n1+n2)
| p1 p2 | u s p1 p2
| p1 p2 | 1 1 pc (1 pc )( ) n1 n2
★只有当n较大、率和(1-)都不太小时,例如
n和n(1-)均大于5时,率的抽样分布近似于正
态分布。
3/73
(二)总体率的区间估计
正态近似法
查表法
4/73
1.正态近似法
条件:
样本例数n足够大,且样本率 p 和 (1-p) 都不
太小时,即 np 和 n(1-p) 均大于5时,样本率p
的抽样分布近似正态分布 。总体率的可信区间:
T a 47 73.3% 34.44 T c 84 73.3% 61.56
T b 47 26.7% 12..56 T d 84 26.7% 22.44
26/73
四格表的理论频数由下式求得 :
T
RC
n R nC n
式中:TRC为第R 行C 列的理论频数, nR为相应的行合计, nC为相应的列合计。
14/73
例7.2 某医院肿瘤科3年来共治疗乳腺癌患者 n=131例,每例均观察满5年,其中单纯手术 治疗组观察n1=84例,存活x1=57例,存活率 p1=67.9%,联合治疗(手术+术后化疗)组观 察n2=47例,存活x2=39例,存活p2=83.0%, 问两组存活率有无差别?
15/73
本例中,已知:
u
0.3158 0.2 0.2 (1 0.2) / 304
5.05 u0.01(单侧) 2.33
P<0.01,按=0.05水准拒绝H0,接受H1。认为老年 胃溃疡病患者的胃出血率大于20%。
11/73
7.2 两样本率的比较
目的: 推断两总体率是否相等 方法:
※两样本率比较的u 检验(u test) ※两样本率比较的2检验 (chi-square test)
如生与死,有效与无效,患病与未患病,阳性
与阴性,检出与未检出,等等。
20/73
表 2 四格表资料的基本形式 处理组 甲 乙 合计 发生数 a c a+c 未发生数 b d b+d 合计 a+b c+d n
21/73
第一步:建立检验假设
H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。
37/73
四格表资料2检验的应用条件
2检验不校正的条件: n ≥40 且所有T ≥ 5 2检验校正的条件: n≥40 但有l≤T<5
确切概率法: 当n和T过小,如T<1或n<40时因近 似程度太差,不宜用2检验,而应改用确 切概率法。
38/73
四格表资料2检验的校正公式
2 C
2 :读作卡方 2检验(chi-square test) 是现代统计学的
创始人 Karl Pearson( 1857-1936 )于
1900年提出的一种具有广泛用途的统计 方法 。
18/73
例7.2
表 1 131 例乳腺癌患者治疗后 5 年存活率的比较 处 理 存活数 死亡数 合计 39 57 96 8 27 35 47 84 131 存活率(%) 83.0 67.9 73.3
47 35 12.56 Tb 131 84 35 22..44 Tc 131
28/73
(39 34.44) (8 12.56) 34.44 12.56 2 2 (57 61.56) (27 22.44) 61.56 22.44 3.52
n>40,故考虑用校正公式计算 2 值。
2 C
( A T 0.5) T
2
2
( a d b c n / 2) n (a b)(c d )(a c)(b d )
39/73
例7.3 比较单用甘磷酰芥(单纯化疗组)与复合使用争光霉
素、环磷酰胺等药(复合化疗组)对淋巴系统肿瘤的疗效, 问两组患者总体的完全缓解率有无差别
在H0成立的条件下,即两样本来自同一总体,
则可以用合计的存活率 73.3%(即96/131)作为
总体存活率的点估计;用合计的死亡率 26.7%
(即35/131)作为总体死亡率的点估计;
25/73
表 3 131 例乳腺癌患者按 H0 计算的理论频数 H0 假设下的 5 年 处理 存活数 死亡数 合 计 存活率(%) 联合治疗 34.44 12.56 47 73.3 单纯治疗 合 计 61.56 96 22.44 35 84 131 73.3 73.3
u
0.679 0.830 0.733 (1 0.733)(1/ 47 1/ 84)
P>0.05,按=0.05水准,不拒绝H0,差别无统计学 意义。故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
1.874 u0.05 1.96
17/73
7.2.2 两样本率比较的2检验
联合治疗 单纯治疗 合 计
19/73
1.四格表(fourfold table)
概念:表1 中间阴影部分的四个数据为基本数据,
其余数据均由此四个数据派生出来,故称此种
资料为四格表(fourfold table)资料。
目的:四格表资料比较的是两种处理的效果。
特点:每种处理只产生两种相互对立的结果,
治疗组 单纯化疗 复合化疗 合 计
表 7.3 两组化疗的缓解率比较 缓解 未缓解 合计 2(4.68) 14(11.32) 16 10(7.32) 15(17.68) 25 12 29 41
缓解率(%) 16.67 48.28 39.02
40/73
H0:1=2; H1:12。 =0.05。 本例a 格的理论频数最小,T11=1216/41=4.68<5,
由 2界值表查得 20.05,1 = 3.84 ,即理论上
如果H0成立,则2有95%的可能 在0~3.84
之间,2 >3.84的可能性只有0.05,是一小概
率事件。
32/73
本例 2 =3.52 < 3.84 得P > 0.05。
按 = 0.05水准不拒绝H0,差别无统计学意义。 故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
33/73
基本思想概括
若H0成立,则四个格子的实际频数A与理 论频数T之差异纯系抽样误差所致,故一
般不会很大,2值也就不会很大;在一次随 机试验中,出现大的 2 值的概率P 是很小的。
34/73
因此,若根据实际样本资料求得一个很 小的P,且P≤ (检验水准),根据小概率 原理,就有理由怀疑H0的真实性,因而 拒绝它;若P>,则没有理由拒绝H0
n1=84, X2=57, p2=67.9% n2=47, X2=39, p2=83.0%
n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5,
pc= (X1+X2)/(n1+n2)=(39+57)/(47+84)=0.733
16/73
H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。 = 0.05。 用正态近似检验,检验统计量u为:
13/73
7.2.1 两样本率比较的u 检验
如果n较小,则可以用校正的u检验
X 1 0.5 X 2 0.5 X 1 0.5 X 2 0.5 n1 n2 n1 n2 uC s p1 p2 1 1 pc (1 pc )( ) n1 n2 而当n很小时(比如n≤40时),用确切概率法
22/73
第二步:确定检验水准
= 0.05 (双侧检验)
23/73
第三步:计算检验统计量
2
2 (A T) T
式中: A 为实际频数(actual frequency)
T 为理论频数(theoretical frequency)
24/73
要计算 2 统计量,必须先计算H0条件下 的理论频数T :
2 2 2
29/73
第四步:确定 P 值,下结论
由于四格表资料为双边固定形式,即
假设行合计与列合计均固定,所以四 格表的自由度ν=1
30/73
表2 处理组 甲 乙 合计
四格表资料的基本形式 发生数 a c a+c
a+1 c-1
未发生数 b b-1 d d+1 b+d
合计 a+b c+d n
31/73
处0.1~17.8即为阳性率95%可信区间.
7/73
二、定性资料的假设检验
样本率与总体率的比较 两样本率的比较 多个率的比较 构成比的比较 配对设计两样本率的比较 两事件数的比较
定性资料假设检验的正确应用
8
7.1 样本率与总体率的比较
例7.1 据临床经验,一般的胃溃疡病患者有 20%会出现胃出血症状。某医院观察了304例
95%可信限为:9.20%±1.96×2.41% 即该地人群的乙型肝炎表面抗原阳性率的95%可 信区间为:4.48%~13.92%。
6/73
2.查表法
例4.5 有人调查29名非吸毒妇女,出狱时 有1名HIV(人免疫缺陷病毒)阳性,求阳性 率95%可信区间?
直接查附表6.2,在行n=29, 列x=1交叉
12/73
7.2.1 两样本率比较的u 检验
条件:当n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5时, 采用正态近似法,其中: pc=(X1+X2)/(n1+n2)
| p1 p2 | u s p1 p2
| p1 p2 | 1 1 pc (1 pc )( ) n1 n2
★只有当n较大、率和(1-)都不太小时,例如
n和n(1-)均大于5时,率的抽样分布近似于正
态分布。
3/73
(二)总体率的区间估计
正态近似法
查表法
4/73
1.正态近似法
条件:
样本例数n足够大,且样本率 p 和 (1-p) 都不
太小时,即 np 和 n(1-p) 均大于5时,样本率p
的抽样分布近似正态分布 。总体率的可信区间:
T a 47 73.3% 34.44 T c 84 73.3% 61.56
T b 47 26.7% 12..56 T d 84 26.7% 22.44
26/73
四格表的理论频数由下式求得 :
T
RC
n R nC n
式中:TRC为第R 行C 列的理论频数, nR为相应的行合计, nC为相应的列合计。
14/73
例7.2 某医院肿瘤科3年来共治疗乳腺癌患者 n=131例,每例均观察满5年,其中单纯手术 治疗组观察n1=84例,存活x1=57例,存活率 p1=67.9%,联合治疗(手术+术后化疗)组观 察n2=47例,存活x2=39例,存活p2=83.0%, 问两组存活率有无差别?
15/73
本例中,已知:
u
0.3158 0.2 0.2 (1 0.2) / 304
5.05 u0.01(单侧) 2.33
P<0.01,按=0.05水准拒绝H0,接受H1。认为老年 胃溃疡病患者的胃出血率大于20%。
11/73
7.2 两样本率的比较
目的: 推断两总体率是否相等 方法:
※两样本率比较的u 检验(u test) ※两样本率比较的2检验 (chi-square test)
如生与死,有效与无效,患病与未患病,阳性
与阴性,检出与未检出,等等。
20/73
表 2 四格表资料的基本形式 处理组 甲 乙 合计 发生数 a c a+c 未发生数 b d b+d 合计 a+b c+d n
21/73
第一步:建立检验假设
H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。
37/73
四格表资料2检验的应用条件
2检验不校正的条件: n ≥40 且所有T ≥ 5 2检验校正的条件: n≥40 但有l≤T<5
确切概率法: 当n和T过小,如T<1或n<40时因近 似程度太差,不宜用2检验,而应改用确 切概率法。
38/73
四格表资料2检验的校正公式
2 C
2 :读作卡方 2检验(chi-square test) 是现代统计学的
创始人 Karl Pearson( 1857-1936 )于
1900年提出的一种具有广泛用途的统计 方法 。
18/73
例7.2
表 1 131 例乳腺癌患者治疗后 5 年存活率的比较 处 理 存活数 死亡数 合计 39 57 96 8 27 35 47 84 131 存活率(%) 83.0 67.9 73.3
47 35 12.56 Tb 131 84 35 22..44 Tc 131
28/73
(39 34.44) (8 12.56) 34.44 12.56 2 2 (57 61.56) (27 22.44) 61.56 22.44 3.52
n>40,故考虑用校正公式计算 2 值。
2 C