分类资料统计推断

合集下载

分类资料的统计分析A型选择题29

第十章分类资料的统计分析A型选择题1、下列指标不属于相对数的是（）A、率B、构成比C相对比D百分位数E、比2、表示某现象发生的频率或强度用A 构成比B 观察单位C 相对比D 率E 百分比3、下列哪种说法是错误的（）A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数B、分析大样本数据时可以构在比代替率C应分别将分子和分母合计求合计率或平均率D相对数的比较应注意其可比性E、样本率或构成比的比较应作假设检验4、以下哪项指标不属于相对数指标（）A.出生率B.某病发病率C.某病潜伏期的百分位数D.死因构成比E.女婴与男婴的性别比5、计算麻疹疫苗接种后血清检查的阳转率，分母为（）.A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数E.年均人口数6、某病患者120人其中男性114人，女性6人，分别占95%与5%,则结论为（）.A.该病男性易得B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论E.以上均不对7、某地区某重疾病在某年的发病人数为则该疾病发病人数的年平均增长速度为（0，以后历年为1 , 2,…，n , ）°8%这种指标是8、按目前实际应用的计算公式，婴儿死亡率属于（A. 相对比（比，ratio ）B. 构成比（比例，proportion ）C. 标准化率（standardized rate ）D. 率（rate ）E. 以上都不对9、某年某地乙肝发病人数占同年传染病人数的9. A. 集中趋势B. 时点患病率C. 发病率D. 构成比E. 相对比10、构成比：A. 反映事物发生的强度B 、反映了某一事物内部各部分与全部构成的比重C 既反映A 也反映BD 表示两个同类指标的比E 、表示某一事物在时间顺序上的排列E. an 1 a 。

11、构成比之重要特点是各组成部分的百分比总和:A.必大于1B、必小于1C必等于1D随着资料的变化而变化E、随着各构成部分大小改变而变12 、某日门诊各科的疾病分类统计资料，可以作为：A.计算死亡率的基础B、计算发病率的基础C计算构成比的基础D计算相对比基础13、计算率的平均值时：A.将各个率直接相加来求平均值B、以总的绝对数值为依据求平均值C先标化，再按A法计算D按求中位数的方法求平均值E、以上都不对14、分类资料的统计描述常用的指标是A.平均数B.标准化死亡率比C.变异系数D.相对数E.动态数列分析指标15、. 动态数列分析中的定基比和环基比属于A.相对比B.率C.构成比D.平均数E.频数16、某地1971-1995年床位发展情况列于下表。

第三节分类变量资料的统计分析-统计推断

σp =
π (1 − π )
n
如果总体率π未知，用样本率估计如果总体率未知，用样本率p估计未知
sp =
p(1− p) n
19:46
率的标准误的计算
例观察某医院产妇 106 人，其中行剖腹产者 62 人，剖腹产率为 58.5%，试估计剖腹产率的标准误。，试估计剖腹产率的标准误。解：已知 n=106，p=0.585，其标准误为：，，其标准误为：
19:46
小结
1．样本率也有抽样误差，率的抽样误差的大小用σp或Sp ．样本率也有抽样误差，率的抽样误差的大小用来衡量。来衡量。 2．率的分布服从二项分布。当n足够大，π和1-π均不太小．率的分布服从二项分布。足够大，和均不太小足够大，有nπ≥5和n（1-π）≥5时，近似正态分布。和（）时近似正态分布。 3．总体率的可信区间是用样本率估计总体率的可能范围．分布近似正态分布时，。当p分布近似正态分布时，可用正态近似法估计率的可信区分布近似正态分布时间。 4．根据正态近似原理，可进行样本率与总体率以及两样．根据正态近似原理，本率比较的u检验。本率比较的检验。检验
19:46
T11＝ (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 ＝ × × T12 ＝ (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 ＝ (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 ＝ (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总数例

预防医学-医考讲义-第二单元医学统计学方法

第二单元医学统计学方法一、基本概念和基本步骤（一）统计学中的几个基本概念1.总体的类型总体：是根据研究目的而确定的同质的研究对象的集合。

分为有限总体和无限总体。

样本：是指从总体中随机抽取的有代表性的一部分观察单位的集合。

2.同质和变异同质：指被研究指标的影响因素完全相同。

是科学研究的基础，是相对的。

变异：是同质基础上的个体差异。

是绝对的。

统计的任务就是在同质分组的基础上，通过对个体变异的研究，透过偶然现象，反映同质事物的本质特征和规律。

统计数据具有变异的特征。

3.变量和变量值变量：观察对象的特征。

变量分为定量变量、定性变量、有序数据。

变量值：对变量观察或测量的结果。

4.参数和统计量参数：总体的统计指标。

μ，π，σ统计量：样本的统计指标。

，p，s【例如】研究北京2012年正常成年男性的血压值。

研究对象观察单位变量变量值同质变异有限总体总体参数样本统计量5.误差误差：观察值与实际值的差别称为误差。

误差包括抽样误差和非抽样误差。

抽样误差：由于个体变异的存在，在抽样研究中产生的样本统计量与相应的总体参数间的差异。

非抽样误差包括过失误差和系统误差。

6.概率概率：随机事件发生可能性大小的度量。

常用P表示，P值范围在0～1之间。

小概率事件：P＜0.05为小概率。

统计学认为小概率事件在一次试验中不大可能发生。

（二）统计学工作基本步骤1.统计设计。

2.数据整理。

3.统计描述。

4.统计推断。

二、定量资料的统计描述描述统计是通过图表或统计指标，对数据资料进行整理、分析，并对数据的分布状态、数字特征进行估计和描述的方法。

（一）集中趋势指标1.算数均数μ，适用于正态分布或近似正态分布资料。

2.几何均数（G）适用于对数正态分布或等比资料。

3.中位数（M）与百分位数（P）中位数：是一组由小到大按顺序排列的观察值中位次居中的数值，用M表示。

百分位数（P X）：是把一组数据从小到大排列，分成100等份，各等份含1%的观察值，分割界限上的数值就是百分位数。

两分类资料的统计描述与推断

详细描述
频数分布表包括两列，一列表示类别，另一列表示该类别出现的频数。通过频数分布表，可以直观地了解各类别的数量分布情况，为后续的统计分析提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值，而百分比则是比例乘以100。通过比例和百分比，可以了解各类别的相对大小，进一步分析各类别的权重和影响。
详细描述
在两分类资料中，中位数通常用于描述某一类别的中间状态或中心趋势。例如，在一组关于消费者年龄的数据中，中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的个数。
VS
详细描述
在两分类资料中，算术平均数可以用于描述某一类别的平均水平或中心趋势。例如，在一组关于消费者购买力的数据中，算术平均数可以表示消费者的平均购买力水平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值，用于描述样本数据的特征。
参数
描述总体特性的量值，通常通过总体数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数的相对重要性。其计算公式为异众比率=非众数频数/总频数。异众比率越大，说明非众数频数所占比重越大，数据的离散程度越大。

计数资料的统计描述与统计推断

2 nnARn2C 1
(一) 多个样本率的比较：
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某成同年比年某死类亡死总因人死 1数亡 0% 0人数
8
（二）疾病统计指标
某病发病一率定该时期期间内新可病发能的生例发平的数生均某某人 K病
某病患病率某该时时点点某受病检现人患口病 K数例数
某
病
病死同因率期某某病
死亡人数病病 10人 % 0 数
29
31
（三）四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人对照组
29（a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率（%） 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3

计量资料统计推断(t检验)-预防医学-课件

02
t检验的步骤
建立假设
假设检验的基本思想
设立原假设的依据
在假设检验中，通常先设立一个原假设，然后基于样本数据对原假设进行检验，判断是否拒绝原假设。
原假设的设立通常基于已有的研究结果、理论或实践经验，并且原假设应该是一个可以验证的命题。
原假设与备择假设
原假设通常是研究者想要否定的假设，备择假设则是研究者想要接受的假设。
p值是用于判断是否拒绝原假设的统计量，p值越小，说明样本数据与原假设之间的差异越大，
越有理由拒绝原假设。
显著性水平
显著性水平是预先设定的一个临界值，用于判断是否拒绝原假设
，通常取0.05或0.01。
结论的表述
根据p值与显著性水平的比较结果，可以得出是否拒绝原假设的结论，并进一步解释结果的意义
断实验处理或条件改变对数据的影响。
两独立样本t检验
总结词
用于比较两个独立样本的平均值是否存在显著性差异。
VS
详细描述
两独立样本t检验，也称为两组独立样本t 检验，是统计学中常用的方法之一，用于比较两个独立样本的平均值是否存在显著差异。这种方法常用于比较不同组对象的数据、不同条件下的独立测量等。通过计算t统计量，我们可以判断两组独立样本的均值是否存在显著差异，从而推断不同组别或条件对数据的影响。在进行两独立样本t检验时，需要注意样本来自的总体是否具有方差齐性和正态分布等统计假设，以确保检验结果的准确性和可靠性。
t检验的适用范围
• t检验适用于样本量较小、数据分布情况未知或总体标准差未知的情况。在预防医学领域，t检验常用于比较两组人群的生理指标、行为习惯等计量资料的差异。
t检验的假设条件
• 假设条件包括：样本数据来自正态分布总体、总体方差齐性、独立样本等。在进行t检验之前，需要检验样本数据是否满足这些假设条件，以确保统计推断的准确性。

医学统计学分类变量资料的统计推断

总体率未知的时候用
率的标准误的意义
▪ 率的标准误小，说明抽样误差较小，表示样本率与总体率越接近；
▪ 率的标准误大，说明抽样误差较大，表示样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年，调查其留守情况，得出留守率为16.98%，求其留守率的标准误。
▪ 已知n=642，p=0.1698，则
单侧α= 0.05
本例，n=304，p=0.316，π0=0.2，则有
u=5.06>1.645,p<0.05,则拒绝H0，接受H1，老年胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢性支气管炎者41人，患病率为20.5%；不吸烟者162人中患慢性支气管炎者15人，患病率为9.3%。
案例
▪ 2003年，某学校欲了解大学生乙肝表面抗原携带情况以评价防控措施，随机抽取1000名大学生，做乙肝表面抗原检查，查得乙肝表面抗原阳性者52人，乙肝表面抗原阳性率为 5.2%，欲用此率推断该校大学生乙肝表面抗原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间：
分类变量资料的统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验，每次试验只有两个可能发生的结果，且每种结果发生的可能性是一定的，即发生和不发生的概率分别是：和1- ，那么这n次试验中发生或者不发生的次数服从二项分布。（没有“排列”的意义，而体现了“组合” 的意义）
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎患病率高于不吸烟者？
➢ 用什么方法对两个率进行比较？
吸烟组和不吸烟组慢性支气管炎患病率比较

分类变量资料的统计推断(预防医学)

（1）任一格的1≤T＜5，且n＞40时，需计算校正值。
（2）任一格的T＜1或n≤40时，用确切概率计算法。
基本公式专用公式
2
A T 0.52
T
2
ad bc n 22 n
(a b)(c d)(a c)(b d)
23
二、配对四格表资料的2检验
用途：用于配对定性资料差异性的假设检验。
H0 ： 1=2
H1 ： 1 2 ， =0.05
2.计算统计量
T11= 50.49
T12=179.51
T21= 39.51
T22=140.49
18
2 (A T )2 6.36
T
=(2-1)(2-1)=1 3.确定P及结论
根据 =1查 2 界值表，得0.01<P < 0.025，按=0.05的检验水准，拒绝H0，接受H1，可认为两组发病率差别有统计学意义，服药组流感发病率低与对照组。
此时，样本率p也是以总体率为中心
呈正态分布或近似正态分布的。
6
一、样本率与总体率比较的u检验
u值的计算公式为
u | p 0 | | p 0 |
p
0 (1 0 ) n
7
二、两样本率比较的u检验
适用条件为两样本的np和n(1-p)均大于5。计算公式为
Байду номын сангаас
u p1 p2
p1 p2
样本含量n足够大， p和1-p均不太小，且
np与n(1-p)均≥5时 ,
p u S p
4
❖ ㈡查表法
❖ 当样本含量较小（如n≤50），np或n(1－ p)<5时，样本率的分布呈二项分布，总体
率的可信区间可据二项分布的理论求得。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表1 用药组和对照组的流感发病率
组别观察人数发病人数发病率（%）
用药组
100
14
14.0
对照组
120
30
25.0
合计
220
44
20.0
此为两大样本率的比较，可用u检验。
假设检验过程：
设
α= 0.05
计算统计量u值：
u
p1 p2 p0 (1 p0 )(1/ n1 1/ n2 )
2.031
u
0.14 0.25
愈合率差别显著，呋喃硝胺的愈合率高于甲氰咪胍。
（2）四格表资料χ2检验应用注意：
①当n>40，且任意T≥5时，可直接使用四格表专用公式。
②当n>40，且任意1<T<5时，应计算校正χ2值
，其计算公式
为：
ad bc n 2 n
2
2
(a b)(c d )(a c)(b d )
例5. 某医生欲比较胞磷胆碱与脑益嗪治疗脑动脉硬化的疗效，观
312 51 80
142 1980
1
=14.29
确定P值，作结论：
查χ2界值表, 按υ=（R-1)(C-1）求得υ=
2，
， 2 0.005, 2
10.60
因而P <0.005 。按α=0.05水准，拒绝H0 ，可以认为两所医院
病例的梗塞部位的分布（构成比）不同,因而可比性较差。
例11 某市和某两县进行地方性甲状腺肿普查，查出各型患者如表9，问三地间地方性甲状腺肿的型别构成是否不同？
1、χ2检验的基本思想
例4：某医生用国产呋喃硝胺治疗十二指肠球部溃疡，以甲氰咪胍作对照组，结果如表5，问两种方法治疗效果有无差别？
表2. 两种药物治疗十二指肠球部溃疡的效果
处理组
愈合
未愈合
合计
愈合率（%）
呋喃硝胺组
54（48.2）
8 (13.8)
62
87.10
甲氰咪胍组
44 (49.8)
20 (14.2)
传统疗法 162
43
205
79.02
新疗法
121
13
134
90.30
合计
283
56
339
83.48
2 162 13 43 1212339 = 7.47
205 134 56 283
3、行×列表(R×C表)资料的χ2检验
行×列表资料即基本数据在四个以上，如多个率的比较，其基本数据为R行×2列；两组构成比的比较，其基本数据为2行×C列；多组构成比的比较，其基本数据为R行×C列。
检验统计量计算公式为：
1）]
2 n
A2 nR nC
1
，[υ=（R-1）（C-
其应用条件是 T < 5 的格子数不超过 1/5 和没有任意格的 T<1 。如果出现上述情况应作如下处理：
①根本办法是增加观察例数，使各格基本数据增大；②将T较小的行或列与性质相近的行或列作合理的合并。
例9 某地在流行性脑脊髓膜炎流行期间进行了带菌调查，结果如表7，问不同人群带菌率是否不同？
市级医院
65
52
13
80.00
乡镇医院
53
22
31
41.51
合计
118
74
44
62.71
采用χ2检验
2 52 31 13 222 118
65 53 44 74
= 18.50
例8 某医生用两种疗法治疗某病，结果如表6 ，问可否认为新疗法优于传统疗法？
表6 两种疗法治疗某病治愈率比较
疗法治愈数未治愈数合计治愈率（%）
P (1 P)
SP
n
Sp
0.25 (1 0.25) 0.0153 1.53 % 800
阳性率的95 % 可信区间为：
0.25 1.96 0.0153 , 0.25 1.96 0.0153
（ 0.22 , 0.28 ）或
25 % 1.96 1.53 % , 25 % 1.96 1.53 %
=
0.20 0.80 (1/100 1/120)
确定P值，作结论：
2可.5以7查5认8t为界, 因两值而组表发0中.病0，5率υ>=P不∞>同0时.，0，1用,u药则0.0组P5＜发=α1病,.9拒率6绝低, uH于00.,对01接照=受组H，1, 说明该草药有预防流感的作用
三、χ2 检验
χ2检验(Chi-square test)用途极广，这里仅介绍它在分类变量资料中用于推断两个或两个以上总体率（或构成比）之间有无差别或有无关联的分析方法。
察结果如表3，问两种药物的疗效有无差别？
处理组
有表效3.
两种药物治疗脑动脉硬化的疗效
无效
合计
有效率（%）
胞磷胆碱
41（38.18） 3（5.82）
44
93.18
脑益嗪
18（20.82） 6（3.18）
24
75.00
合计
59
9
68
86.76
表3显示有一个理论频数T< 5，因此应用校正χ2检验。
（3）四格表资料χ2检验与 u 检验的关系
例4：某医生用国产呋喃硝胺治疗十二指肠球部溃疡，以甲氰咪胍作对照组，结果如表5，问两种方法治疗效果有无差别？
表2. 两种药物治疗十二指肠球部溃疡的效果
处理组
愈合
未愈合
合计愈合率（%）
呋喃硝胺组Leabharlann 54862
87.10
甲氰咪胍组
44
20
64
68.75
合计
98
28
126
77.78
假设检验过程：
设 H0 :1 2
地区表9弥不漫同型地区地结方节性型甲状腺混肿合的型型别分布合计
某市 14791
4815
1509 21115
甲县
486
2
4
492
乙县
133
260
51
444
合计 15410
5077
1564 22051
检验方法同例10 。
甲 63
20
5
88
乙 35
31
14
80
合计 98
51
19
168
采用R×C表资料χ2检验。
设 H0：两所医院病例的梗塞部位的总体分布（构成比）相同 H1：两所医院病例的梗塞部位的总体分布（构成比）不同 α= 0.05
计算统计量χ2值
2
168
632 9888
202 51 88
52 1988
352 9880
（2）两个样本率比较
检验统计量计算公式如下：
u
p1 p2
p0 (1 p0 )(1/ n1 1/ n2 )
u p1 p 2 (1/ n1 1/ n2 ) / 2 p0 (1 p0 )(1/ n1 1/ n2 )
式中P0为合并阳性率，P0 =（X1 + X2）/(n 1 + n 2 )
例3 某中药研究所试用某种草药预防流感，观察用药组和对照组(未用药组)的流感发病率，结果如下表，问两组的流感发病率是否不同？
分类资料的统计推断
一、率的抽样误差与标准误
抽样研究所得的率同样存在抽样误差，描述其大小的指标是率的标准误(standard error of proportion)，其计算公式如下：
当已知时 p
(1)
n
当未知时
SP
P (1 P) n
二、总体率的估计和率的u检验
1、总体率的估计：
总体率的估计有两种方法，一是正态分布法，二是查表法。 ★正态分布法适用于样本较大，且p和/或1-p都不太小，如np和n(1-p)都大于5时。计算公式为：
，
因而P <0.005 。按α=0.05水准，拒绝H0 ，可以认为不同人群带菌率不同或不全相同。
例10 两个医院合作进行脑梗塞疗效试验中，各医院受试病例的脑梗塞部位如表8所示，问两所医院病例的梗塞部位的分布（构成比）是否不同？
表8 甲乙两医院病例的脑梗塞部位的分布
医院皮层基底节混合型合计
四格表资料即基本数据只有四个，为两行两列，如两个率的比较。
检验统计量专用计算公式为：
2
ad bc2 n
(a b)(c d)(a c)(b d)
1）]
，[υ=（R-1）（C-
式中a , b , c , d 分别代表四个实际频数，n 为总例数；υ 为自由度，R为行数，C为列数。
（1）四个表资料χ2检验实例：
α= 0.05
H1 :1 2
计算统计量χ2值：
2
54 20 8 44
62 6498
2126 28
6.13
确定P值，作结论：
查χ2界值表中，υ=
1
时，
χ2 0.05，1
=
3.84
,
χ2 0.01,1
=
6.63
,
因而
0.05 >P >0.01 , 即 P＜α, 因而拒绝 H0 , 接受 H1 , 可以认为两组溃疡
p u sp , p u sp
★查表法适用于小样本。利用样本含量n和阳性数x查 “百分率的可信区间”表获得。
例1 检查居民800人粪便中蛔虫阳性200人，阳性率为25 %，试求当地居民粪便蛔虫阳性率的95 % 可信区间和99 % 可信区间。
公式：
p u sp , p u sp
其中，即：
表7 某地流行性脑脊髓膜炎流行期不同人群带菌率
职业调查人数阳性数阴性数阳性率（%）