计数资料的统计推断

合集下载

医学统计学---统计推断

医学统计学---统计推断

第一节 常用相对数
例5-1 某医院1998年在某城区随机调查 了8589例60岁及以上老人,体检发现高 血压患者为2823例。 高血压患病率为: 2823 / 8589 100% = 32.87% 。

第一节 常用相对数
二、构成比 构成比:表示事物内部某一部分的个体数 与该事物各部分个体数的总和之比,用来 说明各构成部分在总体中所占的比重或分 布。 通常以100%为比例基数。其计算公式为
表 5-4 甲、乙两种疗法治疗某病的治愈率比较 治愈率(%) 60.0 35.0 53.8 病人数 100 300 400 乙疗法 治愈数 65 125 190 治愈率(%) 65.0 41.7 47.5


普通型 重 型 合 计
病人数 300 100 400
甲疗法 治愈数 180 35 215
第三节 率的标准化法

第三节 率的标准化法
标准化法计算的关键是选择统一的标准构成。 选择标准构成的方法通常有三种: 1.两组资料中任选一组资料的人口数(或人口 构成)作为两者的“共同标准”。这种方法适 用于直接法。 2.两组资料各部分人口之和组成的人口数(或 人口构成)作为两者的“共同标准”。这种方 法适用于直接法。 3.另外选用一个通用的或便于比较的标准作 为两者的“共同标准”,如采用全国、全省或 全地区的数据作为标准。

式中两指标可以是绝对数、相对数或平均 数。
第一节 常用相对数
例5-3 某年某医院出生婴儿中,男性婴儿为370 人,女性婴儿为358人,则出生婴儿性别比例为 370/358×100 = 103,说明该医院该年每出生 100名女婴儿,就有103名男性婴儿出生,它反 映了男性婴儿与女性婴儿出生的对比水平。 据大量观察,出生婴儿男多于女,出生性别比 一般在104~107之间。这个医院的出生性别比 为103,说明该年该医院出生女婴相对较多。

统计描述与统计推断

统计描述与统计推断

统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。

统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。

(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。

(1)集中趋势。

指频数表中频数分布表现为频数向某一位置集中的趋势。

集中趋势的描述指标:1)算术平均数。

直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。

f为各组段的频数。

2)几何平均数(geometric mean)。

几何平均数用符号G表示。

用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。

直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。

百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。

百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。

中位数是一个特定的百分位数即50P ,用符号M 表示。

把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。

中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。

中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。

其计算方法有直接法和频数表法两种。

直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。

医学统计学之卡方x2检验

医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220

统计方法介绍

统计方法介绍

(4)百分位数:第X百分位数以Px表示,它将 全部观察值分成二个部分,其中有x%个观察 值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上 的水平,用一组百分位数如P5 ,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集 中位置、变异度等。 2.确定医学正常值范围。
三. 方差分析
方差分析主要用于检验计量资料中两 个或两个以上样本均数间差别的显著性。 常见的错误是进行各组之间的两两t 检验。这将增加第一类误差的概率。 两组以上均数的比较不能用两两t检验, 而必须用方差分析。如差别有统计学意义, 然后再进一步用SNK等方法作两两比较。
例: 小白鼠给药前后发生咳嗽的推迟时间(秒)
1. 样本均数与总体均数比较的t检验
检验样本是否来自均数为μ0的已知总体 。 如:要研究现在13岁男孩的身高是否比20年 前的13岁男孩高。 20年前的13岁男孩平 均身高为1.30。现测量了13岁男孩100名 平均身高为1.35,标准差为0.12,要检验 现在13岁男孩身高的总体均数是否高于 1.30。
—————————————————————————— 单位组 处理1 处理2 ……... 处理k
—————————————————————————— 1 2 ┇ b X11 X21 ┇ Xb1 X12 X22 ┇ Xb2 ……... ……... ……... X1k X2k ┇ Xbk
——————————————————————————
二个或多个构成比的比较或两个属性之间有无关系:
────────────────────── 血 型 民族 ────────────────── A B O AB 合计 ───────────────────── 傣族 f11 f12 f13 f14 n1+ 佤族 土家族 f21 f31 f22 f32 f23 f33 f24 f34 n2+ n3+

《医学统计学》教学大纲(医学检验)

《医学统计学》教学大纲(医学检验)

《医学统计学》课程教学大纲(Medical Statistics)一、课程基本信息课程编号:14232080课程类别:专业必修课适用专业:医学检验技术学分:理论教学学分:2学分,实验学分:0.5学分总学时:40学时(其中讲授学时:24学时;实验(上机)学时:16学时)先修课程:医学基础课程后续课程:医学检验、预防医学选用教材:李康主编:医学统计学(第6版)[M].北京:人民卫生出版社,2013必读书目:[1]方积乾主编.医学统计学(第7版)[M].北京:人民卫生出版社,2013[2]袁兆康.医学统计学[M].北京:人民军医出版社.2013[3]张文彤主编.SPSS统计分析基础教程(第2版)[M].北京:高等教育出版社,2011选读书目:[1] 颜虹, 医学统计学[M]. 北京:人民卫生出版社,2005[2] 康晓平,实用卫生统计学 [M].北京:北京大学医学出版社,2002[3] Belinda Barton,Medical Statistics: A Guide to SPSS, Data Analysis and Critical Appraisal [M].美国:WILEY Blackwell,2014二、课程教学目标通过本门课程的学习,要使学生学会人群健康研究的统计学方法,学会数值变量和分类变量资料的分析,配对资料的分析,直线相关和直线回归,非参数统计方法,病例随访资料分析。

其目的使大家具备新的推理思维,结合专业问题合理设计试验,科学获取资料,提高科研素质。

本课程教学的主要方法有理论讲授、课堂讨论、实验实习、课堂演算、统计软件SPSS上机等。

通过实验实习,使学生加深对理论的理解。

三、课程教学内容与教学要求1.绪论教学要求:掌握:同质与变异,总体、个体和样本,变量的分类,统计量与参数,抽样误差,频率与概率等基本概念。

理解:统计工作的基本步骤,医学统计学的主要内容。

了解:学习统计学的目的和要求。

计数资料的统计描述与卡方检验

计数资料的统计描述与卡方检验

25
41 45 50 28 31

男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB Oຫໍສະໝຸດ 正常异常 正常 异常 正常 正常

++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
重 中 轻
800 200 100
合计 1100
1、标准化法的基本方法
• 方法1:采用标准人口构成与原始分组率, 计算标准化率,直接比较。 • 方法2:采用分组标准化率与原始人口,计 算标准化比,间接比较。
1)、直接法--标准人口
病情程度
例数
甲医院
感染数 160 20 5 185 感染率 例数 20% 10% 5% 16.8% 800 200 100 1100
计数资料的统计描述与卡方检验
四川大学华西医院 康德英
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOT) • 从计量资料转化而来:
如评价降压疗效时,将舒张压降低值分为三类: <5mmHg 无效
5-10mmHg
10-20mmHg
有效
显效
Note:计量资料转化为计数资料,过程本身损 失信息,应慎重。
4、NNT
• NNT(Numbers Needed to Treat):为避免 一例不良事件发生而需要治疗的病例数.其 值为绝对危险度的倒数(1/AR) • 类似还有:NNH(Numbers Needed to Harm)。

计数资料的统计描述与统计推断

计数资料的统计描述与统计推断

2 nnARn2C 1
(一) 多个样本率的比较:
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某 成同 年 比年 某死 类亡 死总 因人 死 1数 亡 0% 0人数
8
(二)疾病统计指标
某 病 发病 一率 定 该时 期期 间内 新可 病 发能 的 生 例发 平 的 数生 均 某 某 人 K病
某病患病率 某该时时点点某受病检现人患口病 K数例数


病死同 因率期 某某 病
死亡人数 病病 10人 % 0 数
29
31
(三)四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人 对照组
29(a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率(%) 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3

生物信息学-统计原理部分-统计检验

生物信息学-统计原理部分-统计检验

一、判断题:1.研究人员测量了100例患者外周血的红细胞计数,所得资料为计数资料。

(×)2.统计分析包括统计描述和统计推断。

(√)3.计量资料、计数资料和等级资料可根据分析需要相互转化。

(√)1. 为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是:A.该地所有20~29的健康女性B.该地所有20~29的健康女性的血红蛋白测量值C.抽取的这2000名20~29岁女性D.抽取的这2000名20~29岁女性的血红蛋白测量值2.抽样的目的是:A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量3.参数是指:A.参与个体数B.总体的统计指标C.样本的统计指标D.样本的总和4.关于随机抽样,下列那一项说法是正确的:A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好5.总体的要求是:A.大量的B.同质的C.随机的D.固定的6.统计学上说的系统误差、测量误差和抽样误差三种误差,在实际工作中有:A.三种误差都不可避免B.系统误差和抽样误差不可避免C.系统误差和测量误差不可避免D.测量误差和抽样误差不可避免7.同性三胞胎的身长、体重均有不同,这是:A.变异B.同质C.系统误差D.抽样误差8.某医生对100名高血压病人采用某新疗法进行治疗,该研究的总体是:A.全院收治的高血压病人B.这100名高血压病人C.该医生收治的所有病人D.接受该新疗法的所有高血压病人E.所有高血压病人生物信息学-统计原理统计检验•(statistical test)也称假设检验。

利用样本信息,根据一定概率,对某一总体参数的假设经检验后作出拒绝或接受的决断。

对某一总体参数作出假设(nullhypothesis H)搜集样本数据产生样本统计量确定对假设拒绝还是接受•若某一随机变量X 服从总体均数为μ、总体标准差为σ的正态分布N(μ,σ2))1,0(~2N X u σμ-=由于样本均数服从总体均数为μ、总体标准差为的正态分布N( μ, σ2) )1,0(~2N X u Xσμ-=σμXX u -=,1X X X t n S S nμμν--===-n mν=-n 为计算某一统计量用到的数据个数,m 为计算该统计量用到其它独立统计量的个数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21
四格表配对计数资料
甲乙两种培养基的生长情况
乙种 + 合计 + 1 (a) 1 3 (c) 14
甲种 7 (b) 7 (d) 14
合计 18 10 28
22
例:问两种培养基的效果是否不同
第一步:建立假设 H0 : B=C=b+c/2 H1 : B‡C 第二步:确定显著性水平 α=0.05 第三步:计算统计量: b+c>40时,基本公式
样本所代表的总体间是否存在着差别做出判断。 样本所代表的总体间是否存在着差别做出判断。
2
主要内容
一、率(或构成比)的抽样误差和标准误 二、总体率(或构成比)的估计:点估计、区间
估计
三、总体率(或构成比)的假设检验
1.率(或构成比)的 µ 检验 2. x2检验
四、假设检验的注意事项
一、率(或构成比)的抽样误差和标准误
11
(1)四格表资料的x2检验
什么是四格表资料?凡是两个率或构成比资料都 可以看做四格表资料。举例。
组别 实验组 对照组 合计 发病人数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20
14 30
86 90
四格表的一般形式
组 别 1 2 合计 阳 性 a c a+c 阴 性 b d b+d 合计 a+b c+d a+b+c+d
只能说明不全相同, 只能说明不全相同,但不能确定 哪两个不同。需要进一步证明时, 哪两个不同。需要进一步证明时, 用行x列表的 分割法。 列表的x 用行 列表的 2分割法。
30
注意事项
1 假设检验时可能犯两类错误 2.选择检验方法要注意符合其应用条件 选择检验方法要注意符合其应用条件 3.正确理解假设检验的结论 正确理解假设检验的结论 4.当差别无显著性时 有两种可能 当差别无显著性时,有两种可能 当差别无显著性时 5.统计学的显著性与否和日常生活中的 统计学的显著性与否和日常生活中的 显著性概念不同. 显著性概念不同 6.单侧检验与双侧检验 单侧检验与双侧检验
理论频数与自由度的计算:A是实际频数,T是根据假设检验 理论频数与自由度的计算: 是实际频数, 来确定的,当H0成立时,计算出的格子中的数。每个格子中 成立时,计算出的格子中的数。 来确定的, 的理论频数计算公式为:TRC=NRxNC/N, NR所在的行合计, , 所在的行合计, 的理论频数计算公式为: NC所在的列合计,代入公式中求x2值。 所在的列合计, (求上例的4个T值) 四格表资料的专用公式: 四格表资料的专用公式:
自由度一定时,P值越小, x2值越 大。 当P 值一定时,自由 度越大, x2 越大。 υ=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, υ=1, x2 =3.84 υ=2, x2 =5.99 当自由度取1时, u 2 = x2
9
x2检验的基本公式
(A −T) χ =∑ T
某医生想观察一种新药对流感的预防效果, 某医生想观察一种新药对流感的预防效果,进行了如下 的研究,问此药是否有效? 的研究,问此药是否有效?
组别 实验组 对照组 合计 发病人数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20
8
x2分布规律
2
2
A:表示实际频数,即实际观察到的例数。 T:理论频数,即如果假设检验成立,应该观察 到的例数。 ∑ :求和符号 自由度:υ=(R-1)x(C-1) R行数, C列数 注意:是格子数,而不是例数。
10
基本原理
(A −T) χ =∑ T
2 2
如果假设检验成立,A与T不应该相差太大。 理论上可以证明 ∑(A-T)2/T服从x2分布, 计算出x2值后,查表判断这么大的x2是否为 小概率事件,以判断建设检验是否成立。
均数的标准差和标准误(复习 。 均数的标准差和标准误 复习)。 复习
抽样误差产生的原因、概念 标准误的计算公式 与样本量的关系:成反比。
σp = π (1 − π )
n
Sp =
p(1 − p) n
例题:某市为了解已婚育龄妇女子宫颈癌的患病 情况,进行了抽样调查,随机抽取2000人,患者 80例。试求此患病率的标准误。
χ
专用公式:
2
=

2
(A − T ) T
2
χ
=
(b
− c) b + c
2
b+c≤40时,校正公式:
χ

2
=


=
( A − T − 0 .5 ) 2 T
χ
2
(b
− c − 1) b + c
2
自由度:ν=(2-1) x (2-1)=1 第四步:确定P值 第五步:判断结果
24
行x列表配对计数资料
甲 法 正常 减弱 异常 合计 乙法 正常 60 0 8 68 减弱 3 42 9 54 异常 2 9 17 28 合 计 65 51 34 150
13
四格表资料的专用公式
( ad − bc ) n 2 χ = ( a + c )( a + b )( c + d )( b + d )
2
适用条件: 当不满足上述条件时用 校正公式。
n ad − bc − n 2 χ2 = ( a + c )( a + b )( c + d )( b + d )
28
配对计数资料的关联与差异问题
关联与差异是不同的问题,共有四种 组合: 1. 有关联无差异 2. 有关联有差异 3. 无关联无差异 4. 无关联有差异
29
四、注意事项
1、计量资料的注意事项同样 、 适用( 适用(见下张幻灯片) 2、公式的适用条件n 2、公式的适用条件n 、T 3、多组率经x2检验有显著性时, 、 检验有显著性时,
31
四格表的确切概率法
此方法是四格表的补充 当 n < 40 或 至少有一T < 1
Pi =
(a + b)!(c + d )!(a + c)!(b + d )!
a !b !c !d !n !
P=
å
Pi
32
第七 讲 计数资料的统计推断
统计推断
用样本信息推论总体特征的过程。 用样本信息推论总体特征的过程。 包括: 包括: 参数估计: 运用统计学原理, 参数估计 运用统计学原理,用从样本计算出来的统计指
标量,对总体统计指标量进行估计。 标量,对总体统计指标量进行估计。
假设检验:又称显著性检验, 假设检验:又称显著性检验,是指由样本间存在的差别对
2
该公式从基本公式推 导而来,结果相同。 计算较为简单。 适用条件: N>40且 T≥5
例题
上例:问此药是否有效。 上例:问此药是否有效。 第一步: 第一步:建立假设 H0 : π1=π2 =20% π H1 : π1 ‡ π2 第二步: 第二步:确定显著性水平 α=0.05 第三步:计算统计量: 值大于5, 第三步:计算统计量: n =200>40,每格的 值大于 , ,每格的T值大于 可选用公式??(计算过程) ??(计算过程 可选用公式??(计算过程) 第四步:确定P值 第四步:确定 值 第五步:判断结果 第五步:
配对计数资料的关联问题
第一步: 第一步:建立假设 H0 :两法结果独立 H1 :两法结果不独立 第二步: 第二步:确定显著性水平 α=0.05 第三步:计算统计量: 第三步:计算统计量:
p ij = p i p j p ij ¹ p i p j
完全类似于成组资料比较的公式
第四步:确定P值 第四步:确定 值 第五步: 第五步:判断结果
二、总体率(或构成比)的估计
点估计:将样本率直接作为总体率的估计值. 区间估计(对照总体均数的区间估计) 公式: P±Uα.SP 条件: nP>5, n(1-P)>5 例题: 意义:
三、总体率(或构成比)的假设检验 总体率(或构成比) 假设检验
当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误 差的存在,造成的不同,这种差别在统计上叫 差别无统计学意义。 差别无统计学意义 2. P1 , P2所代表的总体率不同,即两个样本 来不同的总体,其差别有统计学意义 其差别有统计学意义。 其差别有统计学意义 现在就是要用统计学的方法进行判断到底 属于那种情况。
25
检验
第一步:建立假设 H0 : 两法分布相同 H1 :两法分布不相同 第二步:确定显著性水平 α=0.05 第三步:计算统计量: :
(ni - mi ) k- 1 T= å= 1 n + m - 2 A k i i i ii
k
26
2
检验
自由度:ν=k-1 第四步:确定P值 第五步:判断结果
27
1.总体率(或构成比)的 u检验
目的:比较一未知总体率与已知总体率是否相同 公式: p − π0
其中符号的含义
u =
适用条件: 已知π0 nP>5, n(1-P)>5
π 0 (1 − π 0 ) n
7
2. x2检验
是一种假设检验的方法,当样本量不大, 是一种假设检验的方法,当样本量不大, 或几个率进行比较时可用x 检验。 或几个率进行比较时可用 2检验。
19
配对计数资料的x2检验
什么是配对资料? 什么是配对资料?例
甲乙两种培养基的生长情况
乙种 + 合计 + 1 (a) 1 3 (c) 14
相关文档
最新文档