计数资料的统计推断

合集下载

医学统计学---统计推断

医学统计学---统计推断

第一节 常用相对数
例5-1 某医院1998年在某城区随机调查 了8589例60岁及以上老人,体检发现高 血压患者为2823例。 高血压患病率为: 2823 / 8589 100% = 32.87% 。

第一节 常用相对数
二、构成比 构成比:表示事物内部某一部分的个体数 与该事物各部分个体数的总和之比,用来 说明各构成部分在总体中所占的比重或分 布。 通常以100%为比例基数。其计算公式为
表 5-4 甲、乙两种疗法治疗某病的治愈率比较 治愈率(%) 60.0 35.0 53.8 病人数 100 300 400 乙疗法 治愈数 65 125 190 治愈率(%) 65.0 41.7 47.5


普通型 重 型 合 计
病人数 300 100 400
甲疗法 治愈数 180 35 215
第三节 率的标准化法

第三节 率的标准化法
标准化法计算的关键是选择统一的标准构成。 选择标准构成的方法通常有三种: 1.两组资料中任选一组资料的人口数(或人口 构成)作为两者的“共同标准”。这种方法适 用于直接法。 2.两组资料各部分人口之和组成的人口数(或 人口构成)作为两者的“共同标准”。这种方 法适用于直接法。 3.另外选用一个通用的或便于比较的标准作 为两者的“共同标准”,如采用全国、全省或 全地区的数据作为标准。

式中两指标可以是绝对数、相对数或平均 数。
第一节 常用相对数
例5-3 某年某医院出生婴儿中,男性婴儿为370 人,女性婴儿为358人,则出生婴儿性别比例为 370/358×100 = 103,说明该医院该年每出生 100名女婴儿,就有103名男性婴儿出生,它反 映了男性婴儿与女性婴儿出生的对比水平。 据大量观察,出生婴儿男多于女,出生性别比 一般在104~107之间。这个医院的出生性别比 为103,说明该年该医院出生女婴相对较多。

统计描述与统计推断

统计描述与统计推断

统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。

统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。

(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。

(1)集中趋势。

指频数表中频数分布表现为频数向某一位置集中的趋势。

集中趋势的描述指标:1)算术平均数。

直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。

f为各组段的频数。

2)几何平均数(geometric mean)。

几何平均数用符号G表示。

用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。

直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。

百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。

百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。

中位数是一个特定的百分位数即50P ,用符号M 表示。

把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。

中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。

中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。

其计算方法有直接法和频数表法两种。

直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。

医学统计学之卡方x2检验

医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220

统计方法介绍

统计方法介绍

(4)百分位数:第X百分位数以Px表示,它将 全部观察值分成二个部分,其中有x%个观察 值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上 的水平,用一组百分位数如P5 ,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集 中位置、变异度等。 2.确定医学正常值范围。
三. 方差分析
方差分析主要用于检验计量资料中两 个或两个以上样本均数间差别的显著性。 常见的错误是进行各组之间的两两t 检验。这将增加第一类误差的概率。 两组以上均数的比较不能用两两t检验, 而必须用方差分析。如差别有统计学意义, 然后再进一步用SNK等方法作两两比较。
例: 小白鼠给药前后发生咳嗽的推迟时间(秒)
1. 样本均数与总体均数比较的t检验
检验样本是否来自均数为μ0的已知总体 。 如:要研究现在13岁男孩的身高是否比20年 前的13岁男孩高。 20年前的13岁男孩平 均身高为1.30。现测量了13岁男孩100名 平均身高为1.35,标准差为0.12,要检验 现在13岁男孩身高的总体均数是否高于 1.30。
—————————————————————————— 单位组 处理1 处理2 ……... 处理k
—————————————————————————— 1 2 ┇ b X11 X21 ┇ Xb1 X12 X22 ┇ Xb2 ……... ……... ……... X1k X2k ┇ Xbk
——————————————————————————
二个或多个构成比的比较或两个属性之间有无关系:
────────────────────── 血 型 民族 ────────────────── A B O AB 合计 ───────────────────── 傣族 f11 f12 f13 f14 n1+ 佤族 土家族 f21 f31 f22 f32 f23 f33 f24 f34 n2+ n3+

《医学统计学》教学大纲(医学检验)

《医学统计学》教学大纲(医学检验)

《医学统计学》课程教学大纲(Medical Statistics)一、课程基本信息课程编号:14232080课程类别:专业必修课适用专业:医学检验技术学分:理论教学学分:2学分,实验学分:0.5学分总学时:40学时(其中讲授学时:24学时;实验(上机)学时:16学时)先修课程:医学基础课程后续课程:医学检验、预防医学选用教材:李康主编:医学统计学(第6版)[M].北京:人民卫生出版社,2013必读书目:[1]方积乾主编.医学统计学(第7版)[M].北京:人民卫生出版社,2013[2]袁兆康.医学统计学[M].北京:人民军医出版社.2013[3]张文彤主编.SPSS统计分析基础教程(第2版)[M].北京:高等教育出版社,2011选读书目:[1] 颜虹, 医学统计学[M]. 北京:人民卫生出版社,2005[2] 康晓平,实用卫生统计学 [M].北京:北京大学医学出版社,2002[3] Belinda Barton,Medical Statistics: A Guide to SPSS, Data Analysis and Critical Appraisal [M].美国:WILEY Blackwell,2014二、课程教学目标通过本门课程的学习,要使学生学会人群健康研究的统计学方法,学会数值变量和分类变量资料的分析,配对资料的分析,直线相关和直线回归,非参数统计方法,病例随访资料分析。

其目的使大家具备新的推理思维,结合专业问题合理设计试验,科学获取资料,提高科研素质。

本课程教学的主要方法有理论讲授、课堂讨论、实验实习、课堂演算、统计软件SPSS上机等。

通过实验实习,使学生加深对理论的理解。

三、课程教学内容与教学要求1.绪论教学要求:掌握:同质与变异,总体、个体和样本,变量的分类,统计量与参数,抽样误差,频率与概率等基本概念。

理解:统计工作的基本步骤,医学统计学的主要内容。

了解:学习统计学的目的和要求。

计数资料的相关分析

计数资料的相关分析

计数资料的相关分析字体[大][中][小]对计数资料作相关分析的目的是推断两因素间有无相关关系,常用x2检验;必要时再进一步确定相关的密切程度,常用列联系数来说明。

分析时常按配对设计,将单一样本的每一观察单位同时按两种因素(如两种检验方法、两种治疗方法或两种特征等)的不同水平(如类别、等级、程度等)分组。

如甲因素有R个水平,乙因素有C个水平,分组后即得R×C 列联表。

如表1为R与C均等于2的2×2表,有a、b、c、d四个基本数据,特称为四格表。

表3为3×3表。

四格表资料的相关分析推断两因素间有无相关关系一般用x2检验,可按式(1)计算统计量x2值。

式中a、b、c、d为实际频数或对子数,n为样本含量或总对子数。

条目“两样本率比较”中,计算x2值的其他公式亦可选用。

算得x2值后,查x2界值表得P值,按所取检验水准作出推断结论。

当样本含量甚小时宜用四格表的确切概率法直接计算P值(见条目“四格表的确切概率法”)。

经假设检验推断两因素间有相关关系,若须进一步说明相关的密切程度,可按式(2)或式(3)计算相关系数(亦称列联系数) r或rn。

类似普通相关系数,其值在-1与+1之间。

绝对值愈大,相关程度愈高;等于1为完全正相关,等于-1为完全负相关,等于0为无相关。

式中a、b、c、d的意义同式(1)。

K. H. Ives和J. D. Gibbon提出用式中符号意义同式(1),(a+d)为反应相同的对子数,(b+c)为反应不同的对子数。

由式(3)可见:如例1,若所有对子两法结果全相同,即b、c均为零,则rn=1,为完全正相关;若所有对子两法结果全不同,即a、d均为零,则rn=-1,为完全负相关;若结果相同与结果不同的对子数各占1/2,即α+d=b+c,则rn=0,为无相关。

例1 就表1资料说明两种方法检查食品沙门菌的结果是否一致。

表1用两法检查同一批鸭样的结果荧光抗体法常规培养法合计+ -+ - 160(a)5(c)26(b)48(d)18653合计165 74 239(1) 推断相关关系:H0:两法无相关,H1:两法有相关。

计数资料常用检验方法

计数资料常用检验方法

计数资料行×列(R ×C)表卡方检验 公式:
X2=35.81> , 差异有显著性,P<0.01,可以认为三组疗效不同,中西药结合组较其他两组高,若要进一步作两两比较,可分成三个四格表再进行比较。
中西药结合组
组别
有效
无效
合计
46
12
02
Pearson列联系数(P)
Cramer(修正)列联系数(C)
演讲人姓名
列联表计数资料的相关分析数据格式 (PEMS软件包)
卡方值 = 74.4015
自由度 v = 4
概率 P = 0.0000
Pearson 列联系数 = 0.2597
各个格子的理论数均大于 5
结果
列联表计数资料的相关分析.一致性检验.Kappa值(PEMS软件包)
66
12
78
0.05,差异无统计学意义,可以认为甲、乙两组有效率相同,如用X2值一般公式计算X2=2.85
(3) 、当总例数n>40,但有理论数0<T<1,或总例数n<40,有实际观察数为0的情况,此时应采用确切概率法直接算出概率P
两种药物治疗结果
组别
治愈
未愈
合计
新药
5(1.82)
、当总例数n>40,1<T<5时,由于理论数偏小,往往使得X2值偏大,此时可应用四格表X2值校正公式:
甲 、乙两组有效率比较
表中有一个理论数 4.62((30×12)/78=4.62)大于1小于5,可采用X2值校正公式计算
分组
有效数
无效数
合计数
甲组
38
10
48
乙组

量性研究资料的统计学分析方法--高等教育自学考试辅导《护理学研究》第八章第二节讲义1

量性研究资料的统计学分析方法--高等教育自学考试辅导《护理学研究》第八章第二节讲义1

正保远程教育旗下品牌网站 美国纽交所上市公司(NYSE:DL)
自考365 中国权威专业的自考辅导网站
官方网站: 高等教育自学考试辅导《护理学研究》第八章第二节讲义1
量性研究资料的统计学分析方法
一、计量资料的统计学分析方法
二、计数资料的统计学分析方法
三、等级资料常用的统计学分析方法
四、统计表和统计图
量性研究资料的统计分析包括两个方面:
①统计描述:即描述数据的分布规律和特征,常用均数、标准差、中位数、率、构成比等统计指标,以及统计表、统计图等进行描述。

②统计推断:即由样本信息推断总体特征,常用t 检验、方差分析、χ2检验、秩和检验等比较组间有无差异,以及相关分析、回归分析等探讨变量之间的关联性。

统计学分析方法的选择取决于研究目的、科研设计类型和资料类型。

计量资料的统计学分析方法
(一)统计描述
正态分布:均数±标准差
偏态分布:中位数、四分位数间距
1.均数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例11-2 某新药的毒理研究中,用20只小 白鼠作急性毒性实验,死亡3只,估计该 药急性致死率的95%可信区间。 从附表3(根据二项分布原理制成) 查得,在n=20与X=3纵列交叉处的数 值为3~38,即该药急性致死率的95% 可信区间为3%~38%。
如果死亡12只呢?
2018/6/22 Plan 1-2-3:1-17-33-44 10
6
(1)正态近似法
p 1.96S p
当n足够大,且样本率p和(1p)均不 太小时,如np与n(1p) 均≥5时。
2018/6/22
Plan 1-2-3:1-17-33-44
7
如例11-1的p=0.1410,Sp =0.0125
该例的总体率双侧95%可信区间为 (0.1410-1.96×0.0125, 0.1410+1.96×0.0125) →(0.1165,0.1655) 即该地40-60岁成年男子高血压总体患 病率的95%可信区间为11.65%~16.55%。 注意:如果计算获得的可信区间下限小 于0%,上限大于100%,则将下限直接定 为0%,上限直接定为100%。
0.1333 0.0872
u=
0.0872 (1 0.0872 ) / 120
1.79
本例 1.79<1.96 , 故P>0.05 , 差异无显著性。按 α =0.05 水准,不拒绝H0,差别无统计学意义,尚 不能认为某县该病的发病率与全国该病的发病率有 差别 15 2018/6/22 Plan 1-2-3:1-17-33-44
率的u检验
大样本时,样本率的频数分布近似正态 分布,故可用u检验,其假设检验的原理、 步骤及方法与均数的u检验相同。
2018/6/22
Plan 1-2-3:1-17-33-44
13
率的u检验
1、单个总体率的假设检验
p 0 计算公式如下: u p 0
p
0 (1 0 ) / n
式中 P 为样本率,σP为总体率的标准误, π0为已知的总体率,n为样本含量。
2018/6/22
Plan 1-2-3:1-17-33-44
14
例11.5 某病的年发病率对全国人口来说为8.72%。 现在某县回顾一年,抽样调查了120人,有16人发 该病。问该县该病的发病率与全国该病的发病率有 无差别? 建立假设:H0:π =π 0 , H1:π ≠π 0 α =0.05
2、两个总体率的假设检验
计算公式如下:
u p1 p2 S P1 P2
X1 X 2 n1 n2

p1 p2 pc (1 pc )(1 / n1 1 / n2 )
PC
式中P1 、P2为样本率,SP 1-P 2 为两样本 率之差的标准误 ,PC为合并样本率,n1和 n2 分别为两样本含量, X1和X2分别为两 样本的某类发生数。 16 2018/6/22 Plan 1-2-3:1-17-33-44
P 1 或者P 1 P n
率的抽样误差大小用率的标准误来衡量
2018/6/22
Plan 1-2-3:1-17-33-44
2
样本率抽样误差示意图:
样本 1 p1 样本 2 p2
样本 k pk
样本 3 p3
总体
π
样本 4 p4
总体率:π 样本率:P
2018/6/22
样本 6 p6
样本 5 p5
2018/6/22 Plan 1-2-3:1-17-33-44 5
二、率的可信区间
1.点值估计:直接用样本率代替总体率的估计值。 方法简单,但是没有考虑抽样误差。
2.可信区间的估计:按照预先给定的概率(通常取 95%)来估计未知总体率所在的范围。
2018/6/22
Plan 1-2-3:1-17-33-44
三、率的u检验
1、单个总体率的假设检验 2、两总体率的假设检验
2018/6/22
Plan 1-2-3:1-17-33-44
11
总体率(或构成比)的假设检验 当两个样本率不同时,有两种可能: (1)P1 , P2所代表的总体率相同,由于抽 样误差的存在,造成的不同,这种差别在统 计上叫差别无统计学意义。 (2) P1 , P2所代表的总体率不同,即两 个样本来不同的总体,其差别有统计学意 义。 现在就是要用统计学的方法进行判断到底 属于那种情况。 12 2018/6/22 Plan 1-2-3:1-17-33-44
2018/6/22 Plan 1-2-3:1-17-33-44 4
例11-1:某地抽样调查40~60岁的成年男子 780人,得到高血压患病率为p=0.1410,问 抽样误差为多少?
Sp p(1 p) 0.1410(1 0.1410) 0.0125 n 780
率的标准误小,说明抽样误差较小,表示样本 率对总体率的代表性好
Plan 1-2-3:1-17-33-44
3
2.计算
p
(1 )
n
一般情况下,由于我们研究的是样本,未知, 所以常用p代替 ,得到率的标准误的估计值:
sp
p (1 p ) n

pq n
(1)率的标准误,与样本含量的平方根成反比
(2)减小率的抽样误差的有效方法是增大样本含量
例11.6 某医师用某新药治疗类风湿关节炎, 结果见右表,问两组治疗效果有无差别? 建立假设: H 0: π 1 = π α =0.05
2
H1: π
1
≠π
2
127 36 PC 0.7309 148 75
2018/6/Plan 1-2-3:1-17-33-44 8
(2)非正态分布——查表法
当n≤50,或者P接近0或1的资料时, 即np与n(1p) 均≤5时 当x≤n/2时 查: n,x 当x>n/2时 查: n,(n-x) 先得出阴性率,再用(1-阴性率)
2018/6/22 Plan 1-2-3:1-17-33-44 9
分类资料的统计推断
一、率的抽样误差与标准误 二、总体率的估计 三、率的u检验 四、 2 检验 (一) 四格表 2 检验 (二) 配对四格表 2 检验 (三) 行×列表 2 检验
小结
2018/6/22 Plan 1-2-3:1-17-33-44
习题
1
一、率的抽样误差与标准误
1.率的抽样误差定义
相关文档
最新文档