计数资料的统计推断(2)
医学统计学---统计推断

第一节 常用相对数
例5-1 某医院1998年在某城区随机调查 了8589例60岁及以上老人,体检发现高 血压患者为2823例。 高血压患病率为: 2823 / 8589 100% = 32.87% 。
第一节 常用相对数
二、构成比 构成比:表示事物内部某一部分的个体数 与该事物各部分个体数的总和之比,用来 说明各构成部分在总体中所占的比重或分 布。 通常以100%为比例基数。其计算公式为
表 5-4 甲、乙两种疗法治疗某病的治愈率比较 治愈率(%) 60.0 35.0 53.8 病人数 100 300 400 乙疗法 治愈数 65 125 190 治愈率(%) 65.0 41.7 47.5
病
型
普通型 重 型 合 计
病人数 300 100 400
甲疗法 治愈数 180 35 215
第三节 率的标准化法
第三节 率的标准化法
标准化法计算的关键是选择统一的标准构成。 选择标准构成的方法通常有三种: 1.两组资料中任选一组资料的人口数(或人口 构成)作为两者的“共同标准”。这种方法适 用于直接法。 2.两组资料各部分人口之和组成的人口数(或 人口构成)作为两者的“共同标准”。这种方 法适用于直接法。 3.另外选用一个通用的或便于比较的标准作 为两者的“共同标准”,如采用全国、全省或 全地区的数据作为标准。
式中两指标可以是绝对数、相对数或平均 数。
第一节 常用相对数
例5-3 某年某医院出生婴儿中,男性婴儿为370 人,女性婴儿为358人,则出生婴儿性别比例为 370/358×100 = 103,说明该医院该年每出生 100名女婴儿,就有103名男性婴儿出生,它反 映了男性婴儿与女性婴儿出生的对比水平。 据大量观察,出生婴儿男多于女,出生性别比 一般在104~107之间。这个医院的出生性别比 为103,说明该年该医院出生女婴相对较多。
统计描述与统计推断

统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。
统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。
指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标:1)算术平均数。
直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
f为各组段的频数。
2)几何平均数(geometric mean)。
几何平均数用符号G表示。
用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。
直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。
百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。
百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。
中位数是一个特定的百分位数即50P ,用符号M 表示。
把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。
中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。
中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。
其计算方法有直接法和频数表法两种。
直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。
医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
第二章数值型变量的统计描述

例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
统计方法介绍

(4)百分位数:第X百分位数以Px表示,它将 全部观察值分成二个部分,其中有x%个观察 值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上 的水平,用一组百分位数如P5 ,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集 中位置、变异度等。 2.确定医学正常值范围。
三. 方差分析
方差分析主要用于检验计量资料中两 个或两个以上样本均数间差别的显著性。 常见的错误是进行各组之间的两两t 检验。这将增加第一类误差的概率。 两组以上均数的比较不能用两两t检验, 而必须用方差分析。如差别有统计学意义, 然后再进一步用SNK等方法作两两比较。
例: 小白鼠给药前后发生咳嗽的推迟时间(秒)
1. 样本均数与总体均数比较的t检验
检验样本是否来自均数为μ0的已知总体 。 如:要研究现在13岁男孩的身高是否比20年 前的13岁男孩高。 20年前的13岁男孩平 均身高为1.30。现测量了13岁男孩100名 平均身高为1.35,标准差为0.12,要检验 现在13岁男孩身高的总体均数是否高于 1.30。
—————————————————————————— 单位组 处理1 处理2 ……... 处理k
—————————————————————————— 1 2 ┇ b X11 X21 ┇ Xb1 X12 X22 ┇ Xb2 ……... ……... ……... X1k X2k ┇ Xbk
——————————————————————————
二个或多个构成比的比较或两个属性之间有无关系:
────────────────────── 血 型 民族 ────────────────── A B O AB 合计 ───────────────────── 傣族 f11 f12 f13 f14 n1+ 佤族 土家族 f21 f31 f22 f32 f23 f33 f24 f34 n2+ n3+
国开形成性考核01337《实用卫生统计学》形考任务(1-4)试题及答案

国开形成性考核《实用卫生统计学》形考任务(1-4)试题及答案(课程ID:01337,整套相同,如遇顺序不同,Ctrl+F查找,祝同学们取得优异成绩!)形考任务1题目:1、某医院用某种新疗法治疗某病患者,治疗结果见下表,请问该资料的类型是?()治疗效果治愈显效好转恶化死亡治疗人数15 45 6 4 0【A】:数值变量资料【B】:分类变量资料【C】:二分类资料【D】:有序分类变量资料答案:有序分类变量资料题目:2、匹配题1:统计描述2:统计推断答案:1:统计描述用统计图表或计算统计指标的方法表达一个特定群体(这个群体可以是总体也可以是样本)的某种现象或特征。
2:统计推断根据样本资料的特性对总体的特性作估计或推论的方法,常用方法是参数估计和假设检验。
题目:3、匹配题1:随机抽样2:统计量3:参数4:概率5:小概率事件答案:1:随机抽样就是总体中每个个体都有均等机会被抽取,抽到谁具有一定的偶然性。
是指样本指标。
3:参数是指总体指标。
4:概率是指某随机事件发生的可能性大小的数值,常用符号P来表示。
5:小概率事件一般常将P£0.05或P£0.01称为小概率事件,表示某事件发生的可能性很小。
题目:4、下面有关病人的变量中,属于分类变量的是()。
【A】:年龄【B】:性别【C】:血压【D】:脉搏答案:性别题目:5、匹配题1:总体2:总体研究3:样本4:抽样研究答案:1:总体总体是根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种变量值的集合。
2:总体研究对有限总体中的每个个体都作观察就称总体研究。
3:样本从总体中随机抽取有代表性的一部分个体,其测量值(或观察值)的集合称为样本。
4:抽样研究对从所研究的总体中随机抽取有代表性的一部分个体构成的样本进行的研究称为抽样研究。
题目:6、反映偏态分布资料的平均水平描述末端无确定值资料的离散程度答案2(四分位数间距)描述对称分布分布资料的个体观察值的离散趋势答案3(标准差)描述对称分布或正态分布资料的平均水平答案4(均数)比较8岁男童与18岁男青年的身高的变异程度宜用指标答案5(变异系数)反映等比资料集中趋势的指标答案6(几何均数)描述偏态分布资料个体观察值的离散趋势答案7(四分位数间距)答案:反映偏态分布资料的平均水平→中位数;描述末端无确定值资料的离散程度→四分位数间距;描述对称分布分布资料的个体观察值的离散趋势→标准差;描述对称分布或正态分布资料的平均水平→均数;比较8岁男童与18岁男青年的身高的变异程度宜用指标→变异系数;反映等比资料集中趋势的指标→几何均数;描述偏态分布资料个体观察值的离散趋势→四分位数间距题目:7、关于变异系数,下面哪个说法是错误的?【A】:比较同一人群的身高、体重两项指标的变异度时宜采用变异系数【B】:变异系数就是均数与标准差的比值【C】:两组资料均数相差悬殊时,应用变异系数描述其变异程度【D】:变异系数的单位与原生数据相同答案:变异系数的单位与原生数据相同题目:8、变异系数越大,则以下哪项正确?()【A】:以均数为准变异程度大【B】:平均数越小【C】:标准差越大【D】:以均数为准变异程度小答案:以均数为准变异程度大则均数和标准差分别为?()【A】:6、1.29【B】:38、6.78【C】:6、1.58【D】:6.33、2.5答案:6、1.58题目:10、关于标准差,下面哪个说法是正确的?【A】:标准差可以是负数【B】:标准差必定大于或等于零【C】:同一资料的标准差一定比其均数小【D】:标准差无单位答案:同一资料的标准差一定比其均数小题目:1、匹配题1:变量2:变量值3:同质4:变异答案:1:变量观察单位(或个体)的某种属性或标志称为变量。
实用卫生统计学试题含答案

医学统计方法概述l .统计中所说的总体是指: A 根据研究目的确定的同质的研究对象的全体2 •概率P=0,则表示B某事件必然不发生3.抽签的方法属于 D 单纯随机抽样4 .测量身高、体重等指标的原始资料叫:B计量资料5•某种新疗法治疗某病患者41人,治疗结果如下:该资料的类型是:D有序分类资料治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 16•样本是总体的C有代表性的部分7•将计量资料制作成频数表的过程,属于¬¬统计工作哪个基本步骤:C整理资料&统计工作的步骤正确的是C设计、收集资料、整理资料、分析资料9•良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少:B系统误差10•以下何者不是实验设计应遵循的原则D交叉的原则11•表示血清学滴度资料平均水平最常计算 B 几何均数12•某计量资料的分布性质未明,要计算集中趋势指标,宜选择 C M13.各观察值均加(或减)同一数后:B均数改变,标准差不变14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、10、2、24+(小时), 问该食物中毒的平均潜伏期为多少小时 C 615•比较12岁男孩和18岁男子身高变异程度大小,宜采用的指标是:D变异系数16•下列哪个公式可用于估计医学95%正常值范围 A X±1.96S17•标准差越大的意义,下列认识中错误的是B观察个体之间变异越小18.正态分布是以E均数为中心的频数分布19•确定正常人的某项指标的正常范围时,调查对象是B排除影响研究指标的疾病和因素的人20•均数与标准差之间的关系是E标准差越小,均数代表性越大21•从一个总体中抽取样本,产生抽样误差的原因是A总体中个体之间存在变异22•两样本均数比较的t检验中,结果为 P<0.05,有统计意义。
P愈小则 E愈有理由认为两总体均数不同23.由10对(20个)数据组成的资料作配对 t检验,其自由度等于 C 924• t检验结果,P>0.05,可以认为B两样本均数差别无显着性25.下列哪项不是t检验的注意事项 D分母不宜过小26.在一项抽样研究中,当样本量逐渐增大时B标准误逐渐减少27. tV t0.05(v),统计上可认为C两样本均数,差别无显着性28.两样本均数的t检验中,检验假设(H0)是 B 仁(1229.同一总体的两个样本中,以下哪种指标值小的其样本均数估计总体均数更可靠 A. Sx30.标准差与标准误的关系是:C前者大于后者31在同一正态总体中随机抽取含量为n的样本,理论上有 95%的总体均数在何者范围内 C均数加减1.96 倍的标准误32 .同一自由度下,P值增大C t值减小33.两样本作均数差别的 t检验,要求资料分布近似正态,还要求D两样本总体方差相等34.构成比的重要特点是各组成部分的百分比之和 C 一定等于135 .计算相对数的目的是 C为了便于比较36.某医院某日门诊病人数 1000 人,其中内科病人 400 人,求得 40%,这 40%是 B 构成比 37.四个样本率作比较,x2>x20.01(3),可以认为 A 各总体率不同或不全相同 38.卡方检验中自由度的计算公式是D (行数 -1)(列数 -1)39.作四格表卡方检验,当 N>40 ,且 _______________ 时,应该使用校正公式 E1<T<540 .若 X2> X2 0.05(贝V)A P<0 05 41.相对数使用时要注意以下几点,其中哪一项是不正确的 B 注意离散程度的影响42.反映某一事件发生强度的指标应选用 D 率43.反映事物内部组成部分的比重大小应选用 A 构成比44.计算标化率的目的是 D 消除资料内部构成不同的影响,使率具有可比性45.在两样本率比较的 X2检验中,无效假设(H0)的正确表达应为 C n 1= n2 46.四格表中四个格子基本数字是 D 两对实测阳性绝对数和阴性绝对数47 .比较某地1990~1997年肝炎发病率宜绘制C普通线图48.关于统计资料的列表原贝,错误的是 B 线条主要有顶线,底线及纵标目下面的横线,分析指标后有斜线和竖线49.比较甲、乙、丙三地区某年度某种疾病的发病率情况,可用 A 直条图50.描述某地某地 210 名健康成人发汞含量的分布,宜绘制 B 直方图 l 、统计中所说的总体是指: A 根据研究目的确定的同质的研究对象的全体。
常见的几种统计方法

注意:
(1)不同类型的资料采用的统计分 析方法不同;
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
每人的血压:以mmHg计
计量资料
以舒张压≥90mmHg为高血压,结果在1000
人中有10名高血压患者,990名非高血压患
者,整理后的资料
计数
按低血压、正常、高血压分
资料
组所得资料。
等级资料
60年代到80年代,国外医学杂志调查表明:20%~72%的论文有 统计错误。
1984年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为:
相对数误用占 11.2%,抽样方法误用占15.9%,统计图表误用占 11.7%
1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数 据分析方法误用达55.7%。
2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
伪造统计数据违反科学道德
➢ 1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况
(2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
四、统计学中的基本概念
(一)总体与样本
1、总体(population)
根据研究目的所确定的同质的所有
观察单位某项变量值的集合。
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x2 =( lb-cl-1)2/ b+c
自由度:=(2-1) x (2-1)=1
第四步:确定P值 第五步:判断结果
(3)行x列表的x2检验
四格表是指只有2行2列,当行数或列数超过2时,
统称为行x列表。行x列表的x2检验是对多个样本
差的存在,造成的不同,这种差别在统计上叫 差别无统计学意义。 2. P1 , P2所代表的总体率不同,即两个样本 来不同的总体,其差别有统计学意义。 现在就是要用统计学的方法进行判断到底 属于那种情况。
1.总体率(或构成比)的u检验
目的: 公式:
其中符号的含义
适用条件: 已知π0 nP>5, n(1-P)>5 例题P58
例题
上例:问此药是否有效。 第一步:建立假设 H0 : 1=2 =20%
H1 : 1 ‡ 2 第二步:确定显著性水平 =0.05 第三步:计算统计量: n =200>40,每格的T值大于5,
可选用公式??(计算过程) 第四步:确定P值 第五步:判断结果
15
(2)配对计数资料的x2检验
第八讲 计数资料的统计推断
统计推断
用样本信息推论总体特征的过程。
包括: 参数估计: 运用统计学原理,用从样本计算出来的统计指
标量,对总体统计指标量进行估计。
假设检验:又称显著性检验,是指由样本间存在的差别对
样本所代表的总体间是否存在着差别做出判断。
2
主要内容
一、率(或构成比)的抽样误差和标准误 二、总体率(或构成比)的估计:点估计、区间估计 三、总体率(或构成比)的假设检验
1.率(或构成比)的 检验 2. x2检验
四、假设检验的注意事项 五、非参数检验
1.参数统计和非参数统计优缺点
2.秩和检验
一、率(或构成比)的抽样误差和标准误
均数的标准差和标准误(复习)。
抽样误差产生的原因、概念 标准误的计算公式 与样本量的关系:成反比。
例题:56页 某市为了解已婚育龄妇女子宫颈癌 的患病情况,进行了抽样调查,随机抽取2000人, 患者80例。试求此患病率的标准误。
x2 =(A-T)2/T A:表示实际频数,即实际观察到的例数。 T:理论频数,即如果假设检验成立,应该观察
到的例数。 :求和符号 自由度:=(R-1)x(C-1)
R行数, C列数 注意:是格子数,而不是例数。
10
基本原理
x2 =(A-T)2/T 如果假设检验成立,A与T不应该相差太大。
理论上可以证明 (A-T)2/T服从x2分布, 计算出x2值后,查表判断这么大的x2是否为 小概率事件,以判断建设检验是否成立。
阳性
a c a+c
阴性
b d b+d
合计
a+b c+d a+b+c+d
理论频数与自由度的计算:A是实际频数,T是根据假设检验来确定的, 当H0成立时,计算出的格子中的数。每个格子中的理论频数计算公式为:
TRC=NRxNC/N, NR所在的行合计,NC所在的列合计,代入公式中求 x2值。
(求上例的4个T值)
四格表资料的专用公式:
13
四格表资料的专用公式
x2 =(ad-bc)2 xN/
(a+b)(c+d)(a+c)(b+d) 该公式从基本公式推 导而来,结果相同。 计算较为简单。
适用条件: N>40且 T5 当不满足时用校正公式。
x2 =(|A-T|-0.5)2/T 或
x2 =(|ad-bc|-n/2)2 xN (a+b)(c+d)(a+c)(b+d) 见62页。
7
2. x2检验
是一种假设检验的方法,当样本量不大, 或几个率进行比较时可用x2检验。
某医生想观察一种新药对流感的预防效果,进行了如下的 研究,问此药是否有效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
发病率(%) 14 25 20
8
x2分布规律
自由度一定时,P值越小, x2值越 大。
当P 值一定时,自由 度越大, x2 越大。
=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63
P=0.05时, =1, x2 =3.84 =2, x2 =5.99
当自由度取1时, u2= x2
9
x2检验的基本公式
率(或构成比)的检验。 基本公式:x2 =(A-T)2/T 专用公式:x2 =n x ( A2 /nR x nC -1) 自由度:=(R-1)x(C-1) 适用条件:表中不宜有1/5以上格子的理论频数小 于5,或有一个格子的理论频数小于1。
18
四、注意事项
1、计量资料的注意事项同 样适用(见下张幻灯片)
2、公式的适用条件n 、T 3、多组率经x2检验有显著性
时,只能说明不全相同,但不 能确定哪两个不同。需要进一 步证明时,用行x列表的x2分割 法。
19
20
练习
书上作业。67页
21
五、参数统计和非参数统计
参数:总体的统计指标称为参数( 、、) 统计量:样本的统计指标叫统计量(X、s、p)
什么是配对资料?P64
甲乙两种培养基的生长情况
乙种
甲种
合计
+
-
+
11 ( a )
7 (b)
18-3 (c)来自7 (d)10
合计
14
14
28
16
例:问两种培养基的效果是否不同
第一步:建立假设 H0 : B=C=b+c/2 H1 : B‡C 第二步:确定显著性水平 =0.05 第三步:计算统计量: b+c>40时,基本公式:x2 =(A-T)2/T,
二、总体率(或构成比)的估计
点估计:将样本率直接作为总体率的估计值. 区间估计(对照总体均数的区间估计)
公式: P±Uα .SP 条件: nP>5, n(1-P)>5 例题: 意义:
三、总体率(或构成比)的假设检验
当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误
11
(1)四格表资料的x2检验
什么是四格表资料?凡是两个率或构成比资料都
可以看做四格表资料。举例。
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
发病率(%) 14 25 20
14 86 30 90
四格表的一般形式
组别
1 2 合计