计数资料的统计分析2013
计数资料的基本统计方法

0.6520 0.0909 0.0934 0.0768 0.0534 0.0335 1.0000
0
0 1725819 0.6580
12
4.9 289298 0.1103
91 36.2 250480 0.0955
307 148.3 191204 0.0729
460 319.7
114355 0.0436
292 323.5
51670 0.0197
1162 43.12 2622826 1.0000
0 25 125 344 371 170 1035
0 8.6 49.9 179.9 324.4 329.0 39.46
(1)直接法:
•选择标准组的方法 1)大范围内的人口资料 2)两组年龄段人口合并 3)以其中一组为标准组,对另一组作标准化
小鼠存亡的组合方式 死亡数(x) 生存数(n-x)
排列方式 甲乙丙
每种组合的概率
0
3
1
2
2
1
3
0
生
生
生 0.2× 0.2× 0.2 =0.008
死
生
生 0.8 × 0.2 × 0.2
生
死
生 0.2 × 0.8 × 0.2
生
生
死 0.2 × 0.2 × 0.8 } = 0.096
死
死
生 0.8 × 0.8 × 0.2
死
生
死 0.8 × 0.2 × 0.8
生
死
死 0.2 × 0.8 × 0.8 } = 0.384
死
死
死 0.8 × 0.8 × 0.8 = 0.512
P = 1.000
(0.2 +0.8)3=(0.2)3 + 3(0.8)(0.2)2 + 3(0.8)2(0.2) + (0.8)3 三生 二生一死 一生二死 三死
excel在医学统计中的应用(五)

EXCEL在医学统计学中的应用(五)倪关森单位:上海市第一人民医院分院1.对计数资料的统计分析,常采用卡方检验,其一般流程为A.求各行列的比例-求卡方值-求p值-求中间值B.求各行列的比例-求卡方值-求中间值-求p值C.求各行列的比例-求中间值-求卡方值-求p值D.求各行列的比例-求p值-求中间值-求卡方值2.EXCEL软件在编程时应注意可产生的问题A.配对数据的确保措施B.秩和检验中的多数据重复的校正C.以上均是D.以上均否3.用EXCEL 7.0编制的常用统计程序可在什么操作系统下运行A.Windows 95B.Windows 98C.Windows 2000D.以上均可4.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。
如题所得p=0.0277,那么以下结论正确的是A.该药对两型肺癌均有效B.该药对两型肺癌均无效C.该药对两型肺癌疗效有差异D.该药对两型肺癌疗效无差异5.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。
对题中的资料进行统计分析,可选用以下哪种统计方法A.t检验B.方差分析C.回归分析D.卡方检验6.在秩和检验的程序设计中,对语句D3=IF(F3<0,-1,IF(F3>0,1," "))的正确理解是A.用于计算差值B.用于计算秩次C.用于计算绝对值D.用于确定符号7.语句"ABS(M25)"的含义是A.M25的对数B.M25的倒数C.M25的绝对值D.M25的相对数8.秩和检验主要用于以下哪种类型资料的统计分析A.非参数资料B.计数资料C.计量资料D.以上均可9.用某药治疗胃癌,对溃疡型和梗阻型胃癌的治疗结果见表7,试分析此药对两型胃癌的疗效。
经有序数据的卡方检验结果显示( ),所以P值( ):A.χ2=5.84;P>0.05B.χ2=4.84;0.05>P≥0.01C.χ2=3.84;P=0.05D.χ2=2.84;P<0.0110.配对设计的秩和检验程序的流程图中,以下哪种最合理A.按绝对值升序排秩-计算差值-计算正负号秩次-确定T值B.计算差值-按绝对值升序排秩-计算正负号秩次-确定T值C.计算正负号秩次-计算差值-按绝对值升序排秩-确定T值D.确定T值-计算差值-按绝对值升序排秩-计算正负号秩次。
安全工程师-安全生产统计分析练习题及答案解析

安全工程师-安全生产统计分析练习题及答案解析一、单项选择题1、将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数称为()资料。
A.技术B.计数C.等级D.计量2、系统误差具有()。
A.不确定性B.严重性C.累加性D.不可预知性3、统计描述的重要工具是()。
A.统计图B.圆图C.线图D.条图4、根据事故统计分析的目的,选择合适的统计图。
下列统计图适用于直观描述伤亡事故随时间变化趋势的是()。
A.条图B.圆图C.线图D.散点图5、(2010年真题)某地区开展了职工职业病统计和调查,取得大量数据。
对这些数据进行统计分析时,应包括()两项内容。
A.统计描述和统计推断B.统计抽样和统计分析C.统计抽样和统计推断D.统计抽样和参数估计6、依据统计图的一般选用原则,我们在比较分类资料各类别数值大小时,应采用()。
A.直方图B.百分条图C.线图D.条图7、(2010年真题)下列统计描述的分析方法中,属于计数资料类分析方法的是()。
A.算术平均数B.百分位数C.标准差D.构成比8、不属于计数资料的统计资料的是()。
A.比B.构成比C.方差D.率9、()表示在规定的观察时间内,某病患者中因该病而死亡的频率。
A.患病率B.发病率C.病死率D.粗死亡率10、(2009年真题)常用的职业卫生统计指标有发病(中毒)率、患病率、病死率和()。
A.职业病普查率B.疑似职业病发生率C.粗死亡率D.职业卫生合格率11、表示某时点检查时可能发生某病的一定人群中患有某病的病人频率称之为()。
A.病死率B.患病率C.发病率D.粗死亡率12、(2009年真题)依据《企业职工伤亡事故经济损失统计标准)}(GB6721--1986),直接经济损失是指生产经营活动中因事故造成的财产损失价值和处理事故所支出的费用合计。
下列损失或费用中,不能列入直接经济损失的是()。
A.人身伤亡及善后所支出的费用B.固定资产损失价值C.流动资产损失价值D.恢复生产所支出的费用13、(2009年真题)及时、准确的职业病统计信息是职业健康管理决策的重要依据。
计数资料的统计分析

计量资料(定量资料)
❖统计资料类型:
计数资料(定性资料)
❖计数资料:按某事物属性或类别分组,清点 各组观察单位数而得到的资料称为分类资料
❖
一、常用的相对数
分类资料常采用相对数进行描述。 收集到的分类资料,表现为绝对数。
绝对数说明事物发生的实际水平,是进行 统计分析的基础,但不便于事物进行深入 分析比较。
、正确计算合计率(总率) 对观察单位数 不等的几个率,不能直接相加求平均率
正确的方法:总的发生数除以总的观 察单位数。
例: 用某疗法治疗肝炎,甲医院治疗人,
治愈人,治愈率为;乙医院治疗人,治愈 人,治愈率为。两个医院合计治愈率应该 是?
正确算法:[()()]× 错误算法:
或 ( ),
、注意资料的可比性
215
治愈率(%) 60.0 35.0 53.8
病人数 100 300 400
乙疗法 治愈数
65 125 190
治愈率(%) 65.0 41.7 47.5
2020/10/17
不能直接比较两医院总生存率 (应标化后再比)
一、标准化的意义和基本思想
❖ 与其合计的差别之所以大,是由于两疗法中 病人中病型构成不同。要正确比较甲、乙两 疗法的总治愈率,需按照统一标准进行校正, 然后进行比较。
❖ 即男性人口数是女性的倍。
表 某市某年各区急性传染病发生数及其相对数
年平均 急性传染 各区与Ⅰ 各区急性传染病发 各区急性传染病发生 市区
人口数 病发生数 区之比 生数构成(%) 率(1/10 万)
⑴
⑵
⑶
⑷
⑸
⑹
Ⅰ 636723 2433
-
18.9
计数资料的相关分析

计数资料的相关分析字体[大][中][小]对计数资料作相关分析的目的是推断两因素间有无相关关系,常用x2检验;必要时再进一步确定相关的密切程度,常用列联系数来说明。
分析时常按配对设计,将单一样本的每一观察单位同时按两种因素(如两种检验方法、两种治疗方法或两种特征等)的不同水平(如类别、等级、程度等)分组。
如甲因素有R个水平,乙因素有C个水平,分组后即得R×C 列联表。
如表1为R与C均等于2的2×2表,有a、b、c、d四个基本数据,特称为四格表。
表3为3×3表。
四格表资料的相关分析推断两因素间有无相关关系一般用x2检验,可按式(1)计算统计量x2值。
式中a、b、c、d为实际频数或对子数,n为样本含量或总对子数。
条目“两样本率比较”中,计算x2值的其他公式亦可选用。
算得x2值后,查x2界值表得P值,按所取检验水准作出推断结论。
当样本含量甚小时宜用四格表的确切概率法直接计算P值(见条目“四格表的确切概率法”)。
经假设检验推断两因素间有相关关系,若须进一步说明相关的密切程度,可按式(2)或式(3)计算相关系数(亦称列联系数) r或rn。
类似普通相关系数,其值在-1与+1之间。
绝对值愈大,相关程度愈高;等于1为完全正相关,等于-1为完全负相关,等于0为无相关。
式中a、b、c、d的意义同式(1)。
K. H. Ives和J. D. Gibbon提出用式中符号意义同式(1),(a+d)为反应相同的对子数,(b+c)为反应不同的对子数。
由式(3)可见:如例1,若所有对子两法结果全相同,即b、c均为零,则rn=1,为完全正相关;若所有对子两法结果全不同,即a、d均为零,则rn=-1,为完全负相关;若结果相同与结果不同的对子数各占1/2,即α+d=b+c,则rn=0,为无相关。
例1 就表1资料说明两种方法检查食品沙门菌的结果是否一致。
表1用两法检查同一批鸭样的结果荧光抗体法常规培养法合计+ -+ - 160(a)5(c)26(b)48(d)18653合计165 74 239(1) 推断相关关系:H0:两法无相关,H1:两法有相关。
2.spss应用(计数资料分析、非参数检验、统计图绘制)

配伍组设计的秩和检验:例题8-9(P143) Analyze→nonparametric tests →k related samples
→test variables:变量1、变→ok
三、统计图的绘制
1.直条图、误差条图 2.圆图
3.线图、半对数线图
配对四格表资料的2检验:例题7-3(P114)
Data→weight cases → weight cases by: frequency variable:f →ok analyze→descriptive statistics →crosstabs … : row: 法一 column:法二 statistics →选择McNemar →continue →ok
实例分析
P112 P114 P114 P116 P117 P119 P119 P120 例7-1 例7-2 例7-3 例7-4 例7-5 例7-6 例7-7 例7-8
二、非参数检验
配对设计的符号秩检验:例题8-1(P132)
Analyze→nonparametric tests
→2 related samples
例题7-1(P112)数据输入的格式: 组别:分组变量 1-试验组 2-对照组 疗效: 1-有效 0-无效 f:表示频数 组别 1 1 2 2 疗效 1 0 1 0 f 99 5 75 21
1 2 3 4
四格表资料的2检验:例题7-1(P112)
Data→weight cases → weight cases by: frequency variable:f →ok analyze →descriptive statistics →crosstabs … : row: 组别 column:疗效 statistics →选择chi-square →continue → ok
计数资料的数据分析

计数资料的数据分析1、四格表资料(1)简单四格表资料i.非配对的四格表资料例:比较A、B两种疗法治愈率,数据如下:分析目的:A、B疗法有效率是否有差异?数据如用通用符号表示:分析方法:Pearson 卡方检验其中,Oi 表示观察数,Ei表示理论期望数, n 格子数(这里等于4)Yates'连续性校正关联分析:计算A疗法有效率相对于B疗法的优势比Odds Ratio (比值比)= (a/b) / (b/d) = (ad)/(bc) = (20*14)/(16*10) = 1.75易侕统计软件输入界面:易侕统计软件输出结果:ii. 配对的四格表资料例:比较A、B两种疗法治愈率,配对设计,每个病人与另一个年龄、性别、病程等相同的病人配对,一个用 A疗法治疗,另一个病人用B疗法治疗,数据如下分析目的:A、B疗法有效率是否有差异?: H0:A、B疗法有效率相同,即p b=p c数据如用通用符号表示:McNemar 卡方检验Edwards 连续性校正:McNemar精确检验:总共有b+c (8+4=12)不一致的对子数,按H0,理论上b与c出现的概率相同,即b占(b+c)的比例为50%,相当于OR=b/c=1。
实际观察到的OR = b/c = 8/4 =2,计算出现8/4 或更极端的情况(9/3,10/2,11/1,12/0)的概率。
易侕统计软件输入界面:易侕统计软件输出结果:McNemar 配对四格表卡方检验(2)诊断试验四格表资料分析目的:分析试验结果与真实情况(金标准)的吻合程度。
金标准是指当前公认的诊断疾病最可靠的标准方法,可正确区分“有病”或“无病”。
数据如用通用符号表示:分析指标:1. 检测患病率(prevalence)是指被检测的全部对象中,检测出来的患者的比例。
即:检测患病率 = (a+b)/(a+b+c+d)2. 实际患病率(prevalence)是指被检测的全部对象中,真正患者的比例。
统计学计数资料

死亡率 1 1之 9 9年 年 8 4比 0 9死 死亡 亡 3 0..3 1率 率 3倍 3
(四)动态数列
按照一定的时间顺序,将某事物的统计指标依次排列起来, 便于观察和比较该事物在时间上的发展变化趋势。
3. 正确计算平均率(总率) 所有组分子之和除以所有组分母之和 例:P49表5.4
累计 逐年 (4) (5)
--
--
300 300
600 300
700 100
950 250
1120 170
1310 190
1580 270
1750 170
1800 50
发展速度(%)
定基比 环比
(6)
(7)
100.0 100.0
107.1 107.1
114.3 106.7
116.7 102.1
122.6 105.1
治愈率
治愈病人数 接受治疗人1数00%
(粗)死亡率 同 某年 年死 总亡 人总 口数 数 1000‰ 某病死亡率 同年 某死 年于 平某 均种 人疾 口 数 病 数 1的 00人 00/100万 同期因该病死亡人数 某病病死率 观察期间内某病患者1数00%
例:某地年平均人口数为1000000,计算下 表中各种传染病的发病率
126.7 103.3
131.2 103.6
137.6 104.9
141.7 102.9
142.9 100.8
增长速度(%)
定基比 环比
(8)
(9)
--
--
7.1 7.1
14.3 6.7
16.7 2.1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
发病率(incidence)
• 是指一定时间内某人群中新发病例的频率。
某时期某人群中发生某病的新病例数 发病率 K 同期该人群平均人口数
观察时间可为年、季、月,一般为年。 K可以为100%,1000‟,100000/10万 年发病率/月发病率/季发病率
• 计算发病率时,分子确定要注意:
1、95%可信区间(置信区间)
• 定义:有95%(1-0.05())的可能性,在所计 算得到可信区间包含了总体参数(不是总体参 数落在该范围的可能性为95%)(置信区间) • 可信区间由可信上限和可信下限构成:
95% 可信区间CI
95 个 包 含 总 体 均 数 CI *5 个 CI 不 包 含 总 体 均 数
因此,统计推断结果的表达:P值与可 信区间相结合,同时报告。
2、数值变量资料可信区间的分类
• 单个总体均数的估计 • 两个总体均数差值的估计:
– 基于两组比较t检验的可信区间
– 基于方差分析两两比较的可信区间
两两比较及计算效应量的95%可信区间
药物因素(不同药物):两两比较的q检 验及其均数差值的95%可信区间。
反映疾病严重程度及诊治水平,多用于急性病. 复发率 缓解率 有效率 治愈率
2、构成比 (proportion)
• 说明某一事物内部各组成部分所占的比重和分布, 常用百分数表示(0%-100%)。
结石 部位 胆囊 (%) 肝外胆管 (%) 肝内胆管 (%) 合计 胆固醇 70 59.3 12 16.0 2 7.0 84 结石类型 胆红素 16 13.6 39 52.0 20 69.0 75 其它 32 27.1 24 32.0 7 24.0 63 合计 118 100 75 100 29 100 222
3、应围绕研究本身全面考虑,再下 结论
从研究设计、抽样等全面评估结果。如样本代 表性,有无可能出现系统偏差等。
抽样误差
样本均数 x
系统误差
总体均数 ?
4、专业结论同样不能绝对化
• 因统计结论具有概率性质,专业结论同样不 要使用“肯定”、“一定”、“必定”等词 汇。
计数(分类变量)资料的统计分析
1
0%
50%
100%
一、计数资料的统计描述
(二)率、比 (构成比、相对比) rate, proportion, ratio
1、率 (rate, frequency)
率又包括频率指标(frequency)和强度指标 (rate),用来测量一定时期内,某人群特 定事件发生的频率或强度。
• 率=(发生某现象的观察单位数)/(某时间段 可能发生某现象的观察单位数)
一、计数资料的统计描述
(一)图表: 频数表,直条图,饼图
变量类型的识别
病例号
1
2 3
年龄 (岁)
35
44 26
性别
女
男 男
身高 血型 心电图 尿WBC (m)
1.65
1.74 1.80
职业
教师
工人 职员
RBC 1012/L
4.67
5.21 4.10
A
B O
正常
正常 正常
-
- +
4
5 6 7 8 9
• 比较两独立事件数量大小关系指标(独立指 互不包含):a/b
–是一个静态指标,反映一特定时间(time point) 的情况。 –无时间单位
计数资料的统计描述:率与比的综合应用
例 某地中毒与损伤汇总分析
年度 1993 1994 1995 1996 1997 1998 合计 发病人数 584 571 714 748 942 1095 病死人数 8 10 12 16 21 24 91 病死率 1.37 1.75 1.68 2.14 2.23 2.19 构成比 8.8 11.0 13.2 17.6 23.0 26.4 相对比 -1.28 1.23 1.56 1.63 1.60
可信区间估计的优劣取决两个方面: 准确度:1,即区间包含的理论概率大小,愈 接近1愈好。 精度:区间的宽度,区间愈窄愈好。 精度:可信上限与可信下限间的宽度; 与准确度、样本量、标准差大小有关。
可信区间(CI)能提供更多的推断信息:
区间范围是否包括总体参数(总体参数差 值),若不包括,表明差别无统计学意义; 同时能显示差别的程度及临床意义; 可信区间CI不能提供确切概率,假设检验提 供P值。
第二讲 计量资料的统计分析(补 )
一)假设检验:t检验,ANOVA ,秩和检验 二)参数及可信区间估计 • 参数估计是用样本统计量估计总体参数,是 假设检验的重要补充。
– 点估计:用样本统计量直接作为总体参数的 估计值,简单但未考虑抽样误差的大小。 – 区间估计:即按预先设定的概率(1-)确定 的包含未知总体参数的可能范围。
Based on observed means. *. The mean difference is significant at the .05 level.
三)统计推断结果的综合评价
1、应考虑统计推断的概率性
假设检验结论的概率性,应注意I/II型 错误;在报告结论时,最好列出检验统计量 的值,尽量写出具体的P值或P值的确切范围, 而不简单写成P﹤0.05,以便读者与同类研究 比较或进行Meta分析之用。
第三讲
计数资料的分类
• 无序分类: 二项或二分类:对立、不相容的两类。 如疗效:病死与未愈等。 多项或多分类:互不相容的多类。 如血型、疾病分型、种族等 • 有序分类:类间不相容且有程度差别。 如疗效:痊愈、显效、好转、无效。 特点:无度量衡单位;定性测量
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOS) • 计量资料转化而来:
• 也称患病率或流行率,指某特定时间某人群中 某病现患人数所占比重或比例。
特定时间某病现存病例数 现患率 K 被调查(或检查)的人数
• 计算现患率时应注意: – 分子包括新、老病例,只要调查时正处于患病 状态,均计算在内。 – 分母不考虑“暴露人口”
可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间
Multiple Comparisons Dependent Variable: 肉 重 瘤 量 Bonferroni Mean Difference (I-J) .1800 .3000* -.1800 .1200 -.3000* -.1200
(I) 药 物 1.00 2.00 3.00
(J) 药 物 2.00 3.00 1.00 3.00 1.00 2.00
原来分类
age1
1(18岁以下) 2(18-40岁) 3(40岁以上) 1 0 0
哑变量赋值
age2
0 1 0
结果18岁以下赋值为(1,0),18-40岁赋值为(0, 1),40岁以上赋值为(0,0) 无序多分类变量同样赋值: A、B、AB、O ABO血型如何赋值?bt1,bt2,bt3?
革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量 赋值为(0,1,0),真菌哑变量赋值为(0,0,1)
如评价降压疗效时,将舒张压降低值分为三类:
<5mmHg
5-10mmHg 10-20mmHg
无效
有效 显效
计量资料转化为计数资料,过程本身损失信 息,应慎重。
计数资料的分类赋值
在赋值时应考虑类型而定。
* 二分类变量: 0,1 * 有序多分类: 满足线性关系,多采用等间距赋值 如 -、+、++、+++(0、1、2、3) 不满足线性关系,采用哑变量赋值 * 无序多分类变量赋值: A、B、AB、O
–病人的发病时间要“落入”观察期内,即必须是 新病例。 –注意病例与病人的区别。 –疾病必须确诊
新发病 新发病 新发病 已发病 新发病 发病
观察期
2009.1.1 2009.12.31
• 分母:可能发病的人口数,其范围界定很关键
某时期某人群中发生某病的新病例数 发病率 K 同期该人群暴露人口数
Std. Error .06181 .06181 .06181 .06181 .06181 .06181
Sig . .059 .004 .059 .264 .004 .264
95% Confidence Interval Lower Bound Upper Bound -.0064 .3664 .1136 .4864 -.3664 .0064 -.0664 .3064 -.4864 -.1136 -.3064 .0664
9
女
1.62
军人
2、直条图
3.5 3 2.5 2 1.5 1 0.5 0 工人 干部 职员 军人 农民 教师
直条图(bar 条形图):分类变量资料的频数图,
条与条间独立,顺序可不固定。 与Histogram直方图不同
饼图/圆饼图/圆图/pie图
百分条图 (percent bar)
工人 干部 职员 军人 农民 教师
25
41 45 50 28 31
女
男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB O
正常
异常 正常 异常 正常 正常
+
++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
1 2 3 4?
例如:在先天性畸形儿与产妇年龄关系研究中,将 年龄划分为三组,<18岁,18-40岁,>40岁。目的是 探讨不同怀孕年龄段的先天性畸形儿发生是否不同?