医学统计学计数的资料的统计描述
医学统计学的基本内容

医学统计学的基本内容第一章医学统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一(资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作,,其取值范围0?P?1,一般用小数表示。
,,0,事件不可能发生必然事件(随机事件的特例);,,1,事件必然发生;,?0,事件发生的可能性愈小;,?1,事件发生的可能性愈大六、小概率事件习惯上将,?0.05或,?0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
医学统计学计数资料的统计描述(一)

医学统计学计数资料的统计描述(一)医学统计学计数资料的统计描述计数资料是医学研究中常见的数据类型,例如统计某种疾病的患病人数、治愈人数等。
如何对这些数据进行科学统计描述,成为了医学研究不可避免的问题。
一、计数资料的基本概念计数资料是指由离散数据组成的一种数据类型,这些数据仅取有限个数值,如某类疾病的患病人数(自然数)或治愈人数(非负整数)。
计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述极为重要。
二、计数资料的统计描述1. 频数频数是指计数资料中各取值出现的次数,常以小写字母n表示。
例如患病人数为0的样本数为n0,患病人数为1的样本数为n1,以此类推。
2. 频率频率是指频数与总样本数的比值,常以小写字母f表示。
例如患病人数为0的频率为f0=n0/n,患病人数为1的频率为f1=n1/n,以此类推。
频率可以体现每个取值在样本中的分布情况,是比较常用的统计指标,其和为1。
3. 百分比百分比是指频数与总样本数的比值乘以100,常以百分号表示。
例如患病人数为0的百分比为f0×100%,患病人数为1的百分比为f1×100%,以此类推。
4. 累计频率累计频率是指某一取值及其以下所有取值的频率之和,常以小写字母F 表示。
例如患病人数小于等于3的累计频率为F3=f0+f1+f2+f3。
累计频率可以体现小于等于某个取值的样本在总样本中所占比例。
三、总结计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述有益于研究者更加深入地了解样本的分布情况,进而提出相应的研究假设。
频数、频率、百分比和累计频率是计数资料的常用统计指标,可分析每个取值在样本中的分布情况和各个取值间的差异。
在实际研究中,研究者应根据实际情况选择合适的统计方法进行分析,以期得到更为科学的结论。
中国医科大学研究生医学统计学 第五讲 计数资料及卡方检验2

(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
2 ( A T ) 2 RC RC TRC
=
[b- (b+c)/2]2
+
[c- (b+c)/2]2
(b+c)/2 [(c- b)/2]2 (b+c)/2
(b+c)/2
= [ (b-c)/2]2 +
(b+c)/2
= (b-c)2/2
(b+c)/2
(b c) 2 bc
H0:总体B = C H1:总体B≠C α= 0.05 b + c = 12 + 2 = 14 < 40。
本资料若不校正时,X2=4.35,P<0.05,结 论与之相反。
最小理论频数TRC的判断: R行与C列中,行合计数中的最小 值与列合计数中的最小值所对应
格子的理论频数最小。
如本例,第2行与第2列所对应的格子 理论频数最小(4.67)。
第二节 配对设计的四格表资料的χ2检验
(一)配对四格表形式 B 甲种属性 + 合计 A乙种属性 + 合计 a b a+b c d c+d a+c b+d n=a+b+c+d
无效 b d b+d
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
医学统计学计量资料的统计描述

正确应用集中趋势指标
• 算数均数:适用于单峰对称分布资料; • 几何均数:适用于变量值呈等比级数关系和呈对
数正态分布的资料; • 中位数和百分位数:适用于任何分布的资料,但
在样本含量较少时不稳定,越靠两端越不稳定; • 中位数在抗极端值的影响方面,比均数具有较好
• 计算公式: Q= QU - QL = P75 - P 25 • 意义: Q值越大,说明变异程度越大。
• 特点:包括了居于中间位置50%的变量值,该指
标比全距稍稳定,但仍未考虑每个观察值。
某传染性疾病的潜伏期(天)
平均偏差(mean difference)
• 定义:各观察值偏离平均数的绝对平均差距 • 计算公式:
差、标准差。
极差(range)
• 表示法:R • 定义:一组资料中最大值与最小值之差。
• 计算公式: R = max-min
• 意义:反映个体变异范围的大小。R越大,变异度(离
散程度)越大, R甲=188-142=46、R乙=166-158=8
• 优点:计算简便,概念清晰,如说明传染病、食物中毒 的最长、最短潜伏期等
125.5296
若应用算术均数为:
问题:
• 为什么表达该资料的平均水平宜用几何均 数?
• 几何均数适用条件是什么? • 何种情况不宜计算几何均数? • 利用频数表计算几何均数时应注意什么?
几何均数的应用
• 几何均数适用于变量值呈等比级数关系和呈对数 正态分布的资料;有些呈轻度偏态分布的资料经 过对数变换后呈对称分布的资料。
• 算术均数 • 几何平均数 • 中位数 • 众数
算术均数(mean)
医学统计学重点概要

第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。
资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。
取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。
P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。
对称分布:集中位置在中间,左右两侧頻数基本对称。
偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。
中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。
《医学统计学》统计描述 (1)

2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
医学统计学第1-2章(2015)

3. 方差(variance , 2 , S2)和标准差 (standard deviation , S)
2 X 2
N
S2
2
XX
n1
总体方差
样 本 方 差
37
4.标准差:
X 2
N
总 体 标 准 差
标准差或方差越大,说明个体差异越大,则均数的 代表性越差。
•应用: 对称分布,尤其是正态分布
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
19
115名正常成年女子的血清转氨酶 (mmol/L)含量分布
血清转氨酶含量
人数
12-
2
15-
9
18-
14
21-
23
24-
19
27-
14
30-
11
33-
9
36-
7
39-
4
42-45
3
20
第二节 集中趋势的描述——平均数
66.67
7
25
32
21.88
62
40
102
60.78
6
分组 血栓组 正常组 合计
表 3. 9 正常妇女和血栓形成者的血型分布
A型
B型
AB 型 O 型
合计
32
8
10
9
59
51
19
12
70
152
83
27
22
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/6/4
计数资料的统计描述
2
计数资料
统计描述:相对数(率、构成比、相对比)
率的标准误和区间估计
统计推断:假设检验(2检验):四 行格 列 表表 2检2检 验验
配对资料2检验
2020/6/4
计数资料的统计描述
3
第一节 相对数的概念及其应用
科室
内科 外科 儿科 总计
治疗病例数 治愈人数 治愈人数构成
相对比
A指标 B指标
2020/6/4
计数资料的统计描述
10
相对比
1. 两类个体例数之比 相对比AB类 类发 发生 生的 的例 例数 数
2.
两个率之比 相对危险度(RR)
相对比
P1 P2
3. 两个相对比之比
当不知道总体率的时候
O R疾 对 病 照 组 组 的 的 暴 暴 露 露 比 比 数 数 b a//d ca bd c
说明男性吸烟的冠心病死亡率是不吸烟的死亡率的2.139倍。这
种指标在流行病学研究中称为相对危险度(relative risk简写为
RR )。
2020/6/4
计数资料的统计描述
12
两个相对比之比
临床医生欲探索某病的病因,在以医院病例为基础作病
例对照研究时,一般不能计算出RR,但可以计算出疾病组
暴露比数与对照组暴露比数之比,称之为比数比或优势比 (odds ratio简写为OR)
病型
西医疗法组
病例数 治愈数 治愈率(%)
普通型 60 36
60
重型 20
8
40
爆发型 20
4
20
合计 100 48
48
中西医结合疗法组
病例数
20 60 20 100
治愈数 治愈率(%)
13
65
27
45
5
25
45
45
某病两种疗法的治愈率(%)比较
病型
标准构
西医疗法组
成人数 治愈率(%) 预期治愈数
中西医结合疗法组
总体率用π表示,样本率用P表示。
常用的指标:死亡率、发病率、患病率、病死 率、治愈率
2020/6/4
计数资料的统计描述
6
二、构成比
构成比:是指一事物内部某一组成部分 的观察单位数与该事物各组成部分的观 察单位总数之比,反映事物内部各个组 成部分所占整体的比重。
构 成 比 某 整 一 体 部 所 分 有 的 量 数 ( 量 个 ( 体 个 数 体 之 数 和 ) ) 1 0 0 %
标准化的意义:消除内部构成对总率的影响
2020/6/4
计数资料的统计描述
15
2. 标准化直接法计算
标准构成选取方法:任意一组、两组 之和、或者是有代表性的
3. 注意:
标准不同得到的标化值不同
标化率仅用于相互比较,标化后的数值 不代表实际水平
2020/6/4
计数资料的统计描述
16
某病两种疗法的治愈率(%)比较
而某一部分率的变化并不影响其他部分 的率,且其平均率不能简单地将其各率 相加后平均求得
P=(x1+ x2+ x3)/ n1+ n2+ n3) (正确)
P=(P1+ P2+ P3)/3
(错误)
2020/6/4
计数资料的统计描述
9
三、相对比
相对比:使两个有关的计数指标之比, 用以描述两者的对比水平,常用R表示。
p
(1 )
n
总体率未知的时候用
Sp
p(1 p) n
计算见书上63页例7.6
2020/6/4
计数资料的统计描述
18
率的区间估计:
正态近似法 : n>50,且np和n(1-p)都大于5时,近似 正态分布,可信区间 (pusp,pusp) , p为样本率,Sp为样本率的标准误,u 为 概率为α的u界值。
比%
400
360
58.1
200
190
30.6
100
70
11.3
700
620
100
治愈率%
90% 95% 70% 89%
绝对数并不能很好的反映实际的情况,为了使计数资料的比 较有一个可比性,需要将原始数据(绝对数)计算为相对数。
2020/6/4
计数资料的统计描述
4
相对数:两个有关联的数值之比。
率
相对数:
服用反应停与肢体缺陷关系病例对照研究
OR= 34´ 88=93.5 2´ 16
2020/6/4
计数资料的统计描述
13
四、相对数使用的注意事项
1. 构成比与率:构成比只能说明某事物内部各组成部分的比 重和分布,不能说明这事物某一部分发生的强度和频率
2. 分母不宜过小,分母过小时相对数不稳定,小则直接叙述
3. 注意资料的可比性,要具有同质性,例不同级别医院的死 亡率
4. 当内部的构成影响总率的时候应进行标准化
5. 当比较两个样本率或构成比时,应考虑存在抽样误差,对 于样本之间的差异应做检验(统计推断,下节介绍)
2020/6/4
计数资料的统计描述
14
第二节 率的标准化
内部结构不同的两组对象进行比较:例如A 组病情严重者多,B组病情较轻的多,但要 比较两种不同方法的治疗效果,结果会怎样
比
:
构 相
成 对
比 比
2020/6/4
计数资料的统计描述
5
一、率
率:反映某事物或现象发生频率和强度大小的 指标
率 所 已 有 发 可 生 能 的 发 实 生 际 的 数 例 数 比 例 基 数
比例基数:百分率(治愈率、感染率)、千分 率(出生率、死亡率)、十万分率(某些疾病 死亡率,比如自杀,中国的自杀率23/10万)。
2020/6/4
计数资料的统计描述
7
构成比与率的区别
率
构成比
概念 发生的频率或 各组成部分所占
强度
的比重
强调点 随机发生事件 各部分的构成
资料获得
较难
容易
Байду номын сангаас特点
不一定
合计为100%
2020/6/4
计数资料的统计描述
8
构成比与率的区别
构成比各构成部分的相对数之和应为
100%,某一构成部分的增减会影响其 他部分构成比相应减少或增加
计数资料的统计描述
教师:卫生统计教研室 胡冬梅
复习 计量资料
统计描述:离 集散 中趋 趋势 势: :极 算差 术、 均四 数分 、位 几间 何距 均、 数标 、准 中差 位、 数变 、异 百系 分数 位数
估计:区 点间 估估 计计 ::注意与医学参考值范围的区别,各自的应用
统计推断:假设检验:配 单 两对 个 独样 样 立本 本 样tt本检 检t验 验 检验(注意假设检验的思想和注意事项)
治愈率(%) 预期治愈数
普通型 80
60
48
重型 80
40
32
爆发型 40
20
8
合计 200
88
65
52
45
36
25
10
98
P'西28080100%44% P'中 西29080100%49%
第三节 率的抽样误差与区间估计
率的抽样误差:由于抽样引起的样本率之 间以及样本率与总体率之间的差异。
率的标准误:
2020/6/4
计数资料的统计描述
11
两个率之比
某地某年龄组男性吸烟和非吸烟的冠心病死亡资料下表所示,试 分析其相对危害度。
分组 吸烟组 非吸烟组
死亡数 年1)04
12
观察人年数 43248 10673
死亡率(1/10万人 240.5 112.4
RR = 240.5/112.4 = 2.139
查表法 n≤50,查表
2020/6/4
计数资料的统计描述
19