【医学统计学】2.1定量资料的统计描述

合集下载

医学统计学-定量资料的统计描述

医学统计学-定量资料的统计描述
计量资料的统计描述
11/21/2014
1
计量资料的统计描述

统计图表

频数表 频数/频率图 集中趋势 离散趋势

统计指标


2
频数表

某市1995年104名7岁男童身高资料
119.6 121.5 126.1 124.0 125.3 113.6 123.1 116.7 111.2 116.7 123.3 121.9 125.0 126.4 124.6 123.6 127.6 122.7 132.4 124.3 129.9 120.3 125.1 125.9 125.6 118.7 123.6 120.5 126.6 129.3 124.2 128.5 125.7 117.0 123.2 118.9 119.1 126.4 113.6 127.8 121.7 124.7 126.5 115.4 126.6 130.4 121.9 115.5 130.2 125.9 115.0 121.7 122.8 124.7 122.0 124.9 118.0 119.2 128.3 110.5 120.4 121.3 120.1 120.1 127.6 125.8 117.0 114.0 118.2 124.8 122.1 124.1 118.2 123.0 125.1 126.1 114.6 123.4 124.7 115.2 127.0 119.9 122.5 122.8 120.1 120.9 123.9 126.6 122.4 119.4 135.3 121.7 127.7
19
偏态分布资料统计描述---百分位 数

百分位数(percentile):位置指标,用于描述观察 值序列中某百分位上的数值大小

医学统计学课件第二章 定量资料的统计描述

医学统计学课件第二章  定量资料的统计描述

第四节
正态分布
一、正态分布的概念和特征
正态分布(normal distribution ):也 称高斯分布,是医学和生物学最常见的连续性 分布。如身高、体重、红细胞数、血红蛋白等。
图2-1 120名12岁健康男孩身高的频数分布
图2-2 频数分布逐渐接近正态分布示意
㈠ 正态分布的函数和图形
第二章 定量资料的统计描述
目 录
第一节 频数分布表
第二节 集中趋势的描述 第三节 离散趋势的描述
第四节 正态分布
学习要求
1.掌握频数分布表的编制步骤和方法 2.熟悉频数分布表的用途 3.掌握集中趋势、离散趋势的概念,适用条件和计
算方法 4.掌握正态分布的概念,意义和特点;正态曲线下 面积的分布规律
159.99 33.46 / 7 S . 0.089 7 1
2
加权法-标准差计算实例:

对表2-4资料用加x=17168,∑fx2 =2460040, 代入公式
2460040 17168 / 120 S 5.70(cm) 120 1
算术均数 (arithmetic mean): 简称均数。
适用条件:对称分布或近似对称分布的资料。
以希腊字母μ---总体均数(population mean)
以英文字母 ---样本均数(sample mean)
计算方法
1. 直接法:用于观察值个数不多时
X X n
2.加权法(weighting method):用于变量 值个数较多时
适用条件:对于变量值呈倍数关系或呈对 数正态分布(正偏态分布),如抗体效价及抗体 滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。

医学统计学-第二章 统计描述

医学统计学-第二章 统计描述
变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。

卫生统计学第二章定量资料的统计描述

卫生统计学第二章定量资料的统计描述
E. 总体标准差一定时,增大样本例数会减小标准误
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定

医学统计学:定量资料的统计描述

医学统计学:定量资料的统计描述
n
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中

医学统计学定量资料的统计描述和变量分布

医学统计学定量资料的统计描述和变量分布
①先求出: 累计频数:本组段的频数与以前各组段的频数相加; 累计频率:每组段的累计频数除以总例数。
②确定Px所在组段:最为关键; ③再按公式计算:
P x

L
i f
x

X%n 100


f
L

式中:L为百分位数所在组段的下限,i为该组段的组距,fx为 该组段的频数,ΣfL为百分位数所在组段的前一组段的累计频 数,n为总例数。
个观察值X1,X2,X3…Xn的乘积开n次方
对数形式:G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n} =lg-1(∑lgX/n)
例4-2-4 3人血清抗体效价分别为1∶10,1∶100,1∶1000, 求其平均效价。
G lg 1 lg10 lg100 lg1000 lg 1 2 100
组段(mmol·L-1)(1) 2.5 3.0~
3.5~
4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~ 7.0~7.5 合计
划记(2) 一
正 正
正正正正 正正正正正 正正正 正 正一

频数(3) 1 8
9
23 25 17 9 6 2 1 101
(二)离散型定量变量的频数表制作
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
由于同质性,所有实测值趋向 (三) 频数分布的两个特同征一数值的趋势称为集中趋势。
集中趋势:血清总胆固醇含量向中央部分集中, 即中等含量者居多,集中在4.0~5.5这3个组段, 这种现象为集中趋势。

医学统计学2. 定量数据的统计描述

n 10, X 75 76 72 698, X2 752 762 722 48984
S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8

《医学统计学》第四章定性资料的统计描述


1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3

265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听

某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则

医学统计学 第二章 计量资料的统计描述


肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

《医学统计学》第二章定量数据的统计描述

630
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630

累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
组距为相邻两组段的下限差。组距i=R/组数≈R/10. 本例i=20/10=2(g/L) 3.确定组段值。原始数据表 第一组段应包含最小值,最末组段应包含最大值并 写出其下限和上限值。 4.列出频数表。采用划记法或计算机汇总。
频数表
组段
64.0~ 66.0~ 68.0~ 70.0~ 72.0~ 74.0~ 76.0~ 78.0~ 80.0~ 82.0~ 84.0~86.0 合计
2 统计描述
青岛大学医学院公共卫生学院 流行病与卫生统计学教研室
姜秀波
定量资料的统计分析
定量资料的统计描述
集中趋势指标 离散趋势指标
定量资料的统计推断
总体均数的估计 假设检验
2.1 定量资料的统计描述
主要内容
•频数分布表 •集中趋势指标 •离散趋势指标
定量资料的 频数/频率分布表
(frequency distribution table)
集中趋势指标
(central tendency)
平均数(average)
定义:描述一组性质相同的定量观察值的 集中趋势、中心位置或平均水平的指标。 平均数是一组定量数据典型的或有代表性 的值。
常用平均数的种类
算术均数 中位数 几何均数 ➢众数* ➢调和均数*
一、算术均数
(arithmetic mean)
表 3-2 100 名健康女大学生血清总蛋白含量的频数分布表
含量(g/L)
划记
频数(人数)
64.0~ III
3
66.0~
IIIII
5
68.0~
IIIII III
8
70.0~
IIIII IIIII I
11
72.0~
IIIII IIIII IIIII IIIII IIIII IIIII
25
74.0~
IIIII IIIII IIIII IIIII IIIII IIII
2.可以根据频数分布的不同类型,选 择适当的统计方法,进行计算与分 析。
频数分布的两个特征:
①集中趋势:变量值集中位置。
②离散(/中)趋势:变量值围绕集中位置的分布情况。离“中心”位置 越远,频数越小;且围绕“中心”左右对称。
频数分布的类型:
对称分布
例题直方图
偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏
100.0 —
频数表的概念
100名健康女大学生血清总蛋白含量的频数 分布
25 20 15 10 5 0
64~ 66~ 68~ 70~ 72~ 74~ 76~ 78~ 80~ 82~ 84~
血清数表的意义:
1.由频数表可以看出频数分布的两个 重要特征:集中趋势和离散趋势。
24
76.0~
IIIII IIIII
10
78.0~
IIIII II
7
80.0~
IIIII I
6
82.0~
0
84.0~ I
1
合计

100
步骤
编制频数表的步骤
1.求全距(R)。R=最大值-最小值=84.3-64.3=20(g/L) 2.确定组数和组距。频数表
一般设8-15组。各组段的起点和终点分别称为下限 和上限。
态)。偏态分布图示
120
100
80
60
40
20
0 2.50
3.00
3.50
4.00
4.50
5.00
5.50
6.00
6.50
7.00
7.50
Std. Dev = .85 Mean = 4.90 N = 816.00
8.00
CHO
曲线下面积的含义
400
300
200
100
Std. Dev = 1.12
75.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4
步骤
•频数:将定量资料的变量值按大小进行 分组,则某组段内所包含的变量值的个 数称为频数,以f 表示。频率是某组段 频数在总例数中所占的百分比。
•频数表(/频率表):表示各组段及其对 应的频数(/频率)的表格称为频数表或 频数分布表。频数分布表格
算术均数简称为均数(mean)
1.适用资料:适用于正态分布或近似
正态分布资料。
2.符号:样本均数 3.计算:
x,总体均数μ。
(1)不分组资料的均数计算法
x x1 x2 xn x
n
n
(2)分组资料的均数计算法
编制频数分布表
注意:合理分组才能求均数,否则没有意义 。
组中值
65.0 67.0 69.0 71.0 73.0 75.0 77.0 79.0 81.0 83.0 85.0 —
频数分布表
频数 f
3 5 8 11 25 24 10 7 6 0 1
100
频率%
3.0 5.0 8.0 11.0 25.0 24.0 10.0 7.0 6.0 0 1.0
100.0
累计频率% 3.0 8.0 16.0 27.0 52.0 76.0 86.0 93.0 99.0 99.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3
Mean = 1.55
0
N = 1049.00 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00
TG
频数表的用途:
1.揭示资料的分布特征和分布类型;
2.发现特大值和特小值;
3.由组中值近似代表原始数据,便于 手工计算集中趋势指标与离散趋势 指标。
表 3-1 上海医科大学健康女大学生 100 名血清总蛋白含量(单位:g/L) 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
相关文档
最新文档