计量资料的统计描述

合集下载

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

计量资料的统计描述

计量资料的统计描述

频数表法
i Px Lx ( nx% f L ) fx
其中
Lx 第x百分位数所在组段下限
i 组距
f x 第x百分位数所在组段的频数
f 第x百分位数所在组段前一组的累计频数
L
[案例4-10] 根据表4-4,计算P25 、P75 。
p25 i L ( n.x % f L ) fx
均数
几何均数 中位数
平均数量水平
平均增减倍数 位次居中的观察值 水平
对称分布,尤其是正 态分布 等比、对数正态分布 偏态、分布不明确、 分布末端无确定值
百分位数 ( Percentile,Px )
观察值从小到大排列,处于第x百分位位 置上的数值,用 Px 表示。一个百分位数将全 部数据分成两部分,有x%的数据小于Px,有 (100-x)%的数据大于Px
0.6021 2.7093 7.2246 15.5051 23.4806 21.0720 16.8574 86.9977(
f ilg xi
)
1 lg 4 3 lg 8 lg 256 1 86.9977 G lg ( lg ( ) 54 1 3 7 50
滴度倒数 xi
(3)
频数 fi
(2)
lgxi
(4)
fi lgxi
(5)
1/4 1/8 1/16 1/32 1/64 1/128 1/256 合 计
1 3 6 10 13 10 7 50 (
fi
4 8 16 32 64 128 256 ) -
0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 -
141.5 151.1 144.6 151.8 149.5 153.6 140.5 150.3 141.3 153.9 140.8 141.8 140.7 151.4 139.1 145.8 148.4 136.5

医学统计-计量资料的统计描述

医学统计-计量资料的统计描述

中位数
符号
X
G
M
含义 应用条件
各观察值相加除 以观察值的个数 所得之商
正态或近似正态 分布
N各观察值的 一组观察值按
乘积开n次方所 顺序排列,居
得之根
中者
偏态或对数正 极偏态或分布
态分布
不规则的资料
计算公式
加权法计算中X 不能有0和负值 中位数为百分
说明 值的含义
的数据
位数的特例
二、集中趋势的描述
程度或离开平均水平的趋势
三、离散趋势的描述
描述离散趋势的指标
全距(极差)range (R) 四分位数间距 interquartile range (Q) 方差 variance 标准差 standard deviation (SD) 变异系数 coefficient variation (CV)
医学科研中的统计学方法
计量资料的统计描述
一、 频数与频数分布 二、 集中趋势的描述 三、 离散程度的描述 四、正态分布及应用
例1: 某医师在一次体检中,测得120名成年 男子的身高(厘米)资料如下, 试对此资料进行 统计描述
159 153 159 164 161 160 169 154 170 162 158 155 149 159 153 164 160 165 164 158 155 164 161 159 164 161 158 163 170 154 157 165 165 163 185 159 164 176 161 156 155 167 165 153 167 154 163 163 172 156 161 161 164 165 161 170 167 159 173 151 163 156 167 159 167 163 169 171 157 153 161 157 167 161 158 171 170 181 157 161 167 170 167 165 156 173 165 167 172 162 156 165 171 171 169 173 161 163 160 164 172 159 159 168 161 165 166 159 149 169 162 166 170 164 157 163 164 162 153 164

计量资料的统计描述

计量资料的统计描述

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

第二章 计量资料的统计描述

第二章 计量资料的统计描述
全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2

xi
x2

计量资料的统计描述

计量资料的统计描述
医学参考值范围的制定方法
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03

计量资料的统计描述

计量资料的统计描述
为该组的下限。 上限(upper limit):每个组段的终点称 为该组的上限。
3.列表划记
频数分布表的用途
(1)是大样本数据常用的表达方式。
(2)便于观察数据的分布类型(以便选择 相应的统计指标和分析方法)。
对称分布:集中位置在中间。左右两侧频 数基本对称。
偏态分布 正偏态分布:集中位置偏向数 值较小的一侧。
百分位数
1.定义:百分位数(percentile)是指 将观察值从小到大排列后处于第x百 分位置上的数值。用符号表示为 , 它是个位置指标。
2.计算方法:
PX X%
(100-X)%
29.81%
80 100 120 64.40%
第三节 计量资料离散趋势 的描述
例1:甲:1 3 4 5 7 乙:4 4 4 4 4
▪应用:适合于正态分布或近似正态分 布的资料。标准差与正态分布有明确 的关系,它与均数结合能够完整地概 括一个正态分布。
三、变异系数 变异系数(coefficient of variation,简记 为CV),又称为离散系数(coefficient of dispersion) ▪计算方法:CV S 100%
▪ 正态分布以均数为中心,左右对称。
▪ 正态分布中的X取值范围理论上没有
边界。
▪ 正态分布有两个参数,即位置参数μ 和变异参数σ 。
当σ固定后,μ增大,曲线沿横轴向 右移动.μ减小,曲线沿横轴向左移动。
当μ固定后,σ越大,曲线的形状
越“矮胖”,表示数据分布越分 散;σ越小,曲线的形状越“瘦 高”, 表示数据分布越集中。
三、中位数(median) 中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 (一)计算方法
1.直接法:适用于样本量较小的计量资料。 当 为奇数时
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学实习课
北京协和医学院 基础学院 统计学教研室 徐涛
课程要求与注意事项(1)

纪律:不能影响别人

不能在课堂上用手机 不能大声聊天


课时:17*3学时 教室:七楼西、新楼406室 统计软件实习:SPSS;5*3学时
课程要求与注意事项(2)


教材:颜虹主编《医学统计学》 人民卫生出版社 计算器:有基本统计功能 旁听:不提倡旁听软件实习课 考试:笔试(包括Байду номын сангаас件实习内容)

离散趋势指标

极差R 四分位数间距QR 离均差(x-μ) 离均差总和(x)=0 离均差绝对值和|x| 离均差平方和(x)2 均方(方差)σ2=(x)2/N 标准差 (x )
2
N
方差与标准差

但是在实际工作中,总体方差往往是未知的,常用样本方 差s2来估计。在公式中,用 x代替,用n代替N,这时计 算的结果往往比总体方差σ2要小,所以分母用n-1来代替N, 即公式变为: ( x x) 2 ( x x) 2 s2 ,s n 1 n 1 这时样本方差s2是总体方差σ2的无偏估计。 N-1:自由度,常用ν或df表示,是指随机样本研究中,可 独立地随机选择变动的观测值的个数。
例2-1 某地儿研所测得该地150名12岁健康男童 体重(kg)原始数据如下,试编制频数表。

25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7
34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3
28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2
33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9
47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5

均数的计算 均数的计算方法有直接法和加 权法,计算机运算中多采用直接法。
均数的应用

用途:用来描述一组变量值的平均水平, 具有代表性,因此变量值必须是同质的。 应用条件:适用于呈对称分布的资料,特 别是正态分布或者近似正态分布的资料, 因为这时均数位于分布的中心,最能反映 分布的集中趋势。

几何均数(geometric mean,G)
频数表的编制

3.列表划记,统计各组段频数。 4.计算频率与累计频率

频数分布的两个特征

体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势。
另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势。 集中趋势和离散趋势是频数分布的两个重要特征。

观察值不能为0。因为0不能取对数,也不能与任 何其它数呈对数关系。可以把所有的变量值均加 上一个较小的常数,如加1。
观察值不能同时有正值和负值。若全是负值,计 算是可把负号去掉,得出结果后再加上负号。

中位数(M)和百分位数(P)

中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。
34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
1.找出最大值和最小值,计算极差。

最大值为51.2kg, 最小值为20.1kg,
极差R=51.2-20.1=31.1kg。 极差(R)也叫全距,它是一组变量值中 最大值与最小值之差。
计算器功能简介

MODE或D· G:模式转换 R·

DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度


INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2
38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3
41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1
课堂练习

P57 案例 (1)-(6)
中位数和百分位数的应用

中位数不是由全部观察值的数量值综合计算出来 的,只受居中变量值波动的影响,不受两端特小 值和特大值的影响,仅仅反映了位次居中的观察 值的水平,因此中位数常用于描述偏态分布或末 端无确定数据时资料的集中位置。
百分位数用于描述样本或总体观察值序列在某百 分位置水平,多个百分位数结合应用时,可更全 面地描述总体或样本的分布特征,可用来确定医 学参考值范围。

连续型资料和离散型资料

连续型资料(continuous data)

理论上在任何两个连续型数据之间都还有无穷多个 数据; 只要测量仪器足够精确,连续型数据可以精确到小 数点后第无限位,比如体重,在60.1和60.2kg之间 理论上存在着无限多个数据。

离散型资料(discrete data)

n为偶数时,
M [x
x
n ( 1) 2
]/ 2
频数表法




M=P50 Lx: 第x百分位数所在组段的下限; fx:第x百分位数所在组段的频数; ix:第x百分位数所在组段的组距; ΣfL:小于L各组段的累计频数。
ix Px Lx (n x% f L ) fx

标准差的应用

标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。


变异系数(CV)

CV =s/ x×100% 它是反映相对变异度的指标。 变异系数常用于:


测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。

往往是一种计数,这种计数只能是0和正整数,不 会是负数,也没有小数点; 比如心率、脉搏、儿童龋齿个数、血小板数、某年 某地交通事故死亡人数等,
随机变量和研究资料的类型
计量 资料 收缩压 白细胞计数 交通事故死亡 人数 疗效(痊愈、 有效、无效) 肺癌类型 √ √ √ √ √ 计数 等级 资料 资料 连续型 资料 √ √ √ √ √ 离散型 资料


计量资料

计量资料是指每个观察单位某个变量用测量或 其他定量方法观察结果,一般有计量单位。 定量资料、数值资料(measurement data, quantitative data) 计量资料的各个观察值之间有量的区别,没有 性质的不同。


计数资料




计数资料,计数资料是按照事物的属性分组,然 后清点各组的观察单位个数得到的资料。 定性资料、名义资料(count data,qualitative data,nominal data) 其变量值是定性的,表现为无不相容的类别或属 性,定性变量的属性指标的分类是无序的。 各观察单位之间没有量的区别,但有质的不同。


频数分布的类型

频数分布分为对称分布和偏态分布两种类型。

对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如表2-1所示。若将其绘 制成频数分布直方图2.1,则更清楚。
频数分布的类型

偏态分布指集中位置偏向一侧,频数分布不对称。

一些以儿童为主的传染病,患者的年龄分布,集中位 置偏于年龄小的一侧,频数尾部向右侧延伸,称为右 偏态、正偏态(峰)分布,如图2-2; 一些慢性病患者的年龄分布,其集中位置偏向年龄大 的一侧,频数尾部向左侧延伸,称为左偏态、负偏态 (峰)分布,如图2-3。
27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2
33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8
37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7

2.按极差大小决定组段数、组段和组距。


组距=极差/组数,常取整数作组距,取整只是为 了方便资料的整理汇总。 斯梯阶公式
H R 1 3.322lg N

第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。

几何均数的计算


直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所 得的根。 lg x n x x x lg 1 ( G ) 1 2 n n 加权法:
G lg
1
f lg x ) ( f
几何均数的应用

用于对数正态分布资料, 如:某些传染病的潜 伏期、抗体滴度、细菌计数等。

集中趋势指标
相关文档
最新文档