计量资料的统计描述

合集下载

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

计量资料的统计描述

计量资料的统计描述

频数表法
i Px Lx ( nx% f L ) fx
其中
Lx 第x百分位数所在组段下限
i 组距
f x 第x百分位数所在组段的频数
f 第x百分位数所在组段前一组的累计频数
L
[案例4-10] 根据表4-4,计算P25 、P75 。
p25 i L ( n.x % f L ) fx
均数
几何均数 中位数
平均数量水平
平均增减倍数 位次居中的观察值 水平
对称分布,尤其是正 态分布 等比、对数正态分布 偏态、分布不明确、 分布末端无确定值
百分位数 ( Percentile,Px )
观察值从小到大排列,处于第x百分位位 置上的数值,用 Px 表示。一个百分位数将全 部数据分成两部分,有x%的数据小于Px,有 (100-x)%的数据大于Px
0.6021 2.7093 7.2246 15.5051 23.4806 21.0720 16.8574 86.9977(
f ilg xi
)
1 lg 4 3 lg 8 lg 256 1 86.9977 G lg ( lg ( ) 54 1 3 7 50
滴度倒数 xi
(3)
频数 fi
(2)
lgxi
(4)
fi lgxi
(5)
1/4 1/8 1/16 1/32 1/64 1/128 1/256 合 计
1 3 6 10 13 10 7 50 (
fi
4 8 16 32 64 128 256 ) -
0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 -
141.5 151.1 144.6 151.8 149.5 153.6 140.5 150.3 141.3 153.9 140.8 141.8 140.7 151.4 139.1 145.8 148.4 136.5

医学统计-计量资料的统计描述

医学统计-计量资料的统计描述

中位数
符号
X
G
M
含义 应用条件
各观察值相加除 以观察值的个数 所得之商
正态或近似正态 分布
N各观察值的 一组观察值按
乘积开n次方所 顺序排列,居
得之根
中者
偏态或对数正 极偏态或分布
态分布
不规则的资料
计算公式
加权法计算中X 不能有0和负值 中位数为百分
说明 值的含义
的数据
位数的特例
二、集中趋势的描述
程度或离开平均水平的趋势
三、离散趋势的描述
描述离散趋势的指标
全距(极差)range (R) 四分位数间距 interquartile range (Q) 方差 variance 标准差 standard deviation (SD) 变异系数 coefficient variation (CV)
医学科研中的统计学方法
计量资料的统计描述
一、 频数与频数分布 二、 集中趋势的描述 三、 离散程度的描述 四、正态分布及应用
例1: 某医师在一次体检中,测得120名成年 男子的身高(厘米)资料如下, 试对此资料进行 统计描述
159 153 159 164 161 160 169 154 170 162 158 155 149 159 153 164 160 165 164 158 155 164 161 159 164 161 158 163 170 154 157 165 165 163 185 159 164 176 161 156 155 167 165 153 167 154 163 163 172 156 161 161 164 165 161 170 167 159 173 151 163 156 167 159 167 163 169 171 157 153 161 157 167 161 158 171 170 181 157 161 167 170 167 165 156 173 165 167 172 162 156 165 171 171 169 173 161 163 160 164 172 159 159 168 161 165 166 159 149 169 162 166 170 164 157 163 164 162 153 164

第二章 计量资料的统计描述

第二章 计量资料的统计描述
全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2

xi
x2

统计学-计量资料的统计描述方法

统计学-计量资料的统计描述方法

计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。

*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。

2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。

应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。

计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。

中位数就是第百分50位数。

四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。

四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。

百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。

计量资料的统计描述

计量资料的统计描述
医学参考值范围的制定方法
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03

计量资料的统计描述

计量资料的统计描述
为该组的下限。 上限(upper limit):每个组段的终点称 为该组的上限。
3.列表划记
频数分布表的用途
(1)是大样本数据常用的表达方式。
(2)便于观察数据的分布类型(以便选择 相应的统计指标和分析方法)。
对称分布:集中位置在中间。左右两侧频 数基本对称。
偏态分布 正偏态分布:集中位置偏向数 值较小的一侧。
百分位数
1.定义:百分位数(percentile)是指 将观察值从小到大排列后处于第x百 分位置上的数值。用符号表示为 , 它是个位置指标。
2.计算方法:
PX X%
(100-X)%
29.81%
80 100 120 64.40%
第三节 计量资料离散趋势 的描述
例1:甲:1 3 4 5 7 乙:4 4 4 4 4
▪应用:适合于正态分布或近似正态分 布的资料。标准差与正态分布有明确 的关系,它与均数结合能够完整地概 括一个正态分布。
三、变异系数 变异系数(coefficient of variation,简记 为CV),又称为离散系数(coefficient of dispersion) ▪计算方法:CV S 100%
▪ 正态分布以均数为中心,左右对称。
▪ 正态分布中的X取值范围理论上没有
边界。
▪ 正态分布有两个参数,即位置参数μ 和变异参数σ 。
当σ固定后,μ增大,曲线沿横轴向 右移动.μ减小,曲线沿横轴向左移动。
当μ固定后,σ越大,曲线的形状
越“矮胖”,表示数据分布越分 散;σ越小,曲线的形状越“瘦 高”, 表示数据分布越集中。
三、中位数(median) 中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 (一)计算方法
1.直接法:适用于样本量较小的计量资料。 当 为奇数时
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为奇数时 (2-6)
为偶数时 (2-7)
2-1 常用平均数的意义及其应用场合
平均数
意义
应用场合
均数
平均数量水平
应用甚广,最适用于对称分布,特别是正态分布
几何均数
平均增(减)倍数
等比资料;对数正态分布
中位数
位次居中的观察值水平
偏态分布;分布不明;分布末端无确定值
(一)反映数据变异程度大小的变异指标
变异指标的应用亦根据资料的不同而选取不同指标进行描述。常用的变异指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差和标准差更为常用。
6.百分位数 7.四分位数间距 8.方差 9.标准差 10.变异系数
1.极差
极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
(2-1)
2.百分位数与四分位数间距
(1)百分位数(percentile)是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学正常参考值范围。 百分位数用Px表示,0<x<100,如25%位数表示为P25。在频数表上,百分位数的计算公式为:
答案:这三个指标均反映计量资料的离散程度。极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。
四、习 题
(一)名词解释
1.频数表 2.算术均数 3.几何均数 4.中位数 5.极差
(2-3)
2.几何均数
几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。其计算公式为:
(1)直接法
(2-4)
(2)加权法
(2-5)
3.中位数
中位数(median)将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
(2-10)
4.标准差
标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用,其计算公式为:
(2-11)
5.变异系数
变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV表示,计算公式为:
1.求数据的极差(range)。
(2-1)
2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。每个组段都有下限L和上限U,数据χ归组统一定为L≤χ<U。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(一)频数分布表的编制
频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分ቤተ መጻሕፍቲ ባይዱ情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:
2. 描述数据分布集中趋势的指标
掌握其意义、用途及计算方法。算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标
掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容
连续型变量的频数分布图:等距分组、不等距分组。
二、教学内容精要
计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(二)描述频数分布中心位置的平均指标
描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数
算术均数(arithmetic mean)简称均数,描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用 表示,其计算方法如下:
(1)直接法:直接用原始观测值计算。
(2-2)
(2)加权法:在频数表基础上计算,其中 为组中值, 为频数。
计量资料的统计描述
———————————————————————————————— 作者:
———————————————————————————————— 日期:

第二章 计量资料的统计描述
一、教学大纲要求
(一)掌握内容
1. 频数分布表与频数分布图
(1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
C.正态分布和近似正态分布 D.对称分布
答案:C
[评析]本题考察均数和标准差的应用条件。
4.同一资料的标准差是否一定小于均数?
答案:均数和标准差是两类不同性质的统计指标。标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小。标准差可大于均数,也可小于均数。
5.试述极差、四分位数间距、标准差及变异系数的适用范围。
2.描述一组偏态分布资料的变异度,以( )指标较好。
A.全距 B.标准差
C.变异系数 D.四分位数间距
答案:D
[评析]标准差和变异系数均用于描述正态分布资料的变异度,全距和四分位数间距可用于任何资料,而四分位数间距更为稳定,故选D。
3.用均数和标准差可以全面描述( )资料的特征。
A.正偏态分布 B.负偏态分布
(2-8)
(2)四分位数间距(inter-quartile range)是由第3四分位数(Q3=P75)和第1四分位数(Q1=P25)相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,比极差稳定。其计算公式:
(2-9)
3.方差
方差(variance)表示一组数据的平均离散情况,其计算公式为:
(2-12)
平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要求一起使用。如常用 或M(QR)。
三、典型试题分析
1.名词解释:平均数
答案:平均数(average)是描述数据分布集中趋势的指标,在卫生领域中最常用的平均数指标:算术均数、几何均数和中位数。
[评析]本题考察平均数的概念。平均数是一类统计指标,并不单纯指算术均数。
相关文档
最新文档