计量资料汇总统计描述
2 计量资料的统计描述指标

⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料统计描述

• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
医学统计学计量资料的统计描述

正确应用集中趋势指标
• 算数均数:适用于单峰对称分布资料; • 几何均数:适用于变量值呈等比级数关系和呈对
数正态分布的资料; • 中位数和百分位数:适用于任何分布的资料,但
在样本含量较少时不稳定,越靠两端越不稳定; • 中位数在抗极端值的影响方面,比均数具有较好
• 计算公式: Q= QU - QL = P75 - P 25 • 意义: Q值越大,说明变异程度越大。
• 特点:包括了居于中间位置50%的变量值,该指
标比全距稍稳定,但仍未考虑每个观察值。
某传染性疾病的潜伏期(天)
平均偏差(mean difference)
• 定义:各观察值偏离平均数的绝对平均差距 • 计算公式:
差、标准差。
极差(range)
• 表示法:R • 定义:一组资料中最大值与最小值之差。
• 计算公式: R = max-min
• 意义:反映个体变异范围的大小。R越大,变异度(离
散程度)越大, R甲=188-142=46、R乙=166-158=8
• 优点:计算简便,概念清晰,如说明传染病、食物中毒 的最长、最短潜伏期等
125.5296
若应用算术均数为:
问题:
• 为什么表达该资料的平均水平宜用几何均 数?
• 几何均数适用条件是什么? • 何种情况不宜计算几何均数? • 利用频数表计算几何均数时应注意什么?
几何均数的应用
• 几何均数适用于变量值呈等比级数关系和呈对数 正态分布的资料;有些呈轻度偏态分布的资料经 过对数变换后呈对称分布的资料。
• 算术均数 • 几何平均数 • 中位数 • 众数
算术均数(mean)
计量资料的统计描述

分 层 抽 样
整 群 抽 样
样
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,
计量资料的统计描述

1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
含义 离散趋势是指计量资料所有观察值偏离中
心位置的程度,反映一组同质变量值相互之间参
差不齐的程度,即离散度或变异度。
常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。
优点 缺点
计算简单 仅考虑了资料的最大值和最小值,不能反映
组内其它数据的变异程度。
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
u
X
式中的u值称为标准正态变量,其频数曲线图即为标准正
态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
是一个度量相对离散程度的指标。
例1: 身高 体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
几种重要的连续性随机变量分布:
正态分布 标准正态分布X75%统
计量资料的统计描述

中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。
计量资料和计数资料的统计方法

计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。
本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。
一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。
统计学中常用的计量资料分析方法有描述统计和推断统计。
1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。
常用的描述统计量有平均值、中位数、众数、标准差、方差等。
平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。
中位数和众数则可以反映数据的位置和分布情况。
标准差和方差则可以衡量数据的离散程度。
2. 推断统计推断统计是基于样本数据对总体进行推断的方法。
在推断统计中,常用的统计分析方法有假设检验和置信区间估计。
假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。
置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。
二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。
计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。
1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。
通过频数分布可以直观地了解数据的分布情况和特征。
2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。
通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。
列联表分析可以帮助我们判断两个变量之间是否存在相关性。
3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。
卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。
三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。
第3讲 计量资料与计数资料的统计描述

1、计量资料 (measurement data)
用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
2、计数资料 (count data)
按某种属性分类计数后得到的数据,又称无序分类变量,有二分 类和多分类两种情形.
366
28 34
35
10
34
78
57
248
30 11
14
11
22
39
17
114
32 14
2
3
14
24
3
60
34
4
2
5
3
12
2
28
36
2
1
1
4
5
1
14
38
3
1
1
0
2
1
8
40
0
0
2
0
0
0
2
合计 207
141
102
208 537 206 1401
2、常用相对数指标
计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数 等.但绝对数不具可比性,需要计算相对数.
2、三线表
表号 标题(包括何时、何地、何事)
横标目的 总标目 横标目
┋
总标目
纵标目 纵标目
××× ×××
××
××
总 标 目(单位)
纵标目
纵标目
××. ×× ××. ××
×. ×× ×. ××
┋ ┋ 合计
┋ ┋ ×××
┋ ┋ ×××
┋ ┋ ×:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 计量资料的统计描述一、教学大纲要求(一)掌握容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
nX X ∑= (2-2)(2)加权法:在频数表基础上计算,其中X 为组中值,f 为频数。
∑∑=ffX X (2-3) 2.几何均数几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法⎪⎭⎫ ⎝⎛∑=-n X G lg lg 1 (2-4) (2)加权法⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg 1 (2-5) 3.中位数中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
为奇数时 ⎪⎭⎫ ⎝⎛+=21n X M (2-6)为偶数时 ()(1)2212n nM X X +⎛⎫=+ ⎪⎝⎭(2-7)2-1 常用平均数的意义及其应用场合平均数 意义 应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数 平均增(减)倍数 等比资料;对数正态分布中位数 位次居中的观察值水平 偏态分布;分布不明;分布末端无确定值(一)反映数据变异程度大小的变异指标变异指标的应用亦根据资料的不同而选取不同指标进行描述。
常用的变异指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差和标准差更为常用。
1.极差极差(range )亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
min max X X R -= (2-1) 2.百分位数与四分位数间距(1)百分位数(percentile )是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。
百分位数的另一个重要用途是确定医学正常参考值围。
百分位数用P x 表示,0< x <100,如25%位数表示为P 25。
在频数表上,百分位数的计算公式为:()∑-⋅+=L xxx x f x n f i L P % (2-8) (2)四分位数间距(inter-quartile range )是由第3四分位数(Q 3= P 75)和第1四分位数(Q 1= P 25)相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,比极差稳定。
其计算公式:31QR Q Q =- (2-9)3.方差方差(variance )表示一组数据的平均离散情况,其计算公式为:()122-∑-=n X Sμ (2-10)4.标准差标准差(standard deviation )是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用,其计算公式为:S ==(2-11)5.变异系数 变异系数(coefficient of variation )用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV 表示,计算公式为:%100⨯=XS CV (2-12)平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要求一起使用。
如常用S X ±或M (QR )。
三、典型试题分析1.名词解释:平均数答案:平均数(average )是描述数据分布集中趋势的指标,在卫生领域中最常用的平均数指标:算术均数、几何均数和中位数。
[评析]本题考察平均数的概念。
平均数是一类统计指标,并不单纯指算术均数。
2.描述一组偏态分布资料的变异度,以( )指标较好。
A.全距 B.标准差 C.变异系数 D.四分位数间距 答案:D[评析]标准差和变异系数均用于描述正态分布资料的变异度,全距和四分位数间距可用于任何资料,而四分位数间距更为稳定,故选D 。
3.用均数和标准差可以全面描述( )资料的特征。
A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 答案:C[评析]本题考察均数和标准差的应用条件。
4.同一资料的标准差是否一定小于均数?答案:均数和标准差是两类不同性质的统计指标。
标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小。
标准差可大于均数,也可小于均数。
5.试述极差、四分位数间距、标准差及变异系数的适用围。
答案:这三个指标均反映计量资料的离散程度。
极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。
四、习题(一)名词解释1.频数表2.算术均数3.几何均数4.中位数5.极差6.百分位数7.四分位数间距8.方差9.标准差10.变异系数(二)单项选择题1.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变2.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.差C.极差D.标准差3.以下指标中()可用来描述计量资料的离散程度。
A.算术均数B.几何均数C.中位数D.标准差4.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距5.各观察值同乘以一个不等于0的常数后,()不变。
A.算术均数 B.标准差C.几何均数D.中位数6.()分布的资料,均数等于中位数。
A.对称B.左偏态C.右偏态D.偏态7.对数正态分布是一种()分布。
A.正态B.近似正态C.左偏态D.右偏态8.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。
A.均数B.标准差C.中位数D.四分位数间距9.()小,表示用该样本均数估计总体均数的可靠性大。
A. 变异系数B.标准差C. 标准误D.极差10.血清学滴度资料最常用来表示其平均水平的指标是()。
A. 算术平均数B.中位数C.几何均数D. 平均数11.变异系数CV的数值()。
A. 一定大于1B.一定小于1C. 可大于1,也可小于1D.一定比标准差小12.数列8、-3、5、0、1、4、-1的中位数是()。
A. 2B. 0C. 2.5D. 0.513.关于标准差,那项是错误的()。
A.反映全部观察值的离散程度B.度量了一组数据偏离平均数的大小C.反映了均数代表性的好坏D.不会小于算术均数14.中位数描述集中位置时,下面那项是错误的()。
A. 适合于偏态分布资料B.适合于分布不明的资料C.不适合等比资料D.分布末端无确定值时,只能用中位数15. 5人的血清滴度为<1:20、1:40、1:80、1:160、1:320描述平均滴度,用那种指标较好()。
A.平均数 B.几何均数C.算术均数D. 中位数16.数列0、48、49、50、52、100的标准差为()。
A.50 B. 26.75C. 28.90D. 70.7817.一组变量的标准差将()。
A.随变量值的个数n的增大而增大B.随变量值的个数n的增加而减小C.随变量值之间的变异增大而增大D.随系统误差的减小而减小18.频数表计算中位数要求()。
A.组距相等B.原始数据分布对称C.原始数据为正态分布或近似正态分布D.没有条件限制19.一组数据中20%为3,60%为2,10%为1,10%为0,则平均数为()。
A.1.5 B. 1.9C. 2.1D. 不知道数据的总个数,不能计算平均数20.某病患者8人的潜伏期如下:2、3、3、3、4、5、6、30则平均潜伏期为()。
A.均数为7天,很好的代表了大多数的潜伏期B.中位数为3天C.中位数为4天D.中位数为3.5天,不受个别人潜伏期长的影响21.某地调查20岁男大学生100名,身高标准差为4.09cm,体重标准差为4.10kg,比较两者的变异程度,结果( )。
A. 体重变异度大B.身高变异度较大C.两者变异度相同D.由单位不同,两者标准差不能直接比较 (三)判断正误并简述理由 1.均数总是大于中位数。
( ) 2.均数总是比标准差大。
( ) 3.变异系数的量纲和原量纲相同。
( ) 4.样本均数大时,标准差也一定会大。
( ) 5.样本量增大时,极差会增大。
( ) (四)计算题1.某卫生防疫站测得大气中的二氧化硫的浓度,用两种计量单位表示: mg/m 3 : 1 2 3 4 5 ug/m 3 : 1000 2000 3000 4000 5000分别计算几何均数及标准差,会发现两种不同单位得标准差相等,试解释其原因。
2.尸检中测得北方成年女子80人的肾上腺重量(g )如下,试(1)编制频数表,(2)求中位数、均数和标准差。
19.0 12.0 14.0 14.0 8.2 13.0 6.5 12.0 15.0 17.2 12.0 12.7 25.0 8.5 20.0 17.0 8.4 8.0 13.0 15.0 20.0 13.0 13.0 14.0 15.0 7.9 10.5 9.5 10.0 12.0 6.5 11.0 12.5 7.5 14.5 17.5 12.0 10.0 11.0 11.5 16.0 13.0 10.5 11.0 14.0 7.5 14.0 11.4 9.0 11.1 10.0 10.5 8.0 12.0 11.5 19.0 10.0 9.0 19.0 10.0 22.0 9.0 12.0 8.0 14.0 10.0 11.5 11.0 15.0 16.0 8.0 15.09.98.512.59.6 18.511.012.012.03.测得某地300名正常人尿汞值,其频数表如下。