第二章常用统计指标(计量资料的统计描述)

合集下载

2 计量资料的统计描述指标

2 计量资料的统计描述指标
M = X ⎛ n +1 ⎞ = X ⎛ 7 +1 ⎞ = X 4 = 92分
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠

某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -

计量资料统计描述

计量资料统计描述
• 几何均数(geometric mean)
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料

计量资料的统计描述

计量资料的统计描述

分 层 抽 样
整 群 抽 样

7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,

统计背诵版(三份整合)

统计背诵版(三份整合)

统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。

2、用均数和标准差可以全面描述正态分布资料的特征。

3、各观察值均加(或减)同一数后标准差不变。

4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。

5、偏态分布宜用中位数描述其分布的集中趋势。

6、各观察值同乘以一个不等于0的常数后,变异系数不变。

7、正态分布的资料,均数等于中位数。

8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。

第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。

2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。

3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。

7、在两样本均数比较的t检验中,无效假设为两总体均数相等。

8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。

10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

1计量资料统计描述(08硕)

1计量资料统计描述(08硕)
(1)意义:一组性质相同的观察值在数量上的平均水平。 意义:一组性质相同的观察值在数量上的平均水平。 意义 (2)表示:µ(总体) 表示: 总体) 表示 样本) x(样本)
(3)计算:直接法、间接法。 计算:直接法、间接法。 计算 计算机计算 (4)特征:∑(X- x 特征: )=0 估计误差之和为 。 估计误差之和为0。 特征 (5)应用:正态分布或近似正态分布 应用: 应用 (6)注意:合理分组,才能求均数,否则没有意义。 注意:合理分组,才能求均数,否则没有意义。 注意
M=51天 (QR=28.5天) 天 天
3.标准差和方差(Standard deviation and variance) 标准差和方差( 标准差和方差 ) 总体方差 总体标准差 样本标准差
σ2 = ∑
( X − µ)2 N
σ=
∑ (X − µ)
N
2
S=
∑(X − X)
n −1
2
样本标准差的简化计算公式: 样本标准差的简化计算公式: 例数较少 频数表资料
∑ X 2 − (∑ X )2 / n n −1
S=
S=
∑ fX 2 − (∑ fX)2 / ∑ f ∑ f −1
甲组5名同龄男孩的身高值 名同龄男孩的身高值( ) 例2-5 甲组 名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 ΣX = 500 ΣX 2 = 50250
(1)单位不同时组间变异程度的比较 )
表 体脂与胆固醇的变异系数 指标 体脂( ) 体脂(%) 胆固醇( 胆固醇(mmol)
x
18.90 4.84
S 5.80 1.04
CV 30.69 21.40

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

统计学2 计量资料的统计描述指标课件

统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 不同计量数据组间比较,此差距越大, 表示变异越大。
百分位数(PX%)
• 是描述一组计量数据分布特征的位置指 标 。将n个数据由小到大排列,将位次 转为百分位(%),常计算P25%、P50%、 P75%、 P95%百分位数作为分割点。
• X: 5 7 9… 20... 45 50, n=100
• 位次 1 2 3… 50… 99 100
变异指标的几点说明
• 全距(R):可表达任意分布的变异 大小。
• 四分位间距:用于表达偏态分布的 变异
• 标准差(SD):用于正态或近似正 态分布的变异(较常用的指标)。
• CV :主要用于单位不同时组间变异 的比较。
三、均数和变异指标的应用
• 在医学杂志中,常以 X S 的形式列出, 描述数据的平均水平和离散程度。

两组患者Pco2值的比较
• 组别
n X S
R CV(%)
• 肺心病组 12 65.97 ± 20.28 66 30.74
• 慢支肺气肿 10 43.90 ± 8.24 29 18.79
中位数和百分位数的应用
• 生存分析中,常用X25%、X50%、X75%做 描述和比较。同一分位数越大,说明生存 时间越长。
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1-29 30-61 62-79 80-93 94-97 97 97 98-99 100 101-102
试验的5次重复结果如下:
X

RS
• 甲 20 21 22 23 24 22 4 1.58
• 乙 18 20 22 24 26 22 8 3.16
• 丙 16 19 22 25 28 22 12 4.74
• 结论:三位检验员对该结果测定的平均水 平为22,但测定值的稳定性(变异程度)
不同,以丙测定的稳定性最差。
S (X X )2 n 1
S2 为方差
标准差的意义:表示一组数据的变异程 度大小。当比较组单位相同时, S越大, 表示一组数据间离散程度越大。反之越 小。
标准差的计算公式:
S X 2 ( X )2 / n n 1
(2-13) 例数较少
S fX 2 ( fX)2 / f f 1
的组 间变异程度。
意义:CV越大,表示数据变异越大。 常用于衡量方法、仪器的精密度。
某地7岁年龄组男童身高与体重

X

x
S CV(%)
• 身高(cm)。 123.10 4.71 3.83
• 体重(kg) 22.29 2.26 10.14
• 结论: 7岁年龄组男童身高与体重 值指标比较,体重指标的变异大于 身高指标。
FX100计算器统计功能计算
• 步骤
说明
• 1. MODE MODE 1 进入统计功能模式
• 2.SHIFT AC =
清除数据
• 3. 55 M+
数据输入

54 M+

58 M+
• 4 SHIFT 1 =
显示均数
• 5. SHIFT 3 = • 6. RCL C • 7. RCL B
显示标准差(S)
• 缺点:数据利用不全,部分信息损失, 在例数少时结果不稳定。
(二)、百分位数与四分位数间距 (percentile and quartile range)
• 四分位间距:用Q表示,即一组数据用 百分位数法计算的第75%位数与第 25%位数之差。

Q=P75%-P25%
• 常用于表示偏态分布的变异的指标。
显示例数x
显示
二、频数表统计功能计算
• 例数较多时计算均数
• 方法1:
• 例:X(年龄) 20
23 25

f: 10
5
3
• 步骤同前:
• 数据输入:20 SHIFT , 10 M+

23 SHIFT , 5 M+

25 SHIFT , 3 M+
• 步骤同前:
CASIO FX-100W计算器
• MODE 运算状态选择键
• 乙 18 20 22 24 26 22 8
• 丙 16 19 22 25 28 22 12
• 变异指标作用:用变异指标来反映计 量数据间相互离散的程度。
几个常用的变异指标
• (一)、极差(Range)或全距:用 (R)表示,即一组数据的R=最大值– 最小值
• 意义:R值越大,表示该组数据的变异 越大。
(n 50% fL )
表2-6 102名3岁以下儿童LgA含量的 中位数计算
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1(
f lg f
Xi
)

lg 1(102.1032) 72

26.19
结论:72名鼻咽癌病人唾液中EB病毒某
种抗体平均滴度为1:26
(三)、中位数(Median)
• 中位数(Md):适用于描述偏态分布 资料的平均水平。(例)
• 计算定义:将一组变量值由小到大依 次排列,居以中间位置的观察值即为 中位数,为这组数据的平均数。
• 1:2.5
14
2.5 03979 5.5706
• 1:10
18 10
1.0000 18.0000
• 1:40
22 40
1.6021 35.2462
• 1:160
12 160
2.2041 26.4492
• 1:640 • 合计
6 640 72
2.8062 16.8372 102.1032

XG

lg
感染出现症状的平均时间如下:
• 30,47,54,69,78,109,194天
XG

lg
1( lg n
Xi
)

lg 1(lg 30 lg 47 ...lg 194) / 7 70.5 (天)
X 83(d)
表2-5 72名鼻咽癌病人唾液中EB病毒 某种抗体滴度
• 抗体滴度 频数f 滴度倒数 lg(x) f•lg x
•例

• 类型 • ALL
儿科白血病患者生存时间(周)
生存分位数
例数 X25% 542 32
X50% 73
X75% 146
• AUL 369 30
70
134
• AML 107 9
25
60
作业
• 练习题(31页) • 习题1中的②题 • 习题4 • 要求: • 计算题要求写出公式、步骤、结论。
CASIO FX-100W述)
第二节 平均数指标 第三节 变异指标
平均数(average )指标
• 平均数指标的概念和作用 • 概念:平均数表示一组同质计量数据
集中趋势的位置和平均水平。
• 作用:是一组计量数据平均水平的代 表值(概括统计量);可作为不同组 间的比较值
• 医学中常用的平均数指标有: • 算数均数、几何均数、中位数
• 本例:
• 四分位数间距(Q)=P75-P25

=42.9-13.2=29.7
• 结论:某地102名3岁以下儿童lgA含 量的中位数为25.3(ug/ml),四分位 间距为29.7 (ug/ml)。
.(三)标准差(Standard deviation)
和方差(variance)
用S或SD表示样本标准差,计算公式
• P% 1% 2%
50%
100%
百分位数(PX%)法频数表计算
• 频数表计算公式(2-8)
PX
Lx
ix fx
(n
x% fL )
• 例:P25:即第25%位数值,有25%的 变量值小于P25 值,有75%的变量值 高于P25值。
表2-6 102名3岁以下儿童LgA含量的 中位数计算
(二)、几何均数 (Geometric
• 适用条件:X值m呈ea倍n)数增长或部分 数据偏离过大的正偏态分布资料。
• 计算公式:
XG

lg 1( lg n
Xi
)
例数较少用 (2-3)
XG

lg 1(
f lg f
Xi
)
频数表资料用 (2-4)
例2-5, 7名输血后感染乙肝患者从输 血至出现症状的时间如下:估计输血
(一)算术均数( mean)
简称均数,用 X 表示.
基本公式(2-1,2-2) 1.直接法
适用条件
X X
n
公式适用频数为 正态或近似正态
2.加权法公式
分布的计量资料.
X fX
f
• 表2、160名正常成年女性血清甘油三酯分布
• 组段 频数(f) 组中值(X) fx
相关文档
最新文档