第2讲计量资料统计描述

合集下载

2 计量资料的统计描述指标

M = X ⎛ n +1 ⎞ = X ⎛ 7 +1 ⎞ = X 4 = 92分
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例在上述 7名中年知识分子 SCL － 90 总分的基础上，又测得一名中年知识分子该总分为171，试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料，特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响，故不适用
于偏态分布资料的描述。
2. 中位数
中位数（median，M）：是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法：
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名，其红细胞计数值（×1012/L）的频数表资料如下，求均数。
表 1 某地 120 名正常成年男子红细胞频数表组段频数频率（％）累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合计 120 100.0 －累积频率（％） 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 －

计量资料统计描述

• 几何均数(geometric mean)
• 中位数和百分位数(median percentile) 以上统称为平均数（average）常用于描述一组变量值的集中位置，代表其平均水平或是集中位置的特征值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
（2）确定组段数和组距 • 确定组段数:
n>100，10～15组；n<100，8～10组 • 确定组距：
• 组距可以相等也可以不相等，一般采用等距分组，
• 组距=极差/组数例1 1.99/10≈2，故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
（geometric mean）
• 定义：有些医学资料，如抗体滴度、细菌计数等，其频数分布明显偏态，各观察值之间呈倍数变化（等比关系），此时宜用几何均数反映其平均增减倍数。
• 计算方法：
• 直接法
• 加权法
• 应用：等比资料或对数正态分布资料

统计学第二章计量资料的统计描述

数据。同时，还需要对数据进行质量控制和预处理，以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景，选择合适的缺失值填充方法，如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别异常值，并根据实际情况选择删除、替换或保留。
分类
根据测量水平的不同，计量资料可分为离散型和连续型两类。离散型数据只能取整数值，如人口数、医院床位数等；连续型数据则可以取实数范围内的任何值，如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示，具有数量化的特点，便于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值，数据分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图（Bar Chart）
用于展示分类数据之间的比较，横轴表示分类，纵轴表示数量或比例。
折线图（Line Chart）
用于展示时间序列数据或连续性数据的趋势变化，横轴表示时间或类别，纵轴表示数量或比例。
散点图（Scatter Plot）
用于展示两个变量之间的关系，横轴和纵轴分别表示两个变量，点的位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序，然后取中间位置的数；众数计算则是统计各数值出现的次数，取出现次数最多的数。
适用于各种类型的数据，尤其适用于偏态分布数据。中位数和众数对极端值不敏感，因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和众数都是描述数据集中趋势的指标，但各有特点。

统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例某地不同年龄女童的身高资料如下，比较不同年龄女童身高的变异程度。
表某地不同年龄女童身高（cm）的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数（％）
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差，S 4. 变异系数，CV
变异程度指标越大，表示数据离散程度越大。
1. 极差
Range，亦称全距，即全部观察值中最大值与最小值之差。
R = X max − X min
极差没有利用全部观察值，是简单但又粗略的变异指标。
效价 1：4 1：8 1：16 1：32 1：64 1：128 1：256 1：512 合计
例数 f 2 3 6 9 8 14 12 6 60
G＝78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。

第2章计量资料的统计描述

即有序数列中，第6位上的变量值为5，故其
平均潜伏期为5天。
三、中位数和百分位数例2-6
如上例资料在第21天又发生1例该传染病患者，其平均潜伏期又为多少？先将变量值按从小到大的顺序排列：2，2， 3，3，4，5，6，8，9，11，15，21。
三、中位数和百分位数
n=12，为偶数
X n X n
132.1
143.6 142.4 145.9
135.5
149.0 139.6 144.4
141.2
143.5 134.7 150.8
141.5
139.2 147.3 144.5
148.8
144.7 138.1 137.1
140.1
139.3 140.2 147.1
150.6
141.9 137.4 142.9
科学出版社卫生职业教育出版分社
X n 1
2
三、中位数和百分位数
3.计算方法
⑴直接法
当变量值个数为奇数时计算公式为
M= X n 1
2
三、中位数和百分位数
当变量值个数为偶数时计算公式为
X n X n
M=
2
1 2
符号用M表示
三、中位数和百分位数
2．应用条件
1
偏态分布资料，包括正偏态和负偏态分布的资料，如正常人必需微量元素含量分布、儿童少年视力分布等。
2
一端或两端无界（无确定数值）的资料，即所谓开口资料，如传染病平均潜伏期等。
3
频数分布类型不明的资料，如确定不了资料的分布类型，用中位数描述集中趋势比较稳妥。
f
=120

第二讲计量资料的统计描述

几何均数（ mean）几何均数（geometric mean）
G = n X1X2 LXn 1 ∑lg X lgG = (lg X1 + lg X2 +L+ lg Xn ) = n n lg X 1 ∑ 几何均数：几何均数：变量 G = lg n 对数值的算术均对数值的算术均 lg 表以为的数数的反对数。示 10 底对；的反对数。
2×57.5 + 5×60.5 +L+1×84.5 9311 X= = = 71.62(次分) 2 + 5 +L+1 130
2、应用
适用于对称分布，均数适用于对称分布，特别是正态分布资料。是正态分布资料。
几何均数（ mean）二、几何均数（geometric mean）可用于反映一组经对数可用于反映一组经对数转换后呈对称分布或正态分转换后呈对称分布或正态分布的变量值在数量上的平均水平。水平。
130名健康成年男子脉搏名健康成年男子脉搏( 表2-1 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段 (1) 56～ 59～ 62～ 65～ 68 68～ 71～ 74～ 77～ 80～ 83～85 合计频数， f (3) 频率（%） (4)= (3)/N 累积频数 (5)=(3)↓ 累积频率 (6)=(5)/N
是否为对称分布？
50 45 40 35 30 25 20 15 10 5 0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
频数
变量

（2）偏态分布：）
1）正偏态分布（右偏态分布）：右侧的组段数多于）正偏态分布（右偏态分布）：右侧的组段数多于）：左侧的组段数，频数向右侧拖尾。左侧的组段数，频数向右侧拖尾。

卫生统计学课件第二章计量资料的统计描述(共33张PPT)

11111，11111，11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式： 13cm之间的占该地7岁男童的百分比。
∑f · X=1638
双侧界值：P 2.5 ~ P 97..5 定义：又称参考值范围，是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征： ∑（X- X）=0 估计误差之和为0。
估计的方法： 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算（双侧） 95% 正常值(医学参考值）范围公式：
（x1.96 · S，x1.96 · S ）
即（x±1.96 · S ）例：
1.96 × 3.79 ）
即（156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段：第一组段包括最小值，如本例为154 89 cm 取整数 2 cm 应用：单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表（频数分布）：表示各组及它们对
注意：合理分组，才能求均数，否则没有意义。
96 ·S，x 1. Q = Qu 一 Ql
单侧上界： P 95
单侧下界： P 5
31
习题：
1.各观察值加同一数后： A.均数不变，标准差改变 B.均数改变，标准差不
变
2.用均数和标准差可全面描述：
3.正态分布曲线下，从均数u 到u 的面积为； A.95% B.45% C. 97.5% D.47.5%
19
相关概念：离均差、离均差平方和、方差（2 S2 ）标准差的符号： S

第二章计量资料的统计描述

全距(R )：即极差，最大值与最小值之差。
意义：越大说明离散程度越大优点：计算简单缺点：不能全面反映资料的离散程度；不稳定，易受极端值影响
（二）四分位数间距（Quartile interval）
四分位数间距( Q )：将一组资料分为四等份，上四分位数QU（P75）与下四分位数QL（P25）之差。
（四）众数（mode）
• 众数是指一组观察值中出现次数最多的那个数值。一组观察值可以有多个众数，也可以没有众数。众数只有在数据量较大时才有意义。众数不受极端值大小的影响，但它掩盖的信息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数，分别为131、133、135、13 8、142、145（g/L）；当列成表2-1的频数分布时，由于“138～” 组的频数为21最大，因此众数为该组的组中值141.5（g/L）。
不但反映研究指标数值的稳定性和均匀性，而且反映集中性指标的代表性。
三组同性别同年龄儿童的体重如下：
x 甲组：26 28 30 32 34 甲 = 30Kg x 乙组：24 27 30 33 36 乙 = 30Kg x 丙组：26 29 30 31 34 丙 = 30Kg
（一）全距（Range）
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
（三）异常值的识别
频数表有助于发现极小或极大的异常值。在频数表的两端连续出现几个组段的频数为0后，又
出现一些极小值或极大值，应怀疑这些资料的准确性，需对这些数据进一步核对和复查，若发现错误，及时改正。
（四）有利于进一步对资料进行统计描述与分析
2 (xi )2
N
s2

xi
x2

2计量资料的统计描述指标介绍

2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法，可帮助我们了解数据的分布、集中趋势和离散程度，以及可能存在的异常值。

常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。

1. 均值（Mean）：均值是一组数据的总和除以数据的个数。

均值可以反映数据的集中程度，但容易受到异常值的影响。

2. 中位数（Median）：中位数是一组数据按大小排序后，位于中间位置的数值。

中位数可以反映数据的中间位置，不受异常值的影响。

3. 众数（Mode）：众数是一组数据中出现次数最多的数值。

众数可以反映数据集中的特点。

4. 极差（Range）：极差是一组数据的最大值与最小值之差。

极差可以反映数据的全面分布。

5. 标准差（Standard Deviation）：标准差测量数据的离散程度。

标准差越大，数据的离散程度越大。

6. 方差（Variance）：方差是标准差的平方。

方差可以反映数据的离散程度，但单位是原数据的平方。

7. 四分位数（Quartiles）：四分位数将一组数据按大小排序后，分为四等分，分位点分别是Q1（25%分位点）、Q2（中位数）和Q3（75%分位点）。

四分位数可以帮助我们了解数据集的分布情况。

8. 百分位数（Percentiles）：百分位数是将一组数据按大小排序后，分为100等分，每个等分对应一个百分位数。

百分位数可以帮助我们了解数据的分布情况，例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。

这些统计描述指标都是通过对数据进行运算得出的，可以帮助我们了解数据的分布情况和特点。

在实际应用中，我们可以根据具体的问题选取适当的统计描述指标进行分析，帮助我们更好地理解数据。

同时，还需要注意统计描述指标的局限性，例如均值容易受到异常值的影响，中位数和众数不能反映数据的离散程度等，因此在使用时需要结合具体情况进行综合分析。

第02章计量资料的统计描述课件

组段数 5；组距 10分
表2.1 某医院产科某月顺产婴儿出生身长（单位：cm） 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
（1）直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6：9只大鼠存活天数如下： 4，10，7，3，15，2，9，13，>60 则这9只大鼠的平均存活天数为多少天?
排序：2，3， 4， 7, 9，10 ，13， 15， >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名正常成年女子血清总胆固醇的频数分布
血清总胆固醇（mmol/L）
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
大

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

*在各层次中进行随机抽样。
*要求层内个体差异越小越好．层间差异越大越好。
*优点是抽样误差小，不同层可采用不同抽样方法，各层可独立进行分析。
第2讲计量资料统计描述
11
D、整群抽样
• 整群抽样不是按个体进行抽样，而是抽取由个体组成的群体的抽样方法。如抽取的是该地区若干个县的全体居民。整群抽样的主要持点是以“群”为基本抽样单位。
• 抛一枚硬币，是否国徽面一定向上？明天的股市升还是降？某患者痊愈的可能性？这些问题的答案都不可能绝对。
• 描述随机事件发生的可能性大小的数值，常用P来表示。
• P的大小在0—1之间，越接近于1，说明发生的可能性越大，越接近于0，说明发生的可能性越小。
通常一个事件的发生小于5%，就叫小概率事件。
第2讲计量资料统计描述
17
前讲回顾
统计资料的类型
• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资料
*按变量值性质——定量资料和定性资料。
第2讲计量资料统计描述
18
计量资料的统计描述
第2讲计量资料统计描述
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
（集中趋势离散趋势）正态分布 • 正常值范围估计
• 频率：在实际工作中，当观察单位的例数足够多时，可以用频率来代替概率。频率是概率的估计值。
第2讲计量资料统计描述
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断：大学教授的年收入，欧洲的国家数，血红蛋白含量，患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否避免?
第2讲计量资料统计描述
9
B 系统抽样
* 按照一定顺序机械地每隔若干个单位抽取一个单位，又称机械抽样、
等距抽样。
*其抽样间隔＝(总体数量／样本含量)，一般是随机找一个单位为起点，以后按抽样间隔进行抽样。
第2讲计量资料统计描述
10
Ｃ分层抽样
*先将总体中所有观察单位按主要特征(如年龄、性别、病情轻重等)分为若干层次．
特点：没有倾向性，多次测量计算平均值可以减小甚至消除随机测量误差。
第2讲计量资料统计描述
14
B、抽样误差
由于抽样原因造成的样本指标与总体指标之间的差别。
特点：有抽样，抽样误差就不可避免。但抽样误差有规律，统计上往往可以计算并在一定范围内控制抽样误差。
第2讲计量资料统计描述
15
4. 频率与概率
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础。
• 从本质上说：统计学就是通过对个体变异
的研究，揭示同质事物的本质特征与规律。
第2讲计量资料统计描述
3
2. 总体与样本
• 总体－－－参数（parameter）
根据研究目的确定的研究对象的全体，即性质相同的所有观察对象的集合；分为有限总体和无限总体。
可能会得到更有效的估计量 • 非概率抽样：抽样概率未知/无法计算，按主
观、有目的、为方便进行抽样；
• 不能计算抽样误差，或一般按简单随机抽样计算误差。配额抽第2讲样计量资、料统滚计描述雪球/识别抽样 8
A 单纯随机抽样
*将调查总体的全部观察单位编号， *用抽签法或随机数字表法进行抽
样。*它是最基本的抽样方法，也是其他抽样方法的基础。
• 大多数得不到总体数据，参数是未知的 • 估计总体结果是统计学的目的之一
第2讲计量资料统计描述
5
3. 普查与抽样
• 普查：全面调查，根据研究目的确定总体，人口普查，肿瘤普查
• 是社会学/卫生防疫的指标确定的依据 • 注意时效性、变化性 • 传染病报告制度，地震伤亡等都属于普查
第2讲计量资料统计描述
• 样本－－－统计量（statistics）总体中的部分；研究对象。
• 总体与样本的关系
统计学解决的问题：正确从样本特征推测总体水平。
• 抽样：从总体中选择样本的过程。 • 样本量（sample size）：样本所包含的个体数目。
第2讲计量资料统计描述
4
2. 总体与样本
• 参数：总体统计学特性的数字，包括总体均数、总体方差、总体标准差；
6
3. 普查与抽样
选择样本的方法:概率抽样和非概率抽样
等概率抽样非等概率抽样
抽单样纯
随机
样系统抽
样分层抽
样整群抽
第2讲计量资料统计描述
7
概率抽样、非概率抽样
• 概率抽样：每个对象被抽中的概率是已知/可计算的，其样本统计量是参数估计和计算误差的基础；
• 等概率抽样：随机抽样 • 不等概率抽样：多单位被抽取的概率不同，
第2讲计量资料统计描述
20
第一节频数表与频数图
原始计量资料
第2讲计量资料统计描述
21
一.几个基本概率
频数：当汇总大量的原始数据时，把数据按类型分组（组段），其中每个组的数据个数，称为该组的频数。
频数表（频数分布）：表示各组段频数的表格称为频数表或频数分布。表4-1计数P44，表4-2等级，表4-3计量 P45，
特点：具有累加性、方向性、可避免性
(2).随机误差：由于一些非人为的偶然因素使得结果或大或小，是不确定、不可预知的。特点：无方向性、不能避。第2讲计量资料统计描述
13
A、随机测量误差
在消除了系统误差的前提下，由于非人为的偶然因素，对于同一样本多次测定结果不完全一样，结果有时偏大有时偏小，没有倾向性，这种误差叫随机测量误差。
的统计描述
第2讲计量资料统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率（小概率事件）
第2讲计量资料统计描述
2
1. 同质与变异
• 同质（homogeneity）
指事物某方面的性质、影响条件或背景相同或相近
• 变异（variation）
• 抽样误差由小到大的依次为：
分层抽样 < 系统抽样 < 单纯随
机抽样 < 整群抽样。
思考题:普查和抽样有什么区别和联系？
第2讲计量资料统计描述
12
4. 误差
误差：统计上泛指测量值与真值之差，样本指标与
总体指标之差。主要有二种：系统误差和随机误差
（随机测量误差,抽样误差）。
(1)系统误差：指数据搜集和测量过程中由于仪器不准确、标准不规范等人为原因，造成观察结果呈倾向性的偏大或偏小。