集中趋势的描述
数据分布特征的三个统计描述维度

数据分布特征的三个统计描述维度现如今生活处处有数据,而我们接触到的数据可以分为连续型数据或者离散型数据。
连续数据的取值范围是可以取连续值的区间,即连续值可以是区间内的任意值,一般都有度量单位。
离散数据的范围由有限数量的值或序列组成。
对数据集使用合适的描述性指标,可以帮助我们探索庞大无序的数据背后隐藏的事实。
描述数据集的三个维度是指对数据集中趋势的描述、对数据分散程度的描述和对数据分布形式的描述。
一、集中趋势描述1.算术平均数 Arithmetic Mean:所有数值的和除以数值的个数。
用于描述一组数据在数量上的平均水平。
计算公式:优缺点:算术平均数是能够充分运用已有信息的代表性数值,每个数值大小的改变都会引起其变化。
也因此容易受极值的影响,并且会掩盖数据的差异性。
示例:最近更新了2018年度深圳在岗职工的月平均工资,达到了9309元。
这就是一个算术平均值的实际应用。
还是要保持进步,争当排头兵而非吊车尾呀。
2.几何平均数 Geometric Mean:对各数值的连乘积开项数次方根。
一般用于当总成果为各个阶段(环节)的连乘积时,求各个阶段(环节)的一般成果。
计算公式:优缺点:几何平均数受极端值的影响比均值小。
但仅适用于具有等比或近似等比关系的数据。
示例:连续作业的车间求产品的平均次品率。
一个产品的生产由三个环节组成。
每个环节都会产生一定的次品。
次品率依次为5%、2%、6%,求这个产品的平均次品率。
因为每个环节都是依次发生的,需要完成上一个环节的合格产品才能进入下一个环节,所以每个环节的不良率是一个产品关系。
依照上式结果可知,该产品整个生产环节的平均次品率为3.91%。
3.中位数 Median:将数值从小到大依次排列,最中间的数值为中位数。
若数值个数为奇数个时,为中间位置的数值;若数值个数为偶数个时,为中间两个数的算术平均数。
优缺点:不受极值影响,通过丢失一些信息来换取指数的稳定性。
但对极值缺乏敏感性,样本量较小时中位数不稳定。
描述一组观察值的平均水平或集中趋势的指标

描述一组观察值的平均水平或集中趋势的指标
一组观察值的平均水平或集中趋势的指标可以使用以下几种常见的描述性统计量来衡量:
1. 平均值(Mean):观察值的总和除以观察值的数量。
它反映了观测值的中心位置。
2. 中位数(Median):将观察值按照大小排列,位于中间位置的值。
它对异常值不敏感,能更好地描述数据的中心位置。
3. 众数(Mode):出现次数最多的观察值。
它在描述离散型数据的集中趋势时比较常用。
4. 四分位数(Quartiles):将一组观察值按大小排序后,将其分成四个等份,分别是最小值、第一四分位数、中位数和第三四分位数。
它们可以用于描述数据的分布情况。
5. 范围(Range):最大值与最小值之间的差距。
它提供了描述数据变异性的指标。
6. 标准差(Standard Deviation):观察值与平均值之间的差异的平方的平均值的平方根。
标准差衡量了数据的离散程度。
7. 方差(Variance):观察值与平均值之间差异的平方的平均值。
方差也用于衡量数据的离散程度。
8. 平均绝对偏差(Mean Absolute Deviation,MAD):观察值与平均值之差的绝对值的平均值。
MAD可以衡量数据的离散程度。
根据数据的特点和目标,选择合适的描述性统计量来度量一组观察值的平均水平或集中趋势。
集中趋势的描述

X1X
2
X
n
简单几何平均数
例2.2 测得10人的血清滴度的倒数分别为2,2,4,4, 8,8,32,32,求平均滴度。
lg 2 lg 2 lg 4 lg 4 lg 8 lg 8 lg 32 lg 32 G lg 10 lg 1 0.6622 7
例:某地140名正常男子红细胞数( 1012/ L ) 平均数计算表
组段 (1) 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 频数,f ( 2) 2 6 11 25 32 27 17 13 4 组中值,X (3) 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 fX (4)= (2)×(3) 7.80 24.6 47.3 112.5 150.4 132.3 86.7 68.9 22.0
集中趋势的描述
小组成员:张子琦 王慧敏 陈艳霞 向 怡 管逸飏
1
2 位置平均数
数值平均数
目录
总结
3
集中趋势
集中趋势反映一组数据向某一中心值靠拢的倾向,
根据取得中心值的方法将描述集中趋势的指标分为
两类 1.数值平均数 2.位置平均数
1
数值平均数
x
算术平均数
xH
调和平均数
xG
几何平均数
2
位置平均数
f
326
f lg X
698.976
表2-3 胎盘浸液钩端螺旋体菌苗接种两 个月后血清IgG抗体滴度的计算用表
抗体滴度 1: 20 1: 40 1: 80 1: 160 1: 320 1: 640 1:1280 合计 频数(f) 16 57 76 75 54 25 23 326 滴度倒数 20 40 80 160 320 640 1280 — lgX 1.3010 1.6021 1.9031 2.2041 2.5051 2.8062 3.1072 — flgX 20.8165 91.3174 144.6348 165.3090 135.2781 70.1545 71.4658 698.9762
卫生统计学--集中趋势的统计描述(第一节 频数分布)

脉搏组段
(1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85
合计
组中值(Xi)
(2)
57.5 60.5 63.5 66.5 69.5 72.5 75.5 78.5 81.5 84.5
频数, fi (3)
2 5 12 15 25 26 19 15 10 1
N=∑f 130
料,特别是服从对数正态分布资料
第二节 集中趋势的描述
(三) 中位数 11个大鼠存活天数:
4,10,7,50,3,15,2,9,13,60, 70 平均存活天数? 1、中位数(median)
第二章 集中趋势的 统计描述
第一节 频数分布
第一节 频数分布
一、数值变量的频数分布 1、频数:即变量值的个数 2、频数表:同时列出观察指标的可能取值区间
及其在各区间出现的频数。 3、频数分布通常用频数分布表和频数分布图来
表示。 注意:了解频数分布是分析资料的第一步。 (一)频数分布表(frequency table)
之间,尤以组段的人数71~(次/分)最多。 且上下组段的频数分布基本对称。
3.便于发现一些特大或特小的可疑值
组段
频数 f
(1)
(2)
2.30~
12.60~02.90~03.20~
0
3.50~
17
3.80~
20
4.10~
17
4.40~
12
4.70~
9
5.00~
0
5.30~
0
5.60~5.90
8
合计
图 2-1 130 名 正 常 成 年 男 子脉搏的 频 数 分 布
第一节 频数分布
集中趋势和离中趋势的例子

集中趋势和离中趋势的例子
集中趋势和离中趋势是统计学中描述数据分布的常用概念。
下面给出一些例子来说明集中趋势和离中趋势的概念:
1. 集中趋势的例子:
- 考试成绩:假设一个班级的学生在一次数学考试中获得以下分数:60、70、75、80、85、90。
这些分数的平均值是77.5,表示这些学生的分数集中在中等水平上。
- 工资水平:一家公司的员工薪资为10,000、15,000、12,000、20,000、25,000。
这些工资数值的中位数是15,000,表示这些员工的工资水平集中在中位数值附近。
2. 离中趋势的例子:
- 股票价格:一支股票在一周内的收盘价分别为50元、52元、45元、48元、55元。
这些价格的标准差是3.36,表示这支股票的价格波动较大,离中趋势较高。
- 人口年龄:某个城市的居民年龄分布为20、23、45、50、70。
这些年龄数据的离差平均数是18.4,表示这个城市的人口年龄分布较为分散。
总的来说,集中趋势描述了数据分布的中心位置,比如平均值、中位数等;而离中趋势描述了数据分布的离散程度,比如标准差、离差平均数等。
描述对数正态分布的集中趋势

描述对数正态分布的集中趋势
对数正态分布是一种常见的概率分布,它的特点是其对数服从正态分布。
因此,对数正态分布的集中趋势可以通过正态分布的均值来描述。
正态分布是一种连续概率分布,其概率密度函数呈钟形曲线,具有对称性。
正态分布的均值是其分布的中心位置,也是其集中趋势的度量。
对于对数正态分布,其均值可以通过对数转换后的正态分布的均值来计算。
对于一组对数正态分布的数据,我们可以先将其进行对数转换,然后计算其均值。
对数转换可以将数据的范围缩小,使得数据更加稳定,更容易进行统计分析。
计算均值可以得到数据的中心位置,反映数据的集中趋势。
对数正态分布的均值可以用以下公式计算:
μ = exp(μ' + σ'^2/2)
其中,μ'是对数转换后的正态分布的均值,σ'是对数转换后的正态分布的标准差。
exp表示自然指数函数,即e的x次方。
通过计算对数正态分布的均值,我们可以了解数据的集中趋势。
如果均值较小,说明数据集中在较小的数值范围内;如果均值较大,说明数据集中在较大的数值范围内。
此外,均值还可以用来比较不
同数据集的集中趋势,均值较大的数据集更加分散,均值较小的数据集更加集中。
对数正态分布的集中趋势可以通过正态分布的均值来描述。
计算均值可以了解数据的中心位置,反映数据的集中趋势。
通过比较不同数据集的均值,可以了解它们的集中趋势差异。
第三章 变量分布特征的描述 《统计学》PPT课件

2.四分位差:四分位差作为变异程度的一种度量,能够克服 异常值的影响。它是第三个四分位数与第一个四分位数的差 值。也就是说,四分位差是中间50%的数据的全距。
Qd QU QL
四分位差弥补了全距容易受极端值影响的缺陷。剔除数据中最小25%和最 大25%的数据,反映了中间50%数据的离散趋势。数值越小,说明中间的 数据越集中;数值越大,说明中间的数据越分散。
x me mo
3.根据经验,在轻微偏态时,不论是左偏还是右偏,众数与算术平均
数的距离约等于中位数与算术平均数距离的3倍,即 mo x 3me -x
右偏分布
M0 Me x
对称分布
左偏分布
x
x Me M0
Me
M0
第二节 离中趋势的描述
所谓离中趋势,就是变量分布中各变量值背离中心值的倾向。 如果说集中趋势体现变量分布的同质性,那么离中趋势就是变 量分布变异性的体现。对离中趋势的描述就是要反映变量分布 中各变量值远离中心值的程度,以反映变量分布的特征。
H 20 3
3
15.83
20 20 20 1 1 1
18 16 14 18 16 14
2.加权调和平均数:当各组的标志总量不相等时,所计算的 调和平均数要以各组的标志总量为权数,其结果即为加权调 和平均数。
H m1 m2 m1 m2 x1 x2
k
mk
mk
mi
i 1
k mi
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
n
5
G n x1 x2 x3 xn 5 95%92%90%85%80% 88.24%
2.加权几何平均数:当计算几何平均数的各变量值出现的次 数不等,即数据经过了统计分组时,则应采用加权几何平均 数。
2.2 描述集中趋势的统计指标

表25 50例链球菌咽颊炎患者潜伏期(h)频率分布表
组中值(X0 ) (2)
频数(f) (3)
频率(%) (4)
累计频数(F) (5)
18
1
2
1
30
7
14
8
42
11
22
19
54
11
22
30
66
7
14
37
78
5
10
42
90
4
8
46
102
2
4
48
114
2
4
50
—
50
—
—
P50
=
48 +
12 (50´ 50%
1
120
fX 0
(4)=(2)(3) 7
27 66 104 180 340 513 378 276 200 108 29 2228
X
=
1´ 7 + 3´ 9 +L +1´ 29 1+ 3 +L+1
= 2228 = 18.57 120
6
2、几何均数(geometric mean,G)
适用于原始观察值分布不对称或观察值变化范围跨越多个数量级的 资料,但经对数转换后呈对称分布的变量,如服从对数正态分布的变量。
第二章 定量资料的统计描述
二、描述集中趋势的统计指标
描述集中趋势统计指标
1、算数均数(arithmetic mean) 2、几何均数(geometric mean,G) 3、中位数(median,M) 4、众数(mode)
2
1、 算术均数
简称均数(mean),适合描述对称分布资料的集中位置(也称为平 均水平)。直接法,计算公式为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
滴度倒数 20 40 80
160 320 640 1280
—
lgX 1.3010 1.6021 1.9031 2.2041 2.5051 2.8062 3.1072
—
flgX 20.8165 91.3174 144.6348 165.3090 135.2781 70.1545 71.4658 698.9762
n
n
? 几何均数主要应用在免疫学(抗体滴度、血清凝聚效价)、微生物学 (细菌计数)等领域。观察值一般呈等比或对数正态分布。
BG
8
简单几何平均数
例2.2 测得10人的血清滴度的倒数分别为2,2,4,4, 8,8,32,32,求平均滴度。
G
?
lg ?1
? lg ??
2l?
g 2l?
g 4l?
g 4l? g 8l? 10
5
例:某地140名正常男子红细胞数( 1012/ L ) 平均数计算表
X
?
? ?
fx ? 6 6 9 .8 ? 4 .7 8 4 2
f
140
BG
6
简单算数平均数与加权算数 平均数的关系
?从以上计算过程可以看出,次数 f的作用:当变量值即 红细胞数比较大的次数(权数)多时,平均数就接近变 量值大的一方。 ?当各组的权数均相同时,即 f1=f2=f3=...=fn 时,加权平均 数就会变成简单平均数。 ?可见,简单算数平均数实际上是加权算数平均数在权数 相等条件下的一个特例
BG
14
算术均数与中位数的比较
? 如:(1,2,3,4,20),则均数为6,中位数为3。
1
2
3
4
5
6
7
8
9
10
20
中位数:3
算术均数:6
BG
15
1
2
3
4
5
6
7
8
9
10
20
中位数:3
算术均数:6
1
2
3
4
5
6
7
8
9
ห้องสมุดไป่ตู้
10
中位数:3
算术均数:4
1
2
3
4
5
6
7
8
9
10
中位数:3
算术均数:3
1
2
3
4
5
6
7
8
BG
7
1.2 几何平均数
? 几何均数:对数尺度上的平均水平; ? 意义:N个数值的乘积开N次方即为这N 个数的几何均数
简单几何平均数 加权几何平均数
G ? n X1X 2 ? X n
适用于观察例数不多时
G
?
lg
?1
lg (
X1
?
lg
X2
?
?
? lg X n ) ? lg ? 1 ( ? lg X )
9
10
算术均数:2.8 中位数:3
BG
中位数第一个特性: 只有顺序(秩次) 影响中位数的大小!
16
2.3 中位数应用及偏态分布
中位数第二个特性: 对称分布时,均数等于 中位数。
左偏分布
均数-中位数<0 均数在中位数左边
对称分布
均数-中位数=0 均数和中位数重合
BG
右偏分布
均数-中位数>0 均数在中位数右边
g 8l?
g 32l?
g 32 ? ??
? lg0?1 .6622 ? 7
BG
9
加权几何平均数
例2.3 某医师使用胎盘浸液钩端螺旋体菌对326名农民接种两月后测得 血清IgG抗体滴度如下,计算平均抗体滴度。
f
f
? f ? 326
? f lg X ? 6 98 .97 6
BG
10
加权几何平均数
例2.3 某医师使用胎盘浸液钩端螺旋体菌对326名农民接种两月后测得 血清IgG抗体滴度如下,计算平均抗体滴度。
f
f
? f ? 326
? f lg X ? 6 98 .97 6
BG
11
表2-3 胎盘浸液钩端螺旋体菌苗接种两
个月后血清IgG抗体滴度的计算用表
抗体滴度 1: 20 1: 40 1: 80 1: 160 1: 320 1: 640 1: 1280 合计
频数 (f) 16 57 76 75 54 25 23
集中趋势的描述
小组成员:张子琦 王慧敏 陈艳霞
向怡 管逸飏
BG
1
1 数值平均数
BG
目录
2 位置平均数
总结 3
2
集中趋势
集中趋势反映一组数据向某一中心值靠拢的倾向,根 据取得中心值的方法将描述集中趋势的指标分为两类 1.数值平均数 2.位置平均数
BG
3
1 数值平均数
x
算术平均数
2 位置平均数
xH
调和平均数
Me
Mo
中位数
众数
BG
xG
几何平均数
平均数(average) 是一类 用描述数值变量资料集中 趋势(即平均水平 )的指标.
4
1.1 算术平均数(均数)
某数量标志的总和与个体总数的比例, 一组性质相同的观察值在数量上的平均 水平。
简 单 平均数
加权 平均数
BG
适用条件:当无原始数据或观察例数很 多又缺乏计算机及统计软件时,若用直 接法很容易出错,可以用加权法处理。
17
不同类型平均数的比较
算术均数
几何均数
中位数
均数尺度 适用
线性 对称分布
对数
对数正态分布 (指数、等比分布)
顺序 偏态分布
BG
18
常用集中趋势指标及应用场合
BG
19
谢谢观看
BG
20
G=lg-1(698.9792/326)=139
该地326名农民胎盘浸液钩端螺旋体菌苗接种两个月后 血清IgG抗体的平均滴度为: 1:139
计算几何均数注意事项:
① 变量值中不能有 0; ② 不能同时有正值和负值; ③ 若全是负值,计算时可先把负号去掉,得
出结果后再加上负号。
BG
13
2.1 中位数与分位数
意义:将一组观察值从小到大排序后,居于中间位置的那个值
或两个中间值的平均值。
中位数的精确计算
当观察例数 n为奇数时,中位数是按顺序排列在第 (n+1)/2 项的观察值; 当观察例数 n为偶数时,中位数是按顺序排列在第 n/2和(n/2)+1 项观察值的平均值;
十分位数和百分位数 是把一组数据从小到大排列 , 分成10,100等份。